Buscar
Social
Ofertas laborales ES

Foro sobre Java EE > sistema de busqueda con mineria de datos

hola que tal buenas lo que pasa es que donde trabajo desean realizar búsqueda de documentos los documentos son pdf

la búsqueda de pdf ya lo tengo lo que no se es como meterle un algoritmo de minería de datos para que al momento de realizar la búsqueda lo haga como tipo google predicitiva que vas poniendo una letra y este te dice o te adivina que palabra es la que quieres buscar
y si existe otra forma de hacerlo que no sea utilizando minería de datos todo ayuda
la base de datos es sql server

agosto 8, 2014 | Unregistered Commenterjoker

Supongo que también deseas hacer búsquedas en el contenido del PDF. Creo que te puede servir una herramienta tipo "full-text search". Puedes tomar dos caminos:
a) Utilizar las herramientas para full-text search de SQL Server. De hecho, la mayoría de los manejadores de base de datos cuentan con una extensión para FTS. La desventaja que tendrías en tu caso es que la solución solo funcionará con SQL Server.
b) Utilizar Apache Lucene para indexar tus documentos. Utiliza su propio lenguaje de consulta. Tiene la ventaja no necesita una base de datos externa, guarda sus propios índices en disco y por lo mismo no te amarras con la base de datos.

Para la búsqueda predictiva como mencionas, simplemente implementas un campo de texto tipo "auto-completar" y conforme se escriben los términos de búsqueda, vas mostrando resultados de búsquedas parciales. Las búsquedas FTS son muy eficientes.

Espero te sirva.

agosto 9, 2014 | Registered Commenterantoniovl

Podrias usar Apache Solr el cual esta basado en apache lucene por lo que tiene todas las ventajas que te menciono antoniovl. Tambien brinda la busqueda predictiva o autocompletado.

http://www.dosideas.com/noticias/java/913-apache-solr-una-introduccion.html

http://www.solrtutorial.com/

Es muy completa esta herramienta. Se puede itnegrar con casi cualquier sistema ya que gracias a su consola de administracion puedes configurar las querys, el tipo de rsultado de tu busqueda (xml, json, csv, etc etc ) gracias a que expone un servicio y mucho mas.

Su funcionamiento no es nada complejo.

Saludos.
http://jrichardsz.weebly.com

agosto 11, 2014 | Registered Commenterjrichard

Un ejemplo mas concreto para buscar en pdfs con Lucene:

http://www.programming-free.com/2012/11/simple-word-search-in-pdf-files-using.html

Un saludo,

agosto 12, 2014 | Unregistered CommenterUnoPorAhi