La Red de Conocimientos Pedagógicos - Currículum vitae - Traducción de idiomas extranjeros en Java

Traducción de idiomas extranjeros en Java

Material original en idioma extranjero

Lucene en acción

Otis Gospodenik Eric Hatch

Entendiendo a Lucene

Diferentes personas están resolviendo el mismo problema - información sobrecarga - de diferentes maneras. Algunas personas han estado desarrollando interfaces de usuario novedosas, otras están desarrollando agentes inteligentes y otras están desarrollando herramientas de búsqueda sofisticadas como Lucene. Antes de comenzar con los ejemplos de código más adelante en este capítulo, le brindaremos una descripción de alto nivel de qué es Lucene, qué no es y cómo surgió.

Qué es Lucene

Lucene es una biblioteca de recuperación de información (IR) escalable y de alto rendimiento. Le permite agregar funciones de indexación y búsqueda a su aplicación. Lucene es un proyecto maduro, gratuito y de código abierto implementado en Java. Es miembro de la popular familia de proyectos Apache Jakarta, con licencia de software Apache libre. Como resultado, Lucene es actualmente la biblioteca Java IR gratuita más popular y lo ha sido durante varios años.

Descubrirá rápidamente que Lucene proporciona una API central simple pero poderosa que requiere solo un conocimiento mínimo de indexación y búsqueda de texto completo. Para comenzar a integrar Lucene en tu aplicación, sólo necesitas conocer algunas de sus clases. Como Lucene es una biblioteca de Java, no hace suposiciones sobre lo que se indexa y se busca, lo que le da una ventaja sobre muchas otras aplicaciones de búsqueda.

Las personas que son nuevas en Lucene a menudo piensan erróneamente que se trata de una aplicación ya preparada, como un programa de búsqueda de archivos, un rastreador web o un motor de búsqueda de sitios web. Este no es el caso de Lucene: Lucene es una biblioteca de software, un conjunto de herramientas por así decirlo, en lugar de una aplicación de búsqueda con todas las funciones. Se centra en la indexación y búsqueda de texto y lo hace bien. Lucene permite que su aplicación maneje reglas comerciales específicas para su dominio problemático, mientras oculta la complejidad de la implementación de indexación y búsqueda detrás de una API simple y fácil de usar. Puede pensar en Lucene como una capa sobre la cual se encuentra una aplicación, como se muestra en la Figura 1.5.

Muchas aplicaciones de búsqueda con todas las funciones se basan en Lucene. Si está buscando algo prediseñado o un marco para raspado, procesamiento de documentos y búsqueda, consulte la página "desarrollada por" de Lucene Wiki (http://wiki.apache.org/jakarta-lucene/PoweredBy) , hay muchas opciones: Zilverline, SearchBlox, Nutch, LARM y jSearch, por nombrar algunas. Los estudios de caso de Nutch y SearchBlox se incluyen en el Capítulo 10.

Qué puede hacer Lucene por usted

Lucene le permite agregar capacidades de indexación y búsqueda a su aplicación (estas características se describen en la Sección 1.3). Lucene puede indexar y buscar cualquier dato que pueda convertirse a formato de texto. Como se muestra en la Figura 1.5.

La Figura 1.5a está integrada con aplicaciones típicas de Lucene

Traducción original a un idioma extranjero

Comprensión de Lucene

La gente lo discute en diferentes formas El mismo problema: sobrecarga de información. Algunos de ellos están trabajando en nuevas interfaces de usuario, algunos son agentes inteligentes y otros están trabajando en herramientas de búsqueda. Al igual que Lucene, antes de trabajar en el código de muestra del próximo capítulo, le daremos una descripción detallada de qué es Lucene, qué no es y cómo hacerlo.

¿Qué es Lucene?

Lucene es una base de datos de recuperación de información (IR) escalable y de alto rendimiento. Tiene la capacidad de agregar aplicaciones de indexación y búsqueda. Lucene es un proyecto maduro de código abierto gratuito basado en el lenguaje Java.

Es una bifurcación del popular proyecto Apache Jakarta y tiene la licencia de software gratuita Apache. Por lo tanto, Lucene se ha convertido en el software de búsqueda Java gratuito más popular en los últimos años.

Descubrirá rápidamente que Lucene proporciona un código API central simple pero potente que requiere comprensión de la indexación de texto completo y la funcionalidad de búsqueda. Para comenzar a integrarse en su aplicación Lucene, hay algunas cosas que necesita saber. Debido a que Lucene es una base de datos Java, no le otorga ninguna ventaja en términos de indexación y supuestos de búsqueda sobre otras aplicaciones de búsqueda.

Las nuevas conexiones con Lucene a menudo salen mal. Es una aplicación lista para usar, como un programa de búsqueda de archivos, un motor de búsqueda web o un motor de búsqueda de sitios web. Esto no es un Lucene real: Lucene es una biblioteca de software y un conjunto de herramientas, pero no es una aplicación de búsqueda con todas las funciones. Está relacionado con la indexación y búsqueda de texto completo. Lucene permite que su aplicación maneje reglas comerciales que están relacionadas con dominios relacionados. Detrás de la compleja ejecución de indexación y búsqueda se encuentra una API fácil de usar. Puede describir a Lucene como una capa de software con 1.5 configurado en la parte superior.

Muchas aplicaciones de búsqueda con todas las funciones ya están muy avanzadas en Lucene. Si busca algunos paquetes principales compilados en la Wiki de Lucene (http://Wiki.Apache.org/Jakarta-Lucene/powered by) o busca el marco en la página "Power", hay muchas opciones: zilverline, searchblox, nutch. ,larm,jsearch, por nombrar algunos. Los estudios de caso de nutch y searchblox se incluyen en el Capítulo 10.

¿Qué puede hacer Lucene por ti?

Lucene le permite agregar funciones de indexación y búsqueda a su aplicación (estas características se describen en la Sección 1.3). Lucene puede indexar y buscar cualquier dato que pueda convertirse a formato de texto. Puedes ver esto en la Figura 1.5.