Ir al contenido principal

Clase 3 - Práctico Solr

Esta clase se basó en un ejercicio práctico donde utilizamos Solr en la máquina virtual de cloudera.

Solr es un motor de búsqueda que permite la navegación de contenido de textos indexándolos para que se pueda realizar análisis con mayor facilidad que con lógicas tradicionales.

La actividad fue realizada en la máquina virtual de Cloudera, donde se instalaron 3 datasets : Yelp, Twitter y Logs.
Cada datasets se componía de la siguientes cantidad de entradas:
Logs: 9.410
Twitter: 22.218
Yelp: 1.000

Luego se realizó una exploración que consistió en la descripción de todos los campos presentes en cada datasets. Esto en particular nos mostró que la existe mucha información que no necesariamente es ingresada por el usuario sino que es asociada al contexto de la cada entrada y que permite explorar atributos como el lugar y la hora.

Dentro de las actividades se probó la capacidad de búsqueda de la solución utilizando operaciones de agregación como filtros y sobre todo la funcionalidad de buscar entradas similares bajo algún concepto buscado. Esto es prueba de una capacidad que va mas allá de buscar textualmente un contenido.

Finalmente, se realizó un dashboard que permite entregar los resultados de Solr de un forma mucho más atractiva, lo que permite la implementación de este herramienta sea posible en soluciones dinámicas de análisis de documentos.


Comentarios