Ir al contenido principal

Entradas

Clase 4 - Métricas de Evaluación

Entradas recientes

Clase 3 - Práctico Solr

Esta clase se basó en un ejercicio práctico donde utilizamos Solr en la máquina virtual de cloudera. Solr es un motor de búsqueda que permite la navegación de contenido de textos indexándolos para que se pueda realizar análisis con mayor facilidad que con lógicas tradicionales. La actividad fue realizada en la máquina virtual de Cloudera, donde se instalaron 3 datasets : Yelp, Twitter y Logs. Cada datasets se componía de la siguientes cantidad de entradas: Logs: 9.410 Twitter: 22.218 Yelp: 1.000 Luego se realizó una exploración que consistió en la descripción de todos los campos presentes en cada datasets. Esto en particular nos mostró que la existe mucha información que no necesariamente es ingresada por el usuario sino que es asociada al contexto de la cada entrada y que permite explorar atributos como el lugar y la hora. Dentro de las actividades se probó la capacidad de búsqueda de la solución utilizando operaciones de agregación como filtros y sobre todo la funcionalid...

Clase 2 - Filtrado basado en contenido

De la clase anterior nos quedamos con dos problemas asociados al filtrado colaborativo basado en usuarios, por un lado qué hacemos cuando los usuarios tienen pocos items consumidos y cuando existen items que nadie a consumido. El nuevo enfoque que vimos en esta clase, es obtener los patrones de similitud no de los usuarios que consumieron los items sino de los items en si mismos. Esto quiere decir que la asociatividad se hace luego de representar el contenido de los items en un lenguaje de máquina (vectores, matrices, etc). Gracias a este enfoque se logran recomendaciones más consistentes dado que la similitud se hace en base en las características de los items, sin embargo, al mismo tiempo esto se aleja del comportamiento de consumo real, ya que uno busca la diversidad de contenidos llegado a cierto punto de consumo. Una de las representaciones típicas para items que contengan documentos es BoW (Bag of Words). Esta representación transforma los documentos en una matriz de palabr...

Clase 1 - Introducción, Filtrado Colaborativo basado en el usuario

¿Qué son los sistemas de recomendación? Los sistemas de recomendación responden a la necesidad de organizar una gran cantidad de información relevante para un usuario o grupo de usuarios, en donde esta organización se entrega en forma de ranking de importancia. ¿Cómo se decide que es más relevante? La relevancia de un contenido sobre otro se basa principalmente en la búsqueda de patrones comportamiento, que frente a situaciones similares se busca identificar cual fueron los contenidos consumidos. Este problema tiene como característica principal que los items se encuentran distribuidos de manera "dispersa". El primer enfoque que se vio en clases corresponde al filtrado colaborativo basado en el usuario, donde una de las técnicas es KNN. Esta técnica busca generar clusters de similitud entre usuarios, permitiendo predecir en base al comportamiento de los pares del cluster. Sin embargo, esta técnica tiene problemas, ya que si bien a mayor cantidad de clusters es posib...