Report 1540

Si está interesado en cosas oscuras, hay dos razones por las que es probable que sus búsquedas de artículos y productos estén menos relacionadas con sus intereses que las de sus pares "convencionales"; o usted es un "caso límite" de monetización cuyos intereses solo se atenderán si también se encuentra en las categorías superiores de poder adquisitivo económico (por ejemplo, productos y servicios relacionados con la "gestión de riqueza"); o los algoritmos de búsqueda que está utilizando están aprovechando el filtrado colaborativo (CF), que favorece los intereses de la mayoría.

Dado que el filtrado colaborativo es más barato y más establecido que otros algoritmos y marcos potencialmente más capaces, es posible que se apliquen ambos casos.

Los resultados de búsqueda basados en CF priorizarán los elementos que se perciben como populares entre "personas como usted", ya que el marco de host puede comprender mejor qué tipo de consumidor es usted.

Si desconfía de proporcionar información de perfiles de datos al sistema host, por ejemplo, si no está dispuesto a presionar los botones "Me gusta" en Netflix y otros servicios de contenido de video, es probable que lo clasifiquen de manera bastante genérica en sus primeras interacciones con el y las recomendaciones que reciba reflejarán las tendencias más populares.

En una plataforma de transmisión, eso podría significar que te recomienden cualquier programa y película que esté actualmente "de moda", como reality shows y documentales de asesinatos forenses, independientemente de tu interés en estos. Lo mismo ocurre con las plataformas de recomendación de libros, que tenderán a ofrecer best-sellers actuales y recientes, aparentemente de forma arbitraria.

En teoría, incluso los usuarios circunspectos de los datos deberían eventualmente obtener mejores resultados de dichos sistemas en función de la forma en que los usan y las cosas que buscan, ya que la mayoría de los marcos de búsqueda brindan a los usuarios una capacidad limitada para editar su historial de uso.

Cualquier color que te guste, siempre que sea negro

Sin embargo, según un nuevo estudio de Austria, el predominio del filtrado colaborativo sobre el filtrado basado en contenido (que busca definir relaciones entre productos en lugar de solo tener en cuenta la popularidad agregada) y otros enfoques alternativos, inclina los sistemas de búsqueda hacia la popularidad a largo plazo. sesgo, donde los resultados obviamente populares se empujan hacia los usuarios finales que es poco probable que se entusiasmen con ellos.

El documento encuentra que los usuarios que no están interesados en artículos populares reciben recomendaciones "significativamente peores" que los usuarios con un interés medio o alto en la popularidad y (quizás tautológicamente) que los artículos populares se recomiendan con más frecuencia que los impopulares. Los investigadores también concluyen que los usuarios con poco interés en artículos populares tienden a tener perfiles de usuario más grandes que podrían mejorar potencialmente los sistemas de recomendación, si los sistemas pudieran eliminar su adicción a las métricas de "rebaño".

El artículo se titula Popularity Bias in Collaborative Filtering-Based Multimedia Recommender Systems, y proviene de investigadores del ahora Center GmbH en Graz y de la Universidad Tecnológica de Graz.

Dominios cubiertos

Sobre la base de trabajos anteriores que estudiaron sectores individuales (como recomendaciones de libros), el nuevo documento examina cuatro dominios: libros digitales (a través del conjunto de datos BookCrossing); películas (a través de MovieLens); música (a través de Last.fm); y animes (a través de MyAnimeList).

El estudio aplicó cuatro algoritmos de filtrado colaborativo de sistemas de recomendación multimedia populares (MMRS) contra conjuntos de datos divididos en tres grupos de usuarios, según su inclinación a ser receptivos a los resultados "populares": LowPop, MedPop y HighPop. Los grupos de usuarios se filtraron hasta 1000 grupos de igual tamaño, en función de los resultados menos, promedio y más propensos a favorecer los resultados "populares".

Comentando los resultados, los autores afirman:

"[Nosotros] descubrimos que la probabilidad de que se recomiende un elemento multimedia se correlaciona fuertemente con la popularidad de este elemento [y] que los usuarios con menos inclinación a la popularidad (LowPop) reciben recomendaciones multimedia estadísticamente significativamente peores que los usuarios con nivel medio (MedPop) y alto". (HighPop) inclinación a artículos populares...

“Nuestros resultados demuestran que, aunque los usuarios con poco interés en los artículos populares tienden a tener los perfiles de usuario más grandes, reciben la precisión de recomendación más baja. Por lo tanto, se necesita investigación futura para mitigar el sesgo de popularidad en MMRS, tanto a nivel de artículo como de usuario”.

Entre los algoritmos evaluados se encontraban dos variantes de K-Nearest Neighbors (KNN), UserKNN y UserKNNAvg. El primero de estos no genera una calificación promedio para el usuario objetivo y el artículo. También se probó una variante de factorización de matriz no negativa (NMF), junto con un algoritmo CoClustering.

El protocolo de evaluación consideró la tarea de recomendación como un desafío de predicción, medido por los investigadores en términos de error absoluto medio (MAE), frente a un protocolo de validación cruzada de cinco veces que supera la división habitual 80/20 entre datos entrenados y de prueba.

Los resultados indican una garantía casi total de sesgo de popularidad bajo el filtrado colaborativo. Podría decirse que la pregunta es si esto es percibido como un problema por las empresas multimillonarias que actualmente incorporan CF en sus algoritmos de búsqueda.

La salida 'fácil'

Si bien el filtrado colaborativo se usa cada vez más como solo un elemento de una estrategia de algoritmo de búsqueda más amplia, tiene una gran participación en el sector de búsqueda, y su lógica y rentabilidad potencial son atractivamente fáciles de entender.

En sí mismo, CF esencialmente descarga la tarea de evaluar el valor del contenido para los usuarios finales y utiliza su aceptación del contenido como un índice de su valor y atractivo potencial para otros clientes. Por analogía, es esencialmente un mapa de "zumbido del enfriador de agua".

El filtrado basado en contenido (CBF) es más difícil, pero podría proporcionar resultados más relevantes. En el sector de la visión por computadora, actualmente se está invirtiendo una cantidad cada vez mayor de investigación en la categorización del contenido de video y el intento de derivar dominios, características y conceptos de alto nivel a través del análisis de audio y video en películas y salidas de TV.

Sin embargo, esta es una búsqueda relativamente incipiente y está ligada a la lucha actual y más general para cuantificar, aislar y explotar conceptos y características de alto nivel en el dominio del conocimiento.

¿Quién usa el filtrado colaborativo?

En el momento de escribir este artículo, el motor de recomendaciones de Netflix, a menudo criticado, sigue obsesionado con varios enfoques de filtrado colaborativo, aplicando una variedad de tecnologías adjuntas en los intentos continuos de generar recomendaciones más relevantes para el usuario.

El motor de búsqueda de Amazon evolucionó desde su temprana adopción del filtrado colaborativo basado en el usuario a un método de filtrado colaborativo artículo a artículo, que pone mayor énfasis en el historial de compras del cliente. Naturalmente, esto puede conducir a diferentes tipos de inexactitud, como burbujas de filtro o énfasis excesivo en datos dispersos. En el último caso, si un cliente poco frecuente de Amazon realiza una compra "inusual", como un juego de operetas para un amigo amante de la ópera, es posible que no existan compras alternativas adecuadas que reflejen las preferencias del cliente para evitar que esta compra se convierta en una influir en sus propias recomendaciones.

El filtrado colaborativo también es ampliamente utilizado por Facebook, junto con otros enfoques, y también por LinkedIn, YouTube y Twitter.

Problema 1540

Incidentes Asociados

Incidente 1682 Reportes
Collaborative Filtering Prone to Popularity Bias, Resulting in Overrepresentation of Popular Items in the Recommendation Outputs

Por qué AI no proporciona mejores recomendaciones de productos

Problema 1540

Incidentes Asociados

Incidente 1682 ReportesCollaborative Filtering Prone to Popularity Bias, Resulting in Overrepresentation of Popular Items in the Recommendation Outputs

Por qué AI no proporciona mejores recomendaciones de productos

Incidente 1682 Reportes
Collaborative Filtering Prone to Popularity Bias, Resulting in Overrepresentation of Popular Items in the Recommendation Outputs