Incidentes Asociados

Introducción
El filtrado colaborativo (CF) es uno de los conceptos más tradicionales pero también más poderosos para calcular recomendaciones personalizadas [22] y se usa ampliamente en el campo de los sistemas de recomendación multimedia (MMRS) [11]. Sin embargo, un problema de los enfoques basados en CF es que son propensos al sesgo de popularidad, lo que conduce a una sobrerrepresentación de elementos populares en las listas de recomendaciones [2,3]. Investigaciones recientes han estudiado el sesgo de popularidad en dominios como la música [15,16] o las películas [3] comparando el rendimiento de la recomendación para diferentes grupos de usuarios que difieren en su inclinación a los elementos multimedia convencionales. Sin embargo, aún falta un estudio completo de investigación del sesgo de popularidad en el nivel del elemento y del usuario en varios dominios multimedia (consulte la Sección 2).
En el presente documento, por lo tanto, nos basamos en estos trabajos anteriores y ampliamos el estudio del sesgo de popularidad a cuatro dominios diferentes de MMRS: música (Last.fm), películas (MovieLens), libros digitales (BookCrossing) y animes (MyAnimeList). Dentro de estos dominios, mostramos que los usuarios con poco interés en artículos populares tienden a tener grandes perfiles de usuario y, por lo tanto, son importantes consumidores y fuentes de datos para MMRS. Además, aplicamos cuatro algoritmos de recomendación basados en CF diferentes (consulte la Sección 3) en nuestros cuatro conjuntos de datos que cada uno dividimos en tres grupos de usuarios que difieren en su inclinación a la popularidad (es decir, LowPop, MedPop y HighPop). Con esto, abordamos dos preguntas de investigación (RQ):
– RQ1: ¿En qué medida la popularidad de un artículo afecta la frecuencia de recomendación de este artículo en MMRS?
– RQ2: ¿En qué medida la inclinación de un usuario a artículos populares afecta la calidad de MMRS?
Con respecto a RQ1, encontramos que la probabilidad de que un elemento multimedia sea recomendado se correlaciona fuertemente con la popularidad de este elemento. Con respecto a RQ2, encontramos que los usuarios con menor inclinación a la popularidad (LowPop) reciben recomendaciones multimedia significativamente peores desde el punto de vista estadístico que los usuarios con una inclinación media (MedPop) y alta (HighPop) a elementos populares (ver Sección 4). Nuestros resultados demuestran que aunque los usuarios con poco interés en los artículos populares tienden a tener los perfiles de usuario más grandes, reciben la precisión de recomendación más baja. Por lo tanto, se necesita investigación futura para mitigar el sesgo de popularidad en MMRS, tanto a nivel de artículo como de usuario.
Trabajo relacionado
Esta sección presenta investigaciones sobre el sesgo de popularidad que están relacionadas con nuestro trabajo. Dividimos estos resultados de investigación en dos grupos: (i) trabajo relacionado con los sistemas de recomendación en general, y (ii) trabajo que se centra en las técnicas de mitigación del sesgo de popularidad.
Sesgo de popularidad en los sistemas de recomendación. Dentro del dominio de los sistemas de recomendación, hay un número creciente de trabajos que estudian el efecto del sesgo de popularidad. Por ejemplo, como se informa en [8], el sesgo hacia los artículos populares puede afectar el consumo de artículos que no son populares. Esto a su vez evita que se vuelvan populares en el futuro. De esa forma, un sistema de recomendación tiende a ignorar artículos novedosos o los artículos que les gustan a los usuarios de nicho que normalmente están ocultos en la "cola larga" del catálogo de artículos disponibles. Algunos trabajos anteriores, como [10,20], han reconocido el abordaje de estos elementos de cola larga. Este problema se investiga más a fondo en [1,2] utilizando el popular conjunto de datos de películas MovieLens 1M. Los autores muestran que más del 80% de todas las calificaciones en realidad pertenecen a artículos populares y, en base a esto, se enfocan en mejorar el equilibrio entre la precisión de la clasificación y la cobertura de los artículos de cola larga. La investigación realizada en [13] ilustra una comparación algorítmica integral con respecto al sesgo de popularidad. Los autores analizan conjuntos de datos multimedia como MovieLens, Netflix, Yahoo!Movies y BookCrossing, y descubren que los métodos de recomendación solo consideran una pequeña fracción del espectro de elementos disponibles. Por ejemplo, encuentran que las técnicas basadas en KNN se enfocan principalmente en elementos de alta calificación y los modelos de factorización se inclinan hacia la recomendación de elementos populares. En nuestro trabajo, analizamos un conjunto aún mayor de dominios multimedia y estudiamos el sesgo de popularidad no solo en el elemento sino también en el nivel del usuario.
Técnicas de mitigación del sesgo de popularidad. La investigación típica sobre la mitigación del sesgo de popularidad realiza un paso de reclasificación en un conjunto más grande de elementos candidatos recomendados. El objetivo de tales enfoques de posprocesamiento es exponer mejor los elementos de cola larga en la lista de recomendaciones [2,4,6]. Aquí, por ejemplo, [7] propone mejorar el número total de distintos elementos recomendados definiendo una distribución objetivo de la exposición del elemento y minimizando la discrepancia entre la exposición y la frecuencia de recomendación de cada elemento. Para encontrar una proporción justa entre artículos populares y menos populares, [24] propone crear un grupo protegido de artículos de cola larga y garantizar que su exposición permanezca estadísticamente indistinguible de un mínimo dado. Además de centrarse en el procesamiento posterior, hay algunos intentos de procesamiento en la adaptación de los algoritmos de recomendación existentes de manera que las recomendaciones generadas estén menos sesgadas hacia los artículos populares. Por ejemplo, [5] propone utilizar una selección de vecindario probabilística para los métodos KNN, o [23] sugiere un enfoque de factorización matricial consciente de puntos ciegos que elimina las interacciones entre el sistema de recomendación y el usuario. Creemos que los hallazgos de nuestro artículo pueden informar futuras investigaciones sobre la elección de la técnica de mitigación adecuada para un entorno determinado.
...