Report 1540

Si vous êtes intéressé par des choses obscures, il y a deux raisons pour lesquelles vos recherches d'articles et de produits sont susceptibles d'être moins liées à vos intérêts que celles de vos pairs « traditionnels » ; soit vous êtes un « cas limite » de monétisation dont les intérêts ne seront satisfaits que si vous êtes également dans les catégories supérieures du pouvoir d'achat économique (par exemple, les produits et services liés à la « gestion de fortune ») ; ou les algorithmes de recherche que vous utilisez exploitent le filtrage collaboratif (CF), qui favorise les intérêts de la majorité.

Étant donné que le filtrage collaboratif est moins cher et mieux établi que d'autres algorithmes et cadres potentiellement plus performants, il est possible que ces deux cas s'appliquent.

Les résultats de recherche basés sur CF donneront la priorité aux éléments qui sont perçus comme populaires parmi les "personnes comme vous", car le cadre hôte peut mieux comprendre quel type de consommateur vous êtes.

Si vous hésitez à fournir des informations de profilage de données au système hôte (par exemple, si vous n'êtes pas enclin à appuyer sur les boutons "J'aime" de Netflix et d'autres services de contenu vidéo), vous risquez d'être classé de manière assez générique lors de vos premières interactions avec le système, et les recommandations que vous recevrez refléteront les tendances les plus populaires.

Sur une plate-forme de streaming, cela pourrait signifier être recommandé quelles que soient les émissions et les films actuellement "chauds", tels que la télé-réalité et les documentaires sur les meurtres médico-légaux, quel que soit votre intérêt pour ceux-ci. De même pour les plateformes de recommandation de livres, qui auront tendance à proposer les best-sellers actuels et récents, apparemment arbitrairement.

En théorie, même les utilisateurs circonspects en matière de données devraient éventuellement obtenir de meilleurs résultats de ces systèmes en fonction de la façon dont ils les utilisent et des éléments qu'ils recherchent, car la plupart des cadres de recherche offrent aux utilisateurs une capacité limitée à modifier leur historique d'utilisation.

N'importe quelle couleur que vous aimez, tant qu'elle est noire

Cependant, selon une nouvelle étude autrichienne, l'ascendant du filtrage collaboratif sur le filtrage basé sur le contenu (qui cherche à définir les relations entre les produits au lieu de simplement prendre en compte la popularité globale) et d'autres approches alternatives, incline les systèmes de recherche vers une popularité à long terme. biais, où les résultats manifestement populaires sont poussés vers les utilisateurs finaux qui sont peu susceptibles d'être enthousiasmés par eux.

L'article constate que les utilisateurs qui ne sont pas intéressés par les articles populaires reçoivent des recommandations "significativement pires" que les utilisateurs ayant un intérêt moyen ou élevé pour la popularité, et (peut-être tautologiquement) que les articles populaires sont recommandés plus fréquemment que les articles impopulaires. Les chercheurs concluent également que les utilisateurs peu intéressés par les articles populaires ont tendance à avoir des profils d'utilisateurs plus larges qui pourraient potentiellement améliorer les systèmes de recommandation - si seulement les systèmes pouvaient éliminer leur dépendance aux métriques "troupeau".

L'article s'intitule Popularity Bias in Collaborative Filtering-Based Multimedia Recommender Systems et provient de chercheurs de l'actuel Center GmbH à Graz et de l'Université de technologie de Graz.

Domaines couverts

S'appuyant sur des travaux antérieurs qui ont étudié des secteurs individuels (tels que les recommandations de livres), le nouvel article examine quatre domaines : les livres numériques (via l'ensemble de données BookCrossing) ; films (via MovieLens); musique (via Last.fm) ; et animes (via MyAnimeList).

L'étude a appliqué quatre algorithmes de filtrage collaboratif populaires de systèmes de recommandation multimédia (MMRS) à des ensembles de données répartis en trois groupes d'utilisateurs, en fonction de leur tendance à être réceptifs aux résultats « populaires » : LowPop, MedPop et HighPop. Les groupes d'utilisateurs ont été filtrés jusqu'à 1000 groupes de taille égale, basés sur les résultats les moins, moyens et les plus susceptibles de favoriser les résultats "populaires".

Commentant les résultats, les auteurs déclarent :

"[Nous] constatons que la probabilité qu'un élément multimédia soit recommandé est fortement corrélée à la popularité de cet élément [et] que les utilisateurs moins enclins à la popularité (LowPop) reçoivent des recommandations multimédias statistiquement significativement moins bonnes que les utilisateurs avec une popularité moyenne (MedPop) et élevée. Inclinaison (HighPop) pour les articles populaires…

"Nos résultats démontrent que bien que les utilisateurs peu intéressés par les articles populaires aient tendance à avoir les profils d'utilisateurs les plus importants, ils reçoivent la précision de recommandation la plus faible. Par conséquent, des recherches futures sont nécessaires pour atténuer le biais de popularité dans le MMRS, à la fois au niveau de l'article et de l'utilisateur.

Parmi les algorithmes évalués figuraient deux variantes K-Nearest Neighbors (KNN), UserKNN et UserKNNAvg. Le premier d'entre eux ne génère pas de note moyenne pour l'utilisateur cible et l'article. Une variante de factorisation matricielle non négative (NMF) a également été testée, ainsi qu'un algorithme de CoClustering.

Le protocole d'évaluation considérait la tâche de recommandation comme un défi de prédiction, mesuré par les chercheurs en termes d'erreur absolue moyenne (MAE), par rapport à un protocole de validation croisée quintuple qui dépasse la répartition habituelle de 80/20 entre les données formées et les données de test.

Les résultats indiquent une quasi-garantie de biais de popularité sous filtrage collaboratif. La question, sans doute, est de savoir si cela est perçu comme un problème par les entreprises multimilliardaires qui intègrent actuellement le CF dans leurs algorithmes de recherche.

La sortie « facile »

Bien que le filtrage collaboratif soit de plus en plus utilisé comme un élément d'une stratégie d'algorithme de recherche plus large, il a un fort intérêt dans le secteur de la recherche, et sa logique et sa rentabilité potentielle sont faciles à comprendre.

En soi, CF décharge essentiellement la tâche d'évaluer la valeur du contenu sur les utilisateurs finaux et utilise leur adoption du contenu comme un indice de sa valeur et de son attrait potentiel pour d'autres clients. Par analogie, il s'agit essentiellement d'une carte du "buzz de refroidisseur d'eau".

Le filtrage basé sur le contenu (CBF) est plus difficile, mais pourrait potentiellement fournir des résultats plus pertinents. Dans le secteur de la vision par ordinateur, de plus en plus de recherches sont actuellement consacrées à la catégorisation du contenu vidéo et à la tentative de dériver des domaines, des fonctionnalités et des concepts de haut niveau grâce à l'analyse de l'audio et de la vidéo dans les films et les émissions de télévision.

Cependant, il s'agit d'une poursuite relativement naissante, liée à la lutte actuelle et plus générale pour quantifier, isoler et exploiter des concepts et des fonctionnalités de haut niveau dans la connaissance du domaine.

Qui utilise le filtrage collaboratif ?

Au moment de la rédaction de cet article, le moteur de recommandation souvent critiqué de Netflix reste obsédé par diverses approches de filtrage collaboratif, appliquant une variété de technologies complémentaires dans des tentatives continues pour générer des recommandations plus pertinentes pour l'utilisateur.

Le moteur de recherche d'Amazon a évolué de son adoption précoce du filtrage collaboratif basé sur l'utilisateur à une méthode de filtrage collaboratif article par article, qui met davantage l'accent sur l'historique des achats du client. Naturellement, cela peut entraîner différents types d'imprécisions, telles que des bulles de filtre ou une trop grande importance accordée aux données éparses. Dans ce dernier cas, si un client occasionnel d'Amazon effectue un achat "inhabituel", comme un ensemble d'opérettes pour un ami amateur d'opéra, il se peut qu'il n'y ait pas d'achats alternatifs adéquats reflétant les propres préférences du client pour empêcher cet achat de devenir un influence sur leurs propres recommandations.

Le filtrage collaboratif est également largement utilisé par Facebook, de concert avec d'autres approches, ainsi que par LinkedIn, YouTube et Twitter.

Problème 1540

Incidents associés

Incident 1682 Rapports
Collaborative Filtering Prone to Popularity Bias, Resulting in Overrepresentation of Popular Items in the Recommendation Outputs

Pourquoi l'IA ne fournit pas de meilleures recommandations de produits

Problème 1540

Incidents associés

Incident 1682 RapportsCollaborative Filtering Prone to Popularity Bias, Resulting in Overrepresentation of Popular Items in the Recommendation Outputs

Pourquoi l'IA ne fournit pas de meilleures recommandations de produits

Incident 1682 Rapports
Collaborative Filtering Prone to Popularity Bias, Resulting in Overrepresentation of Popular Items in the Recommendation Outputs