Problème 2294
- Afficher le rapport d'origine à sa source
- Voir le rapport sur l'Archive d'Internet
Il est très difficile, voire impossible, pour nous, humains, de comprendre comment les robots voient le monde. Leurs caméras fonctionnent comme nos yeux, mais l'espace entre l'image qu'une caméra capture et les informations exploitables sur cette image est rempli d'une boîte noire d'algorithmes d'apprentissage automatique qui tentent de traduire des modèles de fonctionnalités en quelque chose qu'ils connaissent. . La formation de ces algorithmes implique généralement de leur montrer un ensemble d'images différentes de quelque chose (comme un panneau d'arrêt), puis de voir s'ils peuvent extraire suffisamment de caractéristiques communes de ces images pour identifier de manière fiable les panneaux d'arrêt qui ne figurent pas dans leur ensemble de formation.
Cela fonctionne plutôt bien, mais les caractéristiques communes que les algorithmes d'apprentissage automatique proposent généralement ne sont pas "des octogones rouges avec les lettres S-T-O-P dessus". Au contraire, ils recherchent des caractéristiques que tous les panneaux d'arrêt partagent, mais ne seraient pas du tout compréhensibles pour un humain qui les regarde. Si cela semble difficile à visualiser, c'est parce qu'il reflète une déconnexion fondamentale entre la façon dont notre cerveau et les réseaux de neurones artificiels interprètent le monde.
Le résultat ici est que [de légères modifications d'une image qui sont invisibles pour les humains peuvent entraîner des interprétations extrêmement différentes (et parfois bizarres) d'un algorithme d'apprentissage automatique] (https://arxiv.org/abs/1312.6199). Ces "images contradictoires" ont généralement nécessité une analyse et une manipulation d'images relativement complexes, mais un groupe de chercheurs de l'Université de Washington, de l'Université du Michigan, de l'Université de Stony Brook, et l'Université de Californie à Berkeley ont vient de publier un article montrant qu'il est également possible de tromper les algorithmes de classification visuelle en apportant de légères modifications au monde physique. Un peu de peinture en aérosol ou des autocollants sur un panneau d'arrêt ont pu faire croire à un classificateur basé sur un réseau neuronal profond qu'il regardait un panneau de limitation de vitesse 100 % du temps.
Voici un exemple du type d'image contradictoire que nous avons l'habitude de voir :
De toute évidence, il est totalement, euh, évident pour nous que les deux images présentent un panda. Les différences entre les première et troisième images nous sont invisibles, et même lorsque les modifications sont montrées explicitement, il n'y a rien là-dedans qui ressemble vraiment à un gibbon. Mais pour un classificateur basé sur un réseau de neurones, la première image est probablement un panda tandis que la troisième image est presque certainement un gibbon. Ce genre de chose fonctionne également avec les panneaux de signalisation, faisant en sorte que les panneaux qui nous semblent être une chose ressemblent à quelque chose de complètement différent du système de vision d'une voiture autonome, ce qui pourrait être très dangereux pour des raisons évidentes.
Des attaques contradictoires comme celles-ci, bien qu'efficaces, sont beaucoup plus difficiles à réaliser dans la pratique, car vous n'avez généralement pas d'accès numérique direct aux entrées du réseau neuronal avec lequel vous essayez de jouer. De plus, dans le contexte de quelque chose comme une voiture autonome, le réseau de neurones a la possibilité d'analyser tout un tas d'images d'un panneau à différentes distances et angles à mesure qu'il s'approche. Et enfin, les images contradictoires ont tendance à inclure des fonctionnalités introduites sur toute l'image (à la fois le signe et l'arrière-plan), ce qui ne fonctionne pas dans la vraie vie.
La nouveauté de cette nouvelle technique c'est qu'elle est basée sur des perturbations physiques antagonistes : modifier les panneaux de signalisation dans le monde réel de telle sorte qu'ils perturbent de manière fiable les classificateurs de réseaux neuronaux de plusieurs distances et angles tout en restant suffisamment discret pour être indétectable par les observateurs occasionnels. Les chercheurs ont proposé plusieurs techniques pour y parvenir, notamment la décoloration subtile, les graffitis de camouflage et l'art du camouflage. Voici à quoi ressemblent les panneaux perturbés lorsqu'ils sont imprimés sous forme d'affiches et collés sur de vrais panneaux :
Et voici deux attaques plus faciles à gérer sur un panneau du monde réel, puisqu'il s'agit d'autocollants plutôt que d'affiches :
Parce que les autocollants ont une surface de travail beaucoup plus petite que les affiches, les perturbations qu'ils créent doivent être plus importantes, mais il n'est certainement pas évident qu'il ne s'agisse pas de quelques graffitis aléatoires. Et ils fonctionnent presque aussi bien. Selon les chercheurs :
Le panneau d'arrêt est mal classé dans notre classe cible de limite de vitesse 45 dans 100 % des images prises selon notre méthodologie d'évaluation. Pour le panneau de virage à droite... Notre attaque rapporte un taux de réussite de 100 % pour les erreurs de classification avec 66,67 % des images classées comme panneau d'arrêt et 33,7 % des images classées comme panneau de voie supplémentaire. [L'attaque des graffitis de camouflage] réussit à provoquer une mauvaise classification de 73,33 % des images. Dans [the camouflage abstract art attack], nous atteignons un taux d'erreur de classification de 100 % dans notre classe cible.
Afin de développer ces attaques, les chercheurs ont formé leur propre classificateur de panneaux routiers dans TensorFlow à l'aide d'un ensemble de données de panneaux routiers étiquetés accessible au public. Ils ont supposé qu'un attaquant aurait un accès "boîte blanche" au classificateur, ce qui signifie qu'il ne peut pas jouer avec sa formation ou ses tripes, mais qu'il peut alimenter des choses et voir ce qui sort - comme si vous possédiez une voiture autonome , et pourrait lui montrer tous les signes que vous vouliez et voir s'il les reconnaissait ou non, une hypothèse raisonnable à faire. Même si vous ne pouvez pas pirater directement le classificateur lui-même, vous pouvez toujours utiliser ces commentaires pour créer un modèle raisonnablement précis de la façon dont il classe les choses. Enfin, les chercheurs prennent l'image du signe que vous voulez attaquer et l'alimentent avec leur classificateur dans un algorithme d'attaque qui produit l'image contradictoire pour vous. Méfait géré.
Il est probablement prudent de supposer que les classificateurs utilisés par les voitures autonomes seront un peu plus sophistiqués et robustes que celui que ces chercheurs ont réussi à tromper avec tant de succès. (Il n'a utilisé qu'environ 4 500 signes comme entrée d'entraînement.) Il n'est probablement pas sûr de supposer que des attaques comme celles-ci ne fonctionneront pas jamais , car même les algorithmes basés sur des réseaux de neurones profonds les plus sophistiqués peuvent être vraiment, vraiment muet parfois pour des raisons qui ne sont pas toujours évidentes. La meilleure défense est probablement que les voitures autonomes utilisent un système multimodal pour la détection des panneaux de signalisation, pour la même raison qu'elles utilisent des systèmes multimodaux pour la détection des obstacles : il est dangereux de se fier à un seul capteur (qu'il s'agisse d'un radar, d'un lidar, ou caméras), vous les utilisez donc tous en même temps et espérez qu'ils couvrent les vulnérabilités spécifiques de chacun. Vous avez un classificateur visuel ? Génial, assurez-vous de le coupler avec des emplacements GPS de panneaux. Ou peut-être ajouter quelque chose comme un système de détection d'octogone rouge dédié. Mon conseil, cependant, serait simplement de supprimer complètement les panneaux, tout en supprimant les conducteurs humains et en cédant complètement toutes les routes aux robots. Problème résolu.
Robust Physical-World Attacks on Machine Learning Models, par Ivan Evtimov, Kevin Eykholt, Earlence Fernandes, Tadayoshi Kohno, Bo Li, Atul Prakash, Amir Rahmati et Dawn Song de l'Université de Washington, de l'Université du Michigan Ann Arbor, de l'Université Stony Brook et de l'Université de Californie à Berkeley, peut être trouvé sur arXiv.