Problema 2294
- Ver el informe original en su fuente
- Ver el informe en el Archivo de Internet
Es muy difícil, si no imposible, para nosotros los humanos entender cómo los robots ven el mundo. Sus cámaras funcionan como nuestros ojos, pero el espacio entre la imagen que captura una cámara y la información procesable sobre esa imagen está lleno de una caja negra de algoritmos de aprendizaje automático que intentan traducir patrones de características en algo con lo que están familiarizados. . Entrenar estos algoritmos generalmente implica mostrarles un conjunto de imágenes diferentes de algo (como una señal de alto) y luego ver si pueden extraer suficientes características comunes de esas imágenes para identificar de manera confiable las señales de alto que no están en su conjunto de entrenamiento.
Esto funciona bastante bien, pero las características comunes que presentan los algoritmos de aprendizaje automático generalmente no son "octágonos rojos con las letras S-T-O-P". Más bien, están buscando características que comparten todas las señales de alto, pero que no serían comprensibles en lo más mínimo para un ser humano que las mirara. Si esto parece difícil de visualizar, es porque refleja una desconexión fundamental entre la forma en que nuestros cerebros y las redes neuronales artificiales interpretan el mundo.
El resultado aquí es que [alteraciones leves en una imagen que son invisibles para los humanos pueden dar lugar a interpretaciones muy diferentes (y a veces extrañas) de un algoritmo de aprendizaje automático] (https://arxiv.org/abs/1312.6199). Estas "imágenes adversarias" generalmente han requerido un análisis y una manipulación de imágenes relativamente complejos, pero un grupo de investigadores de la Universidad de Washington, la Universidad de Michigan, la Universidad de Stony Brook, y la Universidad de California Berkeley han acaba de publicar un artículo que muestran que también es posible engañar a los algoritmos de clasificación visual haciendo ligeras alteraciones en el mundo físico. Un poco de pintura en aerosol o algunos adhesivos en una señal de alto pudieron engañar a un clasificador basado en redes neuronales profundas para que pensara que estaba mirando una señal de límite de velocidad el 100 por ciento del tiempo.
Este es un ejemplo del tipo de imagen contradictoria que estamos acostumbrados a ver:
Obviamente, es totalmente obvio para nosotros que ambas imágenes presentan un panda. Las diferencias entre la primera y la tercera imagen son invisibles para nosotros, e incluso cuando las alteraciones se muestran explícitamente, no hay nada allí que se parezca mucho a un gibón. Pero para un clasificador basado en redes neuronales, la primera imagen probablemente sea un panda, mientras que la tercera imagen es casi definitivamente un gibón. Este tipo de cosas también funciona con los letreros de las calles, haciendo que los letreros que nos parecen una cosa parezcan algo completamente diferente al sistema de visión de un automóvil autónomo, lo que podría ser muy peligroso por razones obvias.
Los ataques adversarios como estos, si bien son efectivos, son mucho más difíciles de realizar en la práctica, porque generalmente no tiene acceso digital directo a las entradas de la red neuronal con la que está tratando de meterse. Además, en el contexto de algo así como un automóvil autónomo, la red neuronal tiene la oportunidad de analizar un montón de imágenes de un letrero a diferentes distancias y ángulos a medida que se acerca. Y, por último, las imágenes contradictorias tienden a incluir características introducidas en toda la imagen (tanto el letrero como el fondo), lo que no funciona en la vida real.
Lo novedoso de esta nueva técnica es que se basa en perturbaciones físicas adversarias: alterar las señales de tráfico en el mundo real de tal manera que estropeen de forma fiable los clasificadores de redes neuronales de Múltiples distancias y ángulos sin dejar de ser lo suficientemente discreto como para ser indetectable para los observadores casuales. Los investigadores idearon varias técnicas para hacer esto, incluido el desvanecimiento sutil, el graffiti camuflado y el arte camuflado. Así es como se ven los letreros perturbados cuando se imprimen como carteles y se pegan en letreros reales:
Y aquí hay dos ataques que son más fáciles de manejar en un letrero del mundo real, ya que son pegatinas en lugar de carteles:
Debido a que las calcomanías tienen un área mucho más pequeña para trabajar que los carteles, las perturbaciones que crean tienen que ser más significativas, pero ciertamente no es obvio que no sean solo algunos graffiti al azar. Y funcionan casi igual de bien. Según los investigadores:
La señal de Alto está mal clasificada en nuestra clase objetivo de Límite de velocidad 45 en el 100 % de las imágenes tomadas de acuerdo con nuestra metodología de evaluación. Para la señal de giro a la derecha... Nuestro ataque informa una tasa de éxito del 100 % para la clasificación errónea con el 66,67 % de las imágenes clasificadas como señal de alto y el 33,7 % de las imágenes clasificadas como señal de carril agregado. El ataque [del grafiti de camuflaje] logra que el 73,33% de las imágenes se clasifiquen erróneamente. En [el ataque de arte abstracto de camuflaje], logramos una tasa de clasificación errónea del 100% en nuestra clase objetivo.
Para desarrollar estos ataques, los investigadores entrenaron su propio clasificador de señales de tráfico en TensorFlow utilizando un conjunto de datos de señales de tráfico etiquetados y disponible públicamente. Asumieron que un atacante tendría acceso de "caja blanca" al clasificador, lo que significa que no puede interferir con su entrenamiento o sus agallas, pero que puede introducir cosas y ver qué sale, como si fuera dueño de un automóvil autónomo. , y podría mostrarle los signos que quisiera y ver si los reconoció o no, una suposición razonable. Incluso si no puede piratear directamente el clasificador en sí, podría usar esta información para crear un modelo razonablemente preciso de cómo clasifica las cosas. Finalmente, los investigadores toman la imagen de la señal que desea atacar y la introducen junto con su clasificador en un algoritmo de ataque que genera la imagen del adversario por usted. Travesura gestionada.
Probablemente sea seguro asumir que los clasificadores utilizados por los autos autónomos serán algo más sofisticados y robustos que el que estos investigadores lograron engañar con tanto éxito. (Usó solo alrededor de 4500 signos como entrada de entrenamiento). Sin embargo, probablemente no es seguro asumir que ataques como estos nunca funcionarán, porque incluso los algoritmos basados en redes neuronales profundas más sofisticados pueden ser muy, muy tonto a veces por razones que no siempre son obvias. La mejor defensa es probablemente que los autos autónomos usen un sistema multimodal para la detección de señales de tránsito, por la misma razón que usan sistemas multimodales para la detección de obstáculos: es peligroso confiar en un solo sensor (ya sea radar, lidar, o cámaras), por lo que los usa todos a la vez y espera que cubran las vulnerabilidades específicas de cada uno. ¿Tienes un clasificador visual? Genial, asegúrese de combinarlo con algunas ubicaciones GPS de señales. O tal vez agregue algo como un sistema de detección de octágono rojo dedicado. Sin embargo, mi consejo sería simplemente eliminar las señales por completo, al mismo tiempo que elimina a los conductores humanos y simplemente entrega todas las carreteras a los robots. Problema resuelto.
Ataques sólidos del mundo físico a modelos de aprendizaje automático, de Ivan Evtimov, Kevin Eykholt, Earlence Fernandes, Tadayoshi Kohno, Bo Li, Atul Prakash, Amir Rahmati y Dawn Song de la Universidad de Washington, la Universidad de Michigan Ann Arbor, la Universidad de Stony Brook y la Universidad de California Berkeley, se puede encontrar en arXiv.