Report 4241

SAN FRANCISCO (AP) --- El gigante tecnológico OpenAI ha promocionado su herramienta de transcripción impulsada por inteligencia artificial Whisper como una herramienta con una "solidez y precisión cercanas a las de los humanos".

Pero Whisper tiene un defecto importante: tiende a inventar fragmentos de texto o incluso oraciones enteras, según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos. Esos expertos dijeron que parte del texto inventado, conocido en la industria como alucinaciones, puede incluir comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios.

Los expertos dijeron que esas invenciones son problemáticas porque Whisper se está utilizando en una serie de industrias en todo el mundo para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.

Más preocupante, dijeron, es la prisa de los centros médicos por utilizar herramientas basadas en Whisper para transcribir las consultas de los pacientes con los médicos, a pesar de las advertencias de OpenAI de que la herramienta no debería usarse en "dominios de alto riesgo".

Es difícil discernir la magnitud total del problema, pero los investigadores e ingenieros dijeron que con frecuencia se han encontrado con alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que estaba realizando un estudio de reuniones públicas, por ejemplo, dijo que encontró alucinaciones en ocho de cada diez transcripciones de audio que inspeccionó, antes de comenzar a intentar mejorar el modelo.

Un ingeniero de aprendizaje automático dijo que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que encontró alucinaciones en casi todas las 26.000 transcripciones que creó con Whisper.

Los problemas persisten incluso en muestras de audio cortas y bien grabadas. Un estudio reciente realizado por científicos informáticos descubrió 187 alucinaciones en más de 13.000 fragmentos de audio claros que examinaron.

Esa tendencia conduciría a decenas de miles de transcripciones defectuosas en millones de grabaciones, dijeron los investigadores.

Tales errores podrían tener "consecuencias realmente graves", particularmente en entornos hospitalarios, dijo Alondra Nelson, quien dirigió la Oficina de Política Científica y Tecnológica de la Casa Blanca para la administración Biden hasta el año pasado.

"Nadie quiere un diagnóstico erróneo", dijo Nelson, profesora del Instituto de Estudios Avanzados de Princeton, Nueva Jersey. "Debería haber un estándar más alto".

El susurro también se utiliza para crear subtítulos para sordos y personas con problemas de audición, una población con un riesgo particular de transcripciones defectuosas. Esto se debe a que las personas sordas y con problemas de audición no tienen forma de identificar invenciones "ocultas entre todo este otro texto", dijo Christian Vogler, que es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.

Se insta a OpenAI a abordar el problema

La prevalencia de tales alucinaciones ha llevado a expertos, defensores y ex empleados de OpenAI a pedir al gobierno federal que considere la posibilidad de regular la IA. Como mínimo, dijeron, OpenAI debe abordar la falla.

"Esto parece solucionable si la empresa está dispuesta a priorizarlo", dijo William Saunders, un ingeniero de investigación con sede en San Francisco que renunció a OpenAI en febrero por preocupaciones sobre la dirección de la empresa. "Es problemático si lo publicas y la gente confía demasiado en lo que puede hacer y lo integra en todos estos otros sistemas".

Un portavoz de OpenAI dijo que la empresa estudia continuamente cómo reducir las alucinaciones y agradeció los hallazgos de los investigadores, y agregó que OpenAI incorpora comentarios en las actualizaciones del modelo.

Aunque la mayoría de los desarrolladores suponen que las herramientas de transcripción escriben mal las palabras o cometen otros errores, los ingenieros e investigadores dijeron que nunca habían visto otra herramienta de transcripción impulsada por IA que alucinara tanto como Whisper.

Alucinaciones de Whisper

La herramienta está integrada en algunas versiones del chatbot insignia de OpenAI, ChatGPT, y es una oferta integrada en las plataformas de computación en la nube de Oracle y Microsoft, que dan servicio a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir texto a varios idiomas.

Solo en el último mes, una versión reciente de Whisper se descargó más de 4,2 millones de veces desde la plataforma de IA de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático de la plataforma, dijo que Whisper es el modelo de reconocimiento de voz de código abierto más popular y está integrado en todo, desde centros de llamadas hasta asistentes de voz.

Los profesores Allison Koenecke de la Universidad de Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un repositorio de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran dañinas o preocupantes porque el hablante podía ser malinterpretado o tergiversado.

En un ejemplo que descubrieron, un hablante dijo: "Él, el niño, iba a, no estoy seguro exactamente, tomar el paraguas".

Pero el software de transcripción agregó: "Tomó un gran trozo de una cruz, un trozo diminuto, pequeño... Estoy seguro de que no tenía un cuchillo del terror, así que mató a varias personas".

Un hablante en otra grabación describió a "otras dos niñas y una señora". Whisper inventó comentarios adicionales sobre la raza, y agregó "otras dos chicas y una señora, um, que eran negras".

En una tercera transcripción, Whisper inventó un medicamento inexistente llamado "antibióticos hiperactivados".

Los investigadores no están seguros de por qué Whisper y otras herramientas similares alucinan, pero los desarrolladores de software dijeron que las invenciones tienden a ocurrir en medio de pausas, sonidos de fondo o música.

OpenAI recomendó en sus divulgaciones en línea no usar Whisper en "contextos de toma de decisiones, donde fallas en la precisión pueden llevar a fallas pronunciadas en los resultados".

Transcripción de citas médicas

Esa advertencia no ha impedido que los hospitales o centros médicos usen modelos de voz a texto, incluido Whisper, para transcribir lo que se dice durante las visitas al médico para que los proveedores médicos puedan dedicar menos tiempo a tomar notas o escribir informes.

Más de 30.000 médicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles, han comenzado a utilizar una herramienta basada en Whisper creada por Nabla, que tiene oficinas en Francia y los EE. UU.

Esa herramienta se afinó en el lenguaje médico para transcribir y resumir las interacciones de los pacientes, dijo el director de tecnología de Nabla, Martin Raison.

Los funcionarios de la empresa dijeron que son conscientes de que Whisper puede alucinar y están abordando el problema.

Es imposible comparar la transcripción generada por IA de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por "razones de seguridad de los datos", dijo Raison.

Nabla dijo que la herramienta se ha utilizado para transcribir aproximadamente 7 millones de visitas médicas.

Saunders, el ex ingeniero de OpenAI, dijo que borrar el audio original podría ser preocupante si las transcripciones no se verifican dos veces o los médicos no pueden acceder a la grabación para verificar que sean correctas.

"No se pueden detectar errores si se elimina la verdad fundamental", dijo.

Nabla dijo que ningún modelo es perfecto y que el suyo actualmente requiere que los proveedores médicos editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.

Preocupaciones por la privacidad

Debido a que las reuniones de los pacientes con sus médicos son confidenciales, es difícil saber cómo las transcripciones generadas por IA los están afectando.

Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico a principios de este año y se negó a firmar un formulario que le proporcionó la red de salud que solicitaba su permiso para compartir el audio de la consulta con proveedores que incluían Microsoft Azure, el sistema de computación en la nube administrado por el mayor inversor de OpenAI. Bauer-Kahan no quería que conversaciones médicas tan íntimas se compartieran con empresas de tecnología, dijo.

"El comunicado fue muy específico en cuanto a que las empresas con fines de lucro tendrían derecho a tener esto", dijo Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. "Yo estaba como 'absolutamente no'".

Ben Drew, portavoz de John Muir Health, dijo que el sistema de salud cumple con las leyes de privacidad estatales y federales.

Problema 4241

Incidentes Asociados

Incidente 8271 Reporte
AI Transcription Tool Whisper Reportedly Inserting Fabricated Content in Medical Transcripts

Los investigadores afirman que una herramienta de transcripción impulsada por IA utilizada en hospitales inventa cosas que nadie dijo nunca

Se insta a OpenAI a abordar el problema

Alucinaciones de Whisper

Transcripción de citas médicas

Preocupaciones por la privacidad

Problema 4241

Incidentes Asociados

Incidente 8271 ReporteAI Transcription Tool Whisper Reportedly Inserting Fabricated Content in Medical Transcripts

Los investigadores afirman que una herramienta de transcripción impulsada por IA utilizada en hospitales inventa cosas que nadie dijo nunca

Se insta a OpenAI a abordar el problema

Alucinaciones de Whisper

Transcripción de citas médicas

Preocupaciones por la privacidad

Incidente 8271 Reporte
AI Transcription Tool Whisper Reportedly Inserting Fabricated Content in Medical Transcripts