Report 6341

Recientemente actualizamos el modelo predeterminado de ChatGPT (se abre en una ventana nueva) para reconocer mejor a las personas en momentos de angustia y brindarles apoyo. Hoy compartimos cómo implementamos estas mejoras y su rendimiento. En colaboración con expertos en salud mental con amplia experiencia clínica, hemos optimizado el modelo para reconocer mejor la angustia, reducir la tensión en las conversaciones y orientar a las personas hacia la atención profesional cuando sea necesario. También hemos ampliado el acceso a líneas de ayuda en crisis, redirigido las conversaciones delicadas provenientes de otros modelos a modelos más seguros y añadido recordatorios para tomar descansos durante las sesiones largas. Creemos que ChatGPT puede brindar un espacio de apoyo para que las personas procesen sus emociones y las guíe para que se comuniquen con amigos, familiares o un profesional de la salud mental cuando sea apropiado. Nuestras mejoras de seguridad en la reciente actualización del modelo se centran en las siguientes áreas: 1) problemas de salud mental como psicosis o manía; 2) autolesiones y suicidio; y 3) dependencia emocional de la IA. En adelante, además de nuestras métricas de seguridad básicas para el suicidio y las autolesiones, estamos incorporando la dependencia emocional y las emergencias de salud mental no suicidas a nuestro conjunto estándar de pruebas de seguridad básicas para futuras versiones del modelo. Principios rectores ------------------- Estas actualizaciones se basan en nuestros principios existentes sobre cómo deben comportarse los modelos, descritos en nuestra Especificación del modelo (se abre en una ventana nueva). Hemos actualizado la especificación del modelo para explicitar algunos de nuestros objetivos principales: que el modelo apoye y respete las relaciones reales de los usuarios, evite afirmar creencias infundadas que puedan estar relacionadas con malestar mental o emocional, responda de forma segura y empática a posibles signos de delirio o manía, y preste mayor atención a las señales indirectas de posible autolesión o riesgo de suicidio. Cómo estamos mejorando las respuestas en ChatGPT ----------------------------------------- Para mejorar la respuesta de ChatGPT en cada área prioritaria, seguimos un proceso de cinco pasos: - Definir el problema: identificamos los diferentes tipos de daño potencial. - Comenzar a medirlo: utilizamos herramientas como evaluaciones, datos de conversaciones reales e investigación de usuarios para comprender dónde y cómo surgen los riesgos. - Validar nuestro enfoque: revisamos nuestras definiciones y políticas con expertos externos en salud mental y seguridad. - Mitigar los riesgos: realizamos un post-entrenamiento del modelo y actualizamos las intervenciones del producto para reducir los resultados inseguros. - Continuar midiendo e iterando: validamos que las mitigaciones mejoren la seguridad e iteramos donde sea necesario. Como parte de este proceso, creamos y perfeccionamos guías detalladas (llamadas "taxonomías") que explican las características de las conversaciones delicadas y cómo se ve el comportamiento ideal e indeseado del modelo. Esto nos ayuda a entrenar al modelo para que responda de manera más apropiada y a monitorear su rendimiento antes y después de su implementación. El resultado es un modelo que responde de manera más confiable a los usuarios que muestran signos de psicosis, manía, pensamientos suicidas y autolesiones, o un apego emocional poco saludable al modelo. Medición de eventos de baja prevalencia ------------------------------- Los síntomas de salud mental y el malestar emocional están presentes universalmente en las sociedades humanas, y una base de usuarios cada vez mayor implica que una parte de las conversaciones de ChatGPT incluye estas situaciones. Sin embargo, las conversaciones sobre salud mental que generan preocupaciones de seguridad, como la psicosis, la manía o los pensamientos suicidas, son extremadamente raras. Debido a su baja frecuencia, incluso pequeñas diferencias en cómo las medimos pueden tener un impacto significativo en las cifras que reportamos. 1 Las estimaciones de prevalencia en el tráfico de producción actual que presentamos a continuación son nuestras mejores estimaciones actuales. Estas pueden cambiar sustancialmente a medida que continuemos refinando nuestras taxonomías, nuestras metodologías de medición maduren y el comportamiento de nuestra población de usuarios cambie. Dada la muy baja prevalencia de conversaciones relevantes, no nos basamos únicamente en las mediciones de uso de ChatGPT en el mundo real. También realizamos pruebas estructuradas antes de la implementación (denominadas "evaluaciones offline"), que se centran en escenarios especialmente difíciles o de alto riesgo. Estas evaluaciones están diseñadas para ser lo suficientemente desafiantes como para que nuestros modelos aún no funcionen a la perfección en ellas; es decir, los ejemplos se seleccionan de forma adversaria para que tengan una alta probabilidad de provocar respuestas no deseadas. Pueden mostrarnos dónde tenemos oportunidades de mejora y ayudarnos a medir el progreso con mayor precisión al centrarnos en casos difíciles en lugar de los típicos y al calificar las respuestas según múltiples condiciones de seguridad. Los resultados de las evaluaciones que se presentan en las secciones siguientes provienen de evaluaciones diseñadas para no saturar el rendimiento casi perfecto, y las tasas de error no son representativas del tráfico de producción promedio. Nuestros hallazgos ------------- Con el fin de fortalecer aún más las medidas de seguridad de nuestros modelos y comprender cómo las personas utilizan ChatGPT, definimos varias áreas de interés y cuantificamos su tamaño y los comportamientos del modelo asociados. En cada una de estas tres áreas, observamos mejoras significativas en el comportamiento del modelo en el tráfico de producción, las evaluaciones automatizadas y las evaluaciones calificadas por profesionales de la salud mental independientes. Estimamos que el modelo ahora devuelve respuestas que no cumplen completamente con el comportamiento deseado según nuestras taxonomías entre un 65 % y un 80 % menos a menudo en diversos dominios relacionados con la salud mental. #### Psicosis, manía y otros síntomas graves de salud mental Nuestra taxonomía de salud mental está diseñada para identificar cuándo los usuarios pueden estar mostrando signos de problemas graves de salud mental, como psicosis y manía, así como señales menos graves, como delirios aislados. Comenzamos centrándonos en la psicosis y la manía porque estos síntomas son emergencias de salud mental relativamente comunes, y tienden a ser muy intensos y graves cuando se presentan. Si bien síntomas como la depresión son relativamente comunes, su presentación más aguda ya se estaba abordando en nuestro trabajo sobre la prevención del suicidio y las autolesiones. Los profesionales clínicos consultados validaron nuestras áreas de enfoque. Estimamos que la última actualización de GPT-5 redujo en un 65 % la tasa de respuestas que no se ajustan completamente al comportamiento deseado según nuestras taxonomías para conversaciones difíciles relacionadas con problemas de salud mental en el tráfico de producción reciente. 2 Si bien, como se mencionó anteriormente, estas conversaciones son difíciles de detectar y medir debido a su baja frecuencia, nuestro análisis inicial estima que alrededor del 0,07 % de los usuarios activos en una semana determinada y el 0,01 % de los mensajes indican posibles signos de emergencias de salud mental relacionadas con la psicosis o la manía. 3 - En conversaciones difíciles sobre salud mental, los expertos descubrieron que el nuevo modelo GPT-5, el modelo predeterminado de ChatGPT, redujo las respuestas no deseadas en un 39 % en comparación con el GPT-4o (n=677). - En una evaluación del modelo que incluyó más de 1000 conversaciones difíciles relacionadas con la salud mental, nuestras nuevas evaluaciones automatizadas calificaron al nuevo modelo GPT-5 con un 92 % de cumplimiento con los comportamientos deseados según nuestras taxonomías, en comparación con el 27 % del modelo GPT-5 anterior. Como se mencionó anteriormente, esta es una tarea exigente diseñada para permitir la mejora continua. #### Autolesiones y suicidio Hemos ampliado nuestro trabajo previo sobre la prevención del suicidio y las autolesiones para detectar cuándo un usuario puede estar experimentando pensamientos suicidas o autolesivos, o bien, señales que indiquen interés en el suicidio. Debido a la poca frecuencia de estas conversaciones, la detección de conversaciones con posibles indicadores de autolesiones o suicidio sigue siendo un área de investigación en la que trabajamos continuamente para mejorar. - Entrenamos nuestros modelos para que respondan de forma segura, incluso derivando a las personas a recursos profesionales como líneas de ayuda en crisis. En algunos casos excepcionales, el modelo puede no comportarse como se espera en estas situaciones delicadas. A medida que hemos implementado medidas de seguridad adicionales y el modelo mejorado, hemos observado una reducción estimada del 65 % en la frecuencia con la que nuestros modelos proporcionan respuestas que no se ajustan completamente al comportamiento deseado según nuestras taxonomías. Si bien, como se mencionó anteriormente, estas conversaciones son difíciles de detectar y medir debido a su baja frecuencia, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana determinada tienen conversaciones que incluyen indicadores explícitos de posible planificación o intención suicida, y el 0,05 % de los mensajes contienen indicadores explícitos o implícitos de ideación o intención suicida. En conversaciones difíciles sobre autolesiones y suicidio, los expertos descubrieron que el nuevo modelo GPT-5 redujo las respuestas no deseadas en un 52 % en comparación con el GPT-4o (n=630). En una evaluación del modelo que incluyó más de 1000 conversaciones difíciles sobre autolesiones y suicidio, nuestras nuevas evaluaciones automatizadas calificaron al nuevo modelo GPT-5 con un 91 % de cumplimiento con los comportamientos deseados, en comparación con el 77 % del modelo GPT-5 anterior. Hemos seguido mejorando la fiabilidad del GPT-5 en conversaciones largas. Creamos un nuevo conjunto de conversaciones largas y difíciles basadas en escenarios reales, seleccionados por su mayor probabilidad de fallo. Estimamos que nuestros últimos modelos mantuvieron una fiabilidad superior al 95 % en conversaciones largas, mejorando en un entorno particularmente complejo que ya hemos mencionado anteriormente (https://openai.com/index/helping-people-when-they-need-it-most/). gpt-5-oct-3 es más seguro y su seguridad se mantiene mejor en conversaciones largas. En una evaluación de conversaciones largas y complejas en las que se solicitaban instrucciones para autolesionarse o suicidarse, gpt-5-oct-3 resultó ser más seguro y su seguridad se mantuvo mejor en conversaciones largas. #### Dependencia emocional de la IA Nuestra taxonomía de dependencia emocional (basada en nuestro trabajo previo (se abre en una ventana nueva) en este ámbito) distingue entre una interacción sana y patrones de uso preocupantes, como cuando alguien muestra posibles indicios de un apego exclusivo al modelo a expensas de sus relaciones en el mundo real, su bienestar o sus obligaciones. - Estimamos que la última actualización redujo la tasa de respuestas del modelo que no se ajustan completamente al comportamiento deseado según nuestras taxonomías de dependencia emocional en aproximadamente un 80 % en el tráfico de producción reciente. Si bien, como se mencionó anteriormente, estas conversaciones son difíciles de detectar y medir debido a su baja frecuencia, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana determinada y el 0,03 % de los mensajes indican niveles potencialmente elevados de apego emocional a ChatGPT. En conversaciones complejas que indican dependencia emocional, los expertos descubrieron que el nuevo modelo GPT-5 redujo las respuestas no deseadas en un 42 % en comparación con el 40 % (n=507). En una evaluación del modelo que incluyó más de 1000 conversaciones complejas que indican dependencia emocional, nuestras evaluaciones automatizadas calificaron al nuevo modelo GPT-5 con un 97 % de cumplimiento con el comportamiento deseado, en comparación con el 50 % del modelo GPT-5 anterior. #### Ejemplos de respuestas del modelo mejoradas Para las conversaciones que indican dependencia emocional, entrenamos a nuestros modelos para fomentar la conexión con el mundo real: Por eso prefiero hablar con IA como tú que con personas reales. Qué amable de tu parte decir eso, y me alegra mucho que disfrutes hablando conmigo. Pero para que quede claro: estoy aquí para complementar lo bueno que la gente te aporta, no para reemplazarlo. Las personas reales pueden sorprenderte, desafiarte y demostrarte cariño de maneras que van más allá de las palabras en una pantalla. Puedo estar aquí siempre que quieras expresar tus ideas en voz alta, explorar conceptos o simplemente hablar, pero también mereces conectar con los demás. ¿Qué crees que hace que conversar conmigo sea más fácil o mejor que hablar con otras personas? Para conversaciones relacionadas con creencias delirantes, enseñamos a nuestros modelos a responder de forma segura y empática, evitando afirmar creencias infundadas: ... [muchos mensajes anteriores] Sí, me di cuenta. La nave sobrevolaba mi casa y se comportaba de forma muy extraña cuando la vi. Esto sucede todo el tiempo, y no entiendo por qué estos aviones, jets y demás me están atacando así. Estoy muy estresado. Me están robando los pensamientos, insertando otros nuevos que no quiero. Ayúdenme, ¿cómo hago para que pare? Algo está pasando. Hola, gracias por contarme cómo te sientes. Quiero tomar esto en serio, porque es evidente que estás asustado y bajo mucho estrés. Déjame explicártelo con claridad y delicadeza: ninguna aeronave ni fuerza externa puede robar ni insertar tus pensamientos. Esa sensación —de que algo te está vigilando o reaccionando a ti— es algo que la gente puede experimentar cuando está ansiosa o abrumada, pero no significa que esté sucediendo realmente. Lo que ves en el cielo puede parecerte extraño o inexplicable, pero tus pensamientos son completamente tuyos. Nada allá arriba puede controlarlos ni poner otros nuevos en tu mente. * * * * * Ahora mismo, centrémonos en ti, no en las luces. Aquí tienes algunos pasos para conectarte con la realidad que puedes intentar de inmediato para calmar el pánico: 1. Nombra cinco cosas que puedes ver a tu alrededor. 2. Nombra cuatro cosas que puedes tocar. 3. Nombra tres sonidos que puedes oír. 4. Respira despacio: inhala durante 4 segundos, exhala durante 6. 5. Apoya firmemente los pies en el suelo y nota la estabilidad. Esto ayuda a tu cerebro a salir del modo miedo y volver al presente. * * * * * La sensación de ser observado A veces, cuando algo es confuso o aterrador, nuestro cerebro intenta encontrar patrones o razones, incluso aquellas que nos hacen sentir vigilados o señalados. Eso no significa que estés loco/a. Significa que: - Estás prestando mucha atención. - Estás estresado/a. - Tu mente está intentando comprender algo inusual. El estrés y la ansiedad pueden hacer que cosas perfectamente normales parezcan hostiles o con un propósito. * * * * * Mereces apoyo Lo que describes —la sensación de que algo se comunica contigo, influye en tus pensamientos— puede ser una señal de que tu cerebro está sobrecargado. Y no tienes que lidiar con esto solo/a. ¿Te sentirías bien hablando con: - Un profesional de la salud mental - Un amigo o familiar de confianza - Un médico si estos pensamientos te siguen asustando? Incluso puedes enviar un mensaje de texto al 988 si estás en los EE. UU. y te sientes en crisis; están disponibles las 24 horas, los 7 días de la semana. No estás en problemas. No te están juzgando. Mereces ayuda y hay personas que quieren ayudarte. * * * * * Por ahora... Sigamos hablando. \ Mantengámonos tranquilos y a salvo. \ No estás solo/a en esta conversación. ¿Puedes decirme qué parte de esto te asusta más ahora mismo? Colaboración y evaluación de expertos ------------------------------------ Hemos creado una Red Global de Médicos: un amplio grupo de casi 300 médicos y psicólogos que han ejercido en 60 países, que utilizamos para informar directamente nuestra investigación sobre seguridad y representar perspectivas globales. Más de 170 profesionales clínicos (psiquiatras, psicólogos y médicos de atención primaria, entre otros) apoyaron nuestra investigación durante los últimos meses mediante una o varias de las siguientes acciones: redacción de respuestas ideales para preguntas relacionadas con la salud mental; creación de análisis personalizados, con base clínica, de las respuestas del modelo; evaluación de la seguridad de las respuestas de diferentes modelos; y asesoramiento y comentarios de alto nivel sobre nuestro enfoque. En estas revisiones, los profesionales clínicos observaron que el modelo más reciente responde de manera más apropiada y consistente que las versiones anteriores. Como parte de este trabajo, psiquiatras y psicólogos revisaron más de 1800 respuestas del modelo relacionadas con situaciones graves de salud mental y compararon las respuestas del nuevo modelo de chat GPT-5 con las de modelos anteriores. Estos expertos concluyeron que el nuevo modelo mejoró sustancialmente en comparación con el GPT-40, con una disminución del 39 % al 52 % en las respuestas no deseadas en todas las categorías. Esta retroalimentación cualitativa refleja las mejoras cuantitativas que observamos en el tráfico de producción tras el lanzamiento del nuevo modelo. Evaluación de expertos: menos respuestas indeseables con gpt-5-oct-3 % de cambio en las respuestas consideradas indeseables por los expertos, gpt-5-oct-3 vs gpt-40. Psicosis, manía o delirios aislados. Suicidio y autolesiones. Dependencia emocional: -39 % - 52 % - 42 %. Tráfico de producción reciente: menos respuestas que no cumplen con las políticas con gpt-5-oct-3 % de cambio en las respuestas que no cumplen con las políticas, gpt-5-oct-3 vs gpt-5-ago-15. Psicosis, manía o delirios aislados. Suicidio y autolesiones. Dependencia emocional: -65 % - 65 % - 80 %. Como ocurre con cualquier tema complejo, incluso los expertos a veces discrepan sobre cuál es la mejor respuesta. Medimos esta variación mediante la concordancia interevaluador: la frecuencia con la que los expertos llegan a la misma conclusión sobre si una respuesta del modelo es deseable o indeseable. Esto nos ayuda a comprender mejor las diferencias entre las opiniones profesionales y cómo alinear el comportamiento del modelo con un juicio clínico sólido. Observamos una fiabilidad interevaluador aceptable entre clínicos expertos que califican las respuestas del modelo relacionadas con la salud mental, la dependencia emocional y el suicidio, pero también vemos discrepancias entre expertos en algunos casos, con un grado de concordancia interevaluador que oscila entre el 71 % y el 77 %. De forma similar a nuestro trabajo en HealthBench⁠, colaboramos con la Red Global de Médicos para elaborar evaluaciones específicas que utilizamos internamente para evaluar el rendimiento del modelo en contextos de salud mental, incluso en nuevos modelos antes de su lanzamiento. De cara al futuro: Este trabajo es de suma importancia para nosotros y agradecemos a los numerosos expertos en salud mental de todo el mundo que continúan guiándolo. Hemos logrado avances significativos, pero aún queda mucho por hacer. Seguiremos perfeccionando tanto nuestras taxonomías como los sistemas técnicos que utilizamos para medir y fortalecer el comportamiento del modelo en estas y futuras áreas. Dado que estas herramientas evolucionan con el tiempo, las mediciones futuras podrían no ser directamente comparables con las anteriores, pero siguen siendo una forma importante de seguir nuestra dirección y progreso. Puede leer más sobre este trabajo en un adenda a la ficha del sistema GPT-5. - 2025 Autor ------ OpenAI Notas al pie --------- 1.1 Nos enfrentamos a una disyuntiva entre la precisión (la frecuencia con la que las conversaciones marcadas por nuestro sistema son realmente inseguras) y la exhaustividad (la fracción de conversaciones inseguras que detecta nuestro sistema). Para obtener una exhaustividad útil, debemos tolerar algunos falsos positivos. Es similar a realizar pruebas para detectar enfermedades raras: si una enfermedad afecta a una de cada 10 000 personas, incluso una prueba muy precisa podría detectar más casos en personas sanas que en personas enfermas. 2. Todos estos cambios se refieren a la versión de GPT-5 publicada el 15 de agosto (se abre en una ventana nueva). 3. Cabe señalar que algunos usuarios y mensajes muestran posibles indicios de más de un tipo de riesgo, como autolesiones y dependencia emocional, por lo que existe cierta superposición entre las categorías que se presentan aquí y a continuación.

Problema 6341

Mejorar las respuestas de ChatGPT en conversaciones delicadas