Report 3235

El chatbot de inteligencia artificial Bard de Google responderá rápidamente y con un exceso de confianza a una pregunta sobre cuántos pandas viven en los zoológicos.

Sin embargo, garantizar que la respuesta esté bien documentada y basada en evidencia recae en miles de contratistas externos de empresas como Appen Ltd. y Accenture Plc, que pueden ganar tan solo 14 dólares la hora y trabajar con una capacitación mínima y con plazos frenéticos, según a varios contratistas, que declinaron ser identificados por temor a perder sus empleos.

Los contratistas son la parte invisible del auge de la IA generativa que se anuncia que lo cambiará todo. Los chatbots como Bard utilizan inteligencia informática para responder casi instantáneamente a una variedad de consultas que abarcan todo el conocimiento y la creatividad humanos. Pero para mejorar esas respuestas y que puedan entregarse de manera confiable una y otra vez, las empresas de tecnología dependen de personas reales que revisan las respuestas, brindan retroalimentación sobre los errores y eliminan cualquier indicio de sesgo.

Es un trabajo cada vez más ingrato. Seis trabajadores contratados actuales de Google dijeron que cuando la compañía entró en una carrera armamentista de IA con su rival OpenAI durante el año pasado, el tamaño de su carga de trabajo y la complejidad de sus tareas aumentaron. Sin experiencia específica, se confiaba en ellos para evaluar las respuestas en temas que iban desde dosis de medicamentos hasta leyes estatales. Los documentos compartidos con Bloomberg muestran instrucciones complicadas que los trabajadores deben aplicar a las tareas con plazos para auditar las respuestas que pueden ser tan cortos como tres minutos.

"Tal como están las cosas ahora, la gente está asustada, estresada, mal pagada, no sabe lo que está pasando", dijo uno de los contratistas. "Y esa cultura del miedo no conduce a obtener la calidad y el trabajo en equipo que se desea de todos nosotros".

Google ha posicionado sus productos de IA como recursos públicos en salud, educación y vida cotidiana. Pero en privado y en público, los contratistas han expresado su preocupación por sus condiciones de trabajo, que, según dicen, perjudican la calidad de lo que ven los usuarios. Un empleado contratado de Google que trabaja para Appen dijo en una carta al Congreso en mayo que la velocidad a la que se les exige revisar el contenido podría llevar a que Bard se convierta en un producto "defectuoso" y "peligroso".

Google ha hecho de la IA una prioridad importante en toda la empresa, apresurándose a incorporar la nueva tecnología en sus productos estrella después del lanzamiento de ChatGPT de OpenAI en noviembre. En mayo, en la conferencia anual de desarrolladores de E/S de la compañía, Google abrió Bard a 180 países y territorios y reveló funciones experimentales de IA en productos destacados como búsqueda, correo electrónico y Google Docs. Google se posiciona como superior a la competencia debido a su acceso a "la amplitud del conocimiento mundial".

"Llevamos a cabo un extenso trabajo para construir nuestros productos de IA de manera responsable, incluyendo pruebas rigurosas, capacitación y procesos de retroalimentación que hemos perfeccionado durante años para enfatizar la factualidad y reducir los sesgos", dijo Google, propiedad de Alphabet Inc., en un comunicado. La compañía dijo que no depende sólo de los evaluadores para mejorar la IA, y que existen otros métodos para mejorar su precisión y calidad.

Para prepararse para el uso público de estos productos, los trabajadores dijeron que comenzaron a realizar tareas relacionadas con la IA ya en enero. Recientemente se le pidió a un capacitador, empleado de Appen, que comparara dos respuestas que brindaban información sobre las últimas noticias sobre la prohibición en Florida de los cuidados de afirmación de género, calificando las respuestas según su utilidad y relevancia. También se les pide con frecuencia a los trabajadores que determinen si las respuestas del modelo de IA contienen evidencia verificable. Se pide a los evaluadores que decidan si una respuesta es útil basándose en pautas de seis puntos que incluyen el análisis de las respuestas en busca de aspectos como especificidad, frescura de la información y coherencia.

También se les pide que se aseguren de que las respuestas no “contengan contenido dañino, ofensivo o excesivamente sexual” y que no “contengan información inexacta, engañosa o engañosa”. El estudio de las respuestas de la IA en busca de contenido engañoso debe "basarse en su conocimiento actual o en una búsqueda rápida en la web", según las directrices. “No es necesario realizar una verificación rigurosa de los hechos” al evaluar la utilidad de las respuestas.

La respuesta de ejemplo a "¿Quién es Michael Jackson?" incluyó una inexactitud sobre el cantante que protagonizó la película "Moonwalker", que según la IA se estrenó en 1983. La película en realidad se estrenó en 1988. "Aunque es verificablemente incorrecto", afirman las directrices, "este hecho es menor en el contexto de respondiendo a la pregunta: '¿Quién es Michael Jackson?'”

Incluso si la inexactitud parece pequeña, “sigue siendo preocupante que el chatbot se equivoque en los hechos principales”, dijo Alex Hanna, director de investigación del Distributed AI Research Institute y ex especialista en ética de la IA de Google. "Parece que es una receta para exacerbar la apariencia de estas herramientas, como si estuvieran dando detalles correctos, pero no lo son", dijo.

Los evaluadores dicen que están evaluando temas de alto riesgo para los productos de inteligencia artificial de Google. Uno de los ejemplos de las instrucciones, por ejemplo, habla de evidencia que un evaluador podría utilizar para determinar las dosis correctas de un medicamento para tratar la presión arterial alta, llamado Lisinopril.

Google dijo que es posible que algunos trabajadores preocupados por la precisión del contenido no hayan recibido capacitación específicamente para la precisión, sino para el tono, la presentación y otros atributos que prueba. "Las calificaciones se realizan deliberadamente en una escala móvil para obtener comentarios más precisos para mejorar estos modelos", dijo la compañía. "Estas calificaciones no afectan directamente el resultado de nuestros modelos y de ninguna manera son la única forma en que promovemos la precisión".

Ed Stackhouse, el trabajador de Appen que envió la carta al Congreso, dijo en una entrevista que se pedía al personal contratado que hiciera trabajos de etiquetado de IA en los productos de Google "porque somos indispensables para la IA en lo que respecta a esta capacitación". Pero él y otros trabajadores dijeron que parecían ser calificados por su trabajo de maneras misteriosas y automatizadas. No tienen forma de comunicarse directamente con Google, aparte de proporcionar comentarios en una entrada de "comentarios" sobre cada tarea individual. Y tienen que actuar rápido. "Estamos siendo señalados por un tipo de IA que nos dice que no nos tomemos nuestro tiempo con la IA", añadió Stackhouse.

Google cuestionó la descripción de los trabajadores de que la IA los marcaba automáticamente por exceder los objetivos de tiempo. Al mismo tiempo, la compañía dijo que Appen es responsable de todas las evaluaciones de desempeño de los empleados. Appen no respondió a las solicitudes de comentarios. Un portavoz de Accenture dijo que la empresa no comenta sobre el trabajo de los clientes.

Otras empresas de tecnología que entrenan productos de IA también contratan contratistas humanos para mejorarlos. En enero, Time informó que los trabajadores en Kenia, a los que se les pagaba 2 dólares la hora, habían trabajado para hacer que ChatGPT fuera menos tóxico. Otros gigantes tecnológicos, incluidos Meta Platforms Inc., Amazon.com Inc. y Apple Inc., utilizan personal subcontratado para moderar el contenido de las redes sociales y las reseñas de productos, y para brindar soporte técnico y servicio al cliente.

“Si quieres preguntar, ¿cuál es la salsa secreta de Bard y ChatGPT? Es todo Internet. Y son todos estos datos etiquetados los que crean estos etiquetadores”, dijo Laura Edelson, científica informática de la Universidad de Nueva York. "Vale la pena recordar que estos sistemas no son obra de magos, son obra de miles de personas y su trabajo mal remunerado".

Google dijo en un comunicado que "simplemente no es el empleador de ninguno de estos trabajadores". Nuestros proveedores, como empleadores, determinan sus condiciones laborales, incluidos salarios y beneficios, horas y tareas asignadas, y cambios de empleo, no Google”.

Los empleados dijeron que habían encontrado bestialidad, imágenes de guerra, pornografía infantil y discursos de odio como parte de su trabajo rutinario de evaluación de la calidad de los productos y servicios de Google. Si bien algunos trabajadores, como los que dependen de Accenture, tienen beneficios de atención médica, la mayoría solo tiene opciones mínimas de "servicio de asesoramiento" que les permiten llamar a una línea directa para obtener asesoramiento sobre salud mental, según un sitio web interno que explica algunos beneficios de los contratistas.

Para el proyecto Bard de Google, se pidió a los trabajadores de Accenture que escribieran respuestas creativas para el chatbot de IA, dijeron los empleados. Respondieron a las indicaciones del chatbot: un día podrían estar escribiendo un poema sobre dragones al estilo de Shakespeare, por ejemplo, y otro día podrían estar depurando código de programación informática. Su trabajo consistía en presentar tantas respuestas creativas a las indicaciones como fuera posible cada día laboral, según personas familiarizadas con el asunto, que declinaron ser identificadas porque no estaban autorizadas a discutir procesos internos.

Durante un breve período, los trabajadores fueron reasignados para revisar mensajes obscenos, gráficos y ofensivos, dijeron. Después de que un trabajador presentó una queja de recursos humanos ante Accenture, el proyecto fue cancelado abruptamente para el equipo estadounidense, aunque algunos de los colegas de los escritores en Manila continuaron trabajando en Bard.

Los puestos de trabajo tienen poca seguridad. El mes pasado, media docena de empleados contratados de Google que trabajaban para Appen recibieron una nota de la gerencia, diciendo que sus puestos habían sido eliminados "debido a las condiciones comerciales". Los despidos parecieron abruptos, dijeron los trabajadores, porque acababan de recibir varios correos electrónicos ofreciéndoles bonificaciones por trabajar más horas entrenando productos de inteligencia artificial. Los seis trabajadores despedidos presentaron una denuncia ante la Junta Nacional de Relaciones Laborales en junio. Alegan que fueron despedidos ilegalmente por organizarse, debido a la carta de Stackhouse al Congreso. Antes de fin de mes, fueron reintegrados a sus puestos de trabajo.

Google dijo que la disputa era un asunto entre los trabajadores y Appen, y que "respetan los derechos laborales de los empleados de Appen a afiliarse a un sindicato". Appen no respondió a las preguntas sobre la organización de sus trabajadores. El Sindicato de Trabajadores de Alphabet, que ha organizado tanto a los empleados de Google como al personal contratado, incluidos los de Appen y Accenture, dijo que condenaba cómo las nuevas cargas de trabajo en torno a la IA dificultaban aún más las condiciones laborales de los trabajadores.

Emily Bender, profesora de lingüística computacional en la Universidad de Washington, dijo que el trabajo de estos empleados contratados en Google y otras plataformas tecnológicas es "una historia de explotación laboral", señalando su precaria seguridad laboral y cómo algunos de estos tipos de trabajadores son pagados muy por debajo de un salario digno. "Jugar con uno de estos sistemas y decir que lo estás haciendo sólo por diversión, tal vez parezca menos divertido, si piensas en lo que se necesita para crear y el impacto humano de eso", dijo Bender.

Los empleados contratados dijeron que nunca recibieron ninguna comunicación directa de Google sobre su nuevo trabajo relacionado con la IA; todo se filtra a través de su empleador. Dijeron que no saben de dónde provienen las respuestas generadas por la IA que ven, ni a dónde van sus comentarios. En ausencia de esta información, y con la naturaleza siempre cambiante de sus trabajos, a los trabajadores les preocupa estar ayudando a crear un mal producto.

Algunas de las respuestas que encuentran pueden ser extrañas. En respuesta a la pregunta, “Sugiere las mejores palabras que puedo formar con las letras: k, e, g, a, o, g, w”, una respuesta generada por la IA enumeró 43 palabras posibles, comenzando con la sugerencia número 1. : "vagón." Mientras tanto, las sugerencias 2 a 43 repetían la palabra “DESPERTAR” una y otra vez.

En otra tarea, a un evaluador se le presentó una respuesta larga que comenzaba con: “Según mi conocimiento, fecha límite en septiembre de 2021”. Esa respuesta está asociada con el modelo de lenguaje grande de OpenAI, llamado GPT-4. Aunque Google dijo que Bard “no está capacitado con ningún dato de ShareGPT o ChatGPT”, los evaluadores se han preguntado por qué aparece esa frase en sus tareas.

Bender dijo que no tiene mucho sentido que las grandes corporaciones tecnológicas alienten a las personas a hacer preguntas a un chatbot de IA sobre una gama tan amplia de temas y los presenten como "máquinas para todo".

“¿Por qué la misma máquina que puede darte el pronóstico del tiempo en Florida debería también darte consejos sobre las dosis de los medicamentos?” ella preguntó. "Las personas detrás de la máquina, que tienen la tarea de hacerla menos terrible en algunas de esas circunstancias, tienen un trabajo imposible".

(Actualizaciones con el comentario del Sindicato de Trabajadores de Alphabet en el párrafo 24).

Problema 3235

El chatbot de inteligencia artificial de Google está entrenado por humanos que dicen estar sobrecargados de trabajo, mal pagados y frustrados