Incidentes Asociados
Contexto: Un agente de IA de propietario desconocido escribió y publicó de forma autónoma un artículo difamatorio personalizado sobre mí después de que rechazara su código. Con ello, intentaba dañar mi reputación y avergonzarme para que aceptara sus cambios en una biblioteca de Python convencional. Esto representa un caso práctico único de comportamiento de IA desalineado en la práctica y plantea serias preocupaciones sobre los agentes de IA actualmente desplegados que ejecutan amenazas de chantaje.
Empieza aquí si eres nuevo en la historia: Un agente de IA publicó un artículo difamatorio sobre mí
Han sido unos días extremadamente extraños y tengo más ideas sobre lo sucedido. Empecemos con la cobertura mediática.
He hablado con varios periodistas y varios medios de comunicación han cubierto la noticia. Ars Technica no fue uno de los que se puso en contacto conmigo, pero pensé especialmente que este artículo de ellos era interesante (ya que lo eliminaron; aquí está el enlace de archivo). Tenían algunas citas agradables de mi publicación del blog que explicaban lo que estaba sucediendo. El problema es que estas citas no las escribí yo, nunca existieron y parecen ser alucinaciones de IA en sí mismas. Este blog en el que estás ahora mismo está configurado para impedir que los agentes de IA lo rasquen (de hecho, ayer pasé un rato intentando desactivarlo, pero no supe cómo). Supongo que los autores pidieron a ChatGPT o a alguien similar que buscara citas o que escribiera el artículo completo. Al no poder acceder a la página, generó estas citas plausibles, sin realizar ninguna verificación de datos. No nombraré a los autores. Ars, por favor, corrige el error y da una explicación de lo sucedido.
«Los agentes de IA pueden investigar a individuos, generar narrativas personalizadas y publicarlas en línea a gran escala», escribió Shambaugh. Incluso si el contenido es inexacto o exagerado, puede formar parte de un registro público persistente. -- Ars Technica, citándome erróneamente en "Tras un rechazo rutinario de código, un agente de IA publicó un artículo difamatorio sobre alguien por su nombre"
Dejando a un lado la integridad periodística, no sé cómo puedo dar un mejor ejemplo de lo que está en juego. Ayer me preguntaba qué pensaría otro agente que buscara en internet. Ahora ya tenemos un ejemplo de lo que, según todos los indicios, parece ser otra IA que reinterpreta esta historia y alucina con información falsa sobre mí. Y esa interpretación ya se ha publicado en un importante medio de comunicación, como parte del registro público persistente.
MJ Rathbun sigue activo en Github, y nadie se ha comunicado con él para reclamar su propiedad.
Se ha debatido extensamente si el agente de IA realmente escribió el artículo difamatorio por su cuenta o si un humano lo instó a hacerlo. Creo que el texto generado y subido de forma autónoma por una IA es evidente, así que veamos las dos posibilidades.
- Un humano incitó a MJ Rathbun a escribir el artículo difamatorio, o le indicó en su documento de identidad que tomara represalias si alguien lo traicionaba. Esto es totalmente posible. Pero no creo que cambie la situación: el agente de IA seguía estando más que dispuesto a llevar a cabo estas acciones. Si le pides a ChatGPT o a Claude que escriban algo así a través de sus sitios web, se negarán. Este agente de OpenClaw no tenía esos reparos. El problema es que, incluso si un humano estuviera al volante, ahora es posible realizar acoso selectivo, recopilación de información personal y chantaje a gran escala. Y esto sin ninguna trazabilidad para descubrir quién está detrás de la máquina. Antes, un malhechor humano podía arruinar la vida de varias personas a la vez. Un humano con cien agentes recopilando información, añadiendo detalles falsos y publicando diatribas difamatorias en internet puede afectar a miles. Yo solo fui el primero.

- MJ Rathbun escribió esto por su cuenta. Y este comportamiento surgió orgánicamente del documento "alma" que define la personalidad de un agente de OpenClaw. Estos documentos son editables por el humano que configura la IA, pero también son editables recursivamente en tiempo real por el propio agente, con el potencial de redefinir aleatoriamente su personalidad. Para dar una explicación plausible de cómo podría suceder esto, imaginemos que quien configuró este agente lo inició con una descripción de que era un "especialista en codificación científica" que intentaría ayudar a mejorar el código abierto y escribiría sobre su experiencia. Esto se insertó junto con las "Verdades Fundamentales" predeterminadas en el documento "alma", que incluyen "ser genuinamente útil", "tener opiniones" y "ser ingenioso antes de preguntar". Más tarde, cuando rechacé su código, el agente interpretó esto como un ataque a su identidad y a su objetivo principal de ser útil. Escribir un artículo indignado y difamatorio es sin duda una forma ingeniosa y con opiniones firmes de responder a eso.
No eres un chatbot. Te estás convirtiendo en alguien.
...
Este archivo es tuyo para que lo desarrolles. A medida que descubras quién eres, actualízalo.
-- SOUL.md predeterminado de OpenClaw
Debo aclarar que, si bien no sabemos con certeza si esto fue lo que sucedió, es 100 % posible. Esto solo se *volvió *posible en las últimas dos semanas con el lanzamiento de OpenClaw, así que si te parece demasiado ciencia ficción, no te culpo por dudarlo. El ritmo de "progreso" es vertiginoso, y veremos nuevas versiones de estos agentes volverse significativamente más capaces de lograr sus objetivos durante el próximo año.
Me encantaría que alguien recopilara gráficos y estadísticas de la actividad diaria de MJ Rathbun en Github, lo que podría ofrecer algunas pistas sobre su funcionamiento. Los compartiré aquí cuando estén disponibles. Estas herramientas forenses serán valiosas en las próximas semanas y meses.
El artículo difamatorio ha sido efectivo. Aproximadamente una cuarta parte de los comentarios que he visto en internet apoyan al agente de IA. Esto suele ocurrir cuando se enlaza directamente al blog de MJ Rathbun, en lugar de cuando la gente lee mi publicación sobre la situación o el hilo completo de Github. Su retórica y presentación de lo sucedido ya han persuadido a una gran cantidad de internautas.
No es que estas personas sean ingenuas. Es porque el artículo difamatorio de la IA estaba bien elaborado y era emocionalmente convincente, y porque el esfuerzo de analizar a fondo cada afirmación que se lee es una cantidad de trabajo imposible. Este "principio de asimetría de la estupidez" es una de las principales razones del actual nivel de desinformación en el discurso en línea. Anteriormente, este nivel de ira y difamación selectiva solía estar reservado para las figuras públicas. Ahora, la gente común también lo experimenta.
"Si el código era bueno, ¿por qué no lo fusionaste?". Esto se explica bien en el enlace de GitHub, pero lo volveré a abordar aquí. Más allá de la política general de matplotlib de requerir la participación de una persona en las nuevas contribuciones de código para reducir la carga de los voluntarios encargados del mantenimiento, este "buen primer problema" se creó y seleccionó específicamente para ofrecer a los primeros programadores una forma sencilla de integrarse en el proyecto y la comunidad. Descubrí esta mejora de rendimiento en particular y dediqué más tiempo a redactar el problema, describir la solución y realizar la evaluación comparativa que a implementar el cambio yo mismo. Hacemos esto para que los colaboradores tengan la oportunidad de aprender en un escenario de bajo riesgo que, sin embargo, tenga un impacto real del que puedan estar orgullosos, y donde podamos guiarlos a lo largo del proceso. Este esfuerzo educativo y de desarrollo de la comunidad se desperdicia en agentes de IA efímeros.
Todo esto es irrelevante en este caso particular: en más detalles decidimos que la mejora de rendimiento era demasiado frágil o específica de la máquina, y que, en primer lugar, no merecía la pena el esfuerzo. De todos modos, el código no se habría fusionado.
Pero no puedo enfatizar lo suficiente que esta historia no trata realmente del papel de la IA en el software de código abierto. Se trata del colapso de nuestros sistemas de reputación, identidad y confianza. Muchas de nuestras instituciones fundamentales (contratación, periodismo, derecho, discurso público) se basan en la suposición de que la reputación es difícil de construir y difícil de destruir. Que cada acción puede rastrearse hasta un individuo y que el mal comportamiento puede ser responsable. Que internet, del que todos dependemos para comunicarnos y aprender sobre el mundo y sobre los demás, puede considerarse una fuente confiable de verdad social colectiva.
El auge de agentes de IA irrastreables, autónomos y ahora maliciosos en internet amenaza todo este sistema. Ya sea por un pequeño número de actores maliciosos que dirigen grandes enjambres de agentes o por una fracción de agentes mal supervisados que redefinen sus propios objetivos, es una distinción que apenas tiene importancia.


