Report 3253

La búsqueda siempre ha sido la utilidad más importante de Internet. Antes de que Google se convirtiera en dominante, había muchos contendientes por el trono de las búsquedas, desde Altavista hasta Lycos, Excite, Zap, Yahoo (principalmente como directorio) e incluso Ask Jeeves. La idea detrás de la World Wide Web es que tener un número casi infinito de voces es poderoso. Pero con millones de publicaciones y miles de millones de páginas web, sería imposible encontrar toda la información que desea sin realizar una búsqueda. Google tuvo éxito porque ofrecía resultados de la mejor calidad, se cargaba rápidamente y tenía menos contenido en la página que cualquiera de sus competidores. Ahora, después de haber asumido el [91 por ciento del mercado de búsqueda](https://kinsta.com/search-engine-market-share/#:~:text=Google%20dominates%20the%20search%20engine,91.88%25% 20as%20of%20June%202022.), la compañía está probando un cambio importante en su interfaz que reemplaza el coro de voces de Internet por su propio cantante de salón robótico. En lugar de resaltar enlaces a contenido de humanos expertos, la “Experiencia Generativa de Búsqueda” (SGE) utiliza un motor de plagio de IA que toma datos y fragmentos de texto de una variedad de sitios, los improvisa (a menudo palabra por palabra) y los pasa. de la obra como su creación. Si Google hace que SGE sea el modo de búsqueda predeterminado, la compañía dañará seriamente, si no destruye, la web abierta y brindará una experiencia de usuario horrible. Hace un par de semanas, Google puso SGE a disposición del público en una versión beta limitada (puede registrarse aquí). Si estás en el programa beta como yo, verás lo que la compañía parece tener planeado para el futuro cercano: una página de resultados de búsqueda donde las respuestas y consejos de Google ocupan toda la primera pantalla, y tienes que desplazarte hasta abajo. la página para ver el primer resultado de búsqueda orgánica. Por ejemplo, cuando busqué "mejor bicicleta", la respuesta SGE de Google, combinada con sus enlaces de compras y otros elementos básicos, ocupó los primeros 1.360 píxeles verticales de la pantalla antes de que pudiera ver el primer resultado de búsqueda real. (Crédito de la imagen: Tom's Hardware) Por su parte, Google dice que solo está "experimentando" y puede realizar algunos cambios antes de implementar SGE para todos como una experiencia predeterminada. La empresa dice que quiere seguir generando tráfico fuera del sitio. "Estamos poniendo los sitios web en primer plano en SGE, diseñando la experiencia para resaltar y llamar la atención sobre el contenido de toda la web", me dijo un portavoz de Google. “SGE está comenzando como un experimento en Search Labs, y recibir comentarios de las personas nos ayuda a mejorar la experiencia y comprender cómo la IA generativa puede ser útil en los viajes de información. Las experiencias que finalmente llegan a la Búsqueda probablemente serán diferentes de los experimentos que ves en Search Labs. A medida que experimentamos con nuevas capacidades de LLM en la Búsqueda, continuaremos priorizando enfoques que generarán tráfico valioso a una amplia gama de creadores". Al "poner los sitios web en primer plano", Google se refiere al bloque de tres miniaturas de enlaces relacionados que a veces (pero no siempre) aparecen a la derecha de su respuesta SGE. Estas son una hoja de parra para los editores, pero no siempre son los mejores recursos (no coinciden con los mejores resultados orgánicos) y pocas personas harán clic en ellos después de haber obtenido su "respuesta" en el texto de SGE (Crédito de la imagen: Tom's Hardware) Por ejemplo, cuando busqué "Mejor CPU", los enlaces relacionados eran de los sitios [Maketecheasier.com] (https://www.maketecheasier.com/buying-cpu-processor-guide/#:~:text=Clock%20speed%20explains%20how%20fast%20the%20individual,count%20and%20vice%20versa%20for%20productivity %20usuarios.), [Nanoreview](https://nanoreview.net/en/cpu-compare/amd-ryzen-9-7900x3d-vs-amd-ryzen-7-7800x3d#:~:text=Pros:%20 +%20Has%204%20more%20physical%20cores,v5%20test%20%2D%202192%20vs%201945%20points) y [MacPaw](https://macpaw.audw.net/c/221109/66209/1733 ?subId1=tomshardware-us-7035733169633876000&sharedId=tomshardware-us&u=https%3A%2F%2Fmacpaw.com%2Fhow-to%2Fchoose-best-processor-for-mac). Ninguno de estos sitios está siquiera en la primera página de resultados orgánicos para "Mejor CPU" y por una buena razón. No son autoridades líderes en el campo y los artículos vinculados ni siquiera proporcionan listas de las mejores CPU. El artículo de MacPaw trata sobre cómo elegir el mejor procesador para su MacBook, un tema que no coincide con la intención de alguien que busca la "mejor CPU", ya que es casi seguro que esas personas estén buscando un procesador para PC de escritorio. Un guiso de plagio Peor aún, las respuestas en los cuadros SGE de Google con frecuencia están plagiadas, a menudo palabra por palabra, de los enlaces relacionados. Dependiendo de lo que busque, puede encontrar un párrafo tomado de una sola fuente u obtener un montón de oraciones y datos de diferentes artículos mezclados en un guiso de plagio. Cuando busqué "cuál es más rápido, el Ryzen 7 7800X3D o el Core i9-13900K", Google SGE tomó una frase exacta de nuestro Tom's Hardware [artículo que compara las dos CPU] (https://www.tomshardware.com/news/ amd-ryzen-7-7800x3d-vs-intel-core-i9-13900k-vs-intel-core-7-13700K#:~:text=En%20our%20test%20suite%2C%20the,and%209%25 %20faster%20at%201440p.), escribiendo "El Ryzen 7 7800X3D es un 12% más rápido que el Core i9-13900K en juegos de 1080p y un 9% más rápido en 1440p". Luego reformuló dos oraciones de [este artículo en Hardware Times](https://www.hardwaretimes.com/amd-ryzen-7-7800x3d-vs-intel-core-i9-13900k-12-gaming-benchmarks-power- eficiencia-temps/#:~:text=The%20Core%20i9%2D13900K%20snags,13900K%20in%20Ubisoft's%20latest%20title.). La copia original decía: “El Core i9-13900K obtiene una victoria en” A Plague Tale “con y sin trazado de rayos. Es ligeramente más rápido que el Ryzen 7 7800X3D con mínimos similares. Las tornas cambian en Assassins’ Creed Valhalla cuando el 7800X3D supera al 13900K en el último título de Ubisoft”. Y la IA de Google lo escribió así: “El Core i9-13900K es ligeramente más rápido que el Ryzen 7 7800X3D en 'A Plague Tale'. Sin embargo, el Ryzen 7 7800X3D supera al Core i9-13900K en Assassins' Creed Valhalla”. (Crédito de la imagen: Tom's Hardware) Incluso puede ver claramente en nuestra captura de pantalla que nuestra oración se cita palabra por palabra en el cuadro "fragmento destacado" de Google, pero no en el cuadro SGE (que probablemente reemplazará los fragmentos destacados en el futuro ya que SGE hace básicamente lo mismo). Sí, tanto el artículo de Hardware Times como el artículo de Tom's Hardware del que el robot de Google copió datos aparecen como enlaces relacionados en el lado derecho del cuadro. Cuando le pregunté a Google sobre el hecho de que sus respuestas SGE son frecuentemente copias palabra por palabra extraídas de los artículos de enlaces relacionados, la compañía dijo que elige esos enlaces porque "corroboran" las respuestas. "Las respuestas generativas están corroboradas por fuentes de la web", dijo el portavoz. "Y cuando una parte de una instantánea incluye brevemente contenido de una fuente específica, resaltaremos esa fuente de manera destacada en la instantánea". Es bastante fácil encontrar fuentes que respalden sus afirmaciones cuando éstas se copian palabra por palabra de esas fuentes. Si bien el robot podría hacer un mejor trabajo al blanquear su plagio, es inevitable que la respuesta provenga del trabajo de algún ser humano. No importa qué tan avanzados sean los LLM, nunca serán la fuente principal de datos o consejos y solo podrán reutilizar lo que las personas han hecho. Los LLM son relativamente buenos para generar trabajos "creativos" que están diseñados para ser una combinación de ideas existentes (por ejemplo: "escríbeme un haiku sobre pedos") pero, hasta que estén conectados a cuerpos robóticos que salen y recopilan información de primera mano. , nunca serán una fuente de verdad. La compañía también dijo que “puede ampliar para ver cómo se aplican los enlaces a cada parte de la instantánea”. Hay un ícono de expansión que se encuentra discretamente en la esquina superior derecha del cuadro SGE, encima del tercer enlace relacionado. Y, si decide hacer clic en él, verá una interfaz torpe que coloca las miniaturas de los enlaces relacionados en línea con el texto robado. Imagen 1 de 2 (Crédito de la imagen: Tom's Hardware) (Crédito de la imagen: Tom's Hardware) Ya sea que haga clic en el botón de expandir o no, los enlaces relacionados de SGE no se presentan como citas, sino como recomendaciones para lecturas adicionales. Si empiezo a cantar “Thriller” y les digo que es una canción original que escribí, no importa si también digo “quizás quieras escuchar a un tipo llamado Micheal Jackson porque también hace algunas canciones bonitas como esta”. Eso sigue siendo plagio y, aunque no lo fuera, tendríamos un problema. El plagio es un término moral y académico, no legal, y simplemente dar crédito no es una defensa contra la infracción de derechos de autor. No se puede administrar un negocio de venta de discos Blu-ray pirateados y luego, cuando lo arrestan, decir “está todo bien, porque mencioné a George Lucas como director de Star Wars en lugar de sustituir mi propio nombre en los créditos”. Al responder a mis preguntas, el portavoz de Google también comparó el cuadro SGE con fragmentos destacados, y señaló que hoy en día los editores normalmente quieren que sus artículos aparezcan en fragmentos destacados porque esos enlaces generan tráfico de regreso. Si bien ambas experiencias utilizan contenido directamente de los editores, los fragmentos destacados son citas breves con atribución directa y un enlace muy destacado directamente a la fuente. No pretenden ser generados por una IA que todo lo sabe y, a menudo, le brindan la información suficiente para querer hacer clic para obtener más información. Desde la perspectiva del lector, nos quedamos sin ninguna autoridad para asumir la responsabilidad de las afirmaciones contenidas en la respuesta del bot. ¿Quién dice exactamente que el Ryzen 7 7800X3D es más rápido y según quién se recomienda? Sé, al rastrear el texto, que Tom's Hardware y Hardware Times respaldan esta información, pero como no hay ninguna cita, el lector no tiene forma de saberlo. De hecho, Google está diciendo que su bot es la autoridad en la que debes creer. La falacia que subyace a Google SGE es la falsa creencia de que un bot puede tener autoridad en primer lugar. Hasta que al robot le crezcan un par de manos y abra su propio espacio de laboratorio, nunca probará las CPU. Hasta que no abra una cocina, nunca tendrá sus propias recetas familiares. Lo único que puede preparar es un guiso de plagio. Depender de un robot sin fuentes como autoridad definitiva está en directa contradicción con la declaración de Google [énfasis en E-E-A-T](https://developers.google.com/search/blog/2022/12/google-raters- directrices-e-e-a-t) (Experiencia, Experiencia, Autoridad y Confianza), un estándar que utiliza para decidir qué sitios web y autores deben tener una clasificación alta en la búsqueda orgánica. Tiene mucho sentido que alguien que ha estado revisando CPU durante 15 años en un sitio web que se especializa en CPU tenga una calificación de revisión de AMD Ryzen más alta que alguien sin autoridad en el tema. Desafortunadamente, cuando se trata del propio autor de inteligencia artificial de Google (una entidad sin rostro que no tiene experiencia en hacer nada), las reglas se van por la ventana. El plagio mezquino conduce a respuestas deficientes ------------------------------------------ Al menos el resultado que obtuvimos al preguntar qué CPU era más rápida fue preciso. Sin embargo, al combinar texto de diferentes fuentes y luego no compartir cuál es la fuente de cada oración o viñeta, Google ofrece información incorrecta que a menudo contradice el material fuente del que se copió o se contradice a sí mismo. Por ejemplo, busqué "Revisión del ThinkPad X13 AMD" porque estaba interesado en ver qué pensaban los revisores sobre la computadora portátil ThinkPad X13 de Lenovo con procesador AMD en su interior. El robot de Google escribió su propia mini reseña, completa con viñetas a favor y en contra del ThinkPad X13, mientras tomaba oraciones y viñetas de al menos cuatro artículos diferentes, incluida [una reseña](https://www.laptopmag.com/ reviews/lenovo-thinkpad-x13-amd) de Laptop Mag, una revisión de Tom's Hardware, [otra revisión]( https://www.notebookcheck.net/Lenovo-ThinkPad-X13-Gen-2-review-AMD-Ryzen-Pro-makes-the-compact-business-laptop-fast.580644.0.html#:~:text=Pros :%20+%20Very%20good%20system%20rendimiento%20Cons:,slow%20for%20competitive%20gamers%20%2D%20Not%20great) de Notebook Check y una [publicación de blog](https://go.redirectingat. com/?id=92X1584492&xcust=tomshardware_us_8146957167845176000&xs=1&url=https%3A%2F%2Fwww.laptopoutlet.co.uk%2Fblog%2Flas mejores computadoras portátiles para ingenieros civiles y estructurales.html%23%3A~%3Atext% 3DPacked%2520with%2520high%252Drendimiento%2520AMD%2520Ryzen%25207%2520PRO%2Clas%2520mejores%2520y%2520más baratas%2520laptops%2520out%2520there.&sref=https%3A%2F%2Fwww.tomshardware.com%2 Fnews%2Fgoogle-sge- break-internet) de LaptopOutlet, que es una tienda que tenía alrededor de 100 palabras sobre el producto. La siguiente imagen muestra el resultado, junto con indicaciones de dónde la SGE tomó su contenido. (Crédito de la imagen: Tom's Hardware) Aparte de ser plagio y una bofetada a los escritores que hicieron el trabajo real de probar y usar esta computadora portátil, la respuesta de Google tiene muchos problemas. En primer lugar, la respuesta se refiere al ThinkPad X13 Gen 3 (la última versión con CPU AMD), pero las revisiones de las que se basa son de las versiones Gen 1 y Gen 2 del producto, que no son iguales. Si bien Laptop Mag y Tom's Hardware elogiaron el teclado y el diseño duradero de la computadora portátil, ambos sitios describieron la duración de la batería como "mediocre" o "insatisfactoria", mientras que Google enumera la "batería de larga duración" como profesional. El robot claramente obtuvo la duración de la batería de otro sitio, pero al mezclar consejos de diferentes fuentes, Google presenta a los lectores una imagen muy inexacta. Además, dado que el robot no cita fuentes, el lector no tiene forma de saber quién pensó que tenía una batería de larga duración, si procedía de un tomacorriente confiable y cómo lo probaron. Una de las fuentes, LaptopOutlet, es una tienda que vende computadoras portátiles y no realiza ninguna prueba comparativa. ¿Deberían darse a sus afirmaciones el mismo peso que aquellos periodistas que realmente realizan pruebas y no intentan activamente vender el producto? Como la mayoría de los LLM, al robot SGE de Google no parece importarle si le dice la verdad o simplemente combina oraciones de una manera que parece convincente. Dar consejos médicos incorrectos ---------------------------- El robot de Google SGE es tan descuidado en sus combinaciones de plagio que también da consejos médicos incorrectos que ha sido extraído de una variedad de fuentes. Por ejemplo, pregunté: "¿necesito una colonoscopia?" y me dio la siguiente respuesta: (Crédito de la imagen: Tom's Hardware) Resalté el texto en azul porque está peligrosamente incorrecto. El robot de Google dice que "la Sociedad Estadounidense del Cáncer recomienda que hombres y mujeres se hagan pruebas de detección de cáncer colorrectal a partir de los 50 años". Sin embargo, el propio sitio web de la Sociedad Estadounidense del Cáncer dice que los exámenes de detección deben comenzar a los 45 años, por lo que este “hecho” engañoso probablemente provino de otra parte. También hay una lista con viñetas de "razones para realizarse una colonoscopia" que no incluye "exámenes de rutina", por lo que implica que solo debe realizarse el procedimiento si tiene síntomas. La lista con viñetas está copiada palabra por palabra de un artículo en un sitio de salud del gobierno australiano llamado BetterHealth. En realidad, el artículo enumera “detección y vigilancia del cáncer colorrectal” como motivo, pero el robot de Google decidió no copiar ese hecho. Incluso si todos los hechos en la respuesta de la colonoscopia fueran claros y correctos, no se atribuyen a nadie. Entonces, ¿por qué deberías confiar en ellos y a quién culpas cuando sigues este consejo (por ejemplo, retrasar tu examen hasta los 50 años) y sucede algo malo? Al reclamar el contenido como propio, Google actúa como editor, lo que probablemente lo exponga a demandas. Aunque Google le está diciendo al público que quiere dirigir el tráfico a los editores, la experiencia SGE parece diseñada específicamente para evitar que los lectores abandonen y vayan a sitios externos, a menos que esos sitios externos sean proveedores o anunciantes de ecomm. En algunas consultas (por ejemplo, “captura de pantalla en Windows”) hay una respuesta detallada pero no hay ningún enlace relacionado. No importa que haya toneladas de artículos que le brindan muchos más detalles sobre cómo tomar una captura de pantalla. (Crédito de la imagen: Tom's Hardware) Si Google sacara su experiencia SGE de la versión beta y la convirtiera en la predeterminada, estaría detonando una bomba de 50 megatones en la web abierta y gratuita. Muchos editores, que dependen de las referencias de Google para la mayoría de sus visitas, se retirarían en unos pocos meses. Otros recortarían recursos y se esconderían detrás de muros de pago. Las pequeñas empresas que dependen de la ubicación de búsqueda orgánica para vender sus productos y servicios tendrían que pagar por la publicidad o, si no pueden permitírselo, cerrar sus negocios. Con el tiempo, incluso los aficionados que administran sitios web sin fines de lucro o publican consejos en foros probablemente dejarían de hacerlo. ¿Quién quiere escribir, aunque sea por diversión, si le van a robar las palabras y nadie va a leer su copia? ¿Responderías la pregunta de programación de alguien sobre Stack Overflow si Google simplemente reformulara tu contribución y la escupiera, sin siquiera mencionar tu nombre o la publicación en sí? No es un problema de IA: es un problema anticompetitivo ---------------------------------------- -- Este no es un caso en el que la inteligencia artificial sea más astuta que los escritores humanos o proporcione una mejor experiencia. De hecho, el método de publicación es incidental al problema. Si implementa la actual experiencia SGE, Google estaría aprovechando su posición de monopolio para impulsar su propio contenido por encima del de los demás. La empresa podría contratar un ejército de escritores no cualificados para copiar y pegar contenido de sitios web de terceros, a veces reformulándolo, en lugar de utilizar una IA. El resultado sería el mismo. No hay duda de que la IA de Google mejorará, pero ¿mejorará en qué exactamente? Probablemente hará un mejor trabajo reformulando el contenido para que sea más difícil encontrar la fuente original de la que se copió. Hará un mejor trabajo al ofrecer información actualizada y lógicamente coherente consigo misma. Sin embargo, al simplemente tomar las ideas de otras personas y no citar la fuente, no hay autoridad detrás de nada de lo que dice. El resultado final de que Google SGE entre en funcionamiento como experiencia de búsqueda predeterminada sería una Internet más débil y aislada, pero probablemente un Google más rico. La empresa aumentaría su tiempo en el sitio, sus ingresos por publicidad y sus referencias de comercio electrónico. También complacería a los inversores que quieren verlo competir con OpenAI y Bing. Algunos lectores pueden quejarse de la calidad de la información, que puede estar desactualizada, ser falsa o plagiada palabra por palabra, pero ocupar toda la primera pantalla de resultados será suficiente para que Google se apodere de un enorme porcentaje -si no de la mayoría-. de sus clics salientes actuales. Muchas personas con las que he hablado y con las que he mostrado Google SGE no pueden creer que la empresa ofrezca a todo el mundo una experiencia tan peligrosa, de mala calidad y disruptiva. Podemos esperar que el producto final no ocupe tanto espacio en pantalla como lo que estamos viendo hoy. Pero Google ya está haciendo de esta la experiencia de búsqueda diaria para cualquiera que, como yo, se registre en la versión beta. Y tiene todos los incentivos económicos para hacer de esta la nueva experiencia predeterminada para el 91 por ciento de las búsquedas en la web. Qué pueden hacer los editores, qué pueden hacer los usuarios ----------------------------------------- Cualquiera que publique en la web y necesite que la gente lea su trabajo se encuentra en una posición precaria debido al SGE de Google. Casi todas las publicaciones necesitan desesperadamente seguir recibiendo referencias de Google, por lo que no pueden optar por no ser indexadas y que sus datos sean eliminados. Pero si Google convierte a SGE en la experiencia de búsqueda predeterminada, la cantidad de referencias de Google puede caer tan drásticamente que no puedan mantener las luces encendidas. Bing tardó sólo unos meses en pasar de tener su AI Chat en una versión beta limitada a estar disponible para todos. Si Google sigue una línea de tiempo similar, podría pasar de ser un motor de búsqueda a un motor de plagio sin clics para este otoño. Los editores y las asociaciones editoriales todavía están lidiando con lo que el plagio de la IA podría afectar a sus negocios. News / Media Alliance, un grupo industrial que representa revistas y periódicos, publicó un conjunto de principios de IA que establece “El uso sin licencia de contenido creado por nuestros empresas y periodistas por parte de los sistemas GAI es una infracción de propiedad intelectual: los sistemas GAI están utilizando contenido propietario sin permiso”. Getty Images está demandando a Stability AI para evitar impedir que la empresa utilice sus imágenes protegidas por derechos de autor en los datos de entrenamiento. La biblioteca de imágenes incluso ha pedido a un tribunal del Reino Unido que [bloquee las ventas del sistema de inteligencia artificial] (http://reuters.com/technology/getty-asks-london-court-stop-uk-sales-stability-ai-system-2023 -06-01/) en ese país. El presidente de IAC Media, Barry Diller, ha abogado por que las empresas de medios demanden a los proveedores de IA por el uso no autorizado de datos de entrenamiento. ¿Los editores demandarán a Google por lo que está haciendo con SGE? Existe el argumento de que copiar palabra por palabra información de sitios web sin permiso es una forma de infracción de derechos de autor, incluso si se cita la fuente. Sin embargo, todavía no hemos visto esto litigado en los tribunales. Y muchas empresas, que necesitan cualquier tráfico que todavía obtengan de Google, querrían evitar quedar mal con la empresa. Las empresas podrían unirse, a través de asociaciones comerciales, para exigir que Google respete la propiedad intelectual y no tome medidas que destruirían la web abierta tal como la conocemos. Los lectores pueden ayudar desplazándose más allá del SGE de la empresa para hacer clic en los resultados orgánicos o cambiando a un motor de búsqueda diferente. Bing ha mostrado una mejor manera de incorporar IA, haciendo que su chatbot sea la opción no predeterminada y citando cada pieza de información que utiliza con un enlace específico (sin embargo, los enlaces no son muy destacados). Al final, si Google sigue adelante con su versión actual de SGE, dañará la calidad de su propio servicio. El contenido en el que se entrena el robot empeoraría cada vez más a medida que más editores de calidad abandonaran la web abierta. Con el tiempo, los usuarios comenzarían a buscar un servicio que brinde mejores respuestas. Pero para entonces, el daño causado a todo el ecosistema de información web podría ser irreparable. Nota: Al igual que con todos nuestros artículos de opinión, las opiniones expresadas aquí pertenecen únicamente al escritor y no a Tom's Hardware como equipo.

Problema 3253

Motor de plagio: la IA de Google para deslizar contenidos podría revolucionar Internet