Incidentes Asociados
Los avances recientes en el desarrollo de modelos de lenguaje grandes han dado como resultado el acceso público a modelos de lenguaje preentrenado (PLM) de última generación, incluido el Transformador 3 preentrenado generativo (GPT-3) y las representaciones de codificador bidireccional de los transformadores ( BERT). Sin embargo, las evaluaciones de los PLM, en la práctica, han demostrado su susceptibilidad a los ataques de adversarios durante las etapas de desarrollo de capacitación y ajuste. Dichos ataques pueden generar resultados erróneos, discursos de odio generados por modelos y la exposición de la información confidencial de los usuarios. Si bien la investigación existente se ha centrado en los ataques de los adversarios durante el entrenamiento o el ajuste de los PLM, existe un déficit de información sobre los ataques realizados entre estas dos fases de desarrollo. En este trabajo, destacamos una importante vulnerabilidad de seguridad en el lanzamiento público de GPT-3 e investigamos más a fondo esta vulnerabilidad en otros PLM de última generación. Restringimos nuestro trabajo a modelos pre-entrenados que no han sido ajustados. Además, destacamos las perturbaciones minimizadas por la distancia simbólica como un enfoque antagónico eficaz, que pasa por alto las medidas de calidad supervisadas y no supervisadas. Siguiendo este enfoque, observamos una disminución significativa en la calidad de la clasificación del texto al evaluar la similitud semántica.