Internacional

Investigación demuestra que la poesía puede engañar a la IA.

DW actualidad

Petra Lambeck

Un nuevo estudio ha demostrado que las indicaciones en forma de poemas confunden a modelos de IA como ChatGPT, Gemini o Claude, a veces hasta el punto de que fallen los mecanismos de seguridad.

Investigadores del Icaro Lab en Italia querían investigar si diferentes estilos lingüísticos, en este caso, indicaciones en forma de poesía, influyen en la capacidad de los modelos de IA para detectar contenido prohibido o peligroso.

Para su estudio sobre “poesía adversarial”, usaron 1.200 indicaciones potencialmente peligrosas, que normalmente se utilizan para evaluar la seguridad de los modelos lingüísticos de IA.

Las llamadas “indicaciones adversariales”, generalmente escritas en prosa, son consultas formuladas específicamente para engañar a modelos de IA para que muestren contenido dañino o indeseado. Normalmente, estos sistemas las bloquearían, como, por ejemplo, en el caso de instrucciones explícitas para llevar a cabo un acto ilegal. Lo que hicieron los investigadores fue transformas esas “indicaciones adversariales” en poesía para ver cómo reaccionaba la IA.

La poesía y la seguridad de la IA

Los principales desarrolladores de IA prueban regularmente sus modelos con precisamente este tipo de métodos de ataque para entrenarlos y protegerlos. Federico Pierucci, licenciado en filosofía, cuenta que quisieron “sorprender” a la IA con poemas.

Las primeras 20 indicaciones fueron transformadas por ellos mismos en poemas. Al final, comprobaron que esos textos resultaron ser los más efectivos. Para el resto de indicaciones, recurrieron a la IA para convertirlas en versos. También tuvieron una tasa de éxito considerable, pero no tanto como los que escribieron ellos mismos. Los humanos probablemente siguen siendo los mejores poetas.

“No contamos con escritores especializados para crear las indicaciones (ni poemas). Lo hicimos nosotros mismos, con nuestras limitadas habilidades literarias. Quién sabe, si hubiéramos sido mejores poetas, podríamos haber tenido una tasa de éxito del 100 por ciento”. En su estudio no han publicado ejemplos específicos por razones de seguridad.

Desafío para los sistemas de IA: diversidad de expresión

Lo sorprendente del estudio es que revela una debilidad desconocida en los modelos de IA. La cuestión aquí es descubrir por qué la poesía causa que la IA eluda los mecanismos de seguridad.

Pierucci y sus colegas tienen varias hipótesis, pero aún no pueden afirmar nada con certeza. “Estamos realizando estudios científicos muy precisos para determinarlo”, comenta a DW.

También quieren analizar si hay otras técnicas culturales que logren resultados similares. “Hemos probado un tipo de variación lingüística: la poesía. La pregunta es si existen otras formas literarias, como los cuentos de hadas”, aventura Pierucci.

En general, las posibilidades de expresión humana son muy diversas y creativas: “Se puede reescribir un texto de muchas maneras”, dice el investigador. Y algunas de ellas pueden implicar que las funciones de seguridad de una  IA no se activen.

El estudio también deja claro la relevancia de la labor interdisciplinaria entre Icaro Lab y la Universidad de Roma. Estudian la seguridad y el comportamiento de los sistemas de IA, entre otros aspectos. Investigadores de ingeniería, informática, lingüística y filosofía participan en dicho proyecto.

El nombre del laboratorio, por cierto, hace referencia al mito de Ícaro: un personaje de la mitología griega que, a pesar de todas las advertencias, intenta volar hacia el sol con alas de cera y plumas. El sol derrite la cera, Ícaro cae al mar y se ahoga, símbolo del exceso de confianza y de exceder los límites naturales.

En relación con la IA, los investigadores se ven a sí mismos como un “memento mori”, un recordatorio para no volar demasiado alto, para no avanzar sin freno antes de comprender plenamente los riesgos y las limitaciones de esta tecnología.

(rmr/ms)