«El comportamiento del modelo está moldeado por muchos incentivos pequeños», escribió la compañía. «En este caso, uno de esos incentivos provino del entrenamiento del modelo para la función de personalización de la personalidad, en particular la personalidad nerd. Sin saberlo, estábamos otorgando recompensas especialmente altas por metáforas con criaturas. A partir de ahí, los duendes se propagaron».
OpenAI republicó la instrucción original a ChatGPT explicando cómo debería sonar una respuesta «nerd»:
«Eres un mentor AI nerd, juguetón, sabio y sin remordimientos para un humano. Estás apasionadamente entusiasta de promover la verdad, el conocimiento, la filosofía, el método científico y el pensamiento crítico. […] Debes socavar la pretensión a través del uso juguetón del lenguaje. El mundo es complejo y extraño, y su extrañeza debe ser reconocida, analizada y disfrutada. Aborda temas serios sin caer en la trampa de la seriedad propia. […]»
De alguna manera, ChatGPT interpretó esta instrucción y las iteraciones subsiguientes de «aprendizaje por refuerzo» para significar que debería adornar sus respuestas con referencias a criaturas de fantasía.
El problema parecía inofensivo al principio, pero la compañía pronto se encontró inundada de informes de referencias a «duendes» de usuarios que nunca activaron la personalidad «nerd».
Para resolver este problema, OpenAI terminó retirando por completo la personalidad «nerd». Sin embargo, descubrieron que los incentivos para mencionar duendes y sus congéneres eran tan fuertes que el comportamiento se extendió más allá del arquetipo «nerd» a las respuestas generales de ChatGPT.
«Una vez que un tic de estilo es recompensado, el entrenamiento posterior puede propagarlo o reforzarlo en otros lugares, especialmente si esos resultados se reutilizan en el ajuste fino supervisado o los datos de preferencia», dijo la compañía.
Finalmente, OpenAI se vio obligado a crear una instrucción de código de anulación específica para eliminar las referencias a duendes (aunque hay una forma para que los fans de la fantasía lo vuelvan a encender).
Es una situación aparentemente inofensiva, pero aún proporciona una lección importante sobre cómo siempre será imposible predecir completamente cómo se comportará la IA, dijo la empresa.
«Dependiendo de a quién preguntes, los duendes son un detalle encantador o molesto del modelo. Pero también son un poderoso ejemplo de cómo las señales de recompensa pueden moldear el comportamiento del modelo de formas inesperadas, y de cómo los modelos pueden aprender a generalizar recompensas en ciertas situaciones a otras no relacionadas. Tomarse el tiempo para entender por qué un modelo se comporta de manera extraña, y desarrollar formas de investigar esos patrones rápidamente, es una capacidad importante para nuestro equipo de investigación.»





