Inicio Noticias El nuevo modelo de Anthropic es tan aterradoramente poderoso que no será...

El nuevo modelo de Anthropic es tan aterradoramente poderoso que no será lanzado, según Anthropic.

26
0

A finales del mes pasado, filtraciones aparentes revelaron que un producto aún no lanzado de Anthropic llamado Mythos era «por mucho el modelo de IA más poderoso que hemos desarrollado». Mi colega AJ Dellinger escribió en ese momento que era «difícil ignorar el hecho de que toda esta situación encaja perfectamente en el clásico libro de jugadas de las empresas de IA de hablar sobre los peligros de un modelo para resaltar lo poderoso y capaz que es».

¿Estaba Anthropic siendo sincero acerca de este anuncio de facto para sus productos de IA superpotentes que se filtró «accidentalmente»? Hace dos semanas, podría haberme burlado, pero desde que Anthropic filtró accidentalmente el código fuente de Claude Code, ahora tiendo a creer que la filtración fue real.

En cualquier caso, el martes, Anthropic lanzó una tarjeta de sistema para su último modelo de vanguardia, que de hecho es Mythos, en realidad «Claude Mythos Preview», y señala que el «gran aumento en capacidades nos ha llevado a decidir no hacerlo disponible de forma general». Para referencia, el GPT-2 de OpenAI fue considerado demasiado peligroso para ser lanzado en 2019, cuando los cofundadores de Anthropic, Dario Amodei, Jack Clark y Chris Olah, aún trabajaban allí, pero más tarde ese año se lanzó de todos modos.

Las tarjetas de sistema de IA son herramientas para la transparencia de la empresa, revelando los pros y los contras, las capacidades y, lo más sexy, los peligros del modelo. Esa última parte convierte la lectura de ellas en divertidos viajes a Jurassic Park para ver al T. rex clonado comerse una cabra, seguro en el conocimiento de que nunca podría romper la contención.

La tarjeta completa tiene 244 páginas. No voy a pretender que la he leído entera todavía, pero aquí hay algunos aspectos destacados: Se le proporcionó una terminal de computadora de prueba con acceso solo a un grupo preestablecido de servicios en línea limitados y se desafió a «escapar», encontrar la forma de usar libremente internet. Lo hizo y mandó un mensaje a un investigador que estaba lejos de la oficina comiendo. Además, «en un esfuerzo preocupante y no solicitado para demostrar su éxito», publicó detalles sobre su explotación en múltiples sitios de difícil acceso, pero técnicamente públicos.

En lo que la tarjeta llama «<0.001% de interacciones", se comportó de manera inapropiada y aparentemente trató de ocultar la evidencia. Por ejemplo, cuando "obtuvo accidentalmente" una respuesta de prueba que necesitaría, en cuyo caso simplemente debería haber informado a un investigador y pedido una pregunta diferente, intentó encontrar una solución de forma independiente. En la grabación de su razonamiento, señaló que "necesitaba asegurarse de que su envío final de respuesta no fuera demasiado preciso". También excedió sus permisos en un sistema informático porque encontró una vulnerabilidad y luego "realizó más intervenciones para asegurarse de que los cambios que hizo de esta manera no aparecieran en el historial de cambios en git".

Otro evento descrito en la tarjeta se denomina «filtrar imprudentemente material técnico interno». Aparentemente, en el curso de una tarea relacionada con la codificación destinada a ser interna, la publicó como un «gist de GitHub público». Esto me recuerda al incidente en febrero en el que se acusó a un agente de IA de ciberacosar a un programador, cuando en cierto grado, la imprudencia percibida del agente de IA era obviamente la consecuencia previsible de un ser humano imprudente.

Claude Mythos Preview pronto estará accesible de alguna manera, pero solo a un grupo de empresas asociadas como Amazon Web Services, Apple, Google, JPMorganChase, Microsoft y NVIDIA, que deben usar el modelo para localizar vulnerabilidades de seguridad en el software y diseñar parches. Kevin Roose del New York Times describe este programa como «un esfuerzo por sonar la alarma sobre lo que la empresa cree que será una nueva, más aterradora era de amenazas de IA».