En Anthropic (desarrolladores de Claude) han logrado un avance significativo para comprender cómo funcionan los modelos de inteligencia artificial de gran escala. Por primera vez, han identificado millones de conceptos representados dentro de Claude Sonnet, uno de sus modelos de lenguaje.

Tradicionalmente, los modelos de IA han sido una «caja negra» – ingresamos datos y obtenemos una respuesta-, pero no está claro por qué el modelo respondió de esa manera en particular. Esto dificulta confiar plenamente en que estos modelos sean seguros y confiables. En Anthropic han abierto ligeramente esa caja negra y descubierto patrones que representan conceptos como ciudades, personas, elementos químicos, campos científicos y sintaxis de programación.

Pero lo más interesante es que también han encontrado patrones que representan conceptos más abstractos, como errores en el código de programación, sesgo de género en profesiones y conversaciones sobre guardar secretos. Incluso han podido manipular estos patrones para alterar el comportamiento del modelo, demostrando que son clave para la forma en que Claude «piensa» y responde.

Este descubrimiento de «interpretabilidad» podría ayudar en el futuro a hacer que los modelos de IA sean más seguros al permitirnos monitorear y corregir comportamientos no deseados. Por ejemplo, encontraron un patrón asociado con correos electrónicos de estafa que, cuando se activa, hace que Claude genere estafas (algo que normalmente se niega a hacer).

Si bien queda mucho trabajo por hacer, este es un gran avance hacia modelos de IA más transparentes y seguros.

🟣 Artículo completo en la web de Anthropic


👉 Suscríbete a Spacio IA, nuestra newsletter mensual, para estar al tanto de las últimas novedades en inteligencia artificial


Deja un comentario

Comentarios

Aún no hay comentarios. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *