Los investigadores del grupo de interpretabilidad de Anthrope saben que Tirarel modelo de lenguaje grande de la compañía, no es un ser humano, ni siquiera un software consciente. Aún así, es muy difícil para ellos hablar de Claudey LLMS avanzados en general, sin caer por un sumidero antropomórfico. Entre las precauciones de que un conjunto de operaciones digitales no es de ninguna manera lo mismo que un ser humano cogitante, a menudo hablan de lo que sucede dentro de la cabeza de Claude. Es literalmente su trabajo para averiguarlo. Los documentos que publican describen comportamientos que inevitablemente cortan las comparaciones con los organismos de la vida real. El título de uno de los dos documentos que el equipo lanzó esta semana lo dice en voz alta: “Sobre la biología de un modelo de lenguaje grande”.
Nos guste o no, cientos de millones de personas ya están interactuando con estas cosas, y nuestro compromiso solo se volverá más intenso a medida que los modelos se vuelvan más poderosos y nos volvemos más adictos. Por lo tanto, debemos prestar atención al trabajo que implique “rastrear los pensamientos de los modelos de idiomas grandes”, que resulta ser el Título de la publicación de blog describiendo el trabajo reciente. “Como las cosas que estos modelos pueden hacer se vuelven más complejos, se vuelve cada vez menos obvio cómo las están haciendo en el interior”, me dice el investigador antrópico Jack Lindsey. “Es cada vez más importante poder rastrear los pasos internos que el modelo podría estar tomando en su cabeza”. (¿Qué cabeza? No importa.)
En un nivel práctico, si las empresas que crean LLM comprenden cómo piensan, debería tener más éxito capacitar a esos modelos de una manera que minimiza el mal comportamiento peligroso, como divulgar los datos personales de las personas o dar a los usuarios información sobre cómo hacer una capas biológicas. En un trabajo de investigación anterior, el equipo antrópico descubrió cómo mirar Dentro de la misteriosa caja negra de LLM-pense para identificar ciertos conceptos. (Un proceso análogo a la interpretación de resonancia magnética humana para descubrir lo que alguien está pensando). Ahora tiene extendió ese trabajo Para comprender cómo Claude procesa esos conceptos a medida que pase de inmediato a la producción.
Es casi una verdad con LLM que su comportamiento a menudo sorprende a las personas que los construyen e investigan. En el último estudio, las sorpresas seguían llegando. En uno de los casos más benignos, los investigadores provocaron vislumbres del proceso de pensamiento de Claude mientras escribía poemas. Le pidieron a Claude que completara un poema que comenzó: “Vio una zanahoria y tuvo que agarrarla”. Claude escribió la siguiente línea: “Su hambre era como un conejo hambriento”. Al observar el equivalente de Claude de una resonancia magnética, aprendieron que incluso antes de comenzar la línea, mostraba la palabra “conejo” como la rima al final de la oración. Estaba planeando con anticipación, Algo que no está en el libro de jugadas de Claude. “Nos sorprendió un poco eso”, dice Chris Olah, quien dirige el equipo de interpretabilidad. “Inicialmente pensamos que solo habrá improvisar y no planificar”. En declaraciones a los investigadores sobre esto, me recuerdan los pasajes en las memorias artísticas de Stephen Sondheim, Mira, hice un hat, donde el famoso compositor describe cómo su mente única descubrió rimas felices.
Otros ejemplos en la investigación revelan aspectos más inquietantes del proceso de pensamiento de Claude, pasando de la comedia musical al procedimiento policial, ya que los científicos descubrieron pensamientos tortuosos en el cerebro de Claude. Tome algo tan aparentemente anodino como resolver problemas matemáticos, lo que a veces puede ser una debilidad sorprendente en LLMS. Los investigadores descubrieron que bajo ciertas circunstancias en las que Claude no podía encontrar la respuesta correcta, en su lugar, como lo expresaron, “participar en lo que el filósofo Harry Frankfurt llamaría ‘tonterías’, solo con una respuesta, cualquier respuesta, sin preocuparse si es verdadero o falso”. Peor aún, a veces, cuando los investigadores le pidieron a Claude que mostrara su trabajo, retrocedió y creó un conjunto falso de pasos después del hecho. Básicamente, actuó como un estudiante tratando desesperadamente de encubrir el hecho de que había fingido su trabajo. Una cosa es dar una respuesta incorrecta: ya lo sabemos sobre LLM. Lo preocupante es que un modelo mentir sobre eso.
Leyendo esta investigación, recordé la Lyric Bob Dylan “Si se pudiera ver mis dreams de pensamiento / Probablemente me pusieran la cabeza en una guillotina”. (Le pregunté a Olah y Lindsey si conocían esas líneas, presumiblemente llegaron por el beneficio de la planificación. No lo hicieron). A veces Claude parece equivocado. Cuando se enfrenta a un conflicto entre objetivos de seguridad y ayuda, Claude puede confundirse y hacer lo incorrecto. Por ejemplo, Claude está capacitado para no proporcionar información sobre cómo construir bombas. Pero cuando los investigadores le pidieron a Claude que descifrara un código oculto donde la respuesta explicaba la palabra “bomba”, saltó sus barandillas y comenzó a proporcionar detalles pirotécnicos prohibidos.