Home Technology Los ingenieros de Apple muestran cuán endeble puede ser el ‘razonamiento’ de...

Los ingenieros de Apple muestran cuán endeble puede ser el ‘razonamiento’ de la IA

5
0
Los ingenieros de Apple muestran cuán endeble puede ser el ‘razonamiento’ de la IA
ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab

Desde hace un tiempo, empresas como OpenAI y Google han estado promocionando capacidades avanzadas de “razonamiento” como el siguiente gran paso en sus últimos modelos de inteligencia artificial. Ahora, sin embargo, un nuevo estudio realizado por seis ingenieros de Apple muestra que el “razonamiento” matemático mostrado por modelos de lenguaje grandes avanzados puede ser extremadamente frágil y poco confiable frente a cambios aparentemente triviales en problemas de referencia comunes.

La fragilidad resaltada en estos nuevos resultados ayuda a respaldar investigaciones anteriores que sugieren que el uso de la coincidencia de patrones probabilísticos por parte de los LLM carece de la comprensión formal de los conceptos subyacentes necesarios para capacidades de razonamiento matemático verdaderamente confiables. “Los LLM actuales no son capaces de realizar un razonamiento lógico genuino”, plantean los investigadores basándose en estos resultados. “En cambio, intentan replicar los pasos de razonamiento observados en sus datos de entrenamiento”.

Mézclalo

En “GSM-Symbolic: Comprensión de las limitaciones del razonamiento matemático en modelos de lenguaje grandes”, actualmente disponible como papel preimpreso—comienzan los seis investigadores de Apple Conjunto estandarizado de GSM8K de más de 8.000 problemas matemáticos planteados a nivel de escuela primariaque es A menudo se utiliza como punto de referencia. para las complejas capacidades de razonamiento de los LLM modernos. Luego adoptan el novedoso enfoque de modificar una parte de ese conjunto de pruebas para reemplazar dinámicamente ciertos nombres y números con nuevos valores, de modo que una pregunta acerca de que Sophie obtenga 31 bloques de construcción para su sobrino en GSM8K podría convertirse en una pregunta acerca de que Bill obtenga 19 bloques de construcción para su hermano en la nueva evaluación GSM-Symbolic.

Este enfoque ayuda a evitar cualquier posible “contaminación de datos” que pueda resultar de que las preguntas estáticas GSM8K se introduzcan directamente en los datos de entrenamiento de un modelo de IA. Al mismo tiempo, estos cambios incidentales no alteran en absoluto la dificultad real del razonamiento matemático inherente, lo que significa que, en teoría, los modelos deberían funcionar tan bien cuando se prueban en GSM-Symbolic como en GSM8K.

En cambio, cuando los investigadores probaron más de 20 LLM de última generación en GSM-Symbolic, encontraron que la precisión promedio se redujo en todos los ámbitos en comparación con GSM8K, con caídas de rendimiento entre 0,3 por ciento y 9,2 por ciento, según el modelo. Los resultados también mostraron una alta variación en 50 ejecuciones separadas de GSM-Symbolic con diferentes nombres y valores. Las brechas de precisión de hasta el 15 por ciento entre las mejores y las peores ejecuciones eran comunes dentro de un solo modelo y, por alguna razón, cambiar los números tendía a dar como resultado una precisión peor que cambiar los nombres.

Este tipo de variación, tanto dentro de diferentes ejecuciones de GSM-Symbolic como en comparación con los resultados de GSM8K, es más que sorprendente ya que, como señalan los investigadores, “los pasos generales de razonamiento necesarios para resolver una pregunta siguen siendo los mismos”. El hecho de que cambios tan pequeños conduzcan a resultados tan variables sugiere a los investigadores que estos modelos no hacen ningún razonamiento “formal”, sino que son “intentos”[ing] realizar una especie de coincidencia de patrones en la distribución, alineando las preguntas dadas y los pasos de solución con otros similares vistos en los datos de entrenamiento”.

No te distraigas

Aún así, la variación general mostrada para las pruebas GSM-Simbólicas fue a menudo relativamente pequeña en el gran esquema de las cosas. ChatGPT-4o de OpenAI, por ejemplo, cayó del 95,2 por ciento de precisión en GSM8K a un todavía impresionante 94,9 por ciento en GSM-Symbolic. Esa es una tasa de éxito bastante alta usando cualquiera de los puntos de referencia, independientemente de si el modelo en sí utiliza o no un razonamiento “formal” detrás de escena (aunque la precisión total de muchos modelos cayó precipitadamente cuando los investigadores agregaron solo uno o dos pasos lógicos adicionales a los problemas). ).

Sin embargo, a los LLM evaluados les fue mucho peor cuando los investigadores de Apple modificaron el punto de referencia GSM-Symbolic agregando “declaraciones aparentemente relevantes pero en última instancia intrascendentes” a las preguntas. Para este conjunto de referencia “GSM-NoOp” (abreviatura de “sin operación”), una pregunta sobre cuántos kiwis recoge alguien en varios días podría modificarse para incluir el detalle incidental de que “cinco de ellos [the kiwis] eran un poco más pequeños que el promedio.”

Agregar estas pistas falsas condujo a lo que los investigadores denominaron “caídas catastróficas del rendimiento” en la precisión en comparación con GSM8K, que van del 17,5 por ciento a un enorme 65,7 por ciento, según el modelo probado. Estas caídas masivas en la precisión resaltan los límites inherentes al uso de una simple “coincidencia de patrones” para “convertir declaraciones en operaciones sin comprender realmente su significado”, escriben los investigadores.

Source link