Home Technology Los modelos de idiomas pequeños son la nueva ira, dicen los investigadores

Los modelos de idiomas pequeños son la nueva ira, dicen los investigadores

6
0
Los modelos de idiomas pequeños son la nueva ira, dicen los investigadores
ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab

La versión original de esta historia apareció en Revista cuanta.

Los modelos de idiomas grandes funcionan bien porque son muy grandes. Los últimos modelos de OpenAI, Meta y Deepseek utilizan cientos de miles de millones de “parámetros”, las perillas ajustables que determinan las conexiones entre los datos y se modifican durante el proceso de entrenamiento. Con más parámetros, los modelos están mejor capaces de identificar patrones y conexiones, lo que a su vez los hace más potentes y precisos.

Pero este poder tiene un costo. La capacitación de un modelo con cientos de miles de millones de parámetros requiere grandes recursos computacionales. Para entrenar su modelo Gemini 1.0 Ultra, por ejemplo, Google, según los informes, gastó $ 191 millones. Los modelos de idiomas grandes (LLM) también requieren un poder computacional considerable cada vez que respondan una solicitud, lo que los hace notorios de energía. Una sola consulta para chatgpt consume unas 10 veces Tanta energía como una sola búsqueda en Google, según el Electric Power Research Institute.

En respuesta, algunos investigadores ahora están pensando en pequeños. IBM, Google, Microsoft y OpenAI han lanzado recientemente modelos de idiomas pequeños (SLMS) que usan unos pocos mil millones de parámetros, una fracción de sus contrapartes LLM.

Los modelos pequeños no se utilizan como herramientas de propósito general como sus primos más grandes. Pero pueden sobresalir en tareas específicas y más definidas, como resumir las conversaciones, responder preguntas del paciente como un chatbot de atención médica y recopilar datos en dispositivos inteligentes. “Para muchas tareas, un modelo de parámetro de 8 mil millones es bastante bueno”, dijo Zico KolterCientífico informático de la Universidad Carnegie Mellon. También pueden ejecutarse en una computadora portátil o teléfono celular, en lugar de un gran centro de datos. (No hay consenso sobre la definición exacta de “pequeño”, pero los nuevos modelos máximo de unos 10 mil millones de parámetros).

Para optimizar el proceso de capacitación para estos pequeños modelos, los investigadores usan algunos trucos. Los modelos grandes a menudo raspan los datos de entrenamiento en bruto de Internet, y estos datos pueden desorganizarse, desordenarse y difíciles de procesar. Pero estos modelos grandes pueden generar un conjunto de datos de alta calidad que se puede usar para entrenar un modelo pequeño. El enfoque, llamado destilación de conocimiento, hace que el modelo más grande pase de manera efectiva su capacitación, como un maestro que da lecciones a un estudiante. “La razón [SLMs] Ponte tan bueno con modelos tan pequeños y tan pocos datos es que usan datos de alta calidad en lugar de las cosas desordenadas ”, dijo Kolter.

Los investigadores también han explorado formas de crear pequeños modelos comenzando con los grandes y recortándolos. Un método, conocido como poda, implica eliminar partes innecesarias o ineficientes de un red neuronal—La extensa red de puntos de datos conectados que subyace en un modelo grande.

La poda se inspiró en una red neuronal de la vida real, el cerebro humano, que gana eficiencia al recortar las conexiones entre las sinapsis a medida que una persona envejece. Los enfoques de la poda de hoy se remontan a un artículo de 1989 En el que el científico informático Yann Lecun, ahora en Meta, argumentó que hasta el 90 por ciento de los parámetros en una red neuronal entrenada podrían eliminarse sin sacrificar la eficiencia. Llamó al método “daño cerebral óptimo”. La poda puede ayudar a los investigadores a ajustar un modelo de lenguaje pequeño para una tarea o entorno en particular.

Para los investigadores interesados ​​en cómo los modelos de idiomas hacen las cosas que hacen, los modelos más pequeños ofrecen una forma económica de probar ideas novedosas. Y debido a que tienen menos parámetros que los modelos grandes, su razonamiento podría ser más transparente. “Si quieres hacer un nuevo modelo, debes probar las cosas”, dijo Leshem Choshenun científico investigador del laboratorio MIT-IBM Watson AI. “Los modelos pequeños permiten a los investigadores experimentar con estacas más bajas”.

Los modelos grandes y caros, con sus parámetros cada vez mayores, seguirán siendo útiles para aplicaciones como chatbots generalizados, generadores de imágenes y descubrimiento de drogas. Pero para muchos usuarios, un modelo pequeño y específico funcionará igual de bien, mientras que es más fácil para los investigadores entrenar y construir. “Estos modelos eficientes pueden ahorrar dinero, tiempo y calcular”, dijo Choshen.


Historia original reimpreso con permiso de Revista cuanta, una publicación editorialmente independiente del Fundación Simons cuya misión es mejorar la comprensión pública de la ciencia cubriendo los desarrollos de la investigación y las tendencias en matemáticas y las ciencias físicas y de la vida.

Source link