Resolver una maquina
Las imágenes para descargar en el sitio web de la oficina de noticias del MIT están disponibles para entidades no comerciales, la prensa y el público en general bajo una licencia Creative Commons Attribution Non-Commercial No Derivatives. No puede alterar las imágenes proporcionadas, excepto para recortarlas al tamaño. Se debe utilizar una línea de crédito al reproducir imágenes; si no se proporciona uno a continuación, acredite las imágenes a "MIT".
Imagen anterior Imagen siguiente
Los grandes modelos de lenguaje como GPT-3 de OpenAI son redes neuronales masivas que pueden generar texto similar al humano, desde poesía hasta código de programación. Estos modelos de aprendizaje automático, entrenados con gran cantidad de datos de Internet, toman una pequeña cantidad de texto de entrada y luego predicen el texto que probablemente vendrá a continuación.
Pero eso no es todo lo que estos modelos pueden hacer. Los investigadores están explorando un fenómeno curioso conocido como aprendizaje en contexto, en el que un modelo de lenguaje grande aprende a realizar una tarea después de ver solo unos pocos ejemplos, a pesar de que no fue entrenado para esa tarea. Por ejemplo, alguien podría proporcionarle al modelo varias oraciones de ejemplo y sus sentimientos (positivos o negativos), luego sugerirle una nueva oración y el modelo puede dar el sentimiento correcto.
Por lo general, un modelo de aprendizaje automático como GPT-3 necesitaría volver a entrenarse con nuevos datos para esta nueva tarea. Durante este proceso de entrenamiento, el modelo actualiza sus parámetros a medida que procesa nueva información para aprender la tarea. Pero con el aprendizaje en contexto, los parámetros del modelo no se actualizan, por lo que parece que el modelo aprende una nueva tarea sin aprender nada en absoluto.
Científicos del MIT, Google Research y la Universidad de Stanford se esfuerzan por desentrañar este misterio. Estudiaron modelos que son muy similares a los modelos de lenguaje grande para ver cómo pueden aprender sin actualizar los parámetros.
Los resultados teóricos de los investigadores muestran que estos modelos masivos de redes neuronales son capaces de contener modelos lineales más pequeños y simples enterrados en su interior. Luego, el modelo grande podría implementar un algoritmo de aprendizaje simple para entrenar a este modelo lineal más pequeño para completar una nueva tarea, utilizando solo la información que ya está contenida en el modelo más grande. Sus parámetros permanecen fijos.
Un paso importante hacia la comprensión de los mecanismos detrás del aprendizaje en contexto, esta investigación abre la puerta a una mayor exploración de los algoritmos de aprendizaje que estos grandes modelos pueden implementar, dice Ekin Akyürek, estudiante de posgrado en informática y autor principal de un artículo que explora este fenómeno. Con una mejor comprensión del aprendizaje en contexto, los investigadores podrían permitir que los modelos completen nuevas tareas sin la necesidad de una costosa capacitación.
"Por lo general, si desea afinar estos modelos, necesita recopilar datos específicos del dominio y realizar una ingeniería compleja. Pero ahora podemos simplemente alimentarlo con una entrada, cinco ejemplos, y logra lo que queremos. Entonces, en -el aprendizaje contextual es un fenómeno de aprendizaje irrazonablemente eficiente que debe entenderse", dice Akyürek.
Junto a Akyürek en el artículo están Dale Schuurmans, científico investigador de Google Brain y profesor de informática en la Universidad de Alberta; así como los autores principales Jacob Andreas, profesor asistente del X Consortium en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL); Tengyu Ma, profesor asistente de informática y estadística en Stanford; y Danny Zhou, científico principal y director de investigación de Google Brain. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Un modelo dentro de un modelo
En la comunidad de investigación del aprendizaje automático, muchos científicos han llegado a creer que los grandes modelos de lenguaje pueden realizar un aprendizaje en contexto debido a la forma en que están entrenados, dice Akyürek.
Por ejemplo, GPT-3 tiene cientos de miles de millones de parámetros y se entrenó leyendo grandes extensiones de texto en Internet, desde artículos de Wikipedia hasta publicaciones de Reddit. Entonces, cuando alguien muestra los ejemplos del modelo de una nueva tarea, es probable que ya haya visto algo muy similar porque su conjunto de datos de entrenamiento incluía texto de miles de millones de sitios web. Repite patrones que ha visto durante el entrenamiento, en lugar de aprender a realizar nuevas tareas.
Akyürek planteó la hipótesis de que los aprendices en contexto no solo coinciden con patrones vistos anteriormente, sino que en realidad están aprendiendo a realizar nuevas tareas. Él y otros habían experimentado dando indicaciones a estos modelos utilizando datos sintéticos, que no podrían haber visto en ningún otro lugar antes, y descubrieron que los modelos aún podían aprender de unos pocos ejemplos. Akyürek y sus colegas pensaron que quizás estos modelos de redes neuronales tienen modelos de aprendizaje automático más pequeños dentro de ellos que los modelos pueden entrenar para completar una nueva tarea.
"Eso podría explicar casi todos los fenómenos de aprendizaje que hemos visto con estos grandes modelos", dice.
Para probar esta hipótesis, los investigadores utilizaron un modelo de red neuronal llamado transformador, que tiene la misma arquitectura que GPT-3, pero que había sido entrenado específicamente para el aprendizaje en contexto.
Al explorar la arquitectura de este transformador, demostraron teóricamente que puede escribir un modelo lineal dentro de sus estados ocultos. Una red neuronal se compone de muchas capas de nodos interconectados que procesan datos. Los estados ocultos son las capas entre las capas de entrada y salida.
Sus evaluaciones matemáticas muestran que este modelo lineal está escrito en algún lugar de las primeras capas del transformador. Luego, el transformador puede actualizar el modelo lineal implementando algoritmos de aprendizaje simples.
En esencia, el modelo simula y entrena una versión más pequeña de sí mismo.
Sondeando capas ocultas
Los investigadores exploraron esta hipótesis mediante experimentos de sondeo, en los que buscaron en las capas ocultas del transformador para tratar de recuperar una cierta cantidad.
"En este caso, tratamos de recuperar la solución real del modelo lineal y pudimos mostrar que el parámetro está escrito en los estados ocultos. Esto significa que el modelo lineal está en alguna parte", dice.
A partir de este trabajo teórico, los investigadores pueden permitir que un transformador realice aprendizaje en contexto agregando solo dos capas a la red neuronal. Todavía hay muchos detalles técnicos por resolver antes de que eso sea posible, advierte Akyürek, pero podría ayudar a los ingenieros a crear modelos que puedan completar nuevas tareas sin la necesidad de volver a capacitarse con nuevos datos.
"El documento arroja luz sobre una de las propiedades más notables de los modelos modernos de lenguaje grande: su capacidad para aprender de los datos proporcionados en sus entradas, sin entrenamiento explícito. Usando el caso simplificado de regresión lineal, los autores muestran teóricamente cómo los modelos pueden implementar estándares. algoritmos de aprendizaje mientras lee su entrada y, empíricamente, qué algoritmos de aprendizaje se ajustan mejor a su comportamiento observado", dice Mike Lewis, científico investigador de Facebook AI Research que no participó en este trabajo. "Estos resultados son un trampolín para comprender cómo los modelos pueden aprender tareas más complejas y ayudarán a los investigadores a diseñar mejores métodos de entrenamiento para que los modelos de lenguaje mejoren aún más su rendimiento".
En el futuro, Akyürek planea continuar explorando el aprendizaje en contexto con funciones que son más complejas que los modelos lineales que estudiaron en este trabajo. También podrían aplicar estos experimentos a grandes modelos de lenguaje para ver si sus comportamientos también se describen mediante algoritmos de aprendizaje simples. Además, quiere profundizar en los tipos de datos previos al entrenamiento que pueden permitir el aprendizaje en contexto.
"Con este trabajo, las personas ahora pueden visualizar cómo estos modelos pueden aprender de los ejemplares. Entonces, espero que cambie la visión de algunas personas sobre el aprendizaje en contexto", dice Akyürek. "Estos modelos no son tan tontos como la gente piensa. No solo memorizan estas tareas. Pueden aprender nuevas tareas, y hemos demostrado cómo se puede hacer eso".
La reportera de Motherboard, Tatyana Woodall, escribe que un nuevo estudio en coautoría de investigadores del MIT encuentra que los modelos de IA que pueden aprender a realizar nuevas tareas a partir de solo unos pocos ejemplos crean modelos más pequeños dentro de sí mismos para lograr estas nuevas tareas. "El aprendizaje está entrelazado con el conocimiento [existente]", explica el estudiante graduado Ekin Akyürek. "Demostramos que es posible que estos modelos aprendan de los ejemplos sobre la marcha sin ninguna actualización de parámetros que apliquemos al modelo".
Elemento anterior Elemento siguiente
Elemento anterior Elemento siguiente
Un modelo dentro de un modelo Sondeando capas ocultas