Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


Mejorar las capacidades de los modelos de lenguajes grandes (LLM) para recuperar información rápidamente sigue siendo un área de investigación activa que puede impactar aplicaciones importantes como la generación aumentada de recuperación (RAG) y el aprendizaje en contexto (ICL).

Los investigadores de Microsoft Research y la Universidad de Tsinghua han presentado el Transformador Diferencial (Diff Transformer), una nueva arquitectura LLM que mejora el rendimiento al amplificar la atención al contexto relevante mientras filtra el ruido. Sus hallazgos, publicados en un artículo de investigación, muestran que Diff Transformer supera a la arquitectura clásica de Transformer en varios entornos.

Transformers y el fenómeno “perdido en el medio”

La arquitectura Transformer es la base de la mayoría de los LLM modernos. Utiliza un mecanismo de atención para sopesar la importancia de diferentes partes de la secuencia de entrada al generar resultados. El mecanismo de atención emplea la función softmax, que normaliza un vector de valores en una distribución de probabilidad. En Transformers, la función softmax asigna puntuaciones de atención a diferentes tokens en la secuencia de entrada.

Sin embargo, los estudios han demostrado que los Transformers luchan por recuperar información clave de contextos prolongados.

«Comenzamos investigando el llamado fenómeno ‘perdido en el medio'», dijo a VentureBeat Furu Wei, gerente de investigación de socios de Microsoft Research, refiriéndose a hallazgos de investigaciones anteriores que demostraron que los LLM «no hacen un uso sólido de información en contextos de entrada prolongados” y que “el rendimiento se degrada significativamente cuando los modelos deben acceder a información relevante en medio de contextos prolongados”.

Wei y sus colegas también observaron que algunas alucinaciones LLM, en las que el modelo produce resultados incorrectos a pesar de tener información de contexto relevante, se correlacionan con patrones de atención falsos.

«Por ejemplo, los modelos de lenguaje grandes se distraen fácilmente con el contexto», dijo Wei. «Analizamos los patrones de atención y descubrimos que la atención de Transformer tiende a prestar demasiada atención al contexto irrelevante debido al cuello de botella de softmax».

La función softmax utilizada en el mecanismo de atención de Transformer tiende a distribuir puntuaciones de atención entre todos los tokens, incluso aquellos que no son relevantes para la tarea. Esto puede hacer que el modelo pierda el foco en las partes más importantes de la entrada, especialmente en contextos largos.

«Estudios anteriores indican que la atención softmax tiene un sesgo para aprender señales de baja frecuencia porque las puntuaciones de atención softmax están restringidas a valores positivos y deben sumarse a 1», dijo Wei. “El cuello de botella teórico hace que el Transformer clásico no pueda aprender distribuciones de atención dispersas. En otras palabras, las puntuaciones de atención tienden a aplanarse en lugar de centrarse en el contexto relevante”.

Transformador diferencial

Transformador diferencial (fuente: arXiv)

Para abordar esta limitación, los investigadores desarrollaron Diff Transformer, una nueva arquitectura básica para LLM. La idea central es utilizar un mecanismo de “atención diferencial” que cancele el ruido y amplifique la atención prestada a las partes más relevantes de la entrada.

Transformer utiliza tres vectores para calcular la atención: consulta, clave y valor. El mecanismo de atención clásico realiza la función softmax en toda la consulta y los vectores clave.

La atención diferencial propuesta funciona dividiendo la consulta y los vectores clave en dos grupos y calculando dos mapas de atención softmax separados. La diferencia entre estos dos mapas se utiliza luego como puntuación de atención. Este proceso elimina el ruido común, lo que anima al modelo a centrarse en la información pertinente a la entrada.

Los investigadores comparan su enfoque con los auriculares con cancelación de ruido o amplificadores diferenciales en ingeniería eléctrica, donde la diferencia entre dos señales cancela el ruido de modo común.

Si bien Diff Transformer implica una operación de resta adicional en comparación con el Transformer clásico, mantiene la eficiencia gracias a técnicas de paralelización y optimización.

«En la configuración experimental, igualamos la cantidad de parámetros y FLOP con Transformers», dijo Wei. «Debido a que el operador básico sigue siendo softmax, también puede beneficiarse de los kernels cuda FlashAttention ampliamente utilizados para la aceleración».

En retrospectiva, el método utilizado en Diff Transformer parece una solución simple e intuitiva. Wei lo compara con ResNet, una popular arquitectura de aprendizaje profundo que introdujo «conexiones residuales» para mejorar el entrenamiento de redes neuronales muy profundas. Las conexiones residuales supusieron un cambio muy simple en la arquitectura tradicional pero tuvieron un impacto profundo.

«En la investigación, la clave es determinar ‘¿cuál es el problema correcto?'», dijo Wei. “Una vez que podemos hacer la pregunta correcta, la solución suele ser intuitiva. Al igual que en ResNet, la conexión residual es una suma, en comparación con la resta en Diff Transformer, por lo que no fue evidente de inmediato para los investigadores proponer la idea”.

Transformador diferencial en acción

Los investigadores evaluaron Diff Transformer en varias tareas de modelado de lenguaje, ampliándolo en términos de tamaño del modelo (de 3 mil millones a 13 mil millones de parámetros), tokens de entrenamiento y longitud del contexto (hasta 64,000 tokens).

Sus experimentos demostraron que Diff Transformer supera consistentemente la arquitectura clásica de Transformer en diferentes puntos de referencia. Un transformador diferencial de 3 mil millones de parámetros entrenado en 1 billón de tokens mostró mejoras consistentes de varios puntos porcentuales en comparación con modelos de transformadores de tamaño similar.

Experimentos adicionales con diferentes tamaños de modelos y tamaños de conjuntos de datos de entrenamiento confirmaron la escalabilidad de Diff Transformer. Sus hallazgos sugieren que, en general, Diff Transformer requiere solo alrededor del 65% del tamaño del modelo o tokens de entrenamiento que necesita un Transformer clásico para lograr un rendimiento comparable.

Rendimiento del transformador diferencial
El Diff Transformer es más eficiente que el Transformer clásico en términos de parámetros y tokens de tren (fuente: arXiv)

Los investigadores también descubrieron que Diff Transformer es particularmente eficaz al utilizar longitudes de contexto cada vez mayores. Mostró mejoras significativas en la recuperación de información clave, la mitigación de alucinaciones y el aprendizaje en contexto.

Si bien los resultados iniciales son prometedores, todavía hay margen de mejora. El equipo de investigación está trabajando para ampliar Diff Transformer a tamaños de modelo más grandes y conjuntos de datos de entrenamiento. También planean extenderlo a otras modalidades, incluidas imágenes, audio, video y datos multimodales.

Los investigadores han publicado el código de Diff Transformer, implementado con diferentes mecanismos de atención y optimización. Creen que la arquitectura puede ayudar a mejorar el rendimiento en varias aplicaciones LLM.

«Como el modelo puede atender al contexto relevante con mayor precisión, se espera que estos modelos de lenguaje puedan comprender mejor la información del contexto con menos alucinaciones en contexto», dijo Wei. «Por ejemplo, para las configuraciones de generación de recuperación aumentada (como Bing Chat, Perplexity y modelos personalizados para dominios o industrias específicas), los modelos pueden generar respuestas más precisas al condicionar los documentos recuperados».