T5Gemma: una nueva colección de modelos Gemma codificadores-decodificadores

9 DE JULIO DE 2025
Biao Zhang Research Scientist
Paul Suganthan Staff Software Engineer
Ben Hora Product Manager

En el panorama en rápida evolución de los modelos de lenguaje grandes (LLM), la atención se ha centrado principalmente en la arquitectura de solo decodificador. Si bien estos modelos demostraron funciones impresionantes en una amplia gama de tareas de generación, la arquitectura clásica de codificador-decodificador, como T5 (Transformador de transferencia de texto a texto), sigue siendo una opción popular para muchas aplicaciones del mundo real. Los modelos de codificador-decodificador a menudo sobresalen en las tareas de resumen, la traducción, el control de calidad y más debido a su alta eficiencia de inferencia, flexibilidad de diseño y representación de codificador más rica para comprender la entrada. Sin embargo, la potente arquitectura codificador-decodificador recibió poca atención relativa.

Hoy, revisamos esta arquitectura y presentamos T5Gemma, una nueva colección de LLM de codificador-decodificador desarrollados a través de la conversión de modelos preentrenados de solo decodificador en la arquitectura de codificador-decodificador con una técnica llamada adaptación. T5Gemma se basa en el marco Gemma 2, que incluye modelos Gemma 2 2B y 9B adaptados, así como un conjunto de modelos de tamaño T5 recién entrenados (pequeño, base, grande y extra-grande). Sentimos gran entusiasmo por de lanzar modelos T5Gemma preentrenados y ajustados a la instrucción a la comunidad para habilitar nuevas oportunidades de investigación y desarrollo.


De solo decodificador a codificador-decodificador

En T5Gemma, hacemos la siguiente pregunta: ¿podemos crear modelos de codificador-decodificador de primer nivel basados en modelos preentrenados de solo decodificador? Respondemos a esta pregunta explorando una técnica llamada adaptación de modelos. La idea principal es inicializar los parámetros de un modelo de codificador-decodificador utilizando los pesos de un modelo de solo decodificador ya preentrenado, y luego adaptarlos aún más a través del preentrenamiento basado en UL2 o PrefixLM.

decoder-only model
Descripción general de nuestro enfoque, donde se muestra cómo inicializamos un nuevo modelo de codificador-decodificador con los parámetros de un modelo de solo codificador preentrenado.

Este método de adaptación es altamente flexible, lo que permite combinaciones creativas de tamaños de modelo. Por ejemplo, podemos emparejar un codificador grande con un decodificador pequeño (por ejemplo, un codificador 9B con un decodificador 2B) para crear un modelo "desequilibrado". Esto nos permite ajustar la relación calidad-eficiencia para tareas específicas, como el resumen, donde resulta más importante una comprensión profunda de la entrada que la complejidad de la salida generada.


Hacia una mejor compensación de calidad-eficiencia

¿Cómo funciona T5Gemma?

En nuestros experimentos, los modelos T5Gemma logran un rendimiento comparable o mejor que sus contrapartes de Gemma de solo decodificador, casi dominando relación de eficiencia de calidad-inferencia en varios puntos de referencia, como SuperGLUE, que mide la calidad de la representación aprendida.

Encoder-decoder models benchmarks
Los modelos de codificador-decodificador ofrecen de manera continua un mejor rendimiento para un nivel determinado de cálculo de inferencia, lo que lidera la relación de calidad-eficiencia en una variedad de puntos de referencia.

Esta ventaja de rendimiento no es solo teórica; también se traduce en calidad y velocidad en el mundo real. Al medir la latencia real para GSM8K (razonamiento matemático), T5Gemma proporcionó una clara ganancia. Por ejemplo, T5Gemma 9B-9B logra una mayor precisión que Gemma 2 9B, pero con una latencia similar. Aún más impresionante, T5Gemma 9B-2B ofrece un aumento significativo de la precisión sobre el modelo 2B-2B, sin embargo, su latencia es casi idéntica a la del modelo Gemma 2 2B, mucho más pequeño. En última instancia, estos experimentos muestran que la adaptación codificador-decodificador ofrece una forma flexible y potente de equilibrar la calidad y la velocidad de inferencia.


Aprovecha funciones fundamentales y ajustadas

¿Podrían los LLM de codificador-decodificador tener funciones similares a los modelos de solo decodificador?

Sí, T5Gemma tiene funciones prometedoras antes y después de la sintonización de instrucciones.

Después del entrenamiento previo, T5Gemma logra avances impresionantes en tareas complejas que requieren razonamiento. Por ejemplo, T5Gemma 9B-9B obtiene 9 puntos más en GSM8K (razonamiento matemático) y 4 puntos más en DROP (comprensión de lectura) que el modelo Gemma 2 9B original. Este patrón demuestra que la arquitectura codificador-decodificador, cuando se inicializa a través de la adaptación, tiene el potencial de crear un modelo fundacional más capaz y eficiente.

Detailed results for pretrained models
Resultados detallados para modelos preentrenados, que ilustran cómo los modelos adaptados tienen ganancias significativas en varios puntos de referencia de razonamiento intensivo en comparación con Gemma 2 de solo decodificador.

Estas mejoras fundamentales desde el entrenemiento previo preparan el escenario para ganancias aún más impresionantes después de la sintonización de la instrucción. Por ejemplo, al comparar Gemma 2 IT con T5Gemma IT, la brecha de rendimiento se amplía significativamente en todos los ámbitos. T5Gemma 2B-2B IT ve su puntaje MMLU saltar casi 12 puntos sobre el Gemma 2 2B, y su puntaje GSM8K aumenta del 58.0% al 70.7%. La arquitectura adaptada no solo proporciona potencialmente un mejor punto de partida, también responde de manera más eficaz al ajuste de la instrucción, lo que conduce a un modelo final sustancialmente más capaz y útil.

Results for fine-tuned + RLHFed models
Resultados detallados para modelos ajustados + RLHFed, que ilustran las funciones posteriores al entrenamiento para amplificar significativamente las ventajas de rendimiento de la arquitectura codificador-decodificador.

Explora nuestros modelos: lanzamiento de los puntos de control T5Gemma

Nos complace presentar este nuevo método para crear modelos de codificador-decodificador potentes y de uso general mediante la adaptación de LLM preentrenados de solo decodificador, como Gemma 2. Para ayudar a acelerar la investigación y permitir que la comunidad aproveche este trabajo, nos alegra lanzar un conjunto de nuestros puntos de control T5Gemma.

El lanzamiento incluye:

  • Tamaños múltiples: puntos de control para modelos de tamaño T5 (pequeño, base, grande y extra-grande), modelos basados en Gemma 2 (2B y 9B), así como un modelo adicional entre T5 grande y T5 XL.

  • Variantes múltiples: modelos preentrenados y ajustados a la instrucción.

  • Configuraciones flexibles: un punto de control 9B-2B desequilibrado potente y eficiente para explorar las compensaciones entre el tamaño del codificador y el del decodificador.

  • Diferentes objetivos de entrenamiento: modelos entrenados con los objetivos de PrefixLM o UL2 para proporcionar un rendimiento generativo de vanguardia o calidad de representación.


Esperamos que estos puntos de control proporcionen un recurso valioso para investigar la arquitectura, la eficiencia y el rendimiento del modelo.


Primeros pasos con T5Gemma

No podemos esperar para ver lo que desarrollas con T5Gemma. Consulta los siguientes vínculos para obtener más información:

  • Lee el artículo para aprender sobre la investigación detrás de este proyecto.

  • Explora las capacidades de los modelos o ajústalos para sus propios casos de uso con el notebook de Colab.

  • Ejecuta inferencia con los modelos en Vertex AI.