En el panorama en rápida evolución de los modelos de lenguaje grandes (LLM), la atención se ha centrado principalmente en la arquitectura de solo decodificador. Si bien estos modelos demostraron funciones impresionantes en una amplia gama de tareas de generación, la arquitectura clásica de codificador-decodificador, como T5 (Transformador de transferencia de texto a texto), sigue siendo una opción popular para muchas aplicaciones del mundo real. Los modelos de codificador-decodificador a menudo sobresalen en las tareas de resumen, la traducción, el control de calidad y más debido a su alta eficiencia de inferencia, flexibilidad de diseño y representación de codificador más rica para comprender la entrada. Sin embargo, la potente arquitectura codificador-decodificador recibió poca atención relativa.
Hoy, revisamos esta arquitectura y presentamos T5Gemma, una nueva colección de LLM de codificador-decodificador desarrollados a través de la conversión de modelos preentrenados de solo decodificador en la arquitectura de codificador-decodificador con una técnica llamada adaptación. T5Gemma se basa en el marco Gemma 2, que incluye modelos Gemma 2 2B y 9B adaptados, así como un conjunto de modelos de tamaño T5 recién entrenados (pequeño, base, grande y extra-grande). Sentimos gran entusiasmo por de lanzar modelos T5Gemma preentrenados y ajustados a la instrucción a la comunidad para habilitar nuevas oportunidades de investigación y desarrollo.
En T5Gemma, hacemos la siguiente pregunta: ¿podemos crear modelos de codificador-decodificador de primer nivel basados en modelos preentrenados de solo decodificador? Respondemos a esta pregunta explorando una técnica llamada adaptación de modelos. La idea principal es inicializar los parámetros de un modelo de codificador-decodificador utilizando los pesos de un modelo de solo decodificador ya preentrenado, y luego adaptarlos aún más a través del preentrenamiento basado en UL2 o PrefixLM.
Este método de adaptación es altamente flexible, lo que permite combinaciones creativas de tamaños de modelo. Por ejemplo, podemos emparejar un codificador grande con un decodificador pequeño (por ejemplo, un codificador 9B con un decodificador 2B) para crear un modelo "desequilibrado". Esto nos permite ajustar la relación calidad-eficiencia para tareas específicas, como el resumen, donde resulta más importante una comprensión profunda de la entrada que la complejidad de la salida generada.
¿Cómo funciona T5Gemma?
En nuestros experimentos, los modelos T5Gemma logran un rendimiento comparable o mejor que sus contrapartes de Gemma de solo decodificador, casi dominando relación de eficiencia de calidad-inferencia en varios puntos de referencia, como SuperGLUE, que mide la calidad de la representación aprendida.
Esta ventaja de rendimiento no es solo teórica; también se traduce en calidad y velocidad en el mundo real. Al medir la latencia real para GSM8K (razonamiento matemático), T5Gemma proporcionó una clara ganancia. Por ejemplo, T5Gemma 9B-9B logra una mayor precisión que Gemma 2 9B, pero con una latencia similar. Aún más impresionante, T5Gemma 9B-2B ofrece un aumento significativo de la precisión sobre el modelo 2B-2B, sin embargo, su latencia es casi idéntica a la del modelo Gemma 2 2B, mucho más pequeño. En última instancia, estos experimentos muestran que la adaptación codificador-decodificador ofrece una forma flexible y potente de equilibrar la calidad y la velocidad de inferencia.
¿Podrían los LLM de codificador-decodificador tener funciones similares a los modelos de solo decodificador?
Sí, T5Gemma tiene funciones prometedoras antes y después de la sintonización de instrucciones.
Después del entrenamiento previo, T5Gemma logra avances impresionantes en tareas complejas que requieren razonamiento. Por ejemplo, T5Gemma 9B-9B obtiene 9 puntos más en GSM8K (razonamiento matemático) y 4 puntos más en DROP (comprensión de lectura) que el modelo Gemma 2 9B original. Este patrón demuestra que la arquitectura codificador-decodificador, cuando se inicializa a través de la adaptación, tiene el potencial de crear un modelo fundacional más capaz y eficiente.
Estas mejoras fundamentales desde el entrenemiento previo preparan el escenario para ganancias aún más impresionantes después de la sintonización de la instrucción. Por ejemplo, al comparar Gemma 2 IT con T5Gemma IT, la brecha de rendimiento se amplía significativamente en todos los ámbitos. T5Gemma 2B-2B IT ve su puntaje MMLU saltar casi 12 puntos sobre el Gemma 2 2B, y su puntaje GSM8K aumenta del 58.0% al 70.7%. La arquitectura adaptada no solo proporciona potencialmente un mejor punto de partida, también responde de manera más eficaz al ajuste de la instrucción, lo que conduce a un modelo final sustancialmente más capaz y útil.
Nos complace presentar este nuevo método para crear modelos de codificador-decodificador potentes y de uso general mediante la adaptación de LLM preentrenados de solo decodificador, como Gemma 2. Para ayudar a acelerar la investigación y permitir que la comunidad aproveche este trabajo, nos alegra lanzar un conjunto de nuestros puntos de control T5Gemma.
El lanzamiento incluye:
Esperamos que estos puntos de control proporcionen un recurso valioso para investigar la arquitectura, la eficiencia y el rendimiento del modelo.
No podemos esperar para ver lo que desarrollas con T5Gemma. Consulta los siguientes vínculos para obtener más información:
Innovación multilingüe en LLM: cómo los modelos abiertos ayudan a resolver la comunicación global
Presentamos Gemma 3n: guía para desarrolladores
Unlock Gemini’s reasoning: A step-by-step guide to logprobs on Vertex AI
Build with Veo 3, now available in the Gemini API
Simplify your Agent "vibe building" flow with ADK and Gemini CLI