大規模言語モデル(LLM)が急速に進化する今、デコーダのみのアーキテクチャに注目が集まっています。こういったモデルはさまざまな生成タスクで高い能力を発揮しますが、多くの現実世界のアプリケーションで多くの人に指示され続けているのは、T5(The Text-to-Text Transfer Transformer)などの古典的なエンコーダ-デコーダ アーキテクチャです。エンコーダ-デコーダモデルは、推論効率、設計の柔軟性、高度なエンコーダ表現で入力を理解する能力が高く、要約、翻訳、QA などが得意です。にもかかわらず、この強力なエンコーダ-デコーダ アーキテクチャは、そこまで注目されてはいません。
本日は、このアーキテクチャを再検討した T5Gemma を紹介します。T5Gemma はエンコーダ-デコーダ LLM の新たなコレクションです。事前トレーニング済みのデコーダのみのモデルを、適応と呼ばれる手法を用いて、エンコーダ-デコーダ アーキテクチャに変換することで開発しています。T5Gemma は Gemma 2 フレームワークをベースとしており、適応による Gemma 2 2B および 9B モデルに加え、新しくトレーニングした T5 サイズのモデル(Small、Base、Large、XL)があります。研究開発の新しい機会としていただけるように、事前トレーニング済みとインストラクション チューニング済みの T5Gemma モデルをコミュニティにリリースいたします。
T5Gemma では、「事前トレーニング済みのデコーダのみのモデルをベースに、トップクラスのエンコーダ-デコーダモデルを開発できるか?」という疑問に向き合いました。その答えがモデル適応と呼ばれる手法です。核心となったアイデアは、事前トレーニング済みのデコーダのみのモデルの重みを使ってエンコーダ-デコーダモデルのパラメータを初期化したうえで、UL2 または PrefixLM ベースの事前トレーニングによってさらに適応させるという方法です。
この適応手法は非常に柔軟性が高く、モデルのサイズを自由に組み合わせることができます。たとえば、大きなエンコーダと小さなデコーダ(例: 9B エンコーダと 2B デコーダ)を組み合わせて、「アンバランス」なモデルを作ることもできます。要約タスクでは、複雑な出力を生成することよりも入力を深く理解することの方が重要になりますが、そういった特定のタスク向けに、品質と効率のトレードオフを微調整できます。
T5Gemma のパフォーマンスは?
私たちの実験によると、T5Gemma モデルは、デコーダのみの Gemma モデルと同等以上のパフォーマンスを発揮します。学習済みの表現の品質を測定する SuperGLUE など、複数のベンチマークで品質と推論効率のバランスにおける最適な位置をほぼ独占しています。
この優れたパフォーマンスは単なる理論上のものではなく、実際の品質とスピードにも現れています。GSM8K(数学的思考)の実際のレイテンシを測定した場合、T5Gemma は明らかに優れていました。たとえば、T5Gemma 9B-9B は、同じレイテンシで Gemma 2 9B よりも高い精度を実現します。さらにすばらしいのは、T5Gemma 9B-2B は 2B-2B モデルよりも大幅に精度が向上していますが、そのレイテンシははるかに小さい Gemma 2 2B モデルとほぼ同じです。この実験の結果から、エンコーダ-デコーダの適応は、品質と推論速度のバランスを両立する柔軟で強力な方法であることが示されています。
エンコーダ-デコーダ LLM には、デコーダのみのモデルと同等の能力があるでしょうか?
はい。T5Gemma は、インストラクション チューニングの前も後も、有望な能力を発揮しています。
事前トレーニング済みの T5Gemma は、論理的思考が求められる複雑なタスクで高い能力を発揮します。たとえば、T5Gemma 9B-9B は元の Gemma 2 9B モデルよりも GSM8K(数学的思考)のスコアで 9 ポイント以上、DROP(読解)で 4 ポイント高くなっています。このパターンから、適応によってエンコーダ-デコーダ アーキテクチャを初期化すれば、能力とパフォーマンスが優れた基礎モデルを作れる可能性があることがわかります。
事前トレーニングによって基礎能力が向上しているため、インストラクション チューニングで劇的に能力が高まります。たとえば、Gemma 2 IT と T5Gemma IT を比べると、総合的なパフォーマンスの差はさらに大きくなります。T5Gemma 2B-2B IT の MMLU スコアは Gemma 2 2B よりも 12 ポイント近く高くなり、GSM8K スコアは 58.0% から 70.7% に増加します。適応アーキテクチャは、優れた出発点になるだけでなく、インストラクション チューニングの効果を高め、最終的に大幅に能力の高いモデルを実現します。
Gemma 2 のような事前トレーニング済みのデコーダのみの LLM を適応させることで、強力な汎用エンコーダ-デコーダモデルを開発できます。この新たな方法を発表できることは私たちの喜びです。さらに研究を加速させ、コミュニティがこれを使って開発できるようにするため、T5Gemma の一連のチェックポイントをリリースします。
今回のリリースには以下のものが含まれます。
このチェックポイントが、モデルのアーキテクチャ、効率、パフォーマンスを調査するための貴重なリソースになることを願っています。
皆さんが T5Gemma で作る作品を楽しみにしています。詳しくは以下のリンクをご覧ください。
Unlock Gemini’s reasoning: A step-by-step guide to logprobs on Vertex AI
Build with Veo 3, now available in the Gemini API
Gemma 3n の紹介: デベロッパー ガイド
Simplify your Agent "vibe building" flow with ADK and Gemini CLI
多言語 LLM のイノベーション: オープンモデルでグローバル コミュニケーションを推進する