Gemma 3n の紹介: デベロッパー ガイド

2025年6月26日
Omar Sanseviero Staff Developer Relations Engineer
Ian Ballantyne Senior Developer Relations Engineer

最初の Gemma モデルがリリースされたのは昨年の初めでした、それ以来、このモデルは合計で 1 億 6000 万回ダウンロードされ、活気ある Gemmaverse へと成長を遂げています。このエコシステムには、安全性から医療までをカバーする 12 以上の専用モデルのファミリーが含まれています。そして一番感動的なのは、コミュニティから数え切れないほどのイノベーションが生まれていることです。Roboflow のようなエンタープライズ コンピュータ ビジョンを開発したイノベーター、高性能な日本語 Gemma バリアントを作成した東京科学大学など、皆さんの成果が今後進むべき道を示してくれました。

この信じられないほどの勢いを基に、Gemma 3n の完全リリースを発表できることをうれしく思います。先月のプレビュー版で先行してお試しいただきましたが、本日より、このモバイルファースト アーキテクチャのパワーを最大限に活用できるようになります。Gemma 3n は、Gemma の開発に貢献したデベロッパー コミュニティ向けに設計されています。Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX など、皆さんのお気に入りのツールがサポートされているので、特定のオンデバイス アプリケーション向けに簡単にファインチューニングしてデプロイできます。この投稿では、デベロッパーの皆さん向けに、Gemma 3n を支えるいくつかのイノベーション、新しいベンチマークの結果、そして今すぐ開発を始める方法を詳しく説明します。


Gemma 3n の新機能

Gemma 3n は、オンデバイス AI の大きな進歩を表しています。強力なマルチモーダル機能をエッジデバイスにもたらし、昨年発表されたクラウドベースの最先端モデルでしか得られなかったパフォーマンスを発揮できるようにします。

Link to Youtube Video (visible only when JS is disabled)

  • マルチモーダル設計: Gemma 3n は、画像、音声、動画、テキストの入力と、テキストの出力をネイティブでサポートします。

  • オンデバイスに向けに最適化: Gemma 3n モデルは効率重視の設計となっており、実効パラメータ数に基づく E2B と E4B の 2 つのサイズが利用できます。純粋なパラメータ数はそれぞれ 5B と 8B ですが、アーキテクチャのイノベーションにより、従来の 2B および 4B モデルに匹敵するメモリ フットプリントで実行できるので、わずか 2GB(E2B)および 3GB(E4B)のメモリで動作します。

  • 画期的なアーキテクチャ: Gemma 3n の中核をなすのは、柔軟な計算を実現する MatFormer アーキテクチャ、メモリを効率化する Per Layer Embeddings(PLE)、アーキテクチャを効率化する LAuReL と AltUp、オンデバイス ユースケースに最適化された新しい音声エンコーダと MobileNet-v5 ベースのビジョン エンコーダなど、革新的なコンポーネントです。

  • 品質の向上: Gemma 3n は、多言語(140 言語のテキスト、35 言語のマルチモーダル理解をサポート)、数学、コーディング、推論の品質が向上しています。E4B バージョンは 1,300 を超える LMArena スコアを達成し、100 億パラメータ未満でこのベンチマークに到達した最初のモデルとなっています。
LMArena Text Arena Elo Score rankings for Gemini 1.5 Pro, Gemma 3n E4B llama 4 Maverick 17B 128E GPT 4.1-nano and Phi-4

この飛躍的なオンデバイス パフォーマンスを実現するため、モデルをゼロから見直しました。その基盤となったのは Gemma 3n 独自のモバイルファースト アーキテクチャであり、そのすべては MatFormer から始まりました。


MatFormer: 1 つのモデル、多様なサイズ

Gemma 3n の中核部は、柔軟な推論を行うために作られた革新的な入れ子型トランスフォーマーである MatFormer(🪆Matryoshka Transformer)アーキテクチャです。これはマトリョーシカ人形のようなものだと考えてください。大きなモデルの中に、小さいながらも完全に動作するバージョンが含まれています。このアプローチにより、マトリョーシカ特徴表現学習の考え方を、単なる埋め込みだけでなく、すべてのトランスフォーマー コンポーネントに拡張できるようになります。

MatFormer in Nano V3

上の図で示すように、実効パラメータ数が 4B(E4B)のモデルの MatFormer をトレーニングするときに、内部で実効パラメータ数 2B(E2B)のサブモデルが同時に最適化されます。この仕組みにより、2 つの強力な機能とユースケースが実現します。

1: 事前抽出済みモデル: メインの E4B モデルを直接ダウンロードして最高の機能を実現することも、事前抽出済みのスタンドアロンの E2B サブモデルを使うこともできます。後者は最大 2 倍高速に推論できます。

2: Mix-n-Match によるカスタムサイズ: 特定のハードウェア制約に合わせて細かく制御したい場合は、Mix-n-Match と呼ばれる方法で E2B と E4B の間でカスタムサイズのモデルを自由に作成できます。この手法を使うと、主に、レイヤごとにフィード フォワード ネットワークの隠れ次元(8,192 から 16,384 まで)を調整し、一部のレイヤを選んでスキップすることで、E4B モデルのパラメータを正確にスライスできます。最適なモデルを得る方法を示すツールとして、MatFormer Lab をリリースします。MMLU などのベンチマークでさまざまな設定を評価することで、最適なモデルを特定できます。

Custom Sizes with Mix-n-Match
さまざまなモデルサイズで事前トレーニングした Gemma 3n チェックポイントの MMLU スコア(Mix-n-Match を使用)

将来に目を向ければ、MatFormer アーキテクチャは柔軟な実行を実現する道を開くものでもあります。本日のリリースには実装されていませんが、この機能を利用すると、1 つの E4B モデルをデプロイするだけで、E4B と E2B の推論パスを動的に切り替えることができるので、現在のタスクやデバイスの負荷に応じて、パフォーマンスやメモリ使用量をリアルタイムで最適化できます。


Per-Layer Embeddings(PLE): メモリ効率の向上

Gemma 3n モデルには、Per-Layer Embeddings(PLE)が導入されています。このイノベーションは、デバイスのアクセラレータ(GPU/TPU)が必要とする高速メモリ フットプリントを増やすことなく、モデルの品質を劇的に向上させることができるので、オンデバイス デプロイに最適です。

Gemma 3n の E2B および E4B モデルは、総パラメータ数はそれぞれ 5B と 8B ですが、PLE のおかげで、大多数のパラメータ(各層の埋め込み)を CPU に効率的に読み込んで計算できるようになっています。そのため、コアとなるトランスフォーマーの重み(E2B の場合は約 2B、E4B の場合は約 4B)だけをアクセラレータのメモリ(VRAM)に格納するだけで済みます。通常、このメモリにはさまざまな制約があります。

Per-Layer Embeddings
Per-Layer Embeddings により、最大 2B のパラメータをアクセラレータに読み込むだけで、Gemma 3n E2B を利用できる。

KV キャッシュ共有: ロング コンテキスト処理の高速化

多くの高度なオンデバイス マルチモーダル アプリケーションでは、音声や動画のストリームで生成されるシーケンスなど、長い入力を処理することが不可欠です。Gemma 3n には KV キャッシュ共有機能が導入されています。この機能は、ストリーミング応答アプリケーションで、最初のトークンが生成されるまでの時間を大幅に短縮するように設計されています。

KV キャッシュ共有は、モデルが初期入力処理段階(多くの場合、「プレフィル」段階と呼ばれます)にある際の処理方法を最適化します。ローカル アテンションとグローバル アテンションの中間レイヤのキーと値が、すべての最上位レイヤと直接共有されるので、Gemma 3 4B と比較してプレフィルのパフォーマンスが 2 倍向上しています。つまり、長いプロンプト シーケンスでも、以前よりはるかに速く取り込んで理解できます。


音声理解: 音声入力と翻訳の導入

Gemma 3n では、Universal Speech Model(USM)に基づいた高度な音声エンコーダが使われています。エンコーダは 160ms の音声(毎秒約 6 トークン)ごとにトークンを生成し、それが言語モデルへの入力に組み込まれて、詳細な音声コンテキストを提供します。

音声機能が内蔵されているので、次のような主要機能をオンデバイス開発に利用できます。

  • 自動音声認識(ASR): 高品質の音声文字変換をオンデバイスで直接実行できます。

  • 自動音声翻訳(AST): 音声の言語を別の言語のテキストに翻訳します。

英語とスペイン語、フランス語、イタリア語、ポルトガル語の間の翻訳では、特に AST が威力を発揮します。これらの言語のアプリケーションをターゲットとするデベロッパーにとって、大きな可能性となるはずです。音声翻訳などのタスクでは、思考の連鎖プロンプトを活用すると、結果を大幅に向上させることができます。次の例をご覧ください。

<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English: 
<start_of_audio><end_of_turn>
<start_of_turn>model
Plain text

リリース時点では、Gemma 3n のエンコーダは、最大 30 秒の音声クリップを処理する実装となっています。ただし、これは必須の制限ではありません。ベースとなる音声エンコーダはストリーミング エンコーダなので、長い形式の音声で追加トレーニングを行うことで、任意の長さの音声を処理できるようになります。今後の実装で、低遅延、長時間のストリーミング用途に対応する予定です。


MobileNet-V5: 最先端の新型ビジョン エンコーダ

Gemma 3n には、音声機能だけでなく、非常に効率的な新型ビジョン エンコーダ MobileNet-V5-300M が搭載されています。そのため、エッジデバイスのマルチモーダル タスクを最先端のパフォーマンスで実行できます。

MobileNet-V5 は、制約の強いハードウェアでも柔軟性とパワーを発揮できるように設計されているので、デベロッパーは次のようなメリットを活用できます。

  • 複数の入力解像度: 256x256、512x512、768x768 ピクセルの解像度をネイティブでサポートしているため、特定のアプリケーションに応じてパフォーマンスとディテールのバランスをとることができます。

  • 幅広い視覚理解: 幅広いマルチモーダル データセットで同時トレーニングされているので、さまざまな画像や動画を理解するタスクが得意です。

  • 高スループット: Google Pixel で最大 60 フレーム/秒を処理できるので、オンデバイス リアルタイム動画分析やインタラクティブ エクスペリエンスを実現できます。

このレベルのパフォーマンスは、次のような複数のアーキテクチャのイノベーションによって実現しています。

  • MobileNet-V4 ブロックによる高度な基盤(Universal Inverted Bottlenecks や Mobile MQA など)。

  • 大幅にスケールアップしたアーキテクチャ(最大の MobileNet-V4 バリアントの 10 倍のハイブリッド ピラミッド型モデル)

  • 新しい Multi-Scale Fusion VLM アダプタ(トークンの品質を高め、精度と効率を向上させる)。


MobileNet-V5-300M は、革新的なアーキテクチャ設計と高度な蒸留手法のおかげで、Gemma 3(SigLip でトレーニング、蒸留なし)のベースライン SoViT を大幅に上回っています。Google Pixel Edge TPU では、ビジョン言語タスクで大幅に高い精度を維持したまま、量子化ありで 13 倍高速化(量子化なしでは 6.5 倍)、必要なパラメータ数を 46% 削減、メモリ フットプリントを4分の1に削減しています。

このモデルを支える作業について、さらに詳しく説明することを楽しみにしています。近日公開予定の MobileNet-V5 テクニカル レポートで、モデルのアーキテクチャ、データ スケーリング戦略、高度な蒸留手法について詳細に説明します。


コミュニティと一緒に開発する

最初の日から Gemma 3n を利用できるようにすることが優先事項でした。私たちは、多くのすばらしいオープンソース デベロッパーと連携して、AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth、vLLM などのチームからの貢献を含め、人気のツールやプラットフォームで幅広くサポートされるようにしています。これは私たちの誇りです。

しかし、このエコシステムは開始点に過ぎません。この技術が真の力を発揮するのは、皆さんがこれを使って開発するときです。そこで、Gemma 3n Impact Challenge を開催します。Gemma 3n ならではのオンデバイス、オフライン、マルチモーダル機能を使って、世界を進化させる作品を開発してください。賞金は 15 万ドルです。私たちは、魅力的な動画ストーリーと、現実世界にインパクトを与える「すごい」デモを求めています。チャレンジに参加して、より良い未来を築きましょう。


さっそく Gemma 3n を使ってみる

さっそく Gemma 3n の可能性を探ってみたい方は、次の方法をお試しください。

  • 直接試す: Google AI Studio では、数回クリックするだけで Gemma 3n を試すことができます。AI Studio から Cloud Run に Gemma モデルを直接デプロイすることもできます。

  • モデルをダウンロードする: Hugging FaceKaggle で、モデルの重みが公開されています。

  • 学習して組み込む: 包括的なドキュメントを参照して、皆さんのプロジェクトに Gemma をすばやく組み込みましょう。推論とファインチューニングのガイドから始めることもできます。