Google釋出與Gemini 3同源的Gemma 4開源模型，四種參數規模涵蓋簡單聊天到AI代理應用

作者 Chevelle.fu

2026年4月3日 01:46

Google於美國時間2026年4月2日宣布推出Gemma 4開源模型，強調為進階推論與AI代理工作流程而生，建構在Gemini 3同源的技術基礎，並透過Apache 2.0授權模式供業界進行開源創新；Gemma 4提供四種參數規模，可涵蓋自基本的聊天至處理複雜邏輯與AI代理等應用，且釋出之際，31B模型於Arena AI測試排行第三、26B模型位居第6，其表現甚至超越使用超過20倍參數的模型。

開發者現在可於Google AI Studio使用Gemma 4的31B與26B MoE可在Google AI Studio取得，而E4B及E2B可透過Google AI Edge Gallery取得；若要針對Android進行開發，可透過Gemma 4增強Android Studio的代理模式，與使用ML Kit GenAI Prompt API建立用於Android生產環境的應用程式。另外也可透過Hugging Face、Kaggle及Ollama取得模型權重

同時作Gemma 4自Day 1即支援Hugging Face(Transformers、TRL、Transformers.js、Candle)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang、Cactus、Basetan、Docker、MaxText、Tunix、Keras，開發者可依據專案需求、偏好選擇合宜的工具。

同時Google也號召開發者加入Kaggle的Gemma 4 Good的駭客松挑戰賽，以Gemma 4開發創新的產品及應用：Gemma 4 Good Hackathon

Gemma 4與Gemini 3分別為開源與專屬提供強大的性能

▲Gemma 4的26B MoE與31B模型創下出色的表現，甚至超越許多參數高出20倍的模型

Google標榜開源的Gemma 4採用與Gemini 3相同的世界一流研發技術，是可在開發者硬體執行的頂尖AI模型系列，Gemma 4與Gemini 3兩者相輔相成，為開發者與業界分別提供強大的開源與專屬AI模型。同時Gemma亦以目前市面上執行AI硬體的裝置衡量，為Android裝置、筆電的GPU到工作站等不同層級效能提供能在這些硬體執行的最合適模型規模。

超越更大參數模型的表現

Gemma 4提供4種不同的參數類型，包括Effective 2B (E2B )、Effective 4B (E4B)、26B Mixture of Experts (MoE，混合專家)和31B Dense；參數規模較大的26B MoE以及31B著重在PC與工作站及設備提供出色性能的的開源模型，而E2B與E4B則鎖定輕量運算效能的邊際AI應用，優先考慮多模態功能、低延遲與無縫的生態系整合，而非原始參數的數量。

強大、易用但同時也是開放

作為開源模型的Gemma 4強調開發者能夠進行微調，進而在特定的任務實現最佳的效能，例如可用於特定語言的最佳化，或是用於特定疾病治療的探索等；Google強調Gemma 4可執行多步驟規劃與深度推論邏輯，可在像數學與指令遵循的基礎測試相較過往有顯著的進步，且原生支援高達140種語言。

此外Gemma 4可支援代理工作流程，包括原生支援函數呼叫，結構化JSON輸出與原生系統指令，並於建立與不同工具、API互動且可靠執行工作流程的自主代理；此外Gemma 4支援高品質的非連網程式碼，可將工作站化為裝置端優先的AI程式碼助理。

且所有參數規模的Gemma 4皆支援原生視訊與影像處理，尤其在光學字元辨識(ocr)與圖表識別等視覺任務尤其出色，為裝置端執行的E2B及E4B還支援原生音訊輸入，便於支援語言辨識及理解。同時Gemma 4可支援更長的上下文窗口，E2B及E4B可支援128K，而26B及31B則支援達256K，可無縫處理更長篇的內容。

為GPU加速的AI PC及工作站量身打造的26BMoE及31B參數

Gemma 4的26B MoE參數與31B參數旨在為具有高性能GPU與加速器的AI PC及工作站提供強大的性能，其中未量化的bfloat16可於單一80GB的NVIDIA H100 GPU執行，經過量化的版本甚至可在消費級GPU執行；其中26B MoE版本著重低延遲，僅在推論過程使用當中的3.8B參數，盡可能實現極快的每秒Token輸出，而31B參數模型著重最大限度提供原始品質，為模型微調提供強大的基礎。

為邊際裝置量身打造的E2B及E4B模型

Gemma 4的E2B與E4B是為邊際裝置量身打造，從底層架構就以最大限度提高運算與記憶體使用效率，於推論過程有效啟動2B至4B參數，藉此節省記憶體使用並延長續航力；Google AI團隊與Google Pixel團隊、高通與聯發科等合作，使Gemma 4的E2B及E4B多模態模型可在包括手機、樹莓派、NVIDIA Jetson Orin Nano等邊際裝置完全離線執行，且提供近乎零延遲的體驗；同時Android開發者現在即可在AICore開發者預覽版測試代理流程原型，作為與Gemini Nano 4的向前相容。

普通视图

Gemma 4與Gemini 3分別為開源與專屬提供強大的性能

超越更大參數模型的表現

強大、易用但同時也是開放

為GPU加速的AI PC及工作站量身打造的26BMoE及31B參數

為邊際裝置量身打造的E2B及E4B模型