Google釋出與Gemini 3同源的Gemma 4開源模型,四種參數規模涵蓋簡單聊天到AI代理應用
Google於美國時間2026年4月2日宣布推出Gemma 4開源模型,強調為進階推論與AI代理工作流程而生,建構在Gemini 3同源的技術基礎,並透過Apache 2.0授權模式供業界進行開源創新;Gemma 4提供四種參數規模,可涵蓋自基本的聊天至處理複雜邏輯與AI代理等應用,且釋出之際,31B模型於Arena AI測試排行第三、26B模型位居第6,其表現甚至超越使用超過20倍參數的模型。
開發者現在可於Google AI Studio使用Gemma 4的31B與26B MoE可在Google AI Studio取得,而E4B及E2B可透過Google AI Edge Gallery取得;若要針對Android進行開發,可透過Gemma 4增強Android Studio的代理模式,與使用ML Kit GenAI Prompt API建立用於Android生產環境的應用程式。另外也可透過Hugging Face、Kaggle及Ollama取得模型權重
同時作Gemma 4自Day 1即支援Hugging Face(Transformers、TRL、Transformers.js、Candle)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang、Cactus、Basetan、Docker、MaxText、Tunix、Keras,開發者可依據專案需求、偏好選擇合宜的工具。
同時Google也號召開發者加入Kaggle的Gemma 4 Good的駭客松挑戰賽,以Gemma 4開發創新的產品及應用:Gemma 4 Good Hackathon
Gemma 4與Gemini 3分別為開源與專屬提供強大的性能

Google標榜開源的Gemma 4採用與Gemini 3相同的世界一流研發技術,是可在開發者硬體執行的頂尖AI模型系列,Gemma 4與Gemini 3兩者相輔相成,為開發者與業界分別提供強大的開源與專屬AI模型。同時Gemma亦以目前市面上執行AI硬體的裝置衡量,為Android裝置、筆電的GPU到工作站等不同層級效能提供能在這些硬體執行的最合適模型規模。
超越更大參數模型的表現
Gemma 4提供4種不同的參數類型,包括Effective 2B (E2B )、Effective 4B (E4B)、26B Mixture of Experts (MoE,混合專家)和31B Dense;參數規模較大的26B MoE以及31B著重在PC與工作站及設備提供出色性能的的開源模型,而E2B與E4B則鎖定輕量運算效能的邊際AI應用,優先考慮多模態功能、低延遲與無縫的生態系整合,而非原始參數的數量。
強大、易用但同時也是開放
作為開源模型的Gemma 4強調開發者能夠進行微調,進而在特定的任務實現最佳的效能,例如可用於特定語言的最佳化,或是用於特定疾病治療的探索等;Google強調Gemma 4可執行多步驟規劃與深度推論邏輯,可在像數學與指令遵循的基礎測試相較過往有顯著的進步,且原生支援高達140種語言。
此外Gemma 4可支援代理工作流程,包括原生支援函數呼叫,結構化JSON輸出與原生系統指令,並於建立與不同工具、API互動且可靠執行工作流程的自主代理;此外Gemma 4支援高品質的非連網程式碼,可將工作站化為裝置端優先的AI程式碼助理。
且所有參數規模的Gemma 4皆支援原生視訊與影像處理,尤其在光學字元辨識(ocr)與圖表識別等視覺任務尤其出色,為裝置端執行的E2B及E4B還支援原生音訊輸入,便於支援語言辨識及理解。同時Gemma 4可支援更長的上下文窗口,E2B及E4B可支援128K,而26B及31B則支援達256K,可無縫處理更長篇的內容。
為GPU加速的AI PC及工作站量身打造的26BMoE及31B參數

Gemma 4的26B MoE參數與31B參數旨在為具有高性能GPU與加速器的AI PC及工作站提供強大的性能,其中未量化的bfloat16可於單一80GB的NVIDIA H100 GPU執行,經過量化的版本甚至可在消費級GPU執行;其中26B MoE版本著重低延遲,僅在推論過程使用當中的3.8B參數,盡可能實現極快的每秒Token輸出,而31B參數模型著重最大限度提供原始品質,為模型微調提供強大的基礎。
為邊際裝置量身打造的E2B及E4B模型
Gemma 4的E2B與E4B是為邊際裝置量身打造,從底層架構就以最大限度提高運算與記憶體使用效率,於推論過程有效啟動2B至4B參數,藉此節省記憶體使用並延長續航力;Google AI團隊與Google Pixel團隊、高通與聯發科等合作,使Gemma 4的E2B及E4B多模態模型可在包括手機、樹莓派、NVIDIA Jetson Orin Nano等邊際裝置完全離線執行,且提供近乎零延遲的體驗;同時Android開發者現在即可在AICore開發者預覽版測試代理流程原型,作為與Gemini Nano 4的向前相容。