Google DeepMind 發布 Gemma 4 開源模型系列,主打本地端推理與 Agent 工作流
Google DeepMind 於 2026 年 4 月 2 日正式發布 Gemma 4 開源模型系列,一口氣 […]
The post Google DeepMind 發布 Gemma 4 開源模型系列,主打本地端推理與 Agent 工作流 appeared first on 電腦王阿達.

Google DeepMind 於 2026 年 4 月 2 日正式發布 Gemma 4 開源模型系列,一口氣 […]
The post Google DeepMind 發布 Gemma 4 開源模型系列,主打本地端推理與 Agent 工作流 appeared first on 電腦王阿達.

Google於美國時間2026年4月2日宣布推出Gemma 4開源模型,強調為進階推論與AI代理工作流程而生,建構在Gemini 3同源的技術基礎,並透過Apache 2.0授權模式供業界進行開源創新;Gemma 4提供四種參數規模,可涵蓋自基本的聊天至處理複雜邏輯與AI代理等應用,且釋出之際,31B模型於Arena AI測試排行第三、26B模型位居第6,其表現甚至超越使用超過20倍參數的模型。
開發者現在可於Google AI Studio使用Gemma 4的31B與26B MoE可在Google AI Studio取得,而E4B及E2B可透過Google AI Edge Gallery取得;若要針對Android進行開發,可透過Gemma 4增強Android Studio的代理模式,與使用ML Kit GenAI Prompt API建立用於Android生產環境的應用程式。另外也可透過Hugging Face、Kaggle及Ollama取得模型權重
同時作Gemma 4自Day 1即支援Hugging Face(Transformers、TRL、Transformers.js、Candle)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang、Cactus、Basetan、Docker、MaxText、Tunix、Keras,開發者可依據專案需求、偏好選擇合宜的工具。
同時Google也號召開發者加入Kaggle的Gemma 4 Good的駭客松挑戰賽,以Gemma 4開發創新的產品及應用:Gemma 4 Good Hackathon

Google標榜開源的Gemma 4採用與Gemini 3相同的世界一流研發技術,是可在開發者硬體執行的頂尖AI模型系列,Gemma 4與Gemini 3兩者相輔相成,為開發者與業界分別提供強大的開源與專屬AI模型。同時Gemma亦以目前市面上執行AI硬體的裝置衡量,為Android裝置、筆電的GPU到工作站等不同層級效能提供能在這些硬體執行的最合適模型規模。
Gemma 4提供4種不同的參數類型,包括Effective 2B (E2B )、Effective 4B (E4B)、26B Mixture of Experts (MoE,混合專家)和31B Dense;參數規模較大的26B MoE以及31B著重在PC與工作站及設備提供出色性能的的開源模型,而E2B與E4B則鎖定輕量運算效能的邊際AI應用,優先考慮多模態功能、低延遲與無縫的生態系整合,而非原始參數的數量。
作為開源模型的Gemma 4強調開發者能夠進行微調,進而在特定的任務實現最佳的效能,例如可用於特定語言的最佳化,或是用於特定疾病治療的探索等;Google強調Gemma 4可執行多步驟規劃與深度推論邏輯,可在像數學與指令遵循的基礎測試相較過往有顯著的進步,且原生支援高達140種語言。
此外Gemma 4可支援代理工作流程,包括原生支援函數呼叫,結構化JSON輸出與原生系統指令,並於建立與不同工具、API互動且可靠執行工作流程的自主代理;此外Gemma 4支援高品質的非連網程式碼,可將工作站化為裝置端優先的AI程式碼助理。
且所有參數規模的Gemma 4皆支援原生視訊與影像處理,尤其在光學字元辨識(ocr)與圖表識別等視覺任務尤其出色,為裝置端執行的E2B及E4B還支援原生音訊輸入,便於支援語言辨識及理解。同時Gemma 4可支援更長的上下文窗口,E2B及E4B可支援128K,而26B及31B則支援達256K,可無縫處理更長篇的內容。

Gemma 4的26B MoE參數與31B參數旨在為具有高性能GPU與加速器的AI PC及工作站提供強大的性能,其中未量化的bfloat16可於單一80GB的NVIDIA H100 GPU執行,經過量化的版本甚至可在消費級GPU執行;其中26B MoE版本著重低延遲,僅在推論過程使用當中的3.8B參數,盡可能實現極快的每秒Token輸出,而31B參數模型著重最大限度提供原始品質,為模型微調提供強大的基礎。
Gemma 4的E2B與E4B是為邊際裝置量身打造,從底層架構就以最大限度提高運算與記憶體使用效率,於推論過程有效啟動2B至4B參數,藉此節省記憶體使用並延長續航力;Google AI團隊與Google Pixel團隊、高通與聯發科等合作,使Gemma 4的E2B及E4B多模態模型可在包括手機、樹莓派、NVIDIA Jetson Orin Nano等邊際裝置完全離線執行,且提供近乎零延遲的體驗;同時Android開發者現在即可在AICore開發者預覽版測試代理流程原型,作為與Gemini Nano 4的向前相容。
Google於2026年4月釋出全新開源模型Gemma 4,標榜與Gemini 3技術同源,相較前一代不僅提升準確率與上下文長度,且表現與參數高出20倍的模型不相上下,同時以4種參數規模涵蓋自裝置端到雲端及資料中心層級;AMD也旋即宣布旗下廣泛的產品組合於Day-0即支援Gemma 4,為不同參數規模的Gemma 4提供最佳化解決方案。

AMD標榜以Instinct GPU滿足雲端及企業資料中心規模所需,而Radeon GPU則可用於AI工作站層級規模,Ryzen AI處理器能提供AI PC與裝置端推論需求;開發者可透過支援XDNA 2 NPU的Lemonade Server佈署特定Gemma 4模型,模型可透過Ryzen AI LLM軟體堆疊部署,或以Lemonade Server進行整合,並預計即將推出的Ryzen AI軟體版本中提供更廣泛的NPU支援。