Google DeepMind 發布 Gemma 4 開源模型系列,主打本地端推理與 Agent 工作流
Google DeepMind 於 2026 年 4 月 2 日正式發布 Gemma 4 開源模型系列,一口氣 […]
The post Google DeepMind 發布 Gemma 4 開源模型系列,主打本地端推理與 Agent 工作流 appeared first on 電腦王阿達.

Google DeepMind 於 2026 年 4 月 2 日正式發布 Gemma 4 開源模型系列,一口氣 […]
The post Google DeepMind 發布 Gemma 4 開源模型系列,主打本地端推理與 Agent 工作流 appeared first on 電腦王阿達.

Google於美國時間2026年4月2日宣布推出Gemma 4開源模型,強調為進階推論與AI代理工作流程而生,建構在Gemini 3同源的技術基礎,並透過Apache 2.0授權模式供業界進行開源創新;Gemma 4提供四種參數規模,可涵蓋自基本的聊天至處理複雜邏輯與AI代理等應用,且釋出之際,31B模型於Arena AI測試排行第三、26B模型位居第6,其表現甚至超越使用超過20倍參數的模型。
開發者現在可於Google AI Studio使用Gemma 4的31B與26B MoE可在Google AI Studio取得,而E4B及E2B可透過Google AI Edge Gallery取得;若要針對Android進行開發,可透過Gemma 4增強Android Studio的代理模式,與使用ML Kit GenAI Prompt API建立用於Android生產環境的應用程式。另外也可透過Hugging Face、Kaggle及Ollama取得模型權重
同時作Gemma 4自Day 1即支援Hugging Face(Transformers、TRL、Transformers.js、Candle)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang、Cactus、Basetan、Docker、MaxText、Tunix、Keras,開發者可依據專案需求、偏好選擇合宜的工具。
同時Google也號召開發者加入Kaggle的Gemma 4 Good的駭客松挑戰賽,以Gemma 4開發創新的產品及應用:Gemma 4 Good Hackathon

Google標榜開源的Gemma 4採用與Gemini 3相同的世界一流研發技術,是可在開發者硬體執行的頂尖AI模型系列,Gemma 4與Gemini 3兩者相輔相成,為開發者與業界分別提供強大的開源與專屬AI模型。同時Gemma亦以目前市面上執行AI硬體的裝置衡量,為Android裝置、筆電的GPU到工作站等不同層級效能提供能在這些硬體執行的最合適模型規模。
Gemma 4提供4種不同的參數類型,包括Effective 2B (E2B )、Effective 4B (E4B)、26B Mixture of Experts (MoE,混合專家)和31B Dense;參數規模較大的26B MoE以及31B著重在PC與工作站及設備提供出色性能的的開源模型,而E2B與E4B則鎖定輕量運算效能的邊際AI應用,優先考慮多模態功能、低延遲與無縫的生態系整合,而非原始參數的數量。
作為開源模型的Gemma 4強調開發者能夠進行微調,進而在特定的任務實現最佳的效能,例如可用於特定語言的最佳化,或是用於特定疾病治療的探索等;Google強調Gemma 4可執行多步驟規劃與深度推論邏輯,可在像數學與指令遵循的基礎測試相較過往有顯著的進步,且原生支援高達140種語言。
此外Gemma 4可支援代理工作流程,包括原生支援函數呼叫,結構化JSON輸出與原生系統指令,並於建立與不同工具、API互動且可靠執行工作流程的自主代理;此外Gemma 4支援高品質的非連網程式碼,可將工作站化為裝置端優先的AI程式碼助理。
且所有參數規模的Gemma 4皆支援原生視訊與影像處理,尤其在光學字元辨識(ocr)與圖表識別等視覺任務尤其出色,為裝置端執行的E2B及E4B還支援原生音訊輸入,便於支援語言辨識及理解。同時Gemma 4可支援更長的上下文窗口,E2B及E4B可支援128K,而26B及31B則支援達256K,可無縫處理更長篇的內容。

Gemma 4的26B MoE參數與31B參數旨在為具有高性能GPU與加速器的AI PC及工作站提供強大的性能,其中未量化的bfloat16可於單一80GB的NVIDIA H100 GPU執行,經過量化的版本甚至可在消費級GPU執行;其中26B MoE版本著重低延遲,僅在推論過程使用當中的3.8B參數,盡可能實現極快的每秒Token輸出,而31B參數模型著重最大限度提供原始品質,為模型微調提供強大的基礎。
Gemma 4的E2B與E4B是為邊際裝置量身打造,從底層架構就以最大限度提高運算與記憶體使用效率,於推論過程有效啟動2B至4B參數,藉此節省記憶體使用並延長續航力;Google AI團隊與Google Pixel團隊、高通與聯發科等合作,使Gemma 4的E2B及E4B多模態模型可在包括手機、樹莓派、NVIDIA Jetson Orin Nano等邊際裝置完全離線執行,且提供近乎零延遲的體驗;同時Android開發者現在即可在AICore開發者預覽版測試代理流程原型,作為與Gemini Nano 4的向前相容。
Google 宣布推出 Gemma 4 開源模型家族,首度採用 Apache 2.0 授權,提供四款規格涵蓋手機到工作站,效能可擊敗體積大 20 倍的模型。
繼去年底推出專有大型語言模型Gemini 3 Pro之後,Google進一步宣佈,正式將打造該系列模型的同源技術與研究成果帶給開源社群,推出全新一代「Gemma 4」開源權重模型 (Open-weight models)家族。
值得注意的是,這次Google不僅賦予這系列模型強大的多模態與離線編碼能力,更首度捨棄自家Gemma授權形式,全面改為更自由的Apache 2.0授權協議,大幅提升開發者的佈署彈性。
四款級距全面涵蓋:從智慧型手機到高階工作站
為了滿足不同硬體環境的運算需求,Google這次依照參數規模 (Parameters),一口氣推出四種不同版本的Gemma 4模型:
• 主攻邊緣裝置 (Edge devices):針對智慧型手機等算力與記憶體受限的裝置,Google提供20億 (2B)與40億 (4B)參數規模的「Effective」 (效能)模型。
• 主攻高階工作站與伺服器:針對具備更強大硬體的運算平台,則推出260億 (26B)參數規模的「Mixture of Experts」 (混合專家)系統,以及310億 (31B)參數規模的「Dense」 (密集)系統。
「參數智力比」創紀錄:越級擊敗20倍大模型
Google在聲明中充滿自信地表示,Gemma 4達到「前所未有的單位參數智力水準」 (Intelligence-per-parameter)。
根據Arena AI文字基準測試排行榜,Gemma 4的310億與260億參數版本,分別強勢奪下第三名與第六名的佳績,其表現甚至擊敗體積比它們龐大20倍的巨型模型。
在多模態 (Multimodal)能力方面,Gemma 4全系列模型都具備處理影片與圖像的能力,相當適合用於光學字元辨識 (OCR)等視覺任務。而更令人驚豔的是,兩款體積最小的模型 (2B與4B),竟然同時具備處理音訊輸入與理解語音的能力。
此外,Gemma 4全系列支援超過140種語言,並且能夠進行「離線程式碼生成」,意味開發者可以在完全沒有網路連線的情況下,僅依靠本地算力就能進行Vibe coding (氛圍寫碼)。
擁抱Apache 2.0授權,徹底釋放數位主權
過去,Google的開源模型多半採用自家的「Gemma授權」條款,這在商業使用與修改上仍有部分限制。但這次Gemma 4全面改採業界廣泛認可的Apache 2.0授權。
Google對此解釋:「這項開源授權為開發者的徹底靈活度與『數位主權』 (Digital sovereignty)奠定基礎,賦予開發者對數據、基礎設施與模型的完全控制權」。開發者現在可以更自由地將Gemma 4修改、佈署至地端伺服器 (On-premises)或任何雲端環境中,無須擔憂資安外洩風險。
目前,開發者已經可透過Hugging Face、Kaggle與Ollama等知名開源平台取得Gemma 4的模型權重,並且進行測試。
這次 Google 推出的 Gemma 4 系列具備原生 Agent 能力,對於有在用 OpenClaw 或其他 AI 代理工具的人,一定會想用用看其效果究竟如何。不過雖然是開源模型,但 26B、31B 參數不是每個人都有適合的電腦硬體可順暢運行,好消息是,Gemini API 其實就有免費提供這兩個模型,而且每日還多達 3,000 次呼叫,對於基本使用來說非常夠,還不需要填信用卡,下面就來教你怎麼操作。
The post Gemini API 提供每日免費 3,000 次呼叫的 Gemma 4 26B、31B 模型,免填信用卡、可串 OpenClaw appeared first on 電腦王阿達.
Google於2026年4月釋出全新開源模型Gemma 4,標榜與Gemini 3技術同源,相較前一代不僅提升準確率與上下文長度,且表現與參數高出20倍的模型不相上下,同時以4種參數規模涵蓋自裝置端到雲端及資料中心層級;AMD也旋即宣布旗下廣泛的產品組合於Day-0即支援Gemma 4,為不同參數規模的Gemma 4提供最佳化解決方案。

AMD標榜以Instinct GPU滿足雲端及企業資料中心規模所需,而Radeon GPU則可用於AI工作站層級規模,Ryzen AI處理器能提供AI PC與裝置端推論需求;開發者可透過支援XDNA 2 NPU的Lemonade Server佈署特定Gemma 4模型,模型可透過Ryzen AI LLM軟體堆疊部署,或以Lemonade Server進行整合,並預計即將推出的Ryzen AI軟體版本中提供更廣泛的NPU支援。
隨著Google釋出再次顛覆AI模型性能的開源AI模型Gemma 4,也吸引許多開發者、AI嘗鮮者前仆後繼於邊際裝置安裝體驗,NVIDIA亦宣布攜手Google將Gemma 4針對NVIDIA GPU最佳化,使Gemma可於搭載NVIDIA RTX GPU的PC、工作站、DGX Spark迷你超級電腦、NVIDIA Jetson Orin Nano邊際AI模組等將效能最大化。
Gemma 4提供E2B、E4B、26B MoE與31B等版本,因應邊際運算至高效能GPU等不同層級具備合適且強大的性能;Gemma 4可支援多種任務,包括推論、程式開發、代理、視覺、影片與音訊能力、交錯式多模態輸入以及支援超過35種語言、並於超過140種語言進行預訓練等特色。

其中針對高效率、低延遲的邊際推論打造的E2B以及E4B模型可在包括Jetson Nano模組等多種裝置以近乎零延遲完全離線執行,而26B MoE與31B模型則鎖定高效能推論與開發者,尤其適合用於代理AI任務,可於搭載NVIDIA RTX GPU的AI PC及工作站與DGX Spark進行高效率執行。同時Gemma 4亦可相容熱門的OpenClaw,使用者能夠建構個人檔案、應用程式與工作流擷取脈絡的裝置端智慧代理,體現任務自動化。

為了讓NVIDIA GPU用戶可以順利部署Gemma 4,NVIDIA攜手Ollama及llama.cpp合作,用戶可透過下載Ollama執行Gemma 4,或安裝llama.cpp後透過搭配Gemma 4的GGUF Hugging Face checkpoint使用;同時Unsloth也同步提供支援、可透過Unsloth Studio提供的最佳化及量化模型實現高效率的Gemma 4裝置端微調與部屬。

透過NVIDIA RTX GPU執行Gemma 4模型可實現極大化的效能,透過Tensor Core可加速AI推論、進而為裝置端實現更高吞吐與更低延遲,同時CUDA軟體堆疊則可確保與主流框架、工具的相容,使模型於Day-0即可高效率執行,也因此,用戶可於具備NVIDIA GPU技術的各式裝置擴展Gemma 4部署,無論是邊際、AI PC、工作站或DGX Spark,皆可在不需大量額外最佳化執行使用。
這幾天 Google 剛開源的 Gemma 4 大語言模型可說是紅透半邊天,這個模型體量由 2B 一直到 31 […]
The post 真的跑得動! 國外開發者成功用樹莓派在本地跑 Gemma 4 大模型 appeared first on 電腦王阿達.
