普通视图

发现新文章,点击刷新页面。
昨天以前首页

NVIDIA加速Gemma 4於RTX PC、DGX Spark與Jetson邊際AI模組部署,加速推進代理AI應用

作者 Chevelle.fu
2026年4月8日 11:45

隨著Google釋出再次顛覆AI模型性能的開源AI模型Gemma 4,也吸引許多開發者、AI嘗鮮者前仆後繼於邊際裝置安裝體驗,NVIDIA亦宣布攜手Google將Gemma 4針對NVIDIA GPU最佳化,使Gemma可於搭載NVIDIA RTX GPU的PC、工作站、DGX Spark迷你超級電腦、NVIDIA Jetson Orin Nano邊際AI模組等將效能最大化。

Gemma 4提供E2B、E4B、26B MoE與31B等版本,因應邊際運算至高效能GPU等不同層級具備合適且強大的性能;Gemma 4可支援多種任務,包括推論、程式開發、代理、視覺、影片與音訊能力、交錯式多模態輸入以及支援超過35種語言、並於超過140種語言進行預訓練等特色。

▲E2B與E4B模型可於Jetson Nano等邊際AI裝置提供超低延遲的高效率執行

其中針對高效率、低延遲的邊際推論打造的E2B以及E4B模型可在包括Jetson Nano模組等多種裝置以近乎零延遲完全離線執行,而26B MoE與31B模型則鎖定高效能推論與開發者,尤其適合用於代理AI任務,可於搭載NVIDIA RTX GPU的AI PC及工作站與DGX Spark進行高效率執行。同時Gemma 4亦可相容熱門的OpenClaw,使用者能夠建構個人檔案、應用程式與工作流擷取脈絡的裝置端智慧代理,體現任務自動化。

▲NVIDIA以RTX 5090與Apple M3 Ultra比較強調4種Gemma模型皆可達2.3倍以上的性能差,其中著重原始性能的31B甚至達2.7倍性能差

為了讓NVIDIA GPU用戶可以順利部署Gemma 4,NVIDIA攜手Ollama及llama.cpp合作,用戶可透過下載Ollama執行Gemma 4,或安裝llama.cpp後透過搭配Gemma 4的GGUF Hugging Face checkpoint使用;同時Unsloth也同步提供支援、可透過Unsloth Studio提供的最佳化及量化模型實現高效率的Gemma 4裝置端微調與部屬。

▲DGX Spark可高效率的執行所有規模的Gemma 4模型

透過NVIDIA RTX GPU執行Gemma 4模型可實現極大化的效能,透過Tensor Core可加速AI推論、進而為裝置端實現更高吞吐與更低延遲,同時CUDA軟體堆疊則可確保與主流框架、工具的相容,使模型於Day-0即可高效率執行,也因此,用戶可於具備NVIDIA GPU技術的各式裝置擴展Gemma 4部署,無論是邊際、AI PC、工作站或DGX Spark,皆可在不需大量額外最佳化執行使用。

❌
❌