NVIDIA加速Gemma 4於RTX PC、DGX Spark與Jetson邊際AI模組部署，加速推進代理AI應用

作者 Chevelle.fu

2026年4月8日 11:45

隨著Google釋出再次顛覆AI模型性能的開源AI模型Gemma 4，也吸引許多開發者、AI嘗鮮者前仆後繼於邊際裝置安裝體驗，NVIDIA亦宣布攜手Google將Gemma 4針對NVIDIA GPU最佳化，使Gemma可於搭載NVIDIA RTX GPU的PC、工作站、DGX Spark迷你超級電腦、NVIDIA Jetson Orin Nano邊際AI模組等將效能最大化。

Gemma 4提供E2B、E4B、26B MoE與31B等版本，因應邊際運算至高效能GPU等不同層級具備合適且強大的性能；Gemma 4可支援多種任務，包括推論、程式開發、代理、視覺、影片與音訊能力、交錯式多模態輸入以及支援超過35種語言、並於超過140種語言進行預訓練等特色。

▲E2B與E4B模型可於Jetson Nano等邊際AI裝置提供超低延遲的高效率執行

其中針對高效率、低延遲的邊際推論打造的E2B以及E4B模型可在包括Jetson Nano模組等多種裝置以近乎零延遲完全離線執行，而26B MoE與31B模型則鎖定高效能推論與開發者，尤其適合用於代理AI任務，可於搭載NVIDIA RTX GPU的AI PC及工作站與DGX Spark進行高效率執行。同時Gemma 4亦可相容熱門的OpenClaw，使用者能夠建構個人檔案、應用程式與工作流擷取脈絡的裝置端智慧代理，體現任務自動化。

▲NVIDIA以RTX 5090與Apple M3 Ultra比較強調4種Gemma模型皆可達2.3倍以上的性能差，其中著重原始性能的31B甚至達2.7倍性能差

為了讓NVIDIA GPU用戶可以順利部署Gemma 4，NVIDIA攜手Ollama及llama.cpp合作，用戶可透過下載Ollama執行Gemma 4，或安裝llama.cpp後透過搭配Gemma 4的GGUF Hugging Face checkpoint使用；同時Unsloth也同步提供支援、可透過Unsloth Studio提供的最佳化及量化模型實現高效率的Gemma 4裝置端微調與部屬。

透過NVIDIA RTX GPU執行Gemma 4模型可實現極大化的效能，透過Tensor Core可加速AI推論、進而為裝置端實現更高吞吐與更低延遲，同時CUDA軟體堆疊則可確保與主流框架、工具的相容，使模型於Day-0即可高效率執行，也因此，用戶可於具備NVIDIA GPU技術的各式裝置擴展Gemma 4部署，無論是邊際、AI PC、工作站或DGX Spark，皆可在不需大量額外最佳化執行使用。

普通视图