實測Google AI Edge Gallery：在你的手機上跑 LLM！模型下載與 Edge AI 體驗全攻略

2026年4月9日 11:24

不管您是職場新鮮人、學生、老闆，在新的AI世代裡面，應該會很好奇Edge AI怎麼應用吧？您以為AI一定要花錢訂閱、還是一定要連網才能使用嗎？錯，只要有還算不太舊的手機，就可以利用手機、平板裡面的CPU或是GPU執行簡單的推論。用一個最近從楊立偉教授聽到的的說法非常貼切，您等於隨身攜帶一個智慧之神。不論是路邊的車是什麼車種，還是說滷肉飯要怎麼製作，都可以給你一個說法。(但不見得100%準確)

姑且不論正確性，完全免連線、免費的超級知識庫，就放在口袋裡面，不只是以前的電子辭典，現在已經進展成為百科全書的程度了。雖然說Cloud AI無比強大而且速度極快，但是您是否有碰過這樣的情境？網路訊號很差，或是網路連線速度極慢、甚至沒有網路連線的時候，又有一個急著想知道的答案，或是有些比較私密或是機密的問題不想被AI記住(你問過AI的每個問題都會被全世界雲端記得...)。這時候，Edge端的推論AI (Influence AI)就是你的救贖。

警語：AI不是萬能，請不要把大腦外包，AI的回答不是100%真實的。

傳統AI的限制與Edge AI 的優勢，為什麼Edge AI很重要？

傳統的雲端運算 AI (Cloud Computing AI)。運算在遠端伺服器，必須要有網路連線，若是自己沒有特別注意，很有可能一些隱私資料就會傳出去雲端然後被永遠記住，另外，也可能因為網路緩慢而帶來的延遲。相反的，Edge AI則是在在裝置上執行 (On-Device)。模型可以直接下載到手機或平板，利用手機/平板上的CPU或是GPU即時運算，不需要網路，也可以確保個人隱私，以及極低延遲，但是受限於手機或平板的運算能力，就算是最新的Samsung S25手機，速度也比Cloud上的AI如Gemini之類的還要慢上一截。

雖然慢了點，但是筆者仍然覺得能夠在本機端使用大語言模型的GAI是真的很有意思的事情。尤其是沒有網路的時候，例如出國旅遊、或是到了深山林內的時候。或是說不定天災或是地震、戰爭等不可抗力，讓你沒有網路的時候，Edge AI就顯露出來它的重要性了。

▲不需要連線就可以透過照片問問題。還是蠻方便的。

Google AI Edge Gallery 安裝及選擇第一個模型

Google AI Edge Gallery是2025年6月的時候很低調的在Github上面發表的一隻App，後來在12月18日也是很低調的在Google Play Store上架了。

Android連結：https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&hl=zh_TW
iOS連結：(暫時只能透過TestFlight試用) https://testflight.apple.com/join/nAtSQKTF

Google AI Edge Gallery是Google針對Edge AI開發者和愛好者提供的實驗性平台。類似LM Studio和Ollama這種軟體，可以在本機端安裝不同的大語言模型（LLM）來使用。主要的功能有Ask Image、AI Chat、Prompt Lab、Tiny Garden以及現在還不實用的Mobila Actions 等。

要試用，首先您需要透過Google Play商店下載安裝。安裝之後，您還需要安裝一個模型。我個人是建議先試試看Gemma-3n-E2B-it（3.7 GB 強力推薦）和Gemma-3n-E4B-it（4.9 GB 速度慢）。筆者寫作時使用的是Samsung S25，已經算是比較新的手機了。使用Gemma-3n-E2B-it這個具備20億(2 Billion)參數的模型，大部分的時候不管是否採用GPU加速（比較不穩），都還是要5-13秒之間才能回答一個簡單的問題。如果您採用了Gemma-3n-E4B-it這個40億參數的模型，速度還會更慢。除非您有寫程式或是非常複雜的使用需求，建議您用Gemma-3n-E2B-it這個模型即可。另外，雖然還有一個更小的模型Gemma3-1B-IT，但是因為它沒有辦法在Ask Image和Audio Scribe裡面使用，而且實測蠻鏘的，為了節省寶貴的手機儲存空間，建議不要安裝。

值得注意的是，目前Edge端的運算能力還是很有限的，在手機上生成圖像、或是處理大量的音訊/語音還是有點困難，如果您是使用各家比較新的手機，例如Samsung就有針對錄音程式導入AI，可以用來協助整理逐字稿。

為了下載模型，您還需要提供Kaggle / Hugging Face進行授權和同意使用條款（Acknownledge Agreement）。裡面特別要注意的是HuggingFace裡面的”Acknowledge Agreement”很容易被忽略掉，記得要按，否則會看到Error 503，無法下載模型。

▲在Google Play上安裝之後，就可以看到有這些功能：Ask Image、Audio Scribe、AI Chat、Prompt Lab、Tiny Garden和Mobile Actions

▲安裝之後需要下載模型，下載之前您還需要提供Kaggle / Hugging Face進行授權和同意使用條款。

▲由左至右是Gemma-3n-E2B-it使用CPU(耗時15.7秒)、Gemma-3n-E2B-it使用GPU(耗時16.8秒但資訊較豐富)，以及容量最小但整個鏘掉的Gemma3-1B-IT模型。

第一次設定就上手：看懂 LLM 模型的關鍵參數

在踏入 Edge AI 的世界，您可能會遇到一些看似天書的複雜參數，像是 Max Tokens、Temperature、Top-K/Top-P 等。別擔心，這些參數其實就像冷氣溫度的開關之類的功能，可以調整模型輸出的風格和長度，讓 AI 更符合您的需求。讓我們一起來快速認識一下這些關鍵參數：

Max Tokens (最大輸出字元)： 這個參數決定了模型一次能生成的回覆長度，就像設定文章的最大字數限制一樣。數字越大，模型可以產出越長的回答，但也可能需要更長的時間來運算。佔用的記憶體也愈多，如果您是使用GPU運算加速，Token設定太大很容易當掉。若是用CPU運算都無所謂，可以設定到4096最大，但若是採用GPU運算，基本上建議8GB以下手機可以的話設定成1024。（如果有得設定的話）

Temperature (溫度)： 想像一下 AI 回答的「創意程度」，Temperature 就像這個設定。越接近 1.00，模型就越傾向於產生出新奇、有創意的答案；越靠近 0.00，則會更保守，只選擇最有可能出現的詞語。建議您如果是需要正確的回答，直接設定0.70，若是需要稍微創意發想的話，建議您設定成1.00

Top-K / Top-P (取樣策略)： 這兩個參數可以更精細地控制模型在生成文字時的選擇範圍。簡單來說，它們就像是篩選器，幫助模型避免產生不相關或過於隨意的文字，確保輸出更流暢、更有品質。一般情況下建議不要變動，除非您知道自己在做什麼。

加速器選擇：CPU vs. GPU Edge AI 可以利用手機或平板上的 CPU 或 GPU 進行運算。通常來說，GPU 的處理速度會比 CPU 快很多，因此選擇 GPU 加速可以提升模型的推理速度。但是使用GPU比較容易當掉。

▲模型的各種參數只要搞懂就不會很複雜。

實際應用場景：AI Edge Gallery 的四大功能簡單介紹

接下來，就到了應用的簡單說明。其實有在使用GAI的各位讀者應該大概都可以理解。其中Ask Image圖像提問可以用來即時辨識圖片內容、幫忙翻譯路標、猜測車輛型號等等。個人覺得最有用的是出國的時候當成翻譯機來使用，人跑到韓國還是日本看不懂菜單？簡單，手機拍起來翻譯就可以了。

至於AI Chat聊天機器人應該不用教吧？詢問某道菜怎麼做、還有生活中的大小事都是可以的。

Prompt Lab指令實驗室擇提供了幾個實用的功能，例如幫忙把一篇文章用不同重寫、摘要、或是生成程式碼（支援 JavaScript、Python 等多種語言）

Tiny Garden則是一個遊戲，您還是自己玩比較好。我就不要劇透了。

Google這招很聰明，遲早會有廠商做出來這樣類型的App，還不如自己先做，然後觀察使用者的行動，藉以透過愈來愈強大的手機或是平板來提供部份算力，一方面減輕了AI算力、電力的壓力，一方面也可以讓使用者可能有更佳的使用體驗。有興趣嘗鮮的朋友，不妨下載來玩玩看。

阅读视图

傳統AI的限制與Edge AI 的優勢，為什麼Edge AI很重要？

Google AI Edge Gallery 安裝及選擇第一個模型

第一次設定就上手：看懂 LLM 模型的關鍵參數

實際應用場景：AI Edge Gallery 的四大功能簡單介紹