實測Google AI Edge Gallery:在你的手機上跑 LLM!模型下載與 Edge AI 體驗全攻略

不管您是職場新鮮人、學生、老闆,在新的AI世代裡面,應該會很好奇Edge AI怎麼應用吧?您以為AI一定要花錢訂閱、還是一定要連網才能使用嗎?錯,只要有還算不太舊的手機,就可以利用手機、平板裡面的CPU或是GPU執行簡單的推論。用一個最近從楊立偉教授聽到的的說法非常貼切,您等於隨身攜帶一個智慧之神。不論是路邊的車是什麼車種,還是說滷肉飯要怎麼製作,都可以給你一個說法。(但不見得100%準確)
姑且不論正確性,完全免連線、免費的超級知識庫,就放在口袋裡面,不只是以前的電子辭典,現在已經進展成為百科全書的程度了。雖然說Cloud AI無比強大而且速度極快,但是您是否有碰過這樣的情境?網路訊號很差,或是網路連線速度極慢、甚至沒有網路連線的時候,又有一個急著想知道的答案,或是有些比較私密或是機密的問題不想被AI記住(你問過AI的每個問題都會被全世界雲端記得...)。這時候,Edge端的推論AI (Influence AI)就是你的救贖。
警語:AI不是萬能,請不要把大腦外包,AI的回答不是100%真實的。
傳統AI的限制與Edge AI 的優勢,為什麼Edge AI很重要?
傳統的雲端運算 AI (Cloud Computing AI)。運算在遠端伺服器,必須要有網路連線,若是自己沒有特別注意,很有可能一些隱私資料就會傳出去雲端然後被永遠記住,另外,也可能因為網路緩慢而帶來的延遲。相反的,Edge AI則是在在裝置上執行 (On-Device)。模型可以直接下載到手機或平板,利用手機/平板上的CPU或是GPU即時運算,不需要網路,也可以確保個人隱私,以及極低延遲,但是受限於手機或平板的運算能力,就算是最新的Samsung S25手機,速度也比Cloud上的AI如Gemini之類的還要慢上一截。
雖然慢了點,但是筆者仍然覺得能夠在本機端使用大語言模型的GAI是真的很有意思的事情。尤其是沒有網路的時候,例如出國旅遊、或是到了深山林內的時候。或是說不定天災或是地震、戰爭等不可抗力,讓你沒有網路的時候,Edge AI就顯露出來它的重要性了。

▲不需要連線就可以透過照片問問題。還是蠻方便的。
Google AI Edge Gallery 安裝及選擇第一個模型
Google AI Edge Gallery是2025年6月的時候很低調的在Github上面發表的一隻App,後來在12月18日也是很低調的在Google Play Store上架了。
Android連結:https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&hl=zh_TW
iOS連結:(暫時只能透過TestFlight試用) https://testflight.apple.com/join/nAtSQKTF
Google AI Edge Gallery是Google針對Edge AI開發者和愛好者提供的實驗性平台。類似LM Studio和Ollama這種軟體,可以在本機端安裝不同的大語言模型(LLM)來使用。主要的功能有Ask Image、AI Chat、Prompt Lab、Tiny Garden以及現在還不實用的Mobila Actions 等。
要試用,首先您需要透過Google Play商店 下載安裝。安裝之後,您還需要安裝一個模型。我個人是建議先試試看Gemma-3n-E2B-it(3.7 GB 強力推薦)和Gemma-3n-E4B-it(4.9 GB 速度慢)。筆者寫作時使用的是Samsung S25,已經算是比較新的手機了。使用Gemma-3n-E2B-it這個具備20億(2 Billion)參數的模型,大部分的時候不管是否採用GPU加速(比較不穩),都還是要5-13秒之間才能回答一個簡單的問題。如果您採用了Gemma-3n-E4B-it這個40億參數的模型,速度還會更慢。除非您有寫程式或是非常複雜的使用需求,建議您用Gemma-3n-E2B-it這個模型即可。另外,雖然還有一個更小的模型Gemma3-1B-IT,但是因為它沒有辦法在Ask Image和Audio Scribe裡面使用,而且實測蠻鏘的,為了節省寶貴的手機儲存空間,建議不要安裝。
值得注意的是,目前Edge端的運算能力還是很有限的,在手機上生成圖像、或是處理大量的音訊/語音還是有點困難,如果您是使用各家比較新的手機,例如Samsung就有針對錄音程式導入AI,可以用來協助整理逐字稿。
為了下載模型,您還需要提供Kaggle / Hugging Face進行授權和同意使用條款(Acknownledge Agreement)。裡面特別要注意的是HuggingFace裡面的”Acknowledge Agreement”很容易被忽略掉,記得要按,否則會看到Error 503,無法下載模型。

▲在Google Play上安裝之後,就可以看到有這些功能:Ask Image、Audio Scribe、AI Chat、Prompt Lab、Tiny Garden和Mobile Actions

▲安裝之後需要下載模型,下載之前您還需要提供Kaggle / Hugging Face進行授權和同意使用條款。

▲由左至右是Gemma-3n-E2B-it使用CPU(耗時15.7秒)、Gemma-3n-E2B-it使用GPU(耗時16.8秒但資訊較豐富),以及容量最小但整個鏘掉的Gemma3-1B-IT模型。
第一次設定就上手:看懂 LLM 模型的關鍵參數
在踏入 Edge AI 的世界,您可能會遇到一些看似天書的複雜參數,像是 Max Tokens、Temperature、Top-K/Top-P 等。別擔心,這些參數其實就像冷氣溫度的開關之類的功能,可以調整模型輸出的風格和長度,讓 AI 更符合您的需求。讓我們一起來快速認識一下這些關鍵參數:
Max Tokens (最大輸出字元): 這個參數決定了模型一次能生成的回覆長度,就像設定文章的最大字數限制一樣。數字越大,模型可以產出越長的回答,但也可能需要更長的時間來運算。佔用的記憶體也愈多,如果您是使用GPU運算加速,Token設定太大很容易當掉。若是用CPU運算都無所謂,可以設定到4096最大,但若是採用GPU運算,基本上建議8GB以下手機可以的話設定成1024。(如果有得設定的話)
Temperature (溫度): 想像一下 AI 回答的「創意程度」,Temperature 就像這個設定。越接近 1.00,模型就越傾向於產生出新奇、有創意的答案;越靠近 0.00,則會更保守,只選擇最有可能出現的詞語。建議您如果是需要正確的回答,直接設定0.70,若是需要稍微創意發想的話,建議您設定成1.00
Top-K / Top-P (取樣策略): 這兩個參數可以更精細地控制模型在生成文字時的選擇範圍。簡單來說,它們就像是篩選器,幫助模型避免產生不相關或過於隨意的文字,確保輸出更流暢、更有品質。一般情況下建議不要變動,除非您知道自己在做什麼。
加速器選擇:CPU vs. GPU Edge AI 可以利用手機或平板上的 CPU 或 GPU 進行運算。通常來說,GPU 的處理速度會比 CPU 快很多,因此選擇 GPU 加速可以提升模型的推理速度。但是使用GPU比較容易當掉。

▲模型的各種參數只要搞懂就不會很複雜。
實際應用場景:AI Edge Gallery 的四大功能簡單介紹
接下來,就到了應用的簡單說明。其實有在使用GAI的各位讀者應該大概都可以理解。其中Ask Image圖像提問可以用來即時辨識圖片內容、幫忙翻譯路標、猜測車輛型號等等。個人覺得最有用的是出國的時候當成翻譯機來使用,人跑到韓國還是日本看不懂菜單?簡單,手機拍起來翻譯就可以了。
至於AI Chat聊天機器人應該不用教吧?詢問某道菜怎麼做、還有生活中的大小事都是可以的。
Prompt Lab指令實驗室擇提供了幾個實用的功能,例如幫忙把一篇文章用不同重寫、摘要、或是生成程式碼(支援 JavaScript、Python 等多種語言)
Tiny Garden則是一個遊戲,您還是自己玩比較好。我就不要劇透了。
Google這招很聰明,遲早會有廠商做出來這樣類型的App,還不如自己先做,然後觀察使用者的行動,藉以透過愈來愈強大的手機或是平板來提供部份算力,一方面減輕了AI算力、電力的壓力,一方面也可以讓使用者可能有更佳的使用體驗。有興趣嘗鮮的朋友,不妨下載來玩玩看。