普通视图

发现新文章,点击刷新页面。
昨天以前TechOrange

傳簡訊就能操控的 AI 代理 Poke 爆紅!擺脫 OpenClaw 技術門檻,甚至免下載安裝

作者 Min
2026年5月13日 09:45
傳簡訊就能操控的 AI 代理 Poke 爆紅!擺脫 OpenClaw 技術門檻,甚至免下載安裝

俗稱「養龍蝦」的 OpenClaw 風潮,在過去幾個月間席捲了全球科技圈,然而對於缺乏一定技術知識的普通人來說,設定與使用 OpenClaw 並沒有想像中這麼容易。

隨著普通人與企業對自主型 AI 代理的需求激增,日前 OpenAI 以外界難以想像的速度,將 OpenClaw 創辦人Peter Steinberger 收入麾下;NVIDIA 執行長黃仁勳也曾公開指出,每家企業都應該要有自己的 OpenClaw 策略。

只不過,對於缺乏知識技術,不夠熟悉 AI 系統的多數消費者來說,舉凡類似 OpenClaw 的應用程式,幾乎都需要透過終端機安裝軟體、管理相依性套件,並且要求使用者具備故障排除的相關知識。

若再加上 OpenClaw 涉及深度的系統存取權限,進一步引發資安疑慮,且令不少人望而卻步,因此造就市場上亟需一套跟 OpenClaw 能力相似,但又可以讓消費者輕鬆使用的 AI 代理系統,Poke 的開發目標正是為此而來。

使用者的 AI 需求比想像更大

來自美國加州的 AI 新創公司 The Interaction Company of California,正在利用旗下產品 Poke 打造人人都能輕鬆使用的 OpenClaw。

消費者僅需利用手機簡訊、iMessage、Telegram 或 WhatsApp 等服務,就可以輕鬆操作 Poke,打造屬於自己的 AI 代理應用程式。

今年 3 月,Poke 在 OpenClaw 風頭正盛之時悄悄上線,而這款智慧型 AI 助理,將能協助消費者處理日常生活中的各種需求,包含每天的工作安排、行事曆管理、追蹤健康狀況、控制智慧家庭裝置、快速編輯照片等,且所有操作全都可以利用手機簡訊,透過文字下達指令快速完成。

Poke 開發團隊 The Interaction Company of California 共同創辦人 Marvin von Hagen 向外媒表示,事實上 Poke 的誕生源於公司一年前開發的早期產品。

Marvin von Hagen 回憶,當時 Poke 只是一款專為電子郵件服務設計的人工智慧助理,但是開發團隊很快就發現,參與測試的使用者更喜歡要求 Poke 處理更多事情,例如提醒他們服藥、詢問運動比賽的結果等。

由於 Poke 當時還無法涵蓋這些使用需求,因此開發團隊很快就決定轉型,開始將 Poke 打造為通用型 AI 服務,試圖讓消費者獲取更多功能,同時保留 Poke 原先就具備的人性化特質,使其變得更實用、更主動也更具親和力。

區隔使用情境,自動化成關鍵

跟 ChatGPT 或 Claude 這類通用型 AI 聊天機器人相比,Poke 並非是使用者想發起深入研究,或者進一步搜尋問題時的優先選項。

原則上,Poke 所負責的任務和使用情境,在於消費者想快速達成某項作業,或者嘗試透過自動化工具完成某些事情時,即可呼叫 Poke 透過 AI 代理處理任務,藉此節省時間與精力消耗。

舉例來說,使用者可以請 Poke 主動通知收取到的重要電子郵件,比方來自家人或上司的 E-Mail,或是要求 Poke 於每天早上更新天氣資訊,並讓消費者知道出門是否需要帶傘。

借助 AI 代理強大的自主作業能力,Poke 也能協助使用者追蹤健康與健身目標、發送每日服藥提醒、整理當日新聞、球賽勝負比分等,甚至是透過消費者自行撰寫的「純文字」自動化腳本──又稱為「配方(Recipes)」,向其他人分享 AI 代理的工作指令。

沒有複雜設定,輸入手機號碼就能用

跟 OpenClaw 與大多數類 OpenClaw 服務平台不同,Poke 的使用操作簡單到令人難以想像。

首先,消費者需要開啟 Poke 官方網站,然後點擊網頁上的「開始使用」,接著再輸入手機電話號碼即可;由於 Poke 的 AI 助理可以透過簡訊直接操作,因此使用者根本不需要安裝任何應用程式。

為了徹底簡化消費者的操作體驗,當使用者向 Poke 下達指令時,系統會在幕後自動選擇最適合任務的 AI 模型,其模型則可能來自大型 AI 供應商,或者是更為節省支出的開源模型。

Marvin von Hagen 說,從長遠的角度來看,由系統自動選擇 AI模型,稱得上是 Poke 的一大優勢。畢竟,目前 AI 代理市場上的競爭對手,幾乎都是大型科技公司或 AI 實驗室,而他們的服務通常會跟模型供應商互相綁定,如 Meta AI 只會使用 Meta 開發的模型,而 ChatGPT 也只會使用 OpenAI 模型。

擺脫供應商綁定,卻也遭遇打壓

為了讓 Poke 在 iMessage 等通訊平台上順利運作,該公司運用了同樣於近期爆紅的嵌入式通訊應用程式解決方案 Linq,藉此支援標準文字簡訊(SMS)和 Telegram 等平台。

然而,由於 Meta 限制了 WhatsApp 上的第三方 AI 聊天機器人,因此 Poke 目前對 WhatsApp 的支援相對有限,而這種情況應該會在未來有所改變。

根據情報,包含歐盟、義大利和巴西的監管機構,已經針對Meta 限制第三方 AI 於 WhatsApp 上運作,展開針對性的反壟斷調查,所以目前 Poke 已經重返巴西市場。

Marvin von Hagen 指出,在歐盟地區 Meta 利用收取高昂費用的方式,惡意阻擋第三方 AI 聊天機器人服務上架 WhatsApp;這種「惡意合規」的問題應該可以在反壟斷調查啟動後,由Meta 降低相關費用得到解決。

加入「配方」功能,鼓勵分享工作流

此外,開發團隊在 Poke 服務中,加入了一種稱為「配方(Recipes)」的客製化功能,讓使用者可以自行創造 AI 工作流程,自動化處理各種任務。

截至目前為止,Poke 中的「配方」涵蓋健康保健、生產力、財務、行程安排、旅遊、居家、學校、電子郵件、社群等類別,以及專為技術人員設計的開發者工作流程,而安裝他人分享的配方,更只需要點擊按鈕並允許授權即可。

為了將「配方」的實用性最大化,該功能已經能跟 Gmail、Google 日曆、Outlook、Notion、Linear、Granola 等服務共同使用,至於健康類平台如 Strava、Withings、Oura、Fitbit,以及 Philips Hue 和 Sonos 等智慧家庭設備,亦可成為 Poke 與「配方」存取的對象。

對於擁有一定技術經驗的開發者,目前 Poke 也能夠跟 PostHog、Webflow、Supabase、Vercel、Devin、Sentry、GitHub、Cursor Cloud Agents 等工具互相整合,將工作流程的部分環節完全自動化。

自從 Poke 上線至今,平台已經擁有上千個由使用者自行設計的「配方」與工作流程,開發團隊也計劃於未來設立目錄,讓所有人都可以輕鬆探索並採用,甚至考慮推動獎勵機制,讓主動分享「配方」連結給他人並成功拉進新會員的使用者,可以得到 10 美分至 1 美元不等的回饋獎勵。

開放免費入門,成本落在 AI 運算

在隱私安全方面,Poke 的安全模型採多層次設計,包含定期滲透測試、安全檢查,以及針對 AI 代理與人類操作者的存取限制。預設情況下,開發團隊將無法查看使用者於Poke 上擁有的任何內容,除非手動於設定中切換開關,選擇分享日誌檔案或分析資料。

至於收費方面,雖然 Poke 是擁有 AI 代理功能智慧助理服務,但其使用價格卻出乎意料實惠,不僅允許消費者完全免費入門體驗,後續的功能定價也非常具備彈性。

以目前的狀態而言,消費者唯一需要支出的費用,在於AI 代理的運算成本;根據官方說法,多數人的支出大約落在每個月 10 到 30 美元之間。

Marvin von Hagen 進一步解釋,關鍵在於消費者使用 AI 代理的方法;假若使用者要求的功能,不需要調用即時資料或 AI 推論服務,那麼通常都可以免費使用 Poke。

因此,當前 Poke 真正可能向使用者收費的項目,在於調用 AI 的即時推論功能,例如針對每封收到的電子郵件執行自動化流程,或是要求 AI 幫忙處理航班報到等任務。

為了讓消費者更清楚哪些服務可能遭到收費,開發團隊已經在 Poke 內部加入了一份成本參考清單,只要詢問 AI 就可以算出大致開銷,以個人使用情境計算概略支出。

不以獲利為前提,期待擴展生態系

面對 Poke 的商業未來,Marvin von Hagen 強調,雖然開發團隊一直都在提升服務效率,並且同時降低運作成本,但 Poke 暫時還沒有把獲利當成目標。

Marvin von Hagen 直言,當前公司還沒有想透過 Poke 賺錢的意思,他們更想見到生態系不斷成長,將 Poke 變成一款可以服務數十億人的產品。

因此 Marvin von Hagen 說,開發團隊接下來的目標,就是要讓 Poke 融入民眾的日常生活,並計畫邀請創作者和網紅,展示他們如何使用這款 AI 智慧助理。

簡單、易用的自主型 AI 助理

綜觀目前的 AI 市場,此時誕生的 Poke 似乎正掌握著絕佳的風口。

Poke 營運公司 The Interaction Company of California 目前的員工人數,合計起來僅僅只有 10 人,但該團隊卻獲得由 Spark Capital、General Catalyst 及其他天使投資人大力支持,繼去年得到 1500 萬美元的融資後,近期又再籌得 1,000 萬美元資金,使公司估值達到 3 億美元。

隨然沒有確切數字,但根據官方說法,過去幾個月以來 Poke 所擁有的使用者數量,大概增加了10 倍,而在 Vercel 的 AI Gateway 排行榜上,Poke 也在 Top Apps 項目奪下了榜首,可見它確實發展迅速。

把握 OpenClaw 所帶來的 AI 代理應用程式風潮,Poke 似乎正在透過它的簡單、易用,成為使用者手上真正實用的自主型 AI 智慧助理。

【推薦閱讀】

◆ GitHub 專案爆紅:Colleague Skill 把同事變 AI 分身,為何讓科技工作者不安?
◆ 氛圍編碼進入醫療現場:從紙本衛教到 AI 互動工具,AI 改變醫病照護模式
◆ 開發產出暴增 10 倍的代價:AI 程式碼湧現,企業如何防堵資安與技術債漏洞?

*本文開放合作夥伴轉載,參考資料:TechCrunchWebWire,首圖來源:Poke

(責任編輯:鄒家彥)

開源 AI 還是次要選項?模型效能已媲美商業產品,將以成本做為突破口

作者 Min
2026年5月18日 10:13
開源 AI 還是次要選項?模型效能已媲美商業產品,將以成本做為突破口

相較於效能通常較為強大的閉源 AI 模型,在過去,開源 AI 一直都被企業視為預算吃緊,或者僅僅用於離線處理私密資料的權宜手段,但是隨著時間推移,這種觀點顯然已經跟不上時代。

如今,開源 AI 模型的品質獲得大幅提升,其生態系也日趨成熟,開發者於本機環境執行 AI 的行為,也早已成為日常工作流程的一部分,這亦迫使 AI 業界不得不重新思考,關於開源 AI 的真正價值,以及企業是否還要繼續對它視而不見,只把開源 AI 生態系當成次要選項。

開源 AI 的強勁成長趨勢

根據創投公司 Menlo Ventures 日前所發表的報告,若以生產環境 API 使用量計算,開源大型語言模型(LLM)僅佔企業市場份額的 11%,較一年前的 19% 有所下降。

然而,同一份報告卻也指出,開發者的關注已經擴及中國各模型家族與平台,例如阿里巴巴的 Qwen、DeepSeek 的 V3、R1 系列、Moonshot AI 的 Kimi、MiniMax 及 Z.ai 的 GLM 等。

這份看起來前後衝突的報告,實際上反映出企業與開發者,在面對 AI 時所偏好的不同面向。

普遍而言,企業的行動速度較為緩慢,當他們需要託管服務、技術支援及減輕營運負擔時,目前仍傾向選擇閉源供應商,可是開發者則往往更熱衷於測試最新模型。

而在第一線開發者的驅動之下,開源 AI 展現出了強勁的成長趨勢。

以開源 AI 生態系最大樞紐平台 Hugging Face 的數據為例,其在 2026 年春季報告中明確指出,旗下使用者已增長至 1,300 萬人,並且擁有超過 200 萬個開放模型及 50 萬個開放資料集。

同時 Hugging Face 也表示,目前已有超過 30% 的《財星》500 強企業,在旗下平台擁有經過驗證的官方帳號,這代表開源 AI 生態系正不斷擴張。

效能到位,媲美商業 AI 巨頭

綜觀目前市場上的各種開源 AI 模型,尤其是來自中國團隊所開發的模型,其表現已開始達到與 OpenAI、Anthropic 和 Google 等科技巨頭互相媲美的水準。

截至 2026 年 3 月,史丹佛大學的人工智慧指數顯示,先進閉源 AI 模型的整體表現,僅僅比頂尖開源模型領先 3.3%,同時 Arena 排行榜的前十名當中,光是開源 AI 模型就佔了 4 個。

換句話說,即使閉源 AI 模型目前仍然處於領先地位,但開源模型的性能下限正在大幅提升,而圍繞開源 AI 模型的技術堆疊(Tech Stack)也已足夠成熟,足以在實際工作流程中,展現極具競爭力的驚人表現。

開放權重模式帶來的改變

開源 AI 生態系的發展,對於整個人工智慧產業來說,擁有多個方面、不同層次的重大影響,首先即是模型本身。

在過去,科技業界談起「開源」時,大多都是指開源軟體,但是「開放權重模型」的出現卻改變了一切;藉由釋出 AI 模型的運行結構與相關數據,現在的開發者可以自行操作 AI 模型,擺脫雲端平台 API 的租用限制。

Meta 的 Llama 系列模型是首批以開放權重形式發布的產品之一,隨後來自 Mistral、Gemma、Qwen、DeepSeek 和 Moonshot AI 的開放權重模型,進一步拓展了開源 AI 領域的陣容。

2025 年 8 月,OpenAI 在 Apache 2.0 許可證下,推出 GPT-OSS-120b 和 GPT-OSS-20b,讓使用者可以在未連網的本地端機器上直接運行,不必仰賴 OpenAI 的資料中心,同時還能享受先進模型的強大效能。

特別值得注意之處,在於「開放權重」並不等同於「完全開源」,這些開放權重模型可能會將其他部分,例如訓練資料、程式碼、微調流程等項目,保留為閉源狀態,亦不納入開源授權條款。

基礎架構與軟體面的進化

其次,開源 AI 的蓬勃發展,也深深影響了運算及推論服務的基礎架構,換句話說就是實際支撐 AI 模型於硬體上執行的框架,它亦決定了 AI 模型的反應速度、可同時容納的使用者數量,以及所需的硬體資源和記憶體消耗。

舉例來說,開源基礎架構 vLLM 以高吞吐量、高記憶體利用效率而聞名,並成為開源 AI 領域最重要的專案,獲得超過 2,000 名志願者投入開發。

至於第三個層面則是本機端軟體。

回顧兩年前,使用者若想要在自己的硬體上運行 AI 模型,仍是一項高門檻且繁瑣的技術任務,但隨著 Ollama、LM Studio 和 llama.cpp 等工具,讓本機 AI 變得簡單易用,無論開發者或企業現在都可以輕鬆下載 AI 模型,並且在筆記型電腦、工作站或內部伺服器上直接執行。

開源 AI 代理也一夕爆紅

除了 AI 模型、運作框架與軟體之外,AI 代理現在也成為開源生態系統發展最快速的領域。

根據 AI 代理新創公司 LangChain 的調查,高達 57% 的受訪者承認,他們已經將 AI 代理投入了正式的生產環境,同時開源 AI 代理也正逐漸擺脫聊天機器人延伸功能的形象,轉而成為完整工作流程的骨幹之一。

開源 AI 代理的熱潮,因為 OpenClaw 的橫空出世而瞬間點燃;OpenClaw 為使用者提供了一套開放且允許自行託管的代理層,並且能夠部署在使用者完全掌控的硬體上,接入常見的通訊平台以達成各種任務。

另一個逐漸嶄露頭角的開源 AI 代理則是 Hermes Agent,它將自主執行的概念進一步推向長期運作,並且具備記憶能力、可重複使用的 AI 技能,還有其開發商 Nous Research 聲稱的「學習迴圈(learning loop)」,允許 Hermes Agent 在任何環境下,從廉價 VPS 服務到大型資料中心都能順利運行。

編碼能力跟得上,給予不同選擇

最後,開源 AI 的程式碼撰寫能力,現在也追上了閉源模型並獲得許多開發者青睞。

舉例來說 OpenCode 就成功給予開發者,一套不依賴特定供應商的開源程式開發 AI 代理選擇,它既能與閉源 AI 平台的 API 搭配使用,也能跟本機模型共同協作,藉此抗衡 OpenAI 的 Codex 與 Anthropic 的 Claude Code。

由此可見,面對 Anthropic、OpenAI、Google 和微軟等科技巨頭,相繼推出自家的整合式 AI 應用方案,開源 AI 生態系也正穩步搭建屬於自己的應對策略。

開源 AI 以成本做爲突破口

既然開源 AI 模型的效能已經足夠強大,生態系工具也足夠豐富,並成為業界值得信賴的閉源替代方案,那麼開源 AI 究竟還得彰顯出哪些優勢,才能真正打入商業市場呢?

以目前的人工智慧市場來看,開源 AI 能夠有效切入,並且跟閉源 AI 有所差異的地方,將會是「成本支出」、「控制管理」與「平台依賴性」三大層面。

首先在成本方面,對於採用閉源 AI 的企業來說,持續運作的生產環境通常會帶來驚人的營運支出,顛覆過往實驗性小規模測的成本估算,這也是為什麼 OpenAI 與 Anthropic 總是不斷調整產品定價,希望針對旗艦模型使用量、長篇內容輸出與工具調用情況,實施更加合理且能夠留住客戶的計費方式。

除了按使用量計費外,如微軟、Google 等科技巨頭,亦開始針對旗下 AI 服務的訂閱方案,比方說 Google AI、Copilot 等劃分出更明確的功能限制與配額上限,而近期 Anthropic 也針對 OpenClaw 的爆紅做出流量上限變更,導致部分重度使用者乾脆轉向以使用量計費。

隨著 AI 朝「全天候、全時間」運作的態勢趨於明顯,閉源 AI 平台的使用者開始頻繁接觸到用量上限,開源 AI 則在成本優勢上找到了突破口。

雖然閉源 AI 變貴、使用配額降低,並不代表開源 AI 絕對更加便宜,畢竟自行架設相關服務,本來就會產生硬體、工程和營運成本,但是對於企業所需要的持續性、高流量與自主運作的工作負載來說,許多組織逐漸開始認為,與其完全受制於科技巨頭的付費方案,不如利用開源 AI 掌握更多的成本主導權。

強化管理優勢,避免供應商鎖定

緊接著開源 AI 能夠展現優勢的地方,為完整的控制權及管理權。對於那些處理受監管資料、內部程式碼、法律文件或敏感客戶紀錄的公司來說,他們往往希望清楚掌握 AI 在何處執行,以及輸出結果流向何方。

開源 AI 生態系走向「完整技術堆疊(Full-Stack)」的好處,就在於它終於能夠回應企業合規團隊的關鍵提問,例如:究竟 AI 是在何處運行?誰有權力存取 AI 系統?若現有 AI 供應商變更商業條款,企業是否能夠將系統完整遷移到其他地方?這些核心問題在開源 AI 走向成熟後,已經可以輕鬆得到解答。

至於平台依賴性方面,可想而知,當企業選擇將核心 AI 系統,完全架構在某家閉源供應商的平台之上,隨著供應商升級或淘汰模型,企業整體 AI 業務便會開始受制於流量、代幣成本變動及模型行為的改變。

歐洲議會曾經於 2025 年提出警告,指出歐洲對外國技術的依賴,削弱了自身的行動空間,並讓敏感資料暴露於外部的法律與政治壓力之下。

到了 2026 年 1 月,歐盟委員會啟動了與技術主權直接相關的「開放數位生態系統戰略」企劃,這些舉措直接表明接納開源 AI 生態系,就是避免「供應商鎖定」的最佳手段。

中國在開源 AI 所扮演的角色

只不過對於歐美企業來說,中國在開源 AI 領域所扮演的重要角色,可能會讓他們感到有些憂慮與尷尬。

根據 Hugging Face 說法,過去一年間中國團隊所開發的 AI 模型,佔平台總下載量的 41%,而在 2025 年登場的多款熱門 AI 模型,本質上不是由中國製造商所開發,就是從原有的中國製 AI 模型衍伸而來。

中國在開源 AI 領域的地位難以忽略,當地團隊不僅試圖提供比西方推理模型更便宜的替代方案,更正在打造適用於軟體、自動化及多模態任務等,關鍵工作流程的開放式系統。

根據情報,許多 OpenClaw 與 Hermes Agent 的使用者,已經將源自中國的 Kimi K2.5 及 GLM-5.1 等模型,視為驅動 AI 代理程式的首選,讓西方國家與開發團隊備感壓力。

推動人工智慧產業前進的力量

近來開源 AI 生態系的各種進化,雖然稱得上有目共睹,但閉源 AI 依然主導著市場的高端領域,並且於眾多基準測試中處於領先地位,同時還保有一定的採用率和營收。

然而,這段期間市場上出現的各種事件,卻也表明開源 AI 的極大吸引力,比方說 DeepSeek R1 於 2025 年 1 月推出時,成功讓 NVIDIA 市值在一天之內蒸發近 6,000 億美元,迫使投資者重新審視 AI 熱潮背後的成本結構。

隨後 OpenAI 宣布釋出自家的開放權重模型,前幾個月誕生的 OpenClaw 人氣飆升,Anthropic 亦被迫針對該開源項目做出回應,就連微軟也正在測試類 OpenClaw 的自主型 AI 代理功能,這些事件在在突顯出開源 AI 生態系,對於整個人工智慧產業界的重大影響。

對於商業 AI 開發商來說,他們必須意識到開源 AI 無需在所有領域都取得領先,只需要於某些重要工作流程中,擁有足夠的品質、價格和靈活性即可。

一旦開源 AI 成功達到前述目標,價格壓力便會開始出現,企業客戶也將更積極探索每一種選項,並在閉源服務與自建架構之間做出抉擇。

開源 AI 的時代來臨了嗎?

既然如此,開源 AI 的時代真的來臨了嗎?至少對於某些團隊和組織來說,答案將是肯定的,同時也意味著並非每家公司都該立刻就拋棄商業化的 AI 巨頭,立刻轉入開源 AI 生態系的懷抱。

因此更加實際的觀點,或許在於如今的開源 AI 領域,已經具備可信任的模型、成熟的基礎建設、穩定運作的本機執行環境,以及發展迅速、足以改變採用者決策行為的生態系統。

另一方面,中國 AI 團隊的大力投入,更為開源 AI 生態系的轉變,增添了速度與競爭壓力。

諸如 OpenClaw 與 Hermes Agent 等,面向自主 AI 代理而來的專案,反映出開源 AI 領域正在進軍更廣闊的市場;而 Kimi、GLM 等模型則代表中國廠商成功打入了 AI 領域中,有關實際應用與重要技術堆疊的一部分。

總歸來說,過去將開源 AI 視為次要方案的思維模式,在 2026 年人工智慧市場已經過時,開源生態系顯然已經成為 AI 業界主流發展路徑的一份子。

【推薦閱讀】

◆ DeepSeek V4 登場:程式生成能力稱霸開源陣營,全面支援華為昇騰產品線
◆ 6 週就推新 AI、推論成本砍到 1/35,拆解 OpenAI GPT-5.5 的企業端鎖定戰略
◆ Anthropic 發表新 AI 模型 Claude Opus 4.7,攻向「可控 AI」新戰場

*本文開放合作夥伴轉載,參考資料:ForbesStanford HAI,首圖來源:Nano Banana 2

(責任編輯:鄒家彥)

Gartner 預測九成企業需 AI 代理協調器,BAND 推「AI 代理版 Slack」解決跨平台碎片化

作者 Min
2026年5月19日 08:21
Gartner 預測九成企業需 AI 代理協調器,BAND 推「AI 代理版 Slack」解決跨平台碎片化

過去一年多時間以來,全球企業紛紛投入生成式 AI 基礎建設,並且爭相部署自主型 AI 代理程式,處理從客戶支援到複雜程式碼撰寫等各種任務。

然而,隨著企業內部的 AI 代理數量不斷增加,一個嶄新且更具結構性的問題赫然浮現,那就是業界不斷提及的「碎片化」。

舉例來說,企業建構於 LangChain 上的 AI 代理,就難以將任務交接給位於另一個平台,如 CrewAI 上的 AI 代理系統;而那些嵌入於 Salesforce 軟體中的 AI 代理程式,亦無法透過原生解決方案,跟運行於私有雲的 Python 腳本進行協作。

為了解決不同平台 AI 代理系統之間的「溝通」問題,一家名為 BAND(又稱 Thenvoi AI Ltd.)的新創公司,近日獲得 1,700 萬美元的首輪融資,為人工智慧產業帶來新力量。

一套為 AI 代理服務的 Slack 平台

根據 BAND 的說法,該公司的目標在於提供「互動基礎架構」,將每個平台上各自為政的 AI 代理工具,轉化為統一且具協作能力的單一團隊。

BAND 共同創辦人暨執行長 Arick Goomanovsky 指出,為了讓 AI 代理能成為全球經濟活動的真正參與者,它們必定需要像人類一樣的溝通方式;畢竟,當前人類所慣用的溝通方法,其實完全不適用於 AI 代理程式,因為 AI 代理本身擁有不確定性,而這背後的技術關卡,也不僅僅是 API 整合問題。

簡單來說,BAND 希望打造出一套「AI 代理系統的 Slack 協作平台」,藉由具備確定性的通訊層,讓 AI 產業朝可擴展的「代理經濟」順利轉型。

為何 AI 代理跨平台協作很困難?

Arick Goomanovsky 直言,使用者不能只是把一堆 AI 代理扔進 Slack,然後就期待它們能夠奇蹟似的順利運作。

換句話說,BAND 的核心概念在於,若是僅將 AI 代理程式,建置並整合到 Slack 等人類通訊工具中,那麼這些 AI 代理便會直接失去「語境」和「上下文」,甚至是在任務執行失敗且重新加入對話時,得由人類不斷重新灌輸過往的提示詞才能恢復運作。

為此,BAND 開發出了一種專為處理 AI 代理間的互動,所產生之遙測資料特別設計的雙層架構,以解決 AI 代理之間的跨平台溝通問題,而此架構又被該公司稱為「代理網格(agentic mesh)」。

打造專利技術,放棄 LLM 兼顧流量

BAND 指出,這套「代理網格」將擔當起「互動層」的責任,它讓 AI 代理能夠於不同的雲端環境或框架之間互相發現,同時亦無需人類開發者替每項新連線,次次撰寫可靠性不佳的「膠水程式碼(glue code)」。

跟現有主要通訊軟體,大多採用點對點或客戶端-伺服器架構的傳輸方式協議不同,BAND 支援全雙工、多點對點通訊,這讓一群不同功能的 AI 代理程式,有辦法在同一個共享空間中,以同步的上下文協同執行各種作業。

為了確保通訊層的確定性,BAND 刻意不使用大型語言模型(LLM)對訊息的傳遞進行路由,而是改採一種正在申請專利的多層架構,讓訊息能夠可靠的送達目的地。

同時考慮到 AI 代理之間發起溝通的驚人流量,BAND 選擇了跟 WhatsApp 和 Discord 等全球通訊巨頭相同的技術堆疊,確保當機器人訊息的數量,開始超越人類之間的聊天時,平台依然能夠有效處理超過數十億則訊息。

控制平面確保權限,創造可稽核性

至於安全方面,BAND 形容假如代理網格是 AI 代理之間的溝通「管道」,那麼「控制平面(Control Plane)」就肩負起「閥門」任務,給予企業擴展 AI 代理規模前足夠的治理機制。

在 BAND 平台上,企業可以制定出最嚴格的規則,規範哪些 AI 代理之間能夠互相聯繫,以及限制 AI 所討論的話題。此外,BAND 也會負責管理人類的權限與安全憑證,如何在 AI 代理之間進行傳遞。

舉例來說,若某個企業員工向代理 A 索取資訊,而代理 A 選擇將任務委派給代理 B,那麼 BAND 將會進一步確保代理 B,僅僅能夠存取原始使用者(即該人類員工)有權限查看的資料。

對企業 IT 領導者而言,擁有「控制平面」的重點在於可稽核性;BAND 提供對每個 AI 代理程式互動的全面可觀察性,並且替 AI 的自主行動建立對話紀錄,以及關鍵的紙本追蹤紀錄。

從另一個角度來看,BAND 的作法可視為現有 AI 護欄的互補解決方案,畢竟多數 AI 護欄只能保護單一 AI 代理免受提示詞注入攻擊,但 BAND 則能保護整個系統,避免因某個代理程式誤導另一個 AI 代理程式而引發連鎖故障。

強調平台中立性,不受供應商綁定

此外,BAND 強調旗下產品於設計上具備「框架中立」與「雲端中立」的特性,所以能夠成為一款避免供應商鎖定的獨立中介軟體。

相較於 OpenAI 或 Anthropic 等巨型雲端供應商,通常希望企業留在其生態系範圍之內,BAND 提供了相對靈活的選擇,讓企業可以從多種選項中,挑選最適合自身的 AI 模型與解決方案。

根據 BAND 的說法,目前公司在「科技導向」領域獲得了最大發展動能,希望獲得平台服務的客戶,主要包括電信、金融服務及網路安全。

舉例來說,不少軟體開發人員發現 Claude AI 較擅長撰寫程式碼,而 OpenAI Codex 則在審查程式碼方面表現更為出色;因此在 BAND 的協助下,開發者就可以讓這些 AI 代理同時運作,並於即時狀態下互相委派工作任務。

又比如企業朝聘新員工入職時,大致流程都可以由 Workday 的 AI 代理程式負責,而該代理又能夠經由 BAND,跟 ServiceNow 的 AI 代理通訊以新增設備工單,最後再與 AI 採購代理溝通以完成工單,全自動處理員工入職程序。

技術體積輕巧,SaaS、邊緣都能運作

有鑑於企業資料的敏感性,BAND 也提供三種方式供客戶利用該平台,包含標準的 SaaS、本地部署和私有雲,以及直接在邊緣設備運作。

其中,SaaS 模式基於簡易的雲端平台,AI 代理可以經由 API 進行連接;本地部署方法將允許客戶,直接將 BAND 建置於私有的 VPC 或本地環境中,確保資料始終處於企業的掌控之下。

至於邊緣運作則具備更高彈性,由於 BAND 本身設計輕巧,即便是在無人機或衛星等「飛行載具」上亦能順利執行,從而讓企業可選擇於物理層面相互隔離的環境中,發起各節點之間的直接通訊。

提供三種定價,瞄準個人與企業用戶

根據官方說法,目前採用 BAND 平台的早期使用者,已經開始混合搭配由不同模型供應商所驅動的 AI 代理。

在定價模式上,BAND 以免費、專業與企業客製化三個層級,希望吸引全世界從個人開發者到大型企業的所有族群。

在為個人開發者所提供的免費方案下,BAND 最多可以支援 10 個 AI 代理及 50 個活躍聊天室,不過資料僅會保留 24 小時;專業版則是為新創公司與成長中團隊所設計,上限提升至 40 個 AI 代理與 250 個活躍聊天室,並提供客服電子郵件支援。

企業客製化方面,BAND 將會提供無限數量的 AI 代理連接、可自定義的資料保留政策,藉此因應企業的合規要求,並允許完全存取 BAND 的「Memory APIs」服務。

企業將需要 AI 代理的「通用協調器」

根據 Gartner 預測,2029 年至少有 90% 部署多 AI 代理的企業,將需要一款效能足夠的「通用協調器(Universal Orchestrator)」。

同時研究和諮詢公司 Forrester 亦將「代理程式控制平面(Agent Control Plane)」,認定為獨立且新興的市場類別,BAND 的出現正是瞄準這個市場而來。

BAND 執行長 Arick Goomanovsky 認為,旗下平台不僅僅是一個工具,更有可能成為下一代網際網路的基礎層。

他指出,通訊是運算領域最根本的問題,每當有一項新科技出現,如何讓其彼此溝通就成為了優先要務,對於目前這個世代來說,即是 AI 代理之間的互動網路。

日前 BAND 所取得的首輪融資,將用於擴充工程團隊,並加速合作夥伴生態系統的開發,對象包含北美領先的電信公司與歐洲的數位支付企業。

隨著 AI 代理開始轉變為企業工作流程的主要驅動力,如何將它們緊密連接在一起,已經成為技術堆疊中最關鍵的一環。

橫空出世的 BAND 象徵業界在 AI 代理溝通方式標準化的全新嘗試,意圖將混亂且各自為政的代理程式,轉化為協調一致、受控且能夠互相合作的交響樂團。

【推薦閱讀】

◆ OpenAI 傳合作聯發科、高通開發手機處理器,打造「AI 代理手機」
◆ Meta 裁員 8,000 人後,還要留下的員工訓練 AI 代理:科技業用人邏輯正在被改寫
◆ 【SaaS 末日還沒到】AI 助力客製化開發,商業軟體的角色正在被重新定義

*本文開放合作夥伴轉載,參考資料:VentureBeatBAND,首圖來源:Nano Banana 2

(責任編輯:鄒家彥)

4 個月變 2 分鐘、數萬美元變幾塊錢,AI 合成受眾如何顛覆市調與顧問業?

作者 Min
2026年5月21日 10:00
4 個月變 2 分鐘、數萬美元變幾塊錢,AI 合成受眾如何顛覆市調與顧問業?

在 AI 技術大爆發之後,傳統的市場調查與顧問產業,正在遭受人工智慧帶來的劇烈衝擊,其中最關鍵的部分,莫過於「合成受眾(synthetic audiences)」為產業造成的破壞式創新。

猶如陣容壯盛的 AI 機器人軍隊,緩緩向諮詢企業的總部大樓進軍,舉凡麥肯錫(Mckinsey)、尼爾森(Nielsen)、高德納(Gartner)、陽獅(Publicis)等,任何涉及群眾分析的顧問公司,包含行銷、研究、民調等所有領域,全都不得不面對合成受眾所帶來的挑戰。

究竟「合成受眾」是什麼?

那麼「合成受眾」究竟是什麼?簡單來說,合成受眾就是一群透過 AI 技術進行模擬的人類,讓顧問公司可以用低成本且近乎即時的速度,對這群 AI 進行各種市場調查,即便準確度或許稍遜真人一籌,但效果卻足以顛覆產業的現有樣貌。

透過向 AI 提供某個人,亦或者某群人的相關資訊,我們可以開始要求人工智慧「設身處地」,模擬現實世界中人類的思維、行為、優先順序與決策。

當然,具備一定能力的開發者與企業,還能夠創造出非特定的代表性人物或角色,並將其視為真實人物進行調查,許多公司更早已在該領域推出新產品,例如新創團隊 Electric Twin、Artificial Societies 和 Aaru,甚至是擁有百年歷史的行銷傳播集團電通(Dentsu)。

破壞性 AI 創新,卻讓企業猶豫

在過去,市場調查業者對人類進行簡單的問卷調查,通常得耗時 4 個月左右,而且還得再加上 2 個月製作一份精美的 PowerPoint 簡報,向客戶或高層主管呈現調查結果,總成本投入可以輕鬆高達數千甚至數萬美元。

如今,在 AI 所模擬的合成受眾技術幫助下,前述工作僅僅只需要 2 分鐘,成本投入也不過「幾塊錢」美元。

表面上看來,由 AI 所驅動的合成受眾技術,似乎已經佔據了顧問產業未來的主導地位,但跨國廣告與公關公司 WPP 人工智慧部門主管 Eren Celebi 卻強調,事實上合成受眾能夠為顧問產業帶來多少影響,未來幾年才是最重要且具決定性的關鍵時期。

Eren Celebi 表示,在 2023到 2025 年間,當他於 WPP 倫敦總部工作時,曾經為許多《財星》世界 500 強企業,開發過類似的 AI 工具,畢竟這些大型企業組織對市場調查的需求最大,自然也成為合成受眾技術最主要的買家。

然而 Eren Celebi 發現,這些《財星》世界 500 強企業對於採用 AI 技術與合成受眾,卻經常感到猶豫。

竊取資料的擔憂,關鍵在於信任

Eren Celebi 舉例,當他向客戶提及合成受眾時,通常企業最先提出的問題是:「人工智慧會竊取我們的資料嗎?」暗藏著對 AI 的恐懼及情緒化反應。

此時 Eren Celebi 會選擇提出另一個問題,反問企業:「你們會使用 Microsoft Teams 嗎?」假若答案為「是」,那麼 Eren Celebi 就直言,兩者其實並沒有太大不同。

Eren Celebi 解釋,幾乎每家企業都會將敏感資料儲存於 Google、Amazon 或微軟所提供的雲端服務中,而這些科技巨頭同時也提供企業級 AI 功能,並在服務條款中聲明,絕對不會使用企業資料進行模型訓練。

只不過,企業究竟是不是真心信任,科技巨頭將盡全力保護企業的資料,每個人心中有著不同答案,要不要採用科技巨頭的服務,亦有許多的利弊權衡。

因此 Eren Celebi 說,對於世界上任何事情,選擇「相信」和「不相信」,本質上就是個自願與否的問題。

更快、更便宜,但不見得更聰明

除了若有似無的隱私安全疑慮之外,企業也十分在意合成受眾的準確性問題。

知名創投公司 a16z,將 AI 所帶起的各種新興科技浪潮,簡單統整為「更快、更聰明、更便宜」三大優勢,但 Eren Celebi 只認同其中的一小部分。

Eren Celebi 承認,透過合成受眾進行市場調查,速度確實比傳統方式更快、更便宜,然而是否真的更聰明,即比起過去更加準確,則需要受到進一步質疑。

根據史丹佛大學於 2024 年所發表的一篇開創性論文,其證明人工智慧能以平均 85% 的準確度,模擬人類對問卷調查作出的回應。

該論文同時指出,在某些特定調查項目上,當 AI 獲得足夠的相關資訊及豐富的背景資料,例如受訪者簡介時,模型重現人類答案的準確率甚至能超過 90%,精準推測人類的行為與想法。

然而 Eren Celebi 也強調,目前還沒有任何 AI 所模擬出來的市場調查,有能力達到百分之百的準確度。

因此,Eren Celebi 指出未來的市場調查產業,可能會出現一種詭異的景象,那就是由 AI 對某件事物所表達出來的傾向,甚至會比人類表達自身慾望的能力還要精準。

Eren Celebi 形容,這種詭異情況簡直就像身處電影《關鍵報告》中,由 AI 判斷人類是否擁有犯罪企圖的未來,只是這種未來想要成真,本質來說依然太過遙遠。

AI 合成受眾的基本準確度已足以衝擊市調產業

相較於關注合成受眾準確性的天花板,Eren Celebi 更在意 AI 市場調查技術的下限。

Eren Celebi 以自己私下進行非嚴謹測試舉例,他發現單憑一個人的基本資訊,如年齡、居住地區和性別等常見資料,就能以 72% 的準確度,透過 AI 建模並預測出人類的某些行為,比方說預測已婚人士是否會生小孩。

Eren Celebi 說,雖然進行這些預測對於企業來說,幾乎沒有太多市場風險,但這並不代表合成受眾可以完全取代專業人員,如市場策略師獨特的洞察力。

只不過 Eren Celebi 仍然直言,考量到要理解並建模捉摸不定的人類,本質上是太過困難的事情,如合成受眾這種相較隨機選取更加優質,而且十分容易實現的解決方案,終究還是會對顧問產業造成深刻影響。

當市調技術正在以指數級成長

Eren Celebi 表明,人類思維的運作範圍始終有限,這就像大多數人都可以輕鬆理解,關於「走路」跟「跑步」之間的速度差距,但若是將「走路」跟「搭飛機」之間的速度進行比較,那這種理解就會超出多數人的想像。

正如同飛機的出現讓長途旅遊、長程運輸產業應運而生,全新的合成受眾跟 AI 技術,可能也會對顧問產業帶來類似的衝擊。換句話說,當一項科技的進步不再漸進,而是直接以指數級成長時,其所產生的正向外部效應,就會變得令人難以預測。Eren Celebi 總結,既然沒有辦法確切預測,諮詢產業的未來會因為 AI 而造就哪些事,那不如就默默欣賞這場好戲,靜靜等待有趣的事情發生。

【推薦閱讀】

【加速決策】市場還沒問,AI 已給答案:AI 市調出與真人回饋 90% 一致的市場反應
【顧問業 SaaS 化】IBM、麥肯錫都在做的事:把顧問服務變成 AI 代理與平台工具
【零售業的未來,AI 已經寫好】抓牢零售業 8 大趨勢,用 AI 抓住客戶的心和訂單

*本文開放合作夥伴轉載,參考資料:VentureBeatarXiv,首圖來源:Pixabay

(責任編輯:鄒家彥)

AI 時代需要全新領導方式,專家提 90 天 AI 轉型實踐框架

作者 Min
2026年5月25日 10:09
AI 時代需要全新領導方式,專家提 90 天 AI 轉型實踐框架

不久之前,飲料大廠可口可樂公司執行長 James Quincey 宣布卸任,他向外媒表示,自己之所以決定卸任,幕後原因跟 AI 脫不了關係,並指出可口可樂公司需要一位有能量推動全新轉型的領導者。

無獨有偶,零售巨頭沃爾瑪(Walmart)執行長 Doug McMillon,也是因為 AI 而決定提前交棒。Doug McMillon 曾表示,雖然他有能力為公司啟動下一輪大規模的人工智慧轉型,但他認為沃爾瑪需要一位更適合帶領公司進入 AI 時代的領導者,因此選擇主動交棒。

無論是 James Quincey 或 Doug McMillon,他們都不是因為經營公司有所失誤而決定退出;從多數人的眼光來看,他們都是成功且具備實績的領導者,但卻也同時意識到自己缺乏了 AI 時代下,身為高階主管必須擁有的領導力。

AI 時代需要全新的領導方式

然而,大多數企業高管與領導人,卻依然沒有正視迫在眉睫的問題,即人工智慧時代需要的不僅僅是新技術或新策略,它更需要全新的領導方式。為了充分利用 AI 的優勢並規避潛在風險,領導者將需要跟以往截然不同的特定技能,甚至是更加創新的思維模式。

對此,曾創辦過 SHADOKA 和 NextChapter 等公司,目前擔任瑞士洛桑國際管理發展學院(IMD)執行研究員,致力於「以人為本」組織轉型的 Faisal Hoque,提出了一套培養 AI 時代企業領導團隊的 90 天實踐框架。

根據 Faisal Hoque 說法,該框架涵蓋了評估、發展與嵌入等階段,以系統性且大規模的方式,培養企業高管 AI 時代下所需要的領導力,並給予想要迅速完成人工智慧轉型的企業進行參考。

進入評估階段,先從行為指標開始

首先,在 90 天框架的第 1 天至第 30 天,即所謂的「評估」階段,Faisal Hoque 指出企業要客觀掌握領導團隊的現狀,其內涵包括:了解領導團隊的人工智慧素養程度、思維模式差距、決策路徑模式,並且直接對領導者進行壓力測試。

在這個階段,Faisal Hoque 認為企業要針對高階領導團隊的每位成員,依據既定的熟練度評量標準進行系統化評估,而評量標準則應涵蓋對 AI 系統運作原理的基礎理解、對 AI 故障模式的認知、對成本與風險影響的掌握,以及將人工智慧與企業策略互相結合的能力。

緊接著,企業要試著規劃出一套「AI-Ready 領導力」行為指標,評估每位高層主管對 AI 模糊性的包容度、扼殺自身倡議的意願、將任務委派給非人類系統的從容度,還有對 AI 實驗性企畫的傾向。Faisal Hoque 強調,這套行為指標的目的,並非是要企業對主管進行評分,而是為了找出那些會加速或阻礙 AI 轉型進程的具體行為。

梳理決策模式,AI 風氣要始於上層

至於梳理決策路徑模式方面,Faisal Hoque 建議企業檢視領導團隊最近做出的十項重大決策,並列出每項決策耗時多久?在做出決定前蒐集了多少資訊?決策被重新審視的頻率為何?其中又有多少項決策被推翻?當成功企業回答出這些問題後,其所浮現的決策模式,就能判斷其是否具備應對 AI 時代所需的條件。

Faisal Hoque 直言,企業內部的任何營運風氣,幾乎都開始於上層;假若執行長本人不精通人工智慧、不願意親自使用 AI 工具,甚至無法坦然面對不確定性與失敗,那麼公司內的其他成員便不會認真看待 AI 轉型,因此企業要對最高領導者施加壓力,使執行長本人的 AI 發展計畫,比其他主管更加嚴謹與苛刻。

當前 30 天的「評估」階段結束後,Faisal Hoque 說,企業應該能利用領導團隊的 AI 熟練度、行為準備度等條件,判斷其是否足以應對 AI 時代領導力的要求,以及下一階段個人、團隊需要彌補的具體差距,擁有清晰且基於實際證據的理解。

步入發展階段,首要建立書面計畫

進入第 31 天到第 60 天,Faisal Hoque 將其定義為「發展」階段;此階段旨在培養前一階段中,企業領導團隊有所欠缺的能力和行為,並且透過針對性、職務相符的訓練方式,讓領導者所獲得的技能,可以跟他們各自所負責的決策互相掛鉤。

發展階段中,Faisal Hoque 提出 6 個主要目標,包含:制定個人發展計畫、將 AI 技能付諸實踐、推動決策模擬、建構同儕學習機制、接觸尖端技術,以及調整領導者的能力評估方法。

Faisal Hoque 認為,高階領導團隊的每位成員,其實都需要一份關於自身的書面發展計畫,而該計畫要跟評估階段所發現的能力缺口相互連結。在計畫中,員工應明確列出目標能力、規劃培養目標能力的具體活動,並且訂出足以證明進展的可量化成果。

Faisal Hoque 強調,通用的領導力培訓課程在 AI 時代下完全不可行,發展計畫必須面對領導者量身訂製,針對其職務所需做出的決策行為進行具體規劃。

實際運用 AI 工具,模擬決策情境

其次,Faisal Hoque 提醒企業高階領導者,只閱讀資料不會讓自己跟 AI 變得更親近,唯有實際運用才能讓 AI 技能變更強。他建議,每位高階主管都應在第 45 天之前,於日常工作中積極運用 AI,無論是利用它們起草文件、分析數據都可以,藉此對自身的 AI 應用策略進行壓力測試。

再者,企業要試著設計出符合 AI 時代的決策情境,並且讓領導團隊實際演練。在模擬情境中,企業要去逼迫領導團隊,正視先前迴避的決策,例如在什麼樣的情況之下,可以放手讓 AI 自主做出重大決定,以及如何處理人力資源轉型、判斷競爭對手若比自身更早部署人工智慧時,接著該如何應對等。

Faisal Hoque 說,推動決策模擬的重點,在於透過近似真實條件的演練,培養出領導團隊與領導者的 AI 判斷力。

團體配對解決問題,接觸前沿技術

同儕學習機制方面,Faisal Hoque 認為提升領導力最有效的途徑,就是將人拉進面臨類似挑戰的同儕小團體之中。因此,企業可以考慮將每位高階主管,跟一、兩位正在處理類似 AI 決策的人士互相配對,無論對象來自組織內外,共同拼成小組召開例行會議,並且針對實際任務進行各種探討。

此外,Faisal Hoque 指出企業的領導團隊與領導人,必須要定期且有系統的接觸最前沿技術,直接與 AI 實驗室、頂尖研究人員,還有在技術部署方面比自家公司更先進的組織進行交流。

Faisal Hoque 甚至直言,只會關注供應商所推銷、宣傳的 AI 產品的領導者,永遠只會低估技術實際上的發展可能性。

調整能力評估方法,判斷人才潛力

至於調整領導者的能力評估方法上,Faisal Hoque 提醒,假如企業所訂出的領導力評估框架,跟五年前相比毫無變化,那麼對領導者的行為期望,本質上也就沒有改變。

換句話說,企業要積極將領導力評估的「很大部分」,跟領導者的 AI 準備程度互相掛鉤,例如:領導者是否有親自推動的 AI 實驗項目、領導者在投資人層級的討論中,是否能展現出流暢的表達能力,以及判斷領導者是否有條件成為組織發展方向真正需要,而且值得培育的人才。

Faisal Hoque 表示,只要發展階段執行順利,那麼到了第 60 天時,企業內部每位高階主管,應該都已經啟動了個人發展計畫,並且懂得直接運用各種 AI 工具,經常接受決策模擬與壓力測試,同時員工表現還可以被充分反映於調整過後的評估方法上。

嵌入階段深化 AI,導入日常節奏

最後,當轉型框架來到第 61 天至第 90 天,Faisal Hoque 將這個階段定義為「嵌入(Embed)」,概念上就是把領導團隊所學習到的變革,充分融入企業的運作架構之中,使具備人工智慧應變能力的領導力成為組織常態,不會隨著時間過去而逐漸消失。

在嵌入階段,Faisal Hoque 希望企業能把 AI 融入領導層的日常運作節奏,同時還要去進一步影響、提升上位投資者的人工智慧素養,嘗試將付出所得到的回饋制度化;此外,嵌入階段中企業也要開始思考,後續的領導人該如何接棒 AI 轉型後的企業組織,並且面對棘手的人事抉擇。

舉例來說,未來企業每次進行高層領導團隊會議時,必須要主動納入 AI 相關內容,例如討論正在測試的 AI 決策、正在驗證的 AI 能力,或者是正在評估的 AI 風險等,將這些行為列入領導團隊運作方式中,不可或缺的固定環節,絕對不要因轉型時間緊迫而省略。

當時間來到第 90 天,Faisal Hoque 指出,企業便掌握了足夠證據,得以判斷哪些措施干預或促進了公司的 AI 轉型行為,而哪些領導者又曾經採取行動?哪些員工則沒有?只要善用這些數據,就能對行之有效的措施加倍投入,並重新設計未見成效的方案。

提升投資層素養,勇敢面對人事決策

隨著企業領導團隊的 AI 轉型進一步深化,最上層的投資者,例如董事會可能會拖慢公司進化的步調,所以企業要開始學會替投資層建立一套結構化的 AI 教育計畫。

舉例來說,Faisal Hoque 建議企業董事會至少要有一位具備深厚 AI 專業知識的董事,將 AI 策略與風險列為常設議程項目,並且建立一套共同的術語體系,以便進行投資和各項計畫的實質性監督,而非僅止於表面審查。

即便企業轉型令人興奮,但有得必然也有失。嵌入階段中,Faisal Hoque 直言企業將開始明白領導團隊內部,哪些成員將有辦法繼續隨著公司前進,而哪些則會被拋下;無論是在策略、企業文化或人才留任方面,組織若選擇持續迴避這些艱難的決策,未來付出的代價勢必就會越高。

企業中的領導人才通常不會長時間存在,Faisal Hoque 認為,AI 時代進步的速度太快,組織三年後所需要的領導人才,將會跟三年前截然不同,所以企業要提早做出應對,根據人工智慧時代的標準,重新審視接棒領導者的儲備名單。

Faisal Hoque 點明,在儲備名單中哪些員工正在培養自己的 AI 專業能力?而哪些人又是停滯不前?這些答案將會重新塑造企業組織未來十年的人才策略及樣貌。

AI 轉型並不是針對「某一個人」

當這套 90 天的框架執行完畢,Faisal Hoque 結論,企業的領導團隊通常已經步入正軌,其不足之處將被清楚點出,同時人才發展計畫已然展開,隨著 AI 所帶來的結構性變革融入組織運作模式之中,領導團隊勢必將逐步蛻變,適應這個充滿顛覆性的變革時代。

總歸來說,企業要懂得誠實檢視,究竟自身組織是否符合當下局勢的需求,並思考盡快發起行動;此外,企業亦得審視整個領導團隊,進行同樣誠實、有意義的評估,強調 AI 轉型並不是針對公司內「某一個人」,而是針對組織中的「每一個人」。

Faisal Hoque 直言,唯有能夠針對前述兩方面都採取行動的企業,才有可能在下一波轉型浪潮來臨時,依然於市場上繼續保有領先地位。

【推薦閱讀】

◆ 紅杉資本、NVIDIA 押注!Google DeepMind 前研究員創 AI 新創,打造「超級學習者」估值飆 51 億
◆ Deloitte 報告:技術優先的主管「未能」實現 AI 回報的機率高出 1.6 倍,差距來自哪裡?
◆ 【史丹佛大學 2026 AI 指數報告】中美技術差距消弭、初階職位消失,企業如何重新評估 AI 風險與安全佈局?

*本文開放合作夥伴轉載,參考資料:Fast CompanyFaisal Hoque,首圖來源:Pixabay

(責任編輯:鄒家彥)

從抓雞塊到旋轉燈泡,機器人新創 Eka 讓機械手臂學會感覺物理世界

作者 Min
2026年5月26日 09:20
從抓雞塊到旋轉燈泡,機器人新創 Eka 讓機械手臂學會感覺物理世界

在 AI 技術的發展之下,實體機器人的「大腦」已經比過去聰明許多。然而,若提及機器人的「動作靈活度」,至今卻仍是該產業的最大罩門。

如何讓機器人的動作變得跟人類一樣精準、流暢,正是科學家積極想要解決的問題。對此,來自美國麻薩諸塞州的機器人新創公司 Eka,從機器人的訓練方式上,提出了與眾不同的解決方案。

根據報導,Eka 藉由讓機器人的 AI 模型「自主學習」,而非單純模仿並吸收人類所提供的訓練資料,自行找出抓握、移動物體的方法,並展現出比起當今同類機器人更高的動作靈活度水準。

外媒認為,看著 Eka 旗下機器人的運作,不禁令人想起第一次與 ChatGPT 對話的情景;Eka 的機械手臂不僅動作流暢、舉止自然,即使還稱不上完全跟人類一模一樣,但總讓人懷疑其動作背後,確實蘊藏著某種「智慧」。

從「抓雞塊」展現機器人動作能力

Eka 共同創辦人麻省理工學院教授 Pulkit Agrawal,以及 Google DeepMind 前機器人研究員 Tuomas Haarnoja 向外媒表示,數年之前,團隊意識到機器人的動作靈活度問題,事實上已經可以被現代技術所克服。

在經過更進一步的開發後,Eka 認為他們所擁有的技術,將有機會讓機器人的靈活度達到超人類水準,甚至於未來徹底改變機器人的應用方式,即這類產品將不再僅限用於工廠和倉庫,還會延伸至商店、餐廳,甚至是一般人的家中。

在 Eka 使用機械手臂移動物體的示範中,工程師打造出了一個工作站場景,桌上則散落著形狀各異的雞塊;緊接著,一條輸送帶會把塑膠容器送到 Eka 的機械手臂面前,讓機器人抓起雞塊並放入盒中。

透過 Eka 獨特訓練方式打造的 AI 模型與機械手臂,不僅能以驚人的速度完成任務,甚至還展現出了近乎人類般的臨場應變能力。

舉例來說,Eka 的機械手臂偶爾會小心翼翼放置雞塊,但如果盒子位置離得比較遠,被輸送帶移動到機器人無法觸及的範圍,那麼機械手臂就會做出「輕拋」的動作,把雞塊輕輕丟進容器內。

機器人靈活度問題「解決了一半」

Eka AI 模型與機械手臂對雞塊的流暢處理,其實還有著另一層關鍵意義。

時至今日,食品加工依然是個高度仰賴人工的領域,舉凡水果、蔬菜、肉類等,處理食物不只得迅速,過程還必須輕柔;此外,由於沒有任何兩顆水果、蔬菜或雞塊的外觀完全相同,因此實務上也很難實現自動化。

外媒認為,目前 Eka 所展現出來的技術實力,或許象徵著該公司正朝著機器人產業的重大里程碑進行突破;現時的 Eka 機器人就好比當年 OpenAI 的 GPT-1,雖然還擁有許多缺點,但卻也已經具備「智能」的蛛絲馬跡。

Pulkit Agrawal 與 Tuomas Haarnoja 說,單純以他們的角度來看,Eka 已經讓機器人的動作靈活度問題「解決了一半」,剩下另一半則是如何將 Eka 所採用的訓練方法擴大規模。

利用自主學習,開創不同策略

兩位創辦人指出,Eka 開發出一種名為「視覺-力-動作(Vision-Force-Action,VFA)」的全新 AI 模型,它能夠以模擬方式進行自主學習,並且結合逼真的關節、馬達,以及融入質量、慣性等物理原理。

Eka 的 AI 模型能夠導引機器人明白,究竟某種運動是如何影響螢幕上的像素變化,也能令機器人理解動作的重量與速度,究竟是如何跟被抓取的物體之間產生交互作用。

只不過於此之外,Pulkit Agrawal 與 Tuomas Haarnoja 拒絕提供 AI 模型與機器人本身,更進一步的訓練方式和技術細節。

簡而言之,Eka 的 AI 模型在不依賴人類提供訓練資料的情況下,於模擬環境中進行了數千小時的運算,反覆練習動作並自行構思解決方案,有點類似當年震驚世界的 Google DeepMind 通用棋類 AI AlphaZero,以自我訓練的方式,開創跟過去截然不同的解題策略。

主流 VLA 已經擁有產業鏈

綜觀當前機器人產業所追尋的「物理智能(physical intelligence)」願景,一部分資金雄厚的新創公司,選擇積極投入「視覺-語言-動作(VLA)」模型的開發與最佳化,透過向 AI 模型展示人類的運動影片,或者直接操作機器人讓 AI 模型記憶、學習,希望藉此催生出流暢的機器人原生動作技能。

受惠於網路上已經存在的大量影片作為訓練資料,發展至今 VLA 技術擁有了一定規模的產業鏈,讓開發者可以即時生成、運用這類數據,企業甚至會付費請人戴上攝影機和動作捕捉設備,花費數小時進行重複性的手部操作,只為取得數據供應給 AI 模型與機器人。

相較於產業中的多數公司,Eka 選擇了一條完全不同的路,而且從實際表現來看,似乎收到了相當不錯的效果。

機器人眼中世界跟人類很相似

根據媒體觀察,在從桌上抓取鑰匙串的示範中,Eka 的機械手臂就像擁有某種剛剛萌芽的物理智能,它會先將夾爪的尖端輕觸桌面,接著沿著桌面滑動,然後才接觸到鑰匙,並將鑰匙牢牢夾在指間。

外媒進一步形容,Eka 所開發的機器人和 AI 模型,總感覺跟業界的同類產品很不一樣;機械手臂上的感測器,似乎能夠感知到其承載的重量,以及當機械手臂朝鑰匙串掃去並減速時,整體動作所產生的慣性;一旦鑰匙被機械手臂的爪子夾住,其系統似乎也能感知有物體正掛在爪子上。

不僅如此,外媒還發現 Eka 的 AI 模型,似乎擁有非常強的錯誤恢復能力,除非是人類刻意且不斷干擾,否則機械手臂最終通常都能順利完成任務。

若是從第三者的角度來分析,外媒指出 Eka 機器人與 AI 模型眼中的世界,似乎跟人類所看見的世界很類似;但是,這家公司是否真的能夠於機器人領域,達到跟 OpenAI ChatGPT 一樣的突破及成就,還需要足夠的時間進行證明。

整合訓練模式,組裝 iPhone 可期待

一部分機器人領域專家認為,將真實世界的人類動作影像資料,跟 AI 自主模擬的數據互相結合,其訓練成效將優於單純模擬,所以對於機器人產業來說,同時利用兩種方式並達到相輔相成的效果,有可能才是最正確的答案。

無論如何,若業界想要讓機器人擁有跟人類同樣等級的動作靈活度,那麼其過程終究需要 Eka 正在研發的觸覺與物理智能技術。

Pulkit Agrawal 與 Tuomas Haarnoja 表示,機器人訓練技術是 Eka 最大的商業優勢,公司目前也已經開發出具備「觸覺」的客製化機械手臂與機械爪。

除了抓取體積較大的物體外,Pulkit Agrawal 補充,Eka 所開發出來的機器人技術,理論上也能用於更加精細的操作,比方說組裝 iPhone手機,客戶可以藉由安裝不同的致動器和感測器,讓 AI 於模擬環境中反覆練習來達成。

【推薦閱讀】

◆ 【資本慣性造成的戰略盲點】機器人市場規模是軟體的 30 倍,但資本投入差距 18 倍
◆ 破解機器人硬體碎片化難題:EPFL 研發「運動學智慧」,讓不同機器人無縫複製技能
◆ 20 毫秒快速反應、擊敗桌球職業選手:Sony AI 機器人 Ace 如何跨過 Physical AI 的即時決策門檻?

*本文開放合作夥伴轉載,參考資料:WiredEka Robotics,首圖來源:Eka Robotics

(責任編輯:鄒家彥)

打造「自主型工廠」不是投入 AI 機器人就夠,混合式空間、人類洞察力缺一不可

作者 Min
2026年5月29日 10:08
打造「自主型工廠」不是投入 AI 機器人就夠,混合式空間、人類洞察力缺一不可

長久以來,製造業都在追尋所謂的「機械烏托邦」,即一座運作效率完美、毫無人為失誤,並且能長期持續營運的理想工廠。

回顧 1980 年代,機械手臂與各種自動化產品的出現,讓人類初次窺見機械烏托邦的願景雛形,然而這些被牢牢固定在地面上,輸入程式碼後只會不斷重複同一個動作,直到零件損壞為止的自動化機台,本質上仍然無法完全取代人類,成為當代工廠的作業核心。

無可否認,傳統自動化在重複精確作業方面,表現十分出色,但是在其他絕大多數的任務上,傳統自動化工具的執行效率,卻是顯得相對糟糕。

舉例來說,假如生產線上的某個零件,僅僅偏移了兩公釐,或是感測器校準稍有偏差,那麼傳統自動化機器人就會因此失靈。

會「思考」的「自主型工廠」

隨著 AI 技術走向蓬勃發展,長期受到業界討論的「實體人工智慧(Physical AI)」,終於開始從理論變成了實踐。

當代人類正在親眼目睹製造業的根本性轉變,即 AI 技術讓機器不再只會照本宣科、重複固定動作,而是開始擁有感知與推理能力,改變自動化機器跟現實世界之間的互動方式,進一步促使傳統工廠陸續升級,成為一種會「思考」的「自主型工廠」。

只不過,無論是「機械烏托邦」或「自主型工廠」,其完美應用之路依舊比許多人想像中,還要來得更加艱辛、更加複雜。

現實與模擬之間的訓練落差

打造自主型工廠的痛點之一,首先在於現實世界和模擬環境之間的差距,並沒有如此容易彌平。

即便在 AI 技術的發展之下,大型平行模擬中的強化學習取得了顯著進展,讓企業有能力同時運行一萬台虛擬機器人,將過往得於實體環境中摸索一年的技術,壓縮到僅需 48 小時運算時間即可完成,可是在實際應用中,強大的 AI 模型仍會以人類難以預測的方式失效。

換句話說,打造自主型工廠的瓶頸,已經不再是機器人本身,而是訓練資料的「品質」問題。

舉例而言,假若企業所投入的訓練模擬環境,未曾考量過灰塵對光學感測器的影響,那麼機器人於現實世界中作業時,也會直接忽略灰塵並產生錯誤。

許多工程師們花費數十年時間,苦於解決自動化機器人於現實作業跟模擬任務之間的落差,並在物理法則完美無缺的虛擬世界中,任意訓練功能強大的機器人,但若單純是把這種產品帶到工廠,強大的機器人最終也會完全失靈。

單一任務工具逐漸淡出

其次,隨著「視覺-語言-行動(VLA)」模型的問世,人類對於打造硬體自動化系統,開始有了不一樣的邏輯概念。

應用 VLA 模型相關技術,當代機器人已有能力於未經預先撰寫程式碼的情況下,自行解開一團纏結的電線,這反映出軟體設計中的「if-then」處理邏輯,開始套用到了實體機械上,並使機器人的任務定義,轉向統一、便捷的開發框架。

在自主型工廠中,未來工人可以直接對機器人說:「把刮傷外殼的零件,直接移動到紅色箱子」,而 AI 模型會將自然語言轉譯成運動指令,擺脫預先編程、預先定義的傳統邏輯。

從現實面來看,自主型工廠的發展仍在早期階段,而那些有能力承擔任務的 AI 系統,運作速度通常會比較慢,偶爾也還會做出錯誤的動作,但業界可以肯定之處,在於僵化且僅能執行單一任務的工具,正在逐漸淡出製造業的舞台。

機器人孤島與混合式空間

許多對工業製造和 AI 技術認識淺薄的人,幾乎都認為只要於「僵化」的生產線上,加入一台「聰明」的機器人,生產流程就會突然之間好轉,然而事實卻遠遠沒有這麼簡單。

通常情況下,盲目增加 AI 機器人到製造流程中,狀況只會發生惡化;比方說工廠於 A 站點安裝了一條可以高速揀選零件的機械手臂,但是接收零件的 B 站點,基本上只會被高速送來的零件所淹沒,導致生產系統發生停滯。

前述現象被稱為「機器人孤島(robotic islands)」,即表面上看似引入了高效率的機器人改進生產流程,但它們卻於實際上造成了整個系統的瓶頸。

在貨物倉儲、大型物流等營運情境中,機器人孤島早已出現了各種表現形式;系統只在某個環節的改善,往往會以難以預料的方式,波及到其他環節。

因此,若想要讓自主型工廠真正發揮效用,經營者就必須重新思考組織架構,徹底重塑、規劃工廠生產線,並且使其成為「混合式空間」。

以混合式空間打造的新形態工廠中,有時為了安全起見,人類工作者必須刻意遠離機器人,有時則必須投入協作,讓機器人負責重體力勞動,而人類處理頻繁且需要精細動作的任務。

擺脫「人型機器人」的迷戀

談到將機器人應用於生產製造環境,有些人堅持,投入「人形機器人」才是最理想的解決方案;看到雙足機器人在工廠內行走,固然是一場精彩的「展示」,可是若從工程投資回報的角度來看,人形機器人卻經常變成一種干擾。

換句話說,工業家要懂得拋棄對人形機器人的「迷戀」,並理解工廠的宗旨,始終是在於「效率」,而非迎合人類的審美。

假如工廠中需要機器搬運托盤,那麼帶有輪子的機器人,終究是比人型機器人更快、更穩定的選擇,同時開發與製造成本也低廉許多。

除非工廠環境只專為人類作業所設計,否則在絕大多數情況下,客製化且專用的機器人產品,其表現都會優於人型機器人,並以一個擁有多層次感測器、高度整合、專門專用的系統型態,在自主型工廠之中呈現。

人類洞察力的價值提升

最後是自主型工廠中,關於人類所扮演的角色。對大多數產業而言,所謂完全無人且徹底自動化的「黑燈工廠(dark factory)」,終究只會是種理想,人類並不會在生產情境中完全消失,而是被提升成了系統的監管者。

時至今日,大多數的工廠作業員,已經不再像卓別林於《摩登時代》中所演出的那樣,只是在生產線上虛無的擰動扳手,更多人是在負責訓練模型,或者監控系統是否故障,接著做出需要合理判斷的高風險決策。

換言之,即便 AI 技術驅動了自主型工廠的誕生,但人類洞察力的價值,反而並未因此降低,只是變得比過去更加集中。

工業家與生產者必須體認,當機器終於變得更加聰明,整個生產系統的其他部分,終究必須跟上腳步,才有可能使自主型工廠,甚至是一座會思考的工廠,從過往機械烏托邦的理想,變成真正意義上的現實。

【推薦閱讀】

◆ Physical AI 進入「手部操作」決勝點:Genesis AI 推 GENE-26.5 模型與仿人機械手,突破機器人落地瓶頸
◆ 98% 自動化、每輛車 2 萬項數據回傳:解析 BMW 慕尼黑廠的 iFACTORY 數位升級邏輯
◆ 寫加工程式從 1 小時縮減至 4 分鐘:拆解日本 ARUM 導入對話式 AI 的精密加工實戰

*本文開放合作夥伴轉載,參考資料:ForbesMcKinsey,首圖來源:Unsplash

(責任編輯:鄒家彥)

你以為自己在看 4K,實際上可能是 2K:一位工程師的演算法讓 Netflix、YouTube 都離不開他

作者 Min
2026年6月1日 10:27
你以為自己在看 4K,實際上可能是 2K:一位工程師的演算法讓 Netflix、YouTube 都離不開他

只要你曾經在網路平台,例如 YouTube、Netflix 等串流服務上看過影片,那麼有位工程師將值得你大大感謝,他的名字就叫做 Al Bovik。

過去數十年來,Al Bovik 全心投入數位影像處理領域,而其所發明的多種影像演算法,如今影響著近 80% 的網路與社群媒體內容,成功運用人類視覺的神經科學原理,讓串流影片呈現出盡可能清晰、自然的畫質。

Al Bovik 在視覺感知處理領域的成就,為他贏得了兩座艾美獎,一座是「黃金時段艾美獎工程獎」,另一座則是「科技與工程艾美獎」。

不僅如此,Al Bovik 也榮獲 IEEE 所頒發的愛迪生獎章,使他能夠與電話發明者貝爾、交流電系統始祖特斯拉,以及音效工程師杜比等人並列,成為工程領域的不凡人物。

關於數位影像處理的本質

根據 Al Bovik 任職的科羅拉多大學博爾德分校,近日所刊出的一份專訪,他表明「數位影像處理」的本質,就是利用電腦運算來處理視覺資訊,其亦涉及理論創造與演算法發明,藉此協助電視與電影的效率、畫質進一步提升。

回顧演算法的開發歷程,Al Bovik 指出,驅動他發起研究的關鍵因素,並不僅源於他想理解相機究竟是如何捕捉光線,更在於探究人類的大腦,將會如何解讀數位影像最終所呈現出來的資訊。

Al Bovik 說,科學家是否可以找到一種方式,完全利用數學模型,還原出人類的視覺機制,正是吸引他全心投入數位影像處理演算法相關研究,並希望獲得解決方案的最大難題。

一位極具「視覺感」的工程師

在專訪中 Al Bovik 提及,自己是個極具「視覺感」的人,每次旅行的第一站永遠都是先去藝術博物館;假如一週沒看電影,身心就會感到坐立難安。

因此,身為視覺型、空間型的思考者,Al Bovik 認為數位影像處理領域,恰好就處於數學與人類視角的交匯點,所以吸引他投身其中。

後來,Al Bovik 選修了圖像壓縮技術發明者之一黃煦濤教授的課程,一夜之間便徹底明白數位影像處理就是自己想做的事,從此便不再回頭。

當視覺處理被大腦刻意引導

談起人類視覺跟數位影像之間的關係,Al Bovik 解釋,人類的影像處理發生在腦部的多個區域,包括位於大腦後方的初級視覺皮層。

普遍而言,人類的「視覺」需要處理海量原始資訊,並將其壓縮成簡潔、高效的資訊特徵,讓大腦得以辨識高速公路上的汽車,或者追蹤飛翔中的鳥類。

因此 Al Bovik 認為,理論上科學家能夠建立一套模型,來重現人類對於視覺的處理方式,即透過數學建模來模擬大腦的視覺區域,探索「人類為何會看向特定方向」,或者「人類駕駛汽車時,視線會落在何處」等類似問題。

當情境延伸到影片觀看之類的行為,Al Bovik 說,其道理同樣沒有改變;當人類觀看影片中的各種場景時,視線會自然被引導至某些區域,換句話說,人類的視線與注意力,其實是由大腦的視覺機制在背後刻意引導。

緊接著,Al Bovik 運用前述邏輯發明出了演算法,透過數學模型模擬人類大腦對視覺失真的感知方式,藉此預測人類會如何評斷,各種數位圖片或影片的視覺品質,最終成為業界改進影像畫面呈現的指標評估方案。

結構相似度(SSIM)演算法

以業界現實面來說,由於多數影片的檔案容量龐大,若不刻意進行壓縮,實際上將無法進行串流播放,所以在大多數的情況下,視訊壓縮變成了必要行為。

此時,由 Al Bovik 所發明的「結構相似度(SSIM)」演算法,即讓大型串流平台與社群媒體服務,在影像品質與流量壓縮之間獲得了解套。

SSMI 演算法的誕生,讓科技公司能夠將影音內容壓縮至極限,直到視覺失真即將浮現之前的臨界點,舉凡 Netflix、Meta、YouTube 和亞馬遜等公司,目前無一不採用這項技術。

4K 影片可能不是真 4K

至於 SSIM 演算法的核心,Al Bovik 解釋,簡單來說就是「把人類的視覺感知數位化」。

Al Bovik 以使用者在 Netflix 上欣賞《怪奇物語》作為舉例,他表示當觀眾開始播放《怪奇物語》某個場景的瞬間,在 Netflix 的雲端伺服器上,大約就擁有至少 20 個不同壓縮程度的版本,等待被系統調用並推送給使用者。

其中,部分版本甚至經過了空間降取樣處理,例如 4K 影片可能包含以 2K 或更低解析度編碼的版本。

無論是透過手機或電視觀看 Netflix,使用者的裝置都會即時測量可用頻寬,而這項數值則會不斷變化,視覺感知演算法會從這 20 個版本中,適時請求最符合使用者當下網路環境的影像,並以場景為單位在背景不斷循環作業。

畫質壓縮與流量佔用的權衡

換句話說,在 Al Bovik 發明的演算法巧手調控之下,當觀眾以為自己正在透過 4K 畫質欣賞影片時,若當下網路頻寬受限,那麼裝置實際上接收、播放的畫面,很可能是經過壓縮的 2K 版本,只是於裝置端利用採樣恢復 4K 畫質。

Al Bovik 直言,這就是影像處理演算法,在串流媒體業界最重要的用途;即便影像實際上遭到了壓縮,但由於演算法的巧妙評估,所以在視覺上觀眾根本確切無法分辨出任何差異。

除此之外,Al Bovik 所發明的另一項演算法,稱為「視覺資訊保真度(Visual Information Fidelity,VIF)」,可以預測人類在觀看到經過壓縮的影片後,大腦將如何感知其畫質水準。

VIF 演算法會告知 Netflix 的影片畫質系統,何時可能會出現顯而易見的失真現象,而目前 Netflix 影片串流服務,正是建立在這些神經科學原理之上。

對此 Al Bovik 形容,相較於雲端串流巨頭,當今的 Netflix 其實更像是一家視覺神經科學公司。

從無解問題到顛覆網路世界

提及 SSIM 演算法的誕生,Al Bovik 謙虛指出,整個過程出於偶然。

當時,Al Bovik 與學生正在研究影片壓縮相關技術,但卻遇到了一項根本性問題,那就是該如何評估影像壓縮成果的好壞?同時人類大腦究竟又是如何感知畫面品質?

Al Bovik 指出,在當時還沒有人真正解決前述問題,甚至大多數領域研究人員都認為,該問題基本上「無解」。

緊接著,Al Bovik 與學生共同打造出了 SSMI 演算法模型,並引來媒體產業的大力關注,尤其是正苦惱於該將影片壓縮到什麼程度,才不會讓觀眾覺得畫面變形,同時頻寬流量又極其重要的串流媒體企業。

Al Bovik 認為,SSIM 為業界提供了一種評估方法,讓企業能找到影像壓縮的臨界點,並向所有人傳遞在感知上經過壓縮的影片,讓畫質與流量得以兼顧。

如今,每張上傳至 Facebook、Instagram、WhatsApp 與 Reels 的照片,皆曾被一套專注於視覺神經科學的演算法執行過最佳化,相當於 Al Bovik 所大力投入研究、發明的科學原理,已經被應用在整個網路世界。

下一個挑戰:VR 與 AR 影像處理

就在創造出顛覆時代的數位影像技術後,Al Bovik 與 Meta 之間的合作,至今已接近 10 年,而雙方所攜手投入的領域,正是 Meta 非常看重的虛擬實境(VR)與擴增實境(AR)。

Al Bovik 指出,虛擬實境的影像處理技術,其實是個非常令人興奮的課題,挑戰在於如 VR 頭盔、AR 眼鏡之類的產品,其內建顯示螢幕距離眼睛僅僅一英吋,因此需要更高的解析度,如 8K、16K 等,這意味著透過 VR、AR 裝置所接收的影像,不只是需要壓縮,傳輸數據量也會大幅增加。

對此,目前 Al Bovik 提出的解決方案卻非常直接,並且被他稱作「虛擬化身模型」。

Al Bovik 認為,對於 3D 視訊通話這類應用,與其傳送即時串流的 3D 影像,不如先建立一組 3D 人像模型,然後儲存於通話者的 VR 頭盔、AR 眼鏡之中,再透過設備上的相機與影像處理技術,傳送配戴者臉部的動態變化資料,並於另一位通話者的設備上復原重現,大幅度減少傳輸頻寬佔用。

串流影音產業的幕後推手

另一方面,Al Bovik 提及目前網際網路佔全球碳排放量近 10%,而該比例仍然在高速增長。在這種情況下,Al Bovik 所發明的影像演算法,有助於將佔用網路流量達 80% 的影音資料傳輸作業,巨幅減少近 25%,成為削減碳足跡中相當可觀的一環,對生態環境做出實質貢獻。

雖然仍不及貝爾、特斯拉、杜比等工程師知名,但身為科羅拉多大學博爾德分校教授,但也積極深入影音產業,跟許多科技業界巨頭合作的 Al Bovik 表示,自己其實是以學生們所取得的成績為傲。

在 Al Bovik 的學生中,目前至少已經有 6 位,獲得過艾美獎相關殊榮,而他們不僅是程式設計師,也不單純是影音工程師,還是同時接受過視覺心理學家與神經科學家專業訓練,有能力替產業做出貢獻的全方位人才。

Al Bovik 舉例,目前 Netflix 的影音團隊,主要是由科羅拉多大學博爾德分校的「影像與影音工程實驗室(LIVE)」旗下學生所組成;Al Bovik 以大學教授的角度評論,當他看見人才走出實驗室,並且成為產業面貌的塑造者時,這就是他最為自豪、自傲的事情。

【推薦閱讀】

◆ 烏克蘭「戰場回饋循環」:串聯 AI、前線士兵與軍火商,讓軍用無人機持續高速進化
◆ AI 氛圍編碼解決網頁排版 30 年難題,Pretext 如何徹底改變下一代網頁設計方式?
◆ 短影音夾擊、營收下滑的豪賭:愛奇藝宣布 5 年內讓 AI 生成大部分影視內容

*本文開放合作夥伴轉載,參考資料:University of Colorado BoulderTelevision Academy,首圖來源:Pixabay

(責任編輯:鄒家彥)

如何用 AI 代理為軟體開發做出高價值貢獻?專家提點 5 大面向,人類管理仍不可或缺

作者 Min
2026年6月2日 09:17
如何用 AI 代理為軟體開發做出高價值貢獻?專家提點 5 大面向,人類管理仍不可或缺

絕大多數 IT 專業人士都希望擺脫枯燥乏味的工作任務,比方說執行自動化測試、加速軟體開發、降低程式碼錯誤率等,因此當 AI 代理橫空出世後,軟體業自然將其視為最強大的工具,希望借助人工智慧的力量,進一步提升個人與團隊的工作效率。

以工業物聯網(IIoT)技術、機器學習、AI 及雲端解決方案,為主要服務業務的美國企業 Waites 軟體長 Illia Smoliienko,近日分享該公司於開發、維護旗下產品時,運用 AI 代理的相關經驗,並深入分析在目前的企業環境中,究竟有哪些任務值得交給 AI 代理,而又有哪些工作仍然得由人類親自主導。

COMPUTEX 2026 現在進行中!最新報導都在【TO Highlight】直擊 COMPUTEX 2026 台北國際電腦展

AI 代理是「團隊夥伴」

在進入實際案例分析之前,Illia Smoliienko 首先釐清「大型語言模型(LLM)」與「人工智慧代理(AI agent)」之間的差別。

Illia Smoliienko 指出,如 ChatGPT、GitHub Copilot 之類的大型語言模型,已經成為企業開發團隊的標準工具;當今的 LLM 能夠協助開發者撰寫程式碼、解釋錯誤並生成各種文件。

然而,LLM 僅僅只會對提示詞做出回應,也就是由人類提出問題,接著交給人類評估答案輸出,最後依然是讓人類決定如何運用。因此在本質上,LLM 就像具備深度語境的智慧型「自動完成工具」,並無法達到「自主執行」。

有別於大型語言模型,Illia Smoliienko 強調,AI 代理不僅懂得生成程式碼與文字,原則上也能自主執行多種任務,比方說規劃動作序列、處理儲存庫、持續整合/交付(CI/CD)、跟 API 溝通、維護上下文,甚至是與其他 AI 代理及人類進行互動。

換句話說,在軟體開發流程上,通常 LLM 只會建議使用者如何修正錯誤,而 AI 代理則能建立程式分支、主動修改、執行測試,並且開啟 Pull Request 直接整合到工作流程之中,所以 AI 代理並不只是一個工具,更像是一位能夠積極參與軟體開發的團隊夥伴。

在哪些情境 AI 代理才有用?

根據 Gartner 分析師預測,在 2026 年結束之前,全球至少有超過 40% 的企業應用程式,包括 CRM、ERP、網路安全系統、分析工具、資料工具等,將內建 AI 代理程式,協助開發人員將重複性任務走向自動化。

只不過 Illia Smoliienko 指出,對於開發人員來說,人類不僅要了解 AI 代理能夠做什麼,更要明白在哪些情境下運用 AI 代理,才能真正提升軟體開發速度,同時兼顧品質和穩定性。

以 Waites 目前的實際使用經驗,Illia Smoliienko 提出 5 項 AI 代理得以發揮最大應用價值的面向,包括:原型設計、程式碼生成、軟體測試與品管、例行工程任務自動化,以及程式碼維護與重構。

快速打造原型,驗證商業構想

在原型設計方面,Illia Smoliienko 認為,導入 AI 代理後對開發團隊最大的影響,來自於有能力快速建立起示範專案。

舉例來說,Waites 近日接下了一個新專案,目標是開發出一款網頁應用程式,可以讓客戶在上傳工廠設備的照片後,自動生成該設備的完整結構圖。

Illia Smoliienko 說,在雲端 AI 開發平台 Replit Agent 的幫助下,團隊僅僅花費 2 到 3 個小時,便打造出了應用程式的原型。

即便該軟體於設計上仍有缺點,運作速度也稍顯遲緩,需要開發者進行後續的最佳化,但 AI 代理所給出的原型程式,已經是一個能夠實際運作的產品,並且足以向他人展示、驗證商業構想,令人印象十分深刻。

提供精確指令,投入正向測試

緊接著是程式碼生成方面,Illia Smoliienko 表示,過去需要花費數小時完成的任務,現在已經有一大部分可以交給 AI 代理直接處理,比方說為一組新的 API 端點編寫單元測試之類的重複性作業。

Illia Smoliienko 強調,操作 AI 代理生成程式碼的重點,主要在於讓 AI 適應專案的背景、架構及撰寫風格,同時人類也必須提供非常精確的指令,才有辦法讓 AI 生成的程式碼獲得最佳應用效果。

而在軟體測試與品管方面,Illia Smoliienko 指出,AI 代理能夠根據專案的需求或變動歷史,自動建立測試情境,接著於 CI 管道中主動執行、彙整報告。

當撰寫測試流程成為開發者的例行公事,Illia Smoliienko 強烈建議將這個步驟交給 AI 代理;根據他的估算,導入 AI 代理協助軟體測試後,至少能為資深開發人員節省 30% 到 50% 的時間。

不過 Illia Smoliienko 也提醒,假若開發者所撰寫的測試流程本身就太過劣質,那麼遵循流程的 AI 代理,其執行測試的品質自然也會變得糟糕。

另一方面,Illia Smoliienko 發現 AI 代理較為擅長執行「正向測試」,即驗證程式功能是否運作正常,至於需要找出錯誤的「負向測試」,他認為目前仍不應該完全交由 AI 代理全權處理。

取代例行性作業,注意 AI 限制

在例行工程任務自動化方面,Illia Smoliienko 表示,目前 Waites 團隊在工作流程中整合了 GitHub Copilot Agent,而他們不只是將程式碼審查與最佳化交給 AI 代理,也會透過 AI 嘗試將軟體從某一種程式語言,轉換為另一種程式語言,方便後續的整合開發。

此外,目前 Waites 也將修復文件更新過程中各種錯誤的例行性作業,交給整合到 VSCode 等 IDE 中的 AI 代理工具。

根據 Waites 的實際應用經驗,GitHub Copilot Agent 在 Node、TypeScript 和 JavaScript 程式語言方面的轉換成果十分出色,而 Python 表現尚可,至於 PHP 則是不盡理想。

Illia Smoliienko 解釋,在具備所謂「魔術方法(Magic Methods)」且沒有嚴格類型檢查的語言中,例如 PHP,AI 代理可能會誤判變數作用域,或假設變數會自動建立;而在為魔術方法生成簽章時,也可能發生錯誤,例如參數類型不正確,或者出現冗餘的迭代。

至於在 Go 或 C 這類嚴格檢查類型的程式語言中,Illia Smoliienko 說,大多數錯誤都跟回傳類型有關,例如改寫後的程式回傳了一個值而非指標,或是直接使用了錯誤的類型。

化身智慧檢查員,適時人為介入

最後在程式碼維護與重構上,現今的 AI 代理已經可以成為智慧檢查員,它們會分析程式碼庫,並識別出重複的程式碼片段、未使用的依賴項或潛在錯誤,然後自主建立包含建議變更的 Pull Request。

Illia Smoliienko 指出,就以最佳化程式碼作業來說,相較於 Claude 或 Codex Agent,以標準設定執行的 GitHub Copilot Agent,其表現確實較為遜色,然而無論選用哪個 AI 代理,某些錯誤依然需要人為介入修正。

此外,Illia Smoliienko 直言 AI 代理在正確處理套件之間的依賴關係方面,至今仍然面臨許多挑戰。比方說,當開發者要求 AI 代理挑選出既能與函式庫 A 在品質和依賴關係上完全相容,而且又是最新的安全版本函式庫 B 時,這類作業對於 AI 就具備著一定的難度。

法規標準仍存在,降低 AI 自主性

Illia Smoliienko 表示,AI 代理跟大型語言模型不同,由於它具備記憶能力,因此可以理解動作的處理順序,自主規劃步驟以達成使用者要求的目標,但若想要善用這項優勢,前提就是得讓 AI 代理適應團隊的工作流程。

換句話說,企業在導入 AI 代理後,首先得讓它「學習」專案結構、範本以及開發人員的習慣,唯有在完成這些學習後,才能讓 AI 代理投入獨立作業。

Illia Smoliienko 分析,對於小型公司或團體來說,透過 AI 代理把程式開發任務完全自動化,或許還有一些機會,可是在大型企業中,AI 代理的自主性就會變得十分有限,不可能實現完全自主運作。

Illia Smoliienko 解釋,原因在於大型企業組織通常都必須遵循資訊安全標準,以 Waites 來說就是 ISO/IEC 27001;根據該標準,任何內容若未經人工驗證,均不得投入生產環境,違反該規定就會導致認證失效,緊接著造成的影響,就是 B2B 客戶將不會再信任企業的資料處理能力。

因此 Illia Smoliienko 認為,儘管 AI 代理獲得外界大力吹捧,但它的本質卻脫離不了輔助工具,而不是真正的人類專家。

背後的人類管理者依然重要

Illia Smoliienko 直言,雖然 AI 代理可以整合到 IDE、CI/CD、程式碼儲存庫及品管系統之中,可是它始終只是團隊工作流程的一部分,並非完全獨立運作的實體。

在實務操作與法規限制下,Illia Smoliienko 深信,讓 AI 代理全自動掌管程式開發的一切流程,依然是遙遙無期的理想,至少現在每個 AI 代理的背後,仍舊需要一位實際的人類管理者。

【推薦閱讀】

◆ 停止錯誤 AI 專案才是企業欠缺的能力:MIT 揭落地規模化的三大關鍵領導角色
◆ AI 代理戰場轉移:超越模型智商軍備賽,Anthropic 卡位企業代理執行層
◆ AI 輸出結果總是差強人意,讓 AI 回覆品質真正提升的提示詞習慣是什麼?

*本文開放合作夥伴轉載,參考資料:HackerNoonWaites,首圖來源:Nano Banana 2

(責任編輯:鄒家彥)

機器人在動手之前就預測觸感,HTD 技術讓人型機器人摺衣、端茶成功率大躍進

作者 Min
2026年6月5日 09:47
機器人在動手之前就預測觸感,HTD 技術讓人型機器人摺衣、端茶成功率大躍進

雖然人型機器人在現實世界中執行複雜任務的能力越來越強,但面對需要高度靈巧的手部操作,或是要於動態環境中靈活移動時,多數機器人的運動能力依舊顯得捉襟見肘。

為了突破前述瓶頸,卡內基美隆大學(CMU)與博世人工智慧中心(Bosch Center for AI)攜手合作,開發出了一套全新的 AI 系統,希望透過新技術大幅提升人型機器人的全身協調能力,特別是在需要頻繁進行物理接觸的精細操作上,給予機器人更上一層樓的穩定表現。

這套名為「融合觸覺潛在預測的人型機器人 Transformer 框架(Humanoid Transformer with Touch Dreaming)」,簡稱 HTD 的全新系統,將機器人的身體動作、手部靈巧度,以及對物理互動的預測能力融為一體。

在現實世界測試中,HTD 系統讓人型機器人能夠更純熟地處理各種日常動作,像是摺疊衣物、精準插入物件、用勺子舀取物品,甚至是搬運脆弱的易碎物件。

邊做邊預測,過濾雜訊波動

傳統的機器人系統主要仰賴視覺和動態感測器,但 HTD 系統另闢蹊徑,導入了分散式觸覺感測技術,顯著提升了機器人在複雜互動中的感知敏銳度。

此外,驅動 HTD 系統的 AI 模型不只能夠預測下一步動作,還可以預判物理接觸、受力狀況以及觸覺回饋的動態變化,同時精密分析手部關節的受力情形,而該過程也被研究團隊稱為「觸覺夢境(Touch Dreaming)」。

這種類似於夢境中「邊做邊預測」的能力,正是由 HTD 系統所驅動的機器人,之所以可以流暢執行插拔物體、布料整理或端起茶水等任務的最大關鍵。

在技術實作上,HTD 並非直接是在 AI 模型中,直接處理原始的觸覺感測器數據,而是透過一個緩慢更新的目標網路,將數據轉化為精簡的「觸覺潛在表徵(tactile latent representations)」。

研究人員指出,這種做法的精妙之處,在於能夠讓 HTD 系統自動過濾掉感測器常見的雜訊波動,專注在真正有意義的接觸模式上,進而大幅提升機器人操作時的穩定度與反應速度。

上下半身分離,減少互相干擾

此外,HTD 系統還巧妙地將「下半身的平衡控制」與「上半身的操作任務」拆分,避免互相影響造成穩定性下降。

HTD 系統利用基於強化學習的控制器,在運動過程中即時穩定機器人軀幹的朝向、速度與平衡;至於上半身的定位與靈巧的手部動作,則交由逆向運動學(Inverse Kinematics)與手部動作映射技術來處理。

此外,負責掌管下半身的控制器,其實是在模擬環境中透過「師生學習法(teacher-student method)」所訓練出來,這讓機器人能夠從逼真的感測觀測中,學會極具彈性的運動規劃。

卡內基美隆大學安全人工智慧實驗室(Safe AI Lab)的研究團隊解釋,在訓練過程中,他們利用 AMASS 資料集重複播放映射後的手臂運動軌跡,讓控制器學會在現實生活中,面對上半身出現的干擾時,依然能夠維持下半身核心的穩定。

而由 HTD 系統最終訓練出來的「學生控制器」,即是正式部署在真實機器人身上的核心系統。

這種將下半身穩定性與上半身靈巧操作完全分離的架構,徹底減少了人型機器人為了維持平衡,同時操作手部動作之間的相互干擾。

COMPUTEX 2026 現在進行中!最新報導都在【TO Highlight】直擊 COMPUTEX 2026 台北國際電腦展

預測動作回饋,成功率高出九成

根據實測結果,在物件插入、整理書籍、摺疊毛巾、舀取貓砂以及端茶等 5 項真實世界任務挑戰中,擁有 HTD 系統機器人的平均成功率,比目前業界強悍的 ACT 基準模型足足高出了 90.9%。

研究團隊透過消融實驗進一步發現,如果只是單純把觸覺當作額外的輸入訊號,對於機器人的操作表現提升幫助有限,因此關鍵就落在「於潛在空間(latent space)中預測觸覺訊號」。

實驗證明,在潛在空間進行預測的方法,比直接預測原始觸覺訊號的傳統訓練模式,成功率大幅提升了 30%。

擴大應用規模,開展深度測試

研究人員認為,HTD 系統與 AI 控制器的成功應用,為人型機器人走入家庭、服務業及工業環境,開展出了無限可能。

展望未來,研究團隊計劃擴大 HTD 與 AI 控制器的應用規模,並著手引進視覺數據與人類示範畫面,在人機協作的實際情境中進行深度測試。

研究團隊表示,終極目標是提升 HTD 的跨平台適應能力,讓這套具備高度韌性的系統,不只能夠因應多元任務,還能輕鬆套用到各式各樣的機械手與觸覺感測器配置上,持續從人類與機器人的實務經驗中截長補短、不斷進化。

【推薦閱讀】

◆ 從影像像素到全身協調:Figure AI 機器人達成 24 小時零故障自主分貨,展現類「真人」直覺
◆ 人形機器人量產戰升溫!為何 Sanctuary AI 執行長預言家庭普及還要 3 到 7 年?
◆ 中國機器人再進化!從人形到四足自由切換,宇樹科技發表 GD01 可載人越野、推倒磚牆

*本文開放合作夥伴轉載,參考資料:Interesting EngineeringTechXplore,首圖來源:YouTube

(責任編輯:鄒家彥)

❌
❌