Google推出近乎同步的語音翻譯的Gemini 3.5 Live Translate模型,自動偵測70種語言並模擬原始語調
雖然AI語音即時翻譯技術相對專業的口譯專家在資訊轉化及專業名詞的理解可能仍有落差,但隨著技術推陳出新,則足以讓一般人更容易初步理解內容;Google宣布釋出Gemini 3.5 Live Translate語音翻譯模型,標榜可實現近乎同步的語音翻譯並模擬原始的語調、語速及頻率,並可自動偵測達70種語言。
Gemini 3.5 Live Translate將成為接下來Android及iOS的Google翻譯的基礎,此外對開發者可透過Gemini API與Google AI Studio取得公開預覽版,企業用戶則可透過Google Meet體驗Gemini 3.5 Live Translate的內部預覽功能,後續將逐步擴大到所有Google產品。
強調幾乎不中斷的即時翻譯
雖然現在已經有不少語音翻譯AI模型,不過Gemini 3.5 Live Translate標榜並非傳統須等講話到一個段落才執行翻譯的逐句翻譯不同,強調在確保翻譯品質的前提近乎與發言者同步進行翻譯,並僅有幾秒的輸出差,不再產生傳統逐句翻譯的停頓。

此外Gemini 3.5 Live Translate不僅支援多語言,而且具備自動偵測能力,不須手動切換,同時還整合背景噪音消除能力,即便在吵雜的地方收音仍可維持品質。
同時為了確保不被濫用,由Gemini 3.5 Live Translate產生的音訊檔案也會加入數位浮水印技術SynthID,使音訊檔案可被分辨是來自AI翻譯的結果。
Google翻譯以及企業版Google Meet率先導入
Android及iOS的Google翻譯除了將導入Gemini 3.5 Live Translate以外,還將增加搭配耳機進行即時翻譯的功能,同時Android版還提供聆聽模式,可透過耳機即時聆聽翻譯後的內容。
另外Google Meet也在初步導入Gemini 3.5 Live Translate的名單中,使得可翻譯的語言從原本5種提升到70種,且由於支援語言自動辨識,聲稱可進行高達2,000種的語言組合(例如講者原本就是多種語言混用),當前優先針對部分企業版Google Workspace釋出,預計2026年內擴大可用範圍。