普通视图

发现新文章,点击刷新页面。
昨天以前首页

我這樣對 Gemini 下指令,快速 AI 影片轉字幕,專有名詞、時間軸都正確!

作者 Esor Huang
2025年12月26日 21:16


最近工作上完成了一系列的教學影片,到了最後階段,要準備加上字幕時,想說來試試看「 Gemini 」能不能正確的辨識影片並轉出字幕檔,尤其希望 Gemini 的 AI 處理能夠滿足下面幾個要求,語音辨識成文字是基本,更進一步還會希望有:「正確時間軸分段、正確標點符號、正確專有名詞」。尤其影片中常常講到特殊工具名、專案名、人名時,字幕錯一個字就很尷尬,後續修正還很耗時間。

實際嘗試後,針對我常常需要的「10分鐘內長度的影片」,結論是 Gemini 已經可以當作一個對大多數人來說最簡單易用,而且效果非常好的「影片轉字幕」工具,並且轉出字幕的速度往往就在一分鐘之內完成!(更長時間的影片效果如何,還需要我後續更多的測試才知道)

今天這篇文章,跟大家分享我目前透過 Gemini 轉10分鐘內影片字幕的具體作法,透過有效的指令, Gemini 可以做到:


絕對是「可以直接派上用場」的程度,套在 YouTube 影片或影片剪輯工具的字幕檔(例如:Google Vids 免費線上影片編輯工具,輕鬆完成教學影片錄製、剪輯、特效、字幕)。

下面是影片版操作教學,更完整指令說明在文章後段




Gemini 的延伸 AI 功能教學:



步驟一:打開 Google Gemini Pro 或思考型模型,上傳影片檔

如果要使用 Gemini 直接製作影片字幕,要切換到「 Gemini 3 Pro 」的進階模型,或是使用「 Gemini 3 思考型」模型

若是使用「快捷」模型無法正確解析出字幕內容

  • 打開 Google Gemini,切換到 3 Pro 或思考型模型
  • 在輸入框旁找到「+」
  • 選擇上傳你剛錄製好的影片檔案




這邊如果選擇「 Gemini 3 快捷模型」,雖然看起來好像有辨識出更多正確的語音文字,但仔細檢查,裡面添加了很多影片裡沒有的幻覺內容,而且處理字幕的時間標記時都是錯的。




步驟二:用指令請 Gemini 產出正確繁體中文字幕(我會這樣下指令)

我希望 Gemini AI 產出字幕檔時,已經趨近於我可以直接套用的結果:

  • 專有名詞正確
  • 適當的分段
  • 正確的時間軸標記

除了可以直接請 AI 把影片轉出字幕檔,也可以在指令中加上幾個關鍵命令,下面是我測試後覺得最有效的:

  • 策略 1:要求「一步一步處理」
    • 要求 AI 一步一步做,通常會更仔細,漏字、錯字會更少。
  • 策略 2:不硬性規定「時間切點」,讓 AI 幫我判斷
    • 我不會刻意限制它「每行一定要幾秒」或「一定要切幾段」,因為大多數時候讓 AI 自己判斷,整體字幕節奏反而比較自然。
  • 策略 3:一定要先提示「關鍵字」
    • 這是我覺得最值得做的一件事,在指令中先告訴它:影片可能會提到哪些人名、工具名、專有名詞,它在辨識時通常會更準,後面修正會少很多。

例如我的影片裡可能會出現:

  • 電腦玩物站長 Esor
  • Evernote
  • Wispr Flow

這些我會先列出來。

下面是我用 Gemini 轉影片字幕時慣用的「 Prompt 指令範本」,你只要把「關鍵字」換成你這支影片可能出現的名詞即可:

請分析我上傳的影片,製作成「繁體中文」字幕內容,並使用 SRT 格式輸出。請一步一步處理:

1. 逐段聆聽並轉寫成繁體中文,加入自然的標點符號。
2. 依照語意與停頓,自動切分字幕段落並產生時間碼(我不需要你固定每段長度,請你自行判斷最佳切點)。
3. 盡可能修正同音錯字,並保持專有名詞正確。

影片中可能出現的關鍵字如下(請優先用這些詞彙辨識):
- 電腦玩物站長 Esor
- Evernote
- Wispr Flow

最後請直接輸出完整 SRT 內容,讓我可以複製貼上存檔。





如果你覺得這樣製作字幕前,還要自己整理關鍵字?會不會很麻煩?

那這時候你可以試試看下面這個方法,我不一定要提供整理後的關鍵字,我可以提供「影片大綱、腳本或筆記」,這些應該是「現成內容」,複製貼上就好,這時候裡面自然有需要的關鍵字,讓 AI 自己去辨識即可。

裡面的關鍵字為:
- Wispr Flow(Mac/iOS/Windows):跨 App 即時輸入、可客製字典、保留錄音;適合回信、短文、訊息。
- Windows 11 內建語音輸入:零門檻快捷鍵、逐句轉錄;不留錄音,適合 Windows 11 使用者的日常輸入。
- Google 即時轉錄(Android):手機隨錄隨轉、長講也不斷;需事後潤飾繁中選字。
- Evernote:5–30 分鐘錄音先存再轉,AI 自動分段潤飾、保留原始錄音;偶有轉為簡中的情況,可再交給 AI 修正。
- NotebookLM:一小時以上長錄音後製,AI 協助摘要、彙整、提問,不適合即時輸入。
- ChatGPT:臨時口述+即刻整理一氣呵成;網路不穩時上傳失敗且不留音檔需留意。
- Gemini:可上傳錄音檔並以指令輸出所需格式;免費帳戶長度有限,付費更實用。



步驟三:把 Gemini 的字幕內容存成 .srt 檔

目前 Gemini 不會直接產生「一個可下載的字幕檔」,但這完全不影響我們使用。

做法很簡單:

  • 在 Gemini 回答中,把整段 SRT 字幕內容複製起來
  • 打開純文字編輯器
    • Windows:記事本(Notepad)
    • macOS:文字編輯(用純文字模式)
  • 把字幕內容貼上去
  • 存檔時,檔名用:你的影片名稱.srt
    • 檔案類型要是純文字
    • 副檔名一定要是 .srt

完成後,你就得到一個標準字幕檔,這時候可以上傳到 YouTube ,或是用影片工具附加到影片中。




Gemini AI 辨識出的字幕檔,有時候時間軸不是百分之百精準,可能是我語速太快,或是講得時候分段不夠明顯,可能某幾段會有一秒左右的切換落差。

這時候也可以透過上傳到 YouTube 等工具時,利用方便的字幕時間調整工具,簡單的微調即可。




如果有製作教學影片需求的老師們,或是要做宣傳影片的行銷人員,都可以試試看 Gemini 這個簡單方便的影片轉字幕檔工作流程。

若是影片容量太大,可以試著轉成聲音檔案,體積變小後上傳(反正做成字幕的時間軸都一樣)。



大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 [email protected] ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:我這樣對 Gemini 下指令,快速 AI 影片轉字幕,專有名詞、時間軸都正確!

性价比拉满!苹果 Creator Studio 创意全家桶 - 视频剪辑/音乐/修图/设计/办公

作者 X-Force
2026年1月11日 04:14

苹果刚刚宣布推出一项全新“全家桶软件”Apple Creator Studio。这可能是苹果近年来最具性价比的产品了,尤其对于自媒体 / 创意工作者、设计师和学生来说,简直就是福利。

Apple Creator Studio 可看作苹果对抗 AffinityAdobe 的「创意全家桶」。它把旗下多款专业级生产力工具打包“低价订阅”,总价 3600+ 元!包含视频剪辑 Final Cut Pro、音乐制作 Logic Pro、图像编辑 Pixelmator,文档 iWork 及 Motion / Compressor / MainStage 等应用……

前往查看原文....


异次元还有这些值得一看:

异次元首页  |  微信公众号  |  关注微博  |  软件精选  |  软件激活码折扣

免裝軟體,一鍵下載 YouTube 影片字幕

作者 不來恩
2026年1月21日 22:17
有時候你可能想好好研究一下某些演講或上課影片的內容,希望能擷取影片提供的字幕來做筆記或後續的處理,這時候可以透過 Yourans 這網站提供的小工具來解析、下載 YouTube 影片的字幕檔,按一下就可以下載回來,相當簡單方便。 目前提供了 S…

5000小时训练,自动识别日文视频,并翻译中文字幕的开源工具

作者 青小蛙
2026年2月8日 15:05

🎙 Faster Whisper TransWithAI ChickenRice 是一款基于 Faster Whisper 和音声优化 VAD 的日文转中文优化版本,来自 AI汉化组的作品。
没想到吧,现在汉化组已经进化写AI工具,而不是用AI工具了。

5000小时训练,自动识别日文视频,并翻译中文字幕的开源工具 29

核心功能:识别音视频中的日文,并翻译为中文字幕

使用了两款模型:

注意,海南鸡模型(chickenrice0721)没有输出日文的能力,所以只能输出中文。

使用的时候,将需要转录/翻译的音频或视频文件(或包含它们的文件夹)拖放到相应的批处理文件(.bat)上运行就行了。

仓库地址:GitHub,总大小约 4.4GB。

✨ 功能特性 / Features

  • 🎯 高精度日文转中文翻译: 基于5000小时音频数据训练的”海南鸡v2″日文转中文优化模型
  • 🚀 GPU加速: 支持CUDA 11.8/12.2/12.8,充分利用NVIDIA显卡性能
  • ☁ 云端推理: 支持 Modal 云端 GPU 推理,无本地显卡也能使用
  • 📝 多格式输出: 支持SRT、VTT、LRC等多种字幕格式
  • 🎬 音视频支持: 支持常见音频(mp3/wav/flac等)和视频格式(mp4/mkv/avi等)
  • 💾 智能缓存: 自动跳过已处理文件,提高批量处理效率
  • 🔧 灵活配置: 可自定义转录参数,满足不同场景需求

显卡的话,需要 N 卡,GTX10 系列也能用。慢就慢点呗。

显卡系列推荐 CUDA 版本
GTX 10/16系列CUDA 11.8
RTX 20/30系列CUDA 11.8 或 12.2
RTX 40系列CUDA 12.2 或 12.8
RTX 50系列必须使用 CUDA 12.8

问题来了:有什么用?


原文:https://www.appinn.com/faster-whisper-transwithai-chickenrice/


相关阅读


©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。

HandBrake 官方绿色中文版 - 开源免费视频格式转换/压缩转码压制工具 (跨平台)

作者 X-Force
2026年3月16日 02:10

无论是下载高清电影,还是用手机录制的视频,很多时候文件体积都非常巨大。收藏保存或分享时会比较麻烦,因此常备一款真正好用的免费视频压缩压制/格式转换软件是很有必要的。

网上视频处理工具非常繁多,收费免费的一大堆,很多人根本不知道怎么选。而在尝试过的软件中,我认为 Handbrake 可能是最好的开源免费跨平台视频压缩和格式转换软件了!作为一款万能视频转码压制工具 (压片/转换格式),它不仅免费,还跨平台支持 Win、MacLinux 系统……

前往查看原文....


异次元还有这些值得一看:

异次元首页  |  微信公众号  |  关注微博  |  软件精选  |  软件激活码折扣

❌
❌