最简单粗暴的让 Claude Code 理解视频|Claude Code Video Vision
2026年5月7日 17:26
我们能看懂视频,是因为我们生活在现实世界中,而视频只是现实世界的一种数字化呈现方式。
AI 则不同,它只读的懂数字、向量,最后猜一个结果给你。@Appinn
如果想要让 AI 理解视频怎么办?
有开发者用最简单粗暴的方式创建了一个 Claude Code 插件,让它能够理解视频(包括声音)。
通过 ffmpeg 提取视频帧,然后使用另外的后端模型(Gemini API、本地 Whisper 或 OpenAI API)处理音频。
最终 Claude Code 接收到图像帧,和带有时间戳的音频转文本,理解了视频。
是不是很粗暴 ![]()

项目地址:https://github.com/jordanrendric/claude-video-vision
开发者给了一个简单的例子:
/watch-video tutorial.mp4 "本教程中使用的是什么语言?" "看一下 ~/videos/bug-report.mov 的第一秒" "为我分析这段视频:~/Downloads/demo.mp4"
Claude Code 会自动调整参数:
- “第一秒”→从 00:00:00 到 00:00:01 以原始帧速率进行提取
- “总结这 1 小时的讲座”→ 低帧频,完整持续时间
- “1:30 时屏幕上有什么文字?→ 高分辨率,窄时间窗口
支持 MCP、可使用第三方 API。
流程大概是这样的:

在 Claude Code 中使用 DeepSeek V4
是的,虽然不一定能用到 Claude 模型,但可以在 Claude Code 中使用 DeepSeek V4 呀,现在官方的价格,量大管饱嘛。
原文:https://www.appinn.com/claude-code-video-vision/
相关阅读
- Claude 2 发布,仅次于 GPT-4,支持同时上传 5 个文件进行 AI 处理
- 从零开始理解 Git|纯手工打造 Git 仓库|太长可以不看
- 用电脑控制 Android 手机的 Scrcpy 拥有更易使用的图形界面了
- [教程]在 Claude Code 中使用 Kimi K2 大模型
- UI.Vision RPA 浏览器自动化工具:表单填写、网页内容抓取、网页操作录制
©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论