阅读视图

发现新文章,点击刷新页面。

Seedance 2.0 彻底火了!真正“导演级”的AI视频创作工具,附最新免费使用的方法!

最近几天, Seedance 2.0 真的火出圈了!从 1.5 Pro 到 2.0,这次升级并不是简单的性能优化,而是一次明显的“定位跃迁”。官方不再把它当成普通的视频生成工具,而是直接对标“导演级创作”。什么意思?简单说,它不只是帮你生成一段画面,而是开始替你思考镜头语言——分镜节奏、景别变化、情绪推进,甚至画面与音乐的配合关系,都在往专业影视制作的逻辑靠拢。

更关键的是,它精准打掉了 AI 视频创作长期存在的两个硬伤:人物一致性崩坏和视听不同步。过去我们做 AI 视频,经常遇到同一个角色换个镜头就“换脸”,或者口型和配音完全对不上,观感非常出戏。而在 Seedance 2.0 上,这种问题明显被大幅压缩,人物在多镜头、多场景下依然能保持统一形象,节奏感也更加自然流畅。

再加上它新增的自动镜头调度能力——系统会根据文本内容主动设计镜头切换、景别远近和节奏变化,这已经不是“生成视频”,而是在模拟一套完整的导演工作流程。难怪这两天 AIGC 圈突然炸锅,甚至不少传统影视从业者都开始认真讨论:AI 视频,是不是已经正式进入“创作级”时代?下面我们就来介绍 Seedance 2.0 免费使用方法!

免费使用方式:

 

1、通过即梦平台进行免费使用,目前官方模型里已经内置了Seedance 2.0 最新模型,最高可以生成15秒的视频,支持16:9的常规视频,也支持9:16的短视频等

模型选择:Seedance 2.0  Fast,这是最新刚刚推出的,速度会更快,更轻,不在乎生成速度,追求最近效果的就选择 Seedance 2.0 正式版,目前这2个模型都已经上架到了即梦平台

 

即梦官方平台:【链接直达

通过上方的链接安装手机客户端(支持安卓、iOS),注册并登入你自己的账号,然后创建自己的AI分身,就可以生成自己形象的AI视频,

 

制作零度同款视频:【点击生成

 

 

方法二:剪映官方平台

不仅可以生成短视频,也可以生成16:9 的长视频,免费注册以后,平台会直接送80个积分,玩法会更多,支持:全能参考、首尾帧、智能多帧、主体参考等视频生成模式。

点击前往

 

你只需输入对应的提示词,seedance 2.0 就可以帮你生成你想要的视频,但是在平台上的限制相对来说比较多,一些敏感的画面,或者是名人肖像现在管的比较严。

Gemini 3.1 Pro 正式发布:Google 最强 AI 来了,推理能力直接翻倍!

就在刚刚,Google 正式推出了全新的旗舰模型 —— Gemini 3.1 Pro。这一次,它不只是一次常规升级,而是一次明显的能力跃迁。从目前公布的数据来看,Gemini 3.1 Pro 在综合能力排行榜中几乎处于“霸榜”状态,成为当前最强 AI 模型之一。

如果你觉得现在的 AI 已经足够聪明,那么 Gemini 3.1 Pro 很可能会重新定义你对 AI 的认知。

不再只是聊天 AI,而是真正的“思考型助手”

过去的大模型,大多数仍停留在「回答问题」阶段。

而 Gemini 3.1 Pro 的核心变化,是——推理能力的大幅提升

它不仅能理解问题,还能:

  • 深度分析复杂任务

  • 拆解多步骤逻辑

  • 像专业人士一样与你共同思考

  • 给出真正有价值的解决方案,而不是表面正确的套话

同时,它具备完整的 多模态能力,可以同时理解:

  • 文本

  • 图片

  • 视频

  • 音频

  • 代码

并将这些信息融合后给出统一回答。

简单来说:

这已经不是聊天机器人,而是一个可以真正一起做事的智能助手。

你可以让它学习新知识、解释复杂概念、规划项目流程,甚至把一个想法直接变成交互工具,大幅缩短开发与创作时间。

推理能力大升级:基准测试成绩惊人

在 Gemini 3 系列基础上,3.1 Pro 最大的升级就是核心推理能力

换句话说,它变得更会“思考”了。

而这并不是官方宣传,而是被严格的基准测试验证。

在专门评估 AI 逻辑与理解能力的 ARC-AGI-2 测试中:

  • Gemini 3.1 Pro:77.1%

  • 上代 Gemini 3 Pro:性能不到其一半

  • 推理能力提升 超过 2 倍

ARC-AGI-2 被认为是目前最接近“真实智能测试”的基准之一,主要考察模型面对全新逻辑问题时的理解能力,而不是记忆能力。


正面对决 GPT 与 Claude:Google 领先

 

Gemini 3.1 Pro 在多个关键测试中超过竞争对手:

  • Gemini 3.1 Pro:77.1%

  • GPT-5.2:68.8%

  • Claude Opus 4.6:52.9%

19 项基准测试中,Google 赢下了其中 12 项

此外,在科学知识测试 GPQA Diamond 中:

  • Gemini 3.1 Pro:94.3%

  • GPT-5.2:92.4%

  • Claude Opus 4.6:91.3%

这意味着它在复杂科学推理领域同样处于领先位置。

实际能力:不只是更聪明,而是能直接“做东西”

真正让 Gemini 3.1 Pro 与众不同的,是它的实际应用能力。

下面几个能力,可以说已经接近“AI 开发助手”的形态。

① 实时数据 → 交互式可视化

Gemini 3.1 Pro 可以将实时数据直接转换成动态可视化应用。

例如:

  • 航空航天仪表盘

  • 实时监控界面

  • 数据分析控制台

过去需要完整开发团队完成的系统,现在 AI 可以通过推理能力自动处理数据流,并生成可交互界面。

简单理解:

数据不再是数字,而是“会动的画面”。

② 复杂 3D 互动模拟

它还能生成带真实交互的 3D 场景。

例如:

  • 椋鸟群飞模拟

  • 沉浸式空间交互

  • 实时环境反馈

不仅是动画,而是可实时操作的互动环境,甚至支持:

  • 手部追踪

  • 动态环境音效

  • 空间交互逻辑

免费体验平台:【点击前往

③ 自动构建真实模拟世界

Gemini 3.1 Pro 还能直接生成复杂虚拟环境:

  • 自动地形生成

  • 城市道路规划

  • 交通系统模拟

  • 多系统联动代码

换句话说,你不再只是开发网页,而是在创建一个完整数字世界

④ SVG 秒变动画(开发效率暴涨)

对于开发者来说,这是一个极其实用的能力。

AI 可以:

  • 理解设计稿意图

  • 将静态 SVG 转换为动画代码

  • 自动生成轻量化动画逻辑

结果就是:

✅ 更少代码
✅ 更快开发
✅ 更容易维护与扩展

Web 开发效率直接提升一个级别。

⑤ 从文学风格生成可运行网站

最有意思的一点来了。

Gemini 3.1 Pro 可以把“抽象风格”转成真实软件。

例如:

  • 输入小说式描述

  • 定义情绪与氛围

  • 自动生成完整网站界面

不仅视觉符合主题,而且代码可直接运行。

也就是说:

AI 开始把“感觉”和“情绪”,转化为真正的软件产品。

三维空间理解达到行业顶级水平

在 3D 空间理解能力方面,Gemini 3.1 Pro 已经进入当前行业第一梯队。

它不仅理解二维信息,还能理解:

  • 空间结构

  • 物理关系

  • 场景逻辑

这也是它能生成复杂模拟环境和交互界面的关键原因。

如何免费体验 Gemini 3.1 Pro?

目前可以通过 Google AI Studio 直接体验 Gemini 3.1 Pro:

👉链接直达

进入后即可在线测试模型能力,无需本地部署。

AI 正在从“回答问题”走向“完成任务”

Gemini 3.1 Pro 的意义,并不只是更高的分数。

真正的变化是:

  • AI 开始具备持续推理能力

  • AI 能直接生成可运行成果

  • AI 从工具,变成协作者

我们正在从 AI Chat 时代,进入 AI Co-Creation(共同创造)时代

而 Gemini 3.1 Pro,很可能就是这个阶段的重要分水岭。

封面点击率检测代码:【点击下载

太空射击游戏代码: 【点击下载】或 【海外下载

Seedance 2.0 全面体验:10 个有趣又实用的玩法,让 AI 视频真正用起来!

当 AI 视频生成开始从“能用”走向“好用”,Seedance 2.0 可能是目前最有代表性的产品之一。相比早期 AI 工具只能生成演示级内容,这一代不仅在画面质量、理解能力和稳定性上明显提升,更重要的是——它开始真正融入创作流程。本篇文章不会只讲参数或功能介绍,而是带你看看 Seedance 2.0 最有趣、同时也最实用的 10 种玩法,无论你是内容创作者、设计师,还是单纯想体验 AI 创作乐趣的人,都能快速找到属于自己的使用方式。

 

Seedance 2.0 官网: 【点击前往

 

 

实用案例

 

1、一键生成短剧,开启人人当导演的 AI 时代

玩法:输入剧本+角色图+情绪描述,AI自动生成分镜、运镜、对口型
实战提示词:

【风格】国产短剧风,雨夜唯美虐心;【角色】黑风衣霸总VS白裙泪痕女主;镜头1:暴雨街头拉扯特写...

适用:自媒体短剧、情感号内容批量生产

 

 

2、AI 短视频赛道

让AI帮我们拍短视频,比如你不想露脸,甚至不想自己去拍视频,但是你也想进入自媒体,怎么办呢?Seedance 2.0 是目前一个非常不错其性价比高的选择

比如一句 “生成蛋炒饭的视频”,题目可以让你秒变美食博主,生成的效果绝对可以以假乱真

 

武侠短剧也不在话下

 

3、视频动作模仿

 

4、教育题材教学视频

如果你是一名老师,希望通过一个简单易懂的视频,来自展示物理、生物、地理环境等领域的复杂原理,那么通过Seedance 2.0制作的教学视频也能轻松搞定,让教学更加方便,学生也更容易理解。

 

5、黑白老照片修复、复活

上传:老照片、黑白照片

提示词:

让黑白照片变成彩色的视频,人物自然微笑并轻微动作...

 

6、 PPT/静态图动态化

玩法:上传PPT截图/产品图+首尾帧设置,生成呼吸感动态展示
技巧:首尾帧一致=循环动画;首尾帧不同=变化转场

这个用途非常适合:汇报演示、电商详情页、品牌宣传视频快速产出

 

7、生成广告大片

 

8、生成首尾帧连贯、角色一致性的视频

 

只需2张图片作为视频的起始帧与结束帧,并通过提示词对角色行为和运动轨迹进行约束,Seedance 2.0 便能自动推演中间帧内容,生成一个角色外观高度一致、动作逻辑自然连续、过渡平滑的视频。这种“关键帧驱动”的生成方式,让原本需要复杂动画流程的创作,变成几分钟即可完成的 AI 工作流。

 

9、生成AI数字人

AI 数字人本质上是一种“形象一致性 + 语音驱动动画”的生成技术。系统通过扩散模型或视频生成模型锁定角色身份特征,同时利用语音对齐算法(lip-sync)控制嘴型与微表情变化,再结合运动预测生成连续帧,从而实现无需真人拍摄即可输出稳定口播视频。

10、跨界角色大乱斗

所谓“跨界角色大乱斗”,本质上是利用 AI 的角色一致性与风格融合能力,把多个来源不同的角色放入同一个生成环境中。AI 会自动调整人物比例、光影、动作逻辑和画面风格,使原本风格差异巨大的角色看起来像是在同一个世界里互动。

简单理解就是:

AI 不只是生成角色,而是让不同宇宙的角色“演同一部戏”。

Google 深夜放大招! Nano Banana 2 正式发布,性能屠榜!一起来实测效果…. | 零度解说

谷歌放大招!Nano Banana 2 正式发布:速度更快、中文更强、全面升级

就在刚刚,谷歌正式发布了 Nano Banana 第二代模型 —— Nano Banana 2

这一次,它背靠全新的 Gemini 3.1 Flash Image 图像能力,在生成速度、多语言理解、中文处理、可控性等方面都实现了全面升级。

一句话总结:
它不仅更快、更强,而且真正开始“懂中文”了。

一、发布即刷屏:从草稿到成品,只需几秒

Nano Banana 2 一发布,立刻在全网刷屏。

你可以把一张“鬼画符”式的草稿图丢给它,它能直接帮你生成精美的网页版 UI;
一句话生成游戏界面;
甚至一次性输出 20 多张连环漫画。

无论是:

  • AI 生图

  • UI 设计

  • 信息图制作

  • 教育插画

  • 海报设计

都会因为它的升级发生巨大变化。

Nano Banana 2 免费使用通道: 【点击前往

进入后选择任意模式都可以

 

二、中文能力大幅提升:真正可用的中文生图

这一次最大的升级之一,就是中文理解能力明显增强

比如输入中文提示,让它生成一张“水循环俯拍信息图”:

  • 几秒钟内完成

  • 原理讲解清晰

  • 中文无错字

  • 排版自然

  • 教育感强但不沉闷

这种效果,已经达到了可以直接用于课堂展示的水平。

更重要的是:

在最新版 Gemini 中,即使使用“快速模式”,也可以直接生成带中文文字的图片——
不需要 Pro 会员。

这对免费用户来说,是一个非常大的好消息。

目前无论你使用:

  • 快速模式

  • 思考模式

  • Pro 版本

系统都会自动调用 Nano Banana 2 进行图像生成。

三、各大评测成绩:深图一哥地位基本坐实

 

在权威评测中,Nano Banana 2 的成绩非常亮眼。

Artificial Analysis 基准测试

在 Artificial Analysis 的文生图基准测试中,它直接拿下全球第一。

图像编辑能力位列第三,仅次于:

  • GPT Image 1.5

  • Nano Banana Pro

Image Arena 评分

在 Image Arena 排名中:

  • 文生图性能问鼎榜首

  • 斩获 1279 Elo 高分

  • 图像编辑能力仅次于 GPT Image

 官方评测结果

在谷歌官方测试中,开启深度思考与文本图像搜索后,在以下三个维度全面领先:

  • 整体偏好

  • 视觉质量

  • 信息图准确性

甚至在部分指标上,超过了自家大哥 Nano Banana Pro。

四、Nano Banana 2 强在哪里?

更强的图像模型能力

它采用谷歌目前最新、最强的一代深度模型。

意味着什么?

  • 复杂场景理解更精准

  • 现实知识表达更准确

  • 离谱创意也能实现

  • 画质更清晰

  • 细节更真实

简单来说:

只要你能想到的,它基本都能画出来。

 可控性更精准:真正开始“修图”

相比上一代,最大的变化之一是“精准控制”。

现在你可以:

  • 把白天改成夜晚

  • 更换拍摄角度

  • 调整焦点

  • 突出人物主体

以前只是“重新生成一张图”,
现在更像是在:

  • 修照片

  • 导演画面

  • 控制镜头语言

一键换风格

可以上传一张参考图,然后:

  • 套用颜色

  • 套用质感

  • 套用艺术风格

比如把普通照片变成:

  • 电影风

  • 动漫风

  • 油画风

不用从零重新生成,一键完成风格迁移。

多平台尺寸自动适配

对于内容创作者来说,这是非常实用的功能。

可以直接生成不同尺寸比例的图片,例如:

  • YouTube 封面

  • 手机竖屏

  • 各大社交媒体尺寸

而且不会乱裁重点内容,
不需要再用 PS 手动改半天。

中文大字生成更靠谱

现在它可以直接生成:

  • LOGO

  • 海报

  • 邀请函

  • 漫画

  • 信息图

中文支持明显提升,多语言能力更加完善。

大段中文排版也几乎不出错。

五、适合哪些人使用?

Nano Banana 2 的适用场景非常广:

  • 自媒体创作者

  • 教育工作者

  • UI 设计师

  • 电商商家

  • 品牌运营

  • 小型咖啡店或实体商家

例如:

  • 一句话生成活动海报

  • 制作生日贺卡

  • 生成产品规格图

  • 做社交媒体宣传图

效率提升非常明显。

总结:这是一次真正意义上的升级

Nano Banana 2 并不是简单的“小迭代”。

它的升级体现在:

  • 更快的生成速度

  • 更强的中文理解

  • 更精准的可控编辑

  • 更高的画质

  • 更完善的多语言支持

  • 免费模式也能使用

在当前 AI 生图领域,它已经基本坐实“深图一哥”的位置。如果你是内容创作者,或者需要频繁制作视觉内容,这次升级,值得你认真关注。

Qwen3.5 正式发布!开源多模态模型屠榜,全尺寸覆盖,本地部署+Telegram 全攻略!

就在刚刚,Qwen 正式发布了全新的开源模型系列 —— Qwen3.5 多模态模型。这一次更新,可以说在开源模型领域掀起了不小的震动。不仅性能几乎“屠榜”,而且全面迈向了原生多模态智能体时代,真正把开源模型带入了一个新的阶段。

3.5banner

Qwen3.5 多模态系列覆盖了从 0.8B 到 397B 的多个尺寸版本,适配不同硬件环境和应用场景。其中 0.8B 和 2B 两款模型体积极小,但推理速度极快,非常适合移动设备、物联网设备以及低延迟实时交互场景。在边缘端部署时,这类小模型可以实现更快响应和更低功耗,对于需要即时反馈的应用来说意义重大。

2026 03 03 15 40 31.00 00 13 19.Still006 scaled

4B 版本则是“平民级”中的性能担当。它在资源消耗和性能之间取得了极佳平衡,非常适合作为轻量级 Agent 的核心大脑。对于本地部署用户或显存有限的开发者来说,这是一个兼顾智能水平与成本的理想选择。

9B 模型的表现则更进一步。它的综合能力可以媲美许多超大参数开源模型,在推理能力与多模态理解方面表现优异,同时对显存的要求却远低于百亿级以上模型,是服务器端部署中性价比极高的通用模型方案。

而最引人关注的,是开源的 Qwen3.5 397B-17B 模型。该模型总参数达到 3970 亿,但每次前向传播仅激活 170 亿参数,采用创新的混合架构,将线性注意力机制与稀疏混合专家(MoE)结构结合,在保持强大能力的同时显著优化了推理效率与成本。这种“高智能密度”的设计理念,让它在推理、编程、智能体能力、多模态理解等基准测试中全面领先。

HCaJnUQaoAAaMIc

Qwen3.5 还大幅扩展了多语言与方言支持,从 119 种提升至 201 种语言与变体,为全球开发者与企业用户提供更广泛的可用性和更完善的支持。模型发布后迅速引爆 AI 社区,连 Elon Musk 也在社交媒体上点赞评论,称其“智能密度令人印象深刻”。

v2 e008fa7bd56746d8ac22af470b2a0db8@46958 oswg519302oswg1080oswg1358 img 000

v2 7b877f49aede4ea9943693648114caa6@46958 oswg123255oswg1080oswg587 img 000

真正让 Qwen3.5 脱颖而出的,是它的原生多模态与 Agent 能力。它不仅可以理解文本与图像,还能够边思考、边搜索、边调用工具,实现真正意义上的智能体协作。在代码与智能体方向,Qwen3.5 可以协助进行网页开发、游戏开发,尤其是在前端构建与界面适配方面表现出色。开发者只需输入自然语言指令,它便能生成可运行代码,并支持实时迭代。

基于 Qwen3.5 底座模型打造的 Qwen Code,更进一步提升了 Web-coding 体验。它能够将自然语言直接转化为代码,实现实时开发与创意生成任务,包括网页构建、项目原型设计,甚至视频生成等创新型任务,为日常编程与探索性开发带来流畅高效的体验。

2026 03 03 15 40 31.00 02 38 20.Still008 scaled

在视觉智能体方向,Qwen3.5 可以自主操作手机或电脑完成任务。移动端已适配主流应用,支持自然语言驱动操作;电脑端则可处理跨应用数据整理与多步骤流程自动化,有效减少重复人工操作,显著提升效率。

2026 03 03 15 40 31.00 03 02 24.Still009 scaled

视觉编程能力同样令人惊艳。Qwen3.5 可以将草图转化为结构清晰的前端代码,将简单游戏视频还原为逻辑框架,甚至将长视频内容提炼为结构化网页或可视化图表,大幅降低从创意到实现的门槛。

2026 03 03 15 40 31.00 03 12 17.Still010 scaled

在空间智能理解方面,Qwen3.5 通过对图像像素与位置信息的建模,在物体计数、相对位置判断与空间关系描述任务中更加精准。它能够有效缓解因遮挡或视觉变化带来的误判,在自动驾驶场景理解与机器人导航等具身智能领域展现出良好潜力。

相比上一代视觉语言模型,Qwen3.5 在学科解题与复杂视觉推理任务上更加稳健。它能够结合图像内容与上下文进行多步逻辑推理,为教育与科研领域的多模态 Agent 应用提供更加可靠的基础能力。

2026 03 03 15 40 31.00 03 42 24.Still011 scaled

2026 03 03 15 40 31.00 04 03 12.Still012 scaled

如果你想在本地部署 Qwen3.5,可以通过 Ollama 来运行模型。Ollama 支持完全本地化部署与离线运行,保障数据安全,同时也能与自动化工具 OpenClaw 快速集成。不同尺寸模型对显存要求不同,例如部分版本约需 6GB 左右显存即可运行,而更大尺寸模型则需要更高显存配置。根据自身硬件条件选择合适版本即可。

通过 Ollama 下载模型后,可在终端运行对应命令进行加载。如果希望更友好地使用,也可以通过外部 UI 插件直接调用本地模型。在集成 OpenClaw 后,Qwen3.5 可以实现网页搜索、信息收集、结构化报告生成,以及自动化编程任务。

安装部署教程

1、下载Ollama 最新官方客户端:【点击下载

屏幕截图 2026 03 03 212939

2、下载 Qwen3.5 最新模型

安装好Ollama客户端以后,现在我们需要下载对应的 Qwen3.5 模型,根据自己的需要和硬件配置来选择合适的模型大小

点击前往

或者可以直接使用模型下载命令来完成:

ollama run qwen3.5:9b
ollama run qwen3.5:35b

 

安装号模型以后,如果想直接通过可视化的UI操作界面,来先使用的话,那么可以使用下方的这个浏览器来实现,它是完全免费的。

浏览器插件:点击下载

 

unnamed

 

 

3、安装部署 OpenClaw

下载好模型以后通过下面的命令来安装最新的OpenClaw客户端:

ollama launch openclaw

 

4、对接 Telegarm 电报机器人

如果需要接入 Telegram,只需在 OpenClaw 中重新进入配置流程,选择本地 Ollama 模型,创建 Telegram Bot 并填写 Bot Token,通过配对命令完成绑定即可。完成后,你就可以在 Telegram 中直接调用本地 Qwen3.5 模型进行对话、写代码或执行自动化任务,全程本地运行,无需额外 API 费用。

打开你的 Telegram,搜索 @BotFather,发送 /newbot,来创建一个新的机器人,按提示设置:

给 Bot 起个名字,比如我设置为 lingduopenclaw

设置用户名(必须以 bot 结尾,比如 lingduopenclawbot  )

最后会给你一串 Token:

8123121125:AAExamegv-0FQCfhfbazmp4405V0XAJCKfk

%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE 2026 01 30 210735

输入 token 进行对接,并进入到刚才创建的机器人里,第一次打开会显示还未正式对接,但是会在里面提供配对码,比如我的是 Pairing code: DLW7HQ69

 

2026 01 30 15 46 06.00 08 34 08.Still013 scaled

现在只需重新打开一个新的 Powershell 窗口,然后在里面输入配对命令即可

openclaw pairing approve telegram 这里填写你的配对码

 

当你看到这个界面的话说明已经和Telegram配对成功了!

%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE 2026 01 30 211237

 

5、重启后启动的命令:

ollama launch openclaw

 

6、彻底卸载并删除OpenClaw

openclaw gateway stop
openclaw uninstall
npm uninstall -g openclaw

 

总的来说,Qwen3.5 的发布不仅刷新了开源模型的性能上限,也让原生多模态智能体真正走向普及。从移动端到服务器,从轻量部署到超大规模模型,从视觉理解到自动化编程,它正在构建一个更完整、更高效的开源 AI 生态。

GPT-5.3 Instant 正式发布:速度更快、推理更强,免费开放使用(实测体验)

就在今天,OpenAI 正式推出了新一代模型 GPT‑5.3 Instant。这是 GPT-5 系列中的 低延迟高速版本(Instant),主打 更快响应、更强推理、更稳定代码能力

5.3 Instant Hero SEO 1

更重要的是:

目前 GPT-5.3 Instant 已经向所有用户开放,包括免费用户。

 

免费体验入口:

只要打开网页即可直接使用,无需复杂配置。

接下来我们通过 真实测试 来看看 GPT-5.3 的能力到底提升了多少。

一、GPT-5.3 Instant 到底升级了什么

相比上一代 GPT‑5.2,GPT-5.3 的核心升级主要体现在五个方面。

1 推理能力明显增强

GPT-5.3 在 复杂逻辑问题、多步骤分析任务上明显更强。

例如:

  • 逻辑推理

  • 数学问题

  • 编程思路分析

  • 数据分析

它不仅能给出答案,还会 完整展示推理过程

2 代码能力大幅提升

现在 GPT-5.3 不仅可以写代码,还可以:

  • Debug 调试代码

  • 优化代码结构

  • 自动重构程序

  • 生成完整项目

很多情况下,它更像一个 真正的程序员助手

3 多模态能力更加成熟

GPT-5.3 不仅能处理文本,还可以理解:

  • 图片

  • 文件

  • 数据表格

  • 复杂图表

未来 AI 的交互方式将越来越接近 真正的智能助手

4 响应速度明显更快

“Instant”版本最大的特点就是 低延迟

实际测试中:

  • 基本 1~2 秒就开始生成答案

  • 输出过程更加稳定

  • 几乎不会卡顿

这对日常使用体验来说非常重要。

5 明显减少“过度防御式回答”

很多用户在使用 GPT-5.2 时都会遇到一个问题:

模型有时会 过度保守,甚至拒绝回答一些本来可以安全回答的问题。

GPT-5.3 在这一点上进行了明显优化:

  • 减少不必要的免责声明

  • 减少说教式回答

  • 更直接给出有用信息

整体交流体验更加自然。

二、测试一:解释复杂概念(量子计算)

我们首先让 GPT-5.3 解释一个比较复杂的概念:

“用最简单的方式解释什么是量子计算”

https://images.openai.com/static-rsc-3/3AADVWOA0NIMDPhJRzHascUqD3pO92sdK2ivyIxz55nwFb_ZjYmyId8NpH2VzcZPsocv9wVXvnlQvQdVVYWyxhWHS3juPJut22hDS_Cc8hU?purpose=fullsize&v=1
https://images.openai.com/static-rsc-3/DJ-IZZ7ex_CDxQ6G5xZ8vxXvtvGevNvH2Q9N80cciSC_26s0mUUdnusL6wgEiLDdJLIH7ARq20jJpO6WCDabYaLEZTkdBuFo--P4FnRu1TQ?purpose=fullsize&v=1
https://images.openai.com/static-rsc-3/VjalMehXqDASgKgfiGuTyyN878naFrkYJPgLsyGB0hsF5cLWzTGEaJfrF_NEO8aS5mxX3ptWVdbCMs2GjaGXweNRqJyyrPVXDAZhJecw1Qs?purpose=fullsize&v=1
GPT-5.3 的回答结构非常清晰:
  1. 先解释传统计算机

  2. 再解释量子比特

  3. 为什么量子计算更强

  4. 实际应用场景

最重要的是:

普通人也能看懂。

很多 AI 在解释技术概念时会非常专业,但普通用户很难理解,而 GPT-5.3 在 表达清晰度上明显更好。

甚至还能进一步要求:

“用小学生也能听懂的方式解释。”

它也能轻松完成。

三、测试二:代码能力实测

接下来我们测试开发者最关心的部分:代码能力

我们给 GPT-5.3 一个需求:

写一个 Python 程序
扫描电脑已安装软件
支持搜索下载软件
带简单 UI 界面

https://media.licdn.com/dms/image/v2/D4D12AQGwaSl4rfv3uA/article-cover_image-shrink_720_1280/article-cover_image-shrink_720_1280/0/1692094783736?e=2147483647&t=imK7pTuZb3O6lxgbpLbV9Nk7tOPJM97Fh6RsvX__vqE&v=beta
https://miro.medium.com/1%2AV5wAUEogqGEnHml6fVL0eQ.jpeg
https://miro.medium.com/1%2A_epwtdTO50G4mwXrcRG0QA.png
GPT-5.3 生成的结果包括:
  • 完整 Python 代码

  • 模块化结构

  • UI 界面

  • 运行方法

  • 环境安装步骤

项目结构类似:

project/
 ├ main.py
 ├ core/
 │   ├ scan.py
 │   ├ download.py
 │   └ clean.py
 ├ ui/
 │   └ main_window.py
 ├ requirements.txt
 └ build.bat

更厉害的是:

代码一次运行成功,没有报错。

甚至可以让 GPT-5.3 自动打包成 EXE 软件

只需要几分钟,就可以生成一个完整软件。

四、测试三:经典逻辑推理题

我们再测试一个经典逻辑题:

三个开关控制三个灯泡
只能进入房间一次
如何判断哪个开关控制哪个灯?

https://codingnconcepts.com/img/puzzle/three-switch-one-bulb-puzzle.png
https://i.pinimg.com/736x/a1/3f/8b/a13f8b0b1039cf0335f2cf19e6199530.jpg
https://i.guim.co.uk/img/media/d6f6e52e0b7fd227bcaa31216a293715e63b1dfe/0_0_1854_1494/master/1854.jpg?crop=none&dpr=1&s=none&width=445

GPT-5.3 的解题步骤:

第一步

打开 A 开关 3~5 分钟,让灯泡变热。

第二步

关闭 A,打开 B。

第三步

进入房间观察:

  • 亮着的灯 → B

  • 不亮但热 → A

  • 不亮且冷 → C

不仅给出答案,还提供了 完整推理过程和图示

这对:

  • 学习

  • 教学

  • 科普

非常有帮助。

五、测试四:生成 YouTube 视频脚本

我们再模拟一个真实工作场景。

要求 GPT-5.3:

写一篇 8 分钟科技视频脚本
结构清晰
有吸引力

结果它直接生成:

  • 视频标题

  • 开场钩子

  • 内容结构

  • 总结

甚至还模仿了 “零度解说” 的风格。

对于内容创作者来说,这非常实用:

  • YouTube

  • B站

  • 博客

  • 自媒体

都可以直接用作内容框架。

六、GPT-5.3 适合哪些人

如果你经常使用 AI,那么 GPT-5.3 非常适合以下人群:

1 开发者

  • 写代码

  • Debug

  • 学习新技术

2 内容创作者

(比如做 YouTube、博客)

  • 写脚本

  • 写文章

  • 内容规划

3 学生和研究人员

  • 学习复杂知识

  • 辅助研究

4 普通用户

任何人只要有:

  • 手机

  • 电脑

都可以用它提高效率。


七、免费使用 GPT-5.3

目前 GPT-5.3 Instant 已经免费开放

直接通过以下入口即可使用:

👉 免费体验 GPT-5.3:

打开即可开始使用。


总结

整体体验下来,GPT-5.3 带来的并不是简单升级,而是一次 整体能力进化

主要提升体现在:

  • 推理能力

  • 代码能力

  • 表达清晰度

  • 响应速度

当然 AI 仍然不完美,有时也会出错。

但可以确定的是:

AI 正在越来越接近真正的智能助手。

未来几年,AI 的发展速度可能会 远远超出大多数人的想象。

OpenAI GPT-5.4「原生操控电脑」实测封神:OpenClaw 天选模型来了

就在昨晚凌晨两点,OpenAI 毫无预兆地丢出了一个重磅更新——GPT-5.4。毫无疑问,这个模型正在改写 2026 年 AI Agent 的主线剧情。这一次,大家等了很久的核心能力终于真正落地:原生操控电脑。

1772735578 openai gpt 5.4 model

而在我第一时间实测之后,可以非常直接地说一句:GPT-5.4 很可能是目前最适合跑 OpenClaw 的模型,甚至没有之一。尤其是在原生操控电脑方面,达到前所未有的水平。

原生操控电脑,真正的 Agent 分水岭

Agent 能力,是 2026 年 AI 进化的主线任务。过去的模型更多停留在“生成内容”“回答问题”层面,而 GPT-5.4 直接进入了“执行任务”的阶段。它不仅能理解指令,更能真正操控电脑环境。

屏幕截图 2026 03 07 194029

只要是打工人日常在电脑上能做的事情,它几乎都能完成。这已经不是简单的“聊天机器人”,而是一个具备完整操作链条的数字执行者。070cb7f3 993b 478d 9ac6 c23b33eb6417

Web 版 + Codex 同步上线,Windows 用户也能用

目前 GPT-5.4 已经在网页版以及 OpenAI Codex 中上线。

昨晚 OpenAI 也同步推出了 Windows 版本的 Codex 客户端,这对 Windows 用户来说意义重大。

https://cdn.thenewstack.io/media/2026/02/20c44d85-codex-dark-scaled.png

Codex Windows 版下载: 【点击前往

这意味着,即使你不部署复杂环境,也可以直接通过 Codex 客户端体验 GPT-5.4 的电脑操控能力。

为什么说 GPT-5.4 是 OpenClaw 的“天选模型”

我们都知道,OpenClaw 这只“龙虾”之所以爆火,核心就在于它强大的 Agent 能力。在 Mac mini 上部署的 OpenClaw,几乎拥有与人类一致的操作权限和执行路径。而 GPT-5.4 这一次,是在模型层面就实现了原生电脑操控能力。

194a6818 25e9 400f 80c3 155afdecf9a4

也就是说,它不再是“外挂式控制”,而是“内生式理解 + 执行”。两者结合,几乎是 2026 年 Agent 形态的最优解。

完整的 OpenClaw + GPT-5.4 部署与实测流程:

 

1、安装并升级到最新版的 OpenClaw,一键安装命令如下:

iwr -useb https://openclaw.ai/install.ps1 | iex

模型的服务提供商选择OpenAI

2026 03 07 16 16 22.00 05 22 14.Still003 scaled

 

模型登入方式选择OpenAI API key

2026 03 07 16 16 22.00 05 28 17.Still004 scaled

 

创建 OpenAI API key:【点击前往

 

屏幕截图 2026 03 07 203006

然后在命令输入框输入密钥确认

在选择模型的时候,请选择GPT-5.3 codex,因为目前OpenClaw还没内置到GPT-5.4模型,但是一会我们可以通过命令进行切换过去。

屏幕截图 2026 03 07 194659

 

切换模型需要重新开一个新的power shell窗口,并输入第1个切换模型的命令:

openclaw onboard --auth-choice openai-codex

 

执行命令以后,在配置选项里Config handling 选择 Update values:

屏幕截图 2026 03 07 194935

确认以后会自动弹窗登入窗口,只需输入你的openAI账号登入即可

 

屏幕截图 2026 03 07 195231

 

登入以后,再开一个新的power shell窗口,执行第2个切换模型的命令:

 

openclaw config set agents.defaults.model.primary "openai-codex/gpt-5.4"

 

就可以把当前Openclaw的默认使用模型切换到GPT-5.4上去了

屏幕截图 2026 03 07 195415

屏幕截图 2026 03 07 195618

注意:由于通过网页端授权登入的方式,只有Plus、Pro及以上的会员才可以调用GPT-5.4模型,所以要确保你当前登入的OpenAI账号是开通会员的才可以,否则会提示你找不到模型!

 

Mac 电脑

将 OpenClaw 默认模型切换到 GPT-5.4 的命令:

openclaw onboard--auth-choiceopenai-codex

执行命令后登入OpenAI账号

v2 ee3588d7237589fb35af4941e81cfc13 1440w

 

授权登入以后再开新的命令窗口执行下方命令:

openclaw configsetagents.defaults.model.primary"openai-codex/gpt-5.4"

重启 OpenClaw 后,问它“你是什么模型”,就会回复gpt-5.4

v2 356e309ed4e0eced0b2debd6b3ae4dbd 1440w

 

 

当然如果你不想开通会员,也想使用最新的GPT-5.4模型,那么你可以通过刚才说的Open Codex 客户端进行安装使用!亲测即使是免费账户,登入以后照样可以使用GPT-5.4模型

屏幕截图 2026 03 07 200404

屏幕截图 2026 03 07 200532

核心能力全面升级:

这次升级,不只是“能操作电脑”这么简单。不仅会操作,还更聪明

屏幕截图 2026 03 07 230515

知识型工作能力提升

在 GDPval 测试中(覆盖 44 个职业的知识工作能力评估),GPT-5.4 在 83% 的案例中达到持平或更优水平,而 GPT-5.2 为 71%。

在投行级电子表格建模内部测试中:

GPT-5.4:87.5%
GPT-5.2:68.4%

屏幕截图 2026 03 07 230556

在演示文稿评测中,人工评分者在 68% 情况下更偏好 GPT-5.4 生成的作品,原因是:

更好的审美
更丰富的视觉元素
更有效的图像生成配合

对于内容创作者、分析师、咨询顾问来说,这是生产力的实质跃迁。

浏览器与网页操控能力

在 WebArena-Verified 测试中:

GPT-5.4 成功率 67.3%
GPT-5.2 为 65.4%

同时使用的token数量也大幅减少

屏幕截图 2026 03 07 230629

在 Online-Mind2Web 测试中,仅凭截图观察成功率达到 92.8%,明显领先早期系统。

这意味着它在真实网页环境中的操作稳定性进一步提升。

视觉理解能力强化

在 MMMU-Pro 测试中,无需外部工具即可达到 81.2% 成功率。

在 OmniDocBench 文档解析测试中,平均误差下降至 0.109。

这就是它“原生操控电脑”能力的底层支撑——更强的视觉理解与结构解析能力。

屏幕截图 2026 03 07 230726

编程与长任务执行

GPT-5.4 融合了 GPT-5.3-Codex 的编程能力,同时强化了长时间自主执行任务的能力。

在 SWE-Bench Pro 测试中,与 GPT-5.3-Codex 持平或更强,同时整体推理延迟更低。

屏幕截图 2026 03 07 230749

它可以:

自己调用工具
多轮迭代优化
减少人工干预

这已经是半自动工程师级别的能力。

工具调用与多步任务

在 Toolathlon 测试中,它用更少轮次完成复杂真实任务,比如:

读取邮件
处理附件
评分
记录到表格

准确率更高,执行更稳定。

屏幕截图 2026 03 07 230813

联网搜索能力

在 BrowseComp 测试中,GPT-5.4 相比 5.2 提升 17 个百分点。

GPT-5.4 Pro 更是达到 89.3%。

这意味着它在海量信息检索、多轮搜索整合方面的能力显著增强。

BrowseComp

可控性:真正的“Thinking”升级

GPT-5.4 Thinking 在处理复杂任务时会先给出“前言”说明思路,并支持在生成过程中实时追加指令。

这对高阶用户来说意义巨大。

智能体工具调用

GPT‑5.4 同样优化了工具调用能力,使其在推理过程中能更准确、更高效地判断调用工具的时机与方式,这在 API 环境下尤为突出。相比 GPT‑5.2,它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如,智能体需要读取邮件、提取作业附件、上传并评分,最后将结果记录到电子表格中。

屏幕截图 2026 03 07 230837

你可以在任务进行中微调方向,而不需要推倒重来。

在长流程任务中,它对上下文记忆更加稳定,推理更深入。

这才是 Agent 真正可控、可用、可扩展的关键。

最后总结:打工人真的悬了?

实测之后,我只有一个感受:

这不是一次小升级,而是一次形态级进化。

GPT-5.4 让“原生操控电脑”从概念走向现实。
它不再只是一个聊天模型,而是一个可以真正执行工作的智能体核心。

当它与 OpenClaw 这样的 Agent 框架结合,2026 年的工作方式,很可能会被重新定义。

OpenClaw 新手必备!安装实用Skills,模型选择,浏览器自动化等!

相信大家已经使用OpenClaw一段时间了,是不是有时候会觉得自己的 OpenClaw(龙虾)不好用、不够智能,甚至连浏览器自动化都实现不了?其实问题往往不在工具本身,而是在模型没有选对,或者关键的 skills 没有安装完整。今天这篇文章,我会一次性帮你彻底解决这些核心痛点,避免走弯路,更别再被人割韭菜。

Openclaw 最佳模型选择

点击前往】查看最佳模型

 

安装 OpenClaw 最新版本:

在Power shell下以管理员身份运行下方命令:

iwr -useb https://openclaw.ai/install.ps1 | iex

如果出现闪退现象,先执行下方的命令即可解决:

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass

 

 

如果你之前已经安装过OpenClaw,那么你可以通过下方的命令进行一键升级到最新版本:

① 打开 PowerShell(管理员模式)

开始菜单 → 搜索 PowerShell → 右键 → 以管理员身份运行

② 执行升级命令

npm install -g openclaw@latest

③ 升级完成后检查版本

openclaw --version

应该会显示版本号:v2026.3.7 (或更高版本)

升级后再重启 OpenClaw
openclaw gateway

升级更新的最新版以后,模型的服务提供商选择建议选择OpenAI,因为在浏览器自动化方面,GPT-5.3 Codex 或者 5.4 Codex 版的兼容性和效果是最好的!

模型对接方式选择OpenAI API Key

 

创建 OpenAI API key:【点击前往

 

安装必备的Skills

如果你之前安装的时候默认跳过了skill的安装,那么建议重新进入配置页面

 

openclaw onboard

全选skill

并手动安装必备的实用skills,当然我们还需要额外安装其它9个必备的skills

1、Agent Browser

让 AI Agent 拥有人类级的浏览器操作能力,解决了传统 AI 仅能通过 API 获取静态数据、无法直接操控浏览器的核心痛点,安装命令:

npx clawhub@latest install agent-browser

它是基于Rust 开发的无头浏览器自动化 CLI 工具,搭配 Node.js 回退功能,底层依托 Playwright/Puppeteer 实现浏览器控制,同时通过 Rust 加速提升响应速度;支持语义定位(理解 “登录按钮” 等人类化指令,而非死板匹配 HTML 标签)、状态快照(实时生成页面可访问性树)等高级能力,且采用独立无头浏览器实例运行,实现安全沙箱隔离。

覆盖网页操作全场景,支持自然语言指令直接调用,核心能力包括:

  1. 网页导航与浏览:打开任意 URL,自动获取页面元素结构化列表;
  2. 表单全交互:填写输入框、勾选复选框、选择下拉菜单、提交表单;
  3. 元素操作:单击 / 双击、拖放元素,支持文件上传至输入框;
  4. 内容留存:全页截图、录制操作过程为视频,支持 PDF 导出;
  5. 高级控制:在页面上下文执行任意 JavaScript 代码,通过 HTTP 代理访问网页(适配地理位置测试);
  6. 会话管理:保存 Cookie 实现免密登录,多实例独立认证,跨页面保持操作状态。

2、Tavily Web Search

OpenClaw 的 “实时信息大脑”,联网搜索技能,让Agent能实时查最新资讯、数据,避免“闭眼编”,解决 Agent “信息滞后” 痛点,几乎所有人都说“没这个跟瞎子一样”。安装命令:

npx clawhub@latest install tavily-search

3、find-skills

让AI Agent自己去ClawHub搜并安装需要的技能,解决“不知道用哪个工具”的痛点。这个强烈建议大家安装!

npx clawhub@latest install find-skills

你只需告诉 Agent “我要做 XX 事”(如 “自动整理Google文档”),它会自动去 ClawHub 技能库搜索匹配的技能、推荐安装顺序、一键完成安装;

4、weather

OpenClaw 生态中排名前十的高频刚需技能,主打免 API 密钥、开箱即用、多格式输出,专为 AI Agent 设计,能快速响应自然语言的天气查询需求,适配自动化办公、出行规划等各类场景。

npx clawhub@latest install weather

 

零门槛使用:完全免费,无需注册、无需申请任何 API 密钥,安装后直接调用,无任何配置成本;

双数据源保障:集成 wttr.in 和 Open-Meteo 两大免费天气服务,避免单一数据源故障,提升查询可靠性;

5. self-improving-agent

内置记忆系统与自我优化机制,交互越多,能力越强。

npx clawhub@latest install self-improving-agent

核心定位:OpenClaw 的“智能进化引擎”,区别于传统固定流程自动化,实现真正的动态智能升级。

6、summarize

内容总结,快速消化,信息降噪神器,快速提炼核心价值,支持格式有:网页、文档(Word/PDF)、邮件、长文本、视频字幕(需搭配 OCR 技能);

npx clawhub@latest install summarize

7、skill-vetter

在安装前对 ClawHub 上的技能做安全审计,识别潜在的恶意指令与风险。安装命令:

npx clawhub@latest install skill-vetter

 

建议:如果你计划频繁安装社区技能,强烈建议把它视为「隐形的第1 个必装技能」,优先级甚至可以排在所有技能之前。

8、Proactive Agent

给 Agent 加 “自主思考” 能力,从 “被动执行” 到 “主动规划”,给Agent加“主动性”和自我迭代能力,能记住历史、优化行为、减少重复问,长期用会很香。

clawhub install proactive-agent

9、gog

Google全家桶(Gmail、日历、Drive、Docs),办公自动化神器。特别是海外 / 跨境办公自动化刚需,一站式操控 Google 生态。

npx clawhub@latest install gog

支持功能:

  • Gmail:自动收发邮件、筛选垃圾邮件、提取邮件附件 / 关键信息;
  • Google 日历:自动创建日程、提醒、同步会议安排;
  • Google Drive/Docs:自动新建文档、填充内容、分享权限、备份文件;

适用人群:跨境电商、海外开发者、外企办公人员,替代手动操作 Google 全家桶的重复工作;

更多实用Skills推荐:

 

Github 榜单:【点击前往

万能的Skills安装命令:

 

npx clawhub@latest install <skill-slug>

后面<skill-slug> 改成对应的skill名称即可!

Mac 本地跑 AI 大模型神器:OMLX,让 Mac Mini 推理速度提升 10 倍!

过去的1个月里,越来越开始Mac 运行本地 AI 模型比如使用 Ollama 运行各种模型,通过 OpenCat Ollama桌面客户端 用。很多都有一个非常痛苦体验:速度慢、推理顿、token 每秒只有

尤其是Mac Mini 16GB 内存设备 上,这个问题明显。今天大家介绍一个 Mac 本地模型加速神器 —— OMLX

可以本地模型 推理速度提升 10 以上即使是 Mac Mini 也能轻松运行模型。

下面大家 完整测 + 部署教程

 

一、为什么 Mac 本地模型这么慢?

 

很多Mac 运行本地模型时,一般这样架构:

Ollama → 本地模型 → OpenCat / AI工具

默认情况下:

  • 推理效率不高

  • KV Cache利用

  • CPU/GPU 调度不充分

所以经常出现这种情况:

  • 回复 一个一个往外

  • 每秒 3~5 token

  • 一个简单问题 十秒甚至分钟

对于日常使用来说体验非常差。

二、OMLX:Mac 本地模型加速神器

https://omlx.ai/images/omlx_dashboard_light.png
https://omlx.ai/images/omlx_dashboard_dark.png
OMLX 核心作用:
  • 本地模型推理

  • 提升 token 生成速度

  • 管理模型

  • 提供 OpenAI API 接口

  • 支持压力测试

简单理解:

OMLX = Mac 本地 AI 模型加速服务

部署后,本地模型速度通常可以 提升 5~10 以上

三、Mac Mini 推荐模型

 

如果你的设备16GB Mac Mini推荐使用:

Qwen3.5-9B :[点击前往]  进行下载

原因:

模型 大小 推荐设备
Qwen3.5 4B ~3GB 8GB Mac
Qwen3.5 9B ~6.6GB 16GB Mac
Qwen3.5 27B ~17GB 32GB+

9B 模型性能质量之间非常平衡

四、安装 Ollama

https://kodekloud.com/kk-media/image/upload/v1752883703/notes-assets/images/Running-Local-LLMs-With-Ollama-Installing-Ollama/ollama-download-page-macos-linux-windows.jpg

首先安装 Ollama

步骤:

1️⃣ 打开下载安装

点击前往

2️⃣ 安装完成后打开终端

下载 Qwen3.5 9B 模型

ollama run qwen2.5:9b

 

下载大小:约 6.6GB

下载完成后,可以测试模型:

ollama run qwen2.5:9b

五、速度实测(未优化)

我们测试一个简单数学推理题:

2,6,12,20,30,(?)

 

规律是:

n(n+1)

第六数:

6×7 = 42

但在 Ollama 默认推理下:

结果:

项目 时间
开始生成 20
完整回答 150

速度非常慢。

六、安装 OMLX

在安装之前请确保你当前的mac上已经安装了Openclaw,没有安装的话可以通过下面的一键安装命令:

curl -fsSL https://openclaw.ai/install.sh | bash

来进行安装、升级到最新版本!

 

https://docs.github.com/assets/cb-198931/images/help/stars/lists-overview-on-stars-page.png
https://help.apple.com/assets/68FBBA193607B5D7D10E93FA/68FBBA1F5B40BB61910BDFBB/en_US/a3e401e82f9552fd51a8b7fc868df22c.png
4、下来安装 OMLX

目前 Github 已经有 4000+ Star

下载步骤:

1️⃣ 打开项目 Release

下载最新版本【点击前往】或 【网盘打包下载

注意选择正确版本:

文件 适合设备
square 版本 Mac
tar 版本 M5 / 最新 macOS

下载直接Applications 安装。

七、启动 OMLX 服务器

 

打开 OMLX 后:

配置如下

默认口:8000

API Key:随便设置,例如:12345678

击:

Start Server

看到 绿色状态 说明启动成功。

进入后台:

http://127.0.0.1:8000

八、配置模型缓存(非常关键)

设置建议这样配置:

内存限制

如果16GB Mac

12GB

8GB

存(强烈建议)

例如:

100GB

作用:

  • 保存 KV cache

  • 模型下次启动

九、下载模型

OMLX 识别 Ollama 模型格式。

所以需要 重新下载模型

后台:

Downloader

搜索:

Qwen3.5 9B

直接下载即可。

十、OpenCat

下来OMLX OpenCat

终端运行:

opencat config

 

配置:

Provider

Custom Provider

API 地址

http://127.0.0.1:8000/v1

API Key

留空即可。

然后填写模型 ID:

模型ID的获取地址:http://127.0.0.1:8000/v1/models
复制其中模型 ID。

配置完成后即可。

十一、速度再次

同样问题:

2,6,12,20,30,(?)

 

结果:

方案
Ollama 原生 150
OMLX 加速 10~15

速度提升接近 10 倍!

几乎可以做到 响应

十二、OMLX 高级功能

OMLX 还有很多强大功能:

1️⃣ 性能矩阵测试

可以测试:

  • 线

  • 线

  • 并发压力

评估:

每秒 token 数量

2️⃣ OpenAI API 兼容

支持:

  • OpenAI API

  • Cloud 模型

  • 定义模型

可以直接当:

本地 OpenAI API Server

3️⃣ KV Cache 持久

大幅提升:

  • 模型启动速度

  • 上下文推理效率

如果你想Mac 本地AI 模型那么组合非常推荐:

Ollama
+
Qwen3.5
+
OMLX
+
OpenCat

优势:

  • 本地运行

  • 消耗 token

  • 推理速度大幅提升

  • Mac Mini 也能轻松运行

尤其是对于喜欢折腾 本地 AI + 自动工具 朋友来说,方案真的非常香。

OpenClaw 本地模型最佳方案:模型推荐 + vLLM 部署优化完整教程!

OpenClaw 如何切换本地模型?如果希望执行自动任务保持流畅、出现顿,同时避免频繁触发上下文长度限制,那么选择一个合适模型非常关键。

对于 OpenClaw 来说,模型不仅需要具备良好推理能力语言理解能力,需要拥有稳定工具用(Tool Calling)能力因为自动任务中,模型需要频繁各种工具完成操作,因此工具能力往往是选择模型重要指标之一。

很多第一次尝试本地部署模型时,往往会选择 Ollama它的优点确实明显:安装简单、配置方便,几乎可以做到“傻瓜式”部署。

但在 OpenClaw 这种自动任务场景下,Ollama 方式推理速度并不理想。实际使用往往会遇到问题:

  • 推理速度

  • 上下文长度容易

连续运行多个任务后,经常出现上下文不够情况。

因此,如果希望获得稳定、高效本地部署体验,需要选择合适推理框架。

一般来说:

  • 远程集群 / Agent 场景推荐使用 SGLang

  • 本地部署强烈推荐 vLLM

目前来看,vLLM 可以部署 OpenClaw 最佳解决方案之一

接下来我就给大家详细介绍vLLM 部署本地模型并对接到OpenClaw 的整个过程:

 

前期准备:

 

在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!

点击下载

一、安装 WSL2

PowerShell(管理员)执行:

wsl --install

安装完成后电脑,然后安装Ubuntu

wsl --install -d Ubuntu

 

检查版本:

wsl --version

确保输出结果是:WSL2

二、WSL 安装 CUDA 驱动支持

确认 Windows 安装 NVIDIA 驱动。

检查:

nvidia-smi

 

然后WSL Ubuntu 运行:

nvidia-smi

 

如果出现信息说明 GPU直通成功。例如:

RTX 4090 # 根据你自己的显卡而定

三、安装 Python 环境

更新系统:

sudo apt update
sudo apt upgrade -y

安装 Python:

sudo apt install python3-pip python3-venv -y

创建虚拟环境:

cd ~
python3 -m venv vllm-env

进入环境:

source vllm-env/bin/activate

 

四、安装 vLLM

 

安装命令:

pip install --upgrade pip
pip install vllm

安装完成后测试:

python -c "import vllm; print('vLLM installed')"

五、下载模型

推荐模型:

Qwen2.5-14B-Instruct-AWQ

 

 

模型优点:

  • 中文

  • Agent能力

  • 支持更全面的工具调用能力

启动 vLLM 自动下载模型。

⚠ 显存提示

本教程演示使用的是 24GB 显存显卡。如果你的显存更小,建议选择参数规模更小的模型,否则在加载模型时可能会出现:显存不足(Out of Memory)的问题。

如果显存不够大,那么可以选择:Qwen2.5-7B-Instruct-AWQ 或  Qwen2.5-4B 等更小的模型

 

六、启动 vLLM 服务

 

运行命令:

 

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

 

 

成功看到:

 

 

说明 API 已启动成功。

七、测试模型

 

Windows PowerShell 测试:

curl http://127.0.0.1:8000/v1/models

返回模型信息:

Qwen/Qwen2.5-14B-Instruct-AWQ

说明连接正常。

八、安装 OpenClaw

在 WSL 子系统里执行安装命令:

先安装Nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -<br />sudo apt install -y nodejs

再执行安装Openclaw

sudo npm install -g openclaw@latest

九、OpenClaw 配置本地模型

进入配置:

openclaw onboard

 

添加模型:

模型提供商必须选择自定义的:

Base URL:http://127.0.0.1:8000/v1

API key:123456 (随便填写)

模型名称:Qwen2.5-14B-Instruct-AWQ

最后保存即可!

十、OpenClaw 推荐参数(优化)

为了避免顿:

Context length:6000–8000

Temperature:0.7

Max tokens:2048

十一、优化推理速度(强烈推荐)

vLLM启动参数建议:

注意:这是RTX4090显卡的配置,请根据你自己的显卡显存来适当修改max-model-len  后面的参数

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

 

 

 

效果:

  • prefix cache 加速 prompt

  • GPU利用更高

 

十二、解决长对话卡顿

OpenClaw System Prompt 加:

When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.

这样:
8000 token

200 token memory

速度不会下降。

十三、最终性能参考(RTX4090)

Qwen2.5-14B-Instruct-AWQ:

指标 数值
token生成速度 90–130 token/s
token 延迟 0.4 – 0.8
最大上下文 32K tokens建议实际8K–16K)
占用 10–12GB

本地模型跑 Openclaw 就完全用。

NAS 部署 OpenClaw 全流程:从零开始 + 全面踩坑总结(新手必看)

在折腾 NAS 的过程中,我一直在寻找一套能够真正实现“自动化+效率提升”的工具,直到接触到 OpenClaw,才发现很多原本需要手动完成的操作,其实都可以被彻底解放。但问题是:网上几乎没有一套完整、可落地的 NAS 部署教程,要么步骤缺失,要么关键配置一笔带过,新手很容易卡在中途。

这篇文章,我会从 0 到 1 手把手带你完成 OpenClaw 在 NAS 上的完整部署,包括环境准备、Docker 配置、网络访问、以及 Telegram 对接等关键步骤。同时,我也会把自己在实际部署过程中踩过的坑全部整理出来,比如镜像拉取失败、权限问题、端口无法访问、机器人无响应等常见问题,并给出可直接复现的解决方案。

如果你符合以下情况,这篇文章会对你非常有帮助:

  • 第一次在 NAS 上部署 OpenClaw,不知道从哪里开始
  • 已经部署成功,但部分功能(如 Telegram)无法正常使用
  • 经常遇到各种报错,但不知道问题出在哪里
  • 希望搭建一套可以长期稳定运行的自动化系统

相比零散教程,这篇内容更偏向“实战复盘”,不仅告诉你怎么做,更重要的是让你知道为什么会出问题,以及如何避免

接下来,我们正式开始,从最基础的环境准备讲起。

部署步骤:

1、在Nas里安装Docker管理器

套件中心→Container Manager

 

2、下载安装OpenClaw 安装包

在镜像仓库里面搜索关键词:openclaw,然后下载镜像,推荐选择 1panel openclaw

注意:如果你在中国大陆,建议通过国内加速镜像进行下载,否则下载速度会很慢!设置步骤:左侧的镜像仓库 – 设置 – 新增: 镜像仓库名称:随便自定义 , 加速的镜像仓库URL填:https://docker.1ms.run

3、安装并运行OpenClaw 容器

在映像里选择刚才下载好的1panel/openclaw 镜像,鼠标右键点击运行

配置容器

这一步要做18789的端口映射,及容器空间设置,如下图所示:

网络由bridge改成host,否则后续无法在其它或外网访问Nas里的Openclaw

使用高权限执行容器,并在执行命令后面填写下方的代码:

openclaw gateway --allow-unconfigured

 

接着点击完成来创建Openclaw 的容器

4、在Nas里开启SSH远程访问权限

在控制面板找到:终端机和SNMP

进入以后,勾选里面的启用 SSH 功能,这样我们才能通过SSH客户端连接到Nas里面

5、下载安装SSH远程终端连接器

你可以下载这款完全免费的 WindTerm ,来进行连接使用

点击下载】或【备用打包下载

 

连接地址:nas群晖的 ip地址 ,比如我是:192.168.1.113

端口:22

用户名:nas 登入账号

密码:nas 登入密码

 

登入进去以后,通过命令sudo -i 来提升到管理员权限,输入命令:docker ps 来查看当前所安装的Openclaw容器

6、进入Openclaw 容器进行配置

输入命令:

sudo docker exec -it openclaw bash

来进入到openclaw的容器,注意:如果你之前自定义的容器名称不是openclaw,那么上方的命令你需要将openclaw改成你自定义的容器名称

进入容器以后再执行命令:

openclaw onboard

来进行后续的配置即可,具体看零度的视频教程演示!

 

如果你选择对接Telegram的机器人,那么需要打开 @BotFather 进行创建机器人并配对

 

7、在其它电脑/外网上访问 Openclaw 

在openclaw 容器里执行命令:

openclaw config

 

将Gateway 模型由 bind mode改为LAN模式,如下:

修改以后,Openclaw的面板地址就会由原来的127.0.0.1 变成我们的nas的访问地址,比如我是:192.168.1.113,这一步非常关键!,它决定了你在nas里部署的Openclaw能不能在其它电脑或外网上访问控制面板。

当然第一次访问的时候它会显示这个错误信息:

origin not allowed (open the ControlUIfrom the gateway host or allow it in gateway.controlUi.allowedOrigins) openclaw

 

这主要是跨域导致的问权限题,现在我们可以在容器里,一键执行下方的命令来解决这个错误:

docker exec openclaw node openclaw.mjs config set gateway.controlUi.allowedOrigins '["http://192.168.1.113:18789","http://localhost:18789"]'

注意:要将上方命令里的 ip 替换成你自己的 nas 的 ip 地址

执行命令以后稍等一会,它会自动重启容器,但是重启以后访问它会出现这个错误,就是要求我们通过HTTPS协议进行访问后台,错误信息如下:

control ui requires device identity (use HTTPS or localhost secure context)

 

 

这个错误不用慌,我们可以通过下方的命令来解除这个限制:

docker exec openclaw node openclaw.mjs config set gateway.controlUi.dangerouslyDisableDeviceAuth true

执行重启容器以后,稍等一会就可以正常访问Openclaw的后台了

OpenClaw 装进手机!本地运行 AI + 远程操控,一部老旧安卓机全搞定!

如果你最近关注过 AI 圈,那你一定听说过“小龙虾 OpenClaw”。它不仅可以作为一个强大的智能助手,还能实现远程控制、自动化任务,甚至接管你的手机做各种操作。更关键的是,现在它已经可以直接安装在手机上本地运行,不依赖云端,真正做到低延迟、省电、随时随地可用。

1 1

这篇文章就带你完整梳理,从下载安装到实际使用,一步步把 OpenClaw 安装进你的安卓手机。

首先来说一个核心亮点:OpenClaw 是可以在手机本地运行的。这意味着它不需要远程服务器支持,也不会因为网络延迟影响体验。你可以把它理解为一个随身携带的 AI 助手,随时唤醒、随时响应。

而且它的硬件要求非常低,一台老旧安卓手机就可以运行。内存大约只需要 500MB,现在大多数手机都远远超过这个配置,所以几乎没有门槛。

OpenClaw 手机版下载:

点击前往】 或 【备用下载

 

20260331 1774954196

要求

 

要求 细节
安卓 10 或更高(API 29)
贮存 Ubuntu + Node.js + OpenClaw 大约需要 500MB 内存。
架构 arm64-v8a、armeabi-v7a、x86_64
Termux(仅限命令行界面) 来自F-Droid(而非 Play 商店)

首轮

  1. 安装APK
  2. 按照安装向导操作(下载约 500MB 的 Ubuntu 根文件系统)
  3. 从控制面板启动网关
  4. 请访问以下网址访问网络控制面板:http://127.0.0.1:18789

要求

  • Android 10+(API 29)
  • 初始设置需要约 500MB 的可用存储空间
  • 首次设置需要连接互联网

它的实现原理其实也很有意思。OpenClaw 并不是直接跑在安卓系统上,而是通过 Proot 在手机里虚拟出一个 Ubuntu 系统,然后在这个环境中安装 NodeJS 和 OpenClaw 主程序,同时提供一个图形化界面进行管理。最重要的一点是:整个过程不需要 Root 权限,这让它的可用性大大提升。

20260331 1774953961 scaled

在安装方式上,它提供了两种方案:一种是通过专门的应用进行安装,另一种是通过命令行安装。对于大多数用户来说,直接使用 APK 安装是最简单的方式。

两种使用方法

 

Flutter 应用(独立版) Termux CLI
安装 构建 APK 或下载版本 npm install -g openclaw-termux
设置 点击“开始设置” openclawx setup
网关 点击“启动网关” openclawx start
终端 内置终端模拟器 Termux shell
仪表板 内置 WebView 浏览器localhost:18789

安装流程其实并不复杂。首先下载对应版本的安装包,推荐选择官方推荐版本,它适配绝大多数安卓设备。如果你的手机比较旧,可以选择兼容 32 位 ARM 的版本;如果是在模拟器环境,则可以选择 x86 版本。

下载完成后,把 APK 传到手机上进行安装。你可以使用局域网传输工具,比如 LANDrop,在电脑和手机之间快速传文件。只要两台设备在同一网络下,就可以互相识别并直接传输,非常方便。

20260331 1774954335 scaled

LANDrop 神器下载:

1、电脑版: 【点击下载】或 【打包下载

2、手机版:【点击下载】或 【下载APK安装包

 

安装完成后,第一次打开应用,会自动进入初始化流程。整个过程分为几个阶段:下载 Ubuntu 虚拟环境、解压系统、安装 NodeJS、部署 OpenClaw,最后进行配置。这一步需要一定时间,尤其是虚拟环境大约有 500MB,需要耐心等待。

20260331 1774954471 scaled

配置阶段是整个流程中最关键的一步。你需要选择 AI 服务提供商,比如 OpenAI、Claude、DeepSeek、Gemini 等。如果你在海外环境,推荐使用 OpenAI 或 Claude;如果在国内,可以选择 DeepSeek 或 Minimax。

2026 03 31 16 07 17.00 05 52 10.Still016 scaled

登录方式可以选择 API Key 或网页授权。如果你是免费用户,建议使用网页授权方式,操作更简单。授权完成后,还需要选择具体模型,比如 GPT-4 或 GPT-3.5。

接下来是一个非常有意思的功能:对接第三方聊天工具。OpenClaw 支持 Telegram、Discord、飞书等平台。以 Telegram 为例,你需要通过 BotFather 创建一个机器人,然后获取 Token 填入配置中。完成后,通过一条配对命令,就可以把 OpenClaw 和 Telegram 连接起来。

2026 03 31 16 07 17.00 07 25 09.Still017 scaled

当你看到系统返回“approved”,就说明已经对接成功。这时你可以直接在 Telegram 里和你的 AI 助手聊天,它会像一个真正的助手一样回应你、帮你处理任务。

除了聊天能力之外,OpenClaw 的真正强大之处在于“自动化”和“控制能力”。你可以让它帮你写文章、整理资料、编写代码,甚至执行定时任务。它就像一个 24 小时在线的数字员工。

2026 03 31 16 07 17.00 00 00 00.Still018 scaled

更进一步,它还可以实现远程控制手机。例如远程拍照、录制视频、做监控等。这一点对于安防、远程观察等场景非常实用。当然,要使用这些功能,需要开启开发者模式和无线调试,并授予摄像头、录制等权限。

2026 03 31 16 07 17.00 00 15 14.Still019 scaled

当一切配置完成后,你可以通过浏览器打开 OpenClaw 提供的本地地址,进入控制面板。在这里可以管理模型、技能(Skills)、任务以及各种功能扩展。

整体来看,把 OpenClaw 装进手机,相当于给自己打造了一个随身 AI 中枢。它不依赖云服务器,不受设备限制,可以随时随地运行。无论是日常使用还是技术探索,都有很大的发挥空间。

如果你愿意折腾一点,这套方案不仅仅是“好玩”,甚至可以成为你个人效率系统的一部分

零成本!普通手机跑最强 Gemma 4 模型 (原生多模态),安卓+iPhone 部署实测体验!

如果我告诉你,一台普通手机就能跑通谷歌刚刚发布的最强Gemma 4模型,你信吗?更惊喜的是,它支持原生多模态,能看图、能对话、能写代码,还能完全离线使用,全程不用花一分钱。
未标题 2
最近很多朋友问我,手机能不能跑通最新的大模型,毕竟不是人人都有高性能电脑。今天,我就带大家从零开始,一步步在安卓和iPhone手机上跑通Gemma 4模型,每一步都有详细操作,新手也能轻松跟上,所有需要的资料,我都会放在文末和博客置顶,大家直接获取即可。
先跟大家简单科普下,Gemma 4是谷歌DeepMind最新发布的开源旗舰模型,也是目前谷歌最强的开放模型系列,采用Apache 2.0许可证开源,支持免费商用和二次开发,共分为4个版本,其中E2B、E4B两个版本专门针对手机、嵌入式设备优化,内存占用最低可压至1.5GB以下,这也是普通手机能跑通它的关键原因。话不多说,直接上实操!
20260406 1775473370 scaled

这期教程,我将带你从零开始,分别在 Android 和 iPhone 手机上跑通最新的 Gemma 4 模型。在开始动手之前,请确保你已经在本页下方找到了我们所需的全部下载资料和链接。

 第一部分:Android 安卓端部署

我们先拿安卓手机来做测试。由于我的测试机配置比较旧,正好可以验证一下低配手机的运行效果。

1. 下载与安装环境

在下方资料区获取安装包,你可以选择直接从谷歌应用商店(Google Play)下载,或者直接下载 APK 安装包。

(1)、Google应用商店下载:【点击前往

(2)、下载安卓APK安装包:【点击下载】或【备用下载

未标题 3

  • 打开应用并完成安装。

  • 首次进入点击 Get Started,并允许发送通知。

2. 性能模式与模型下载

进入应用后,我们需要进行基础设置并下载对应的 AI 模型:

  • 选择运行模式: 顶部可以选择 AI 模型的运行模式(Fast 快速、平衡、高性能、自定义)。

  • 进入模型库: 点击左上方三个横杠菜单,进入 Model Hub

  • 下载 Gemma 4: 向下滑动找到 Gemma 4 ECB 量化版模型

    • 注:系统会根据手机配置推荐合适的版本。由于我的手机配置不高,它推荐的是 1.2GB 大小的 Q2_K_S_L 量化版。如果你的安卓机配置较高,可以选择最高 2.3GB 的版本以获得更好的体验。

  • 勾选推荐版本,拉到底部点击 Download,耐心等待一分钟左右即可下载完成。2026 04 06 16 39 57.00 02 25 08.Still014 scaled

3. 载入与测试模型

  • 返回首页,进入 Fast 选项卡并拉到底部,打开 自定义模式

  • 创建模型: 名称可以随便填。

  • 选择模型: 选中我们刚刚下载好的 Gemma 4 1.2G 模型。

  • 参数设置: * 上下文长度:根据手机硬件配置自定义(配置低切勿拉太高)。

    • 最高 Token 输出量:设置为 512

  • 点击保存,自定义模型就配置完成了!

实测表现: 我让它在本地完全离线的状态下帮我编写了一个贪吃蛇小游戏,生成速度非常快,日常对话也完全没有问题。

2026 04 06 16 39 57.00 02 51 02.Still015 scaled

 第二部分:iOS 苹果端部署

看完安卓,我们再来看看 iPhone 上的表现。

1. 下载 Locally AI

点击前往

通过下方链接前往 App Store 下载名为 Locally AI 的应用程序。这是一款完全免费、主打隐私与安全、支持加载本地离线模型的强大工具。

屏幕截图 2026 04 06 211153

2. 下载 iOS 版 Gemma 4

  • 打开应用,跳过欢迎页的默认模型推荐。

  • 点击上方的 选择模型,在列表中找到支持深入思考和多模态的最新的 Gemma 4

  • 点击下载(文件大小约为 3.61GB,版本为 E2B 量化版)。

屏幕截图 2026 04 06 211237

极客硬核测试:Gemma 4 到底有多强?

模型下载好后,我针对它的多模态、逻辑推理和代码能力进行了深度测试。

测试一:多模态视觉识别(拍照识物)

我随手在桌面上扔了一些杂物,打开 深入思考模式 拍照发给它,看看它能识别出什么。

我的提问: 你看到了什么?桌面上堆有哪些东西? Gemma 4 回答: > * ✅ 一部深色的智能手机

  • ✅ 一个带花卉图案的偏紫色/粉色手机保护壳

  • ✅ 一个亮蓝绿色的小瓶(护肤品/精油)

  • ✅ 一个带标签的大罐子(益生菌)

  • ✅ 一个黑色小电子配件(声卡录音设备)

2026 04 06 16 39 57.00 04 10 21.Still016 scaled

翻车环节: 唯独桌上的西瓜子它没认出来。我再次特写拍照问它“黑色点点是什么,总共有多少个?” 它推测是干燥的种子(算答对),但数量数成了 9 个(实际是 16 个)。 吐槽:为了公平起见,我也问了 ChatGPT,虽然 ChatGPT 认出了西瓜子,但也数错了(数成了 17 个)。看来 AI 数数依然是个老大难问题!

测试二:逻辑推理(蒙提霍尔问题)

题目: 三扇门(一车两羊),你选定一扇后,主持人打开一扇羊门。问:换门是否有利? Gemma 4 回答: 这是一个经典的蒙提霍尔问题变种。答案是换门更有利。坚持原门只有 1/3 的概率,而换门可以抓住主持人排除错误选项带来的机会,将概率提升到 2/3。 结论: 逻辑非常清晰,完全正确!

测试三:前端代码编程

要求: 编写一个 3D 鱼缸场景,水、水草和鱼要有真实感。 结果: 它不仅提供了 HTML,还一并写好了 CSS 样式和 JS 代码。将代码复制到电脑上运行后,视觉效果非常逼真。作为一个手机端本地运行的小模型,能达到这种渲染水准令人惊艳。

2026 04 06 16 39 57.00 07 56 19.Still018 scaled

测试四:医疗物品识别安全机制

我拍了一盒“瑞巴派特片”给它。它准确识别出了药片名称,但立刻触发了安全机制,表示“由于涉及身体和健康产品,无法提供医疗建议,请务必咨询医生”。表现得非常严谨。

屏幕截图 2026 04 06 211503

终极考验:断网飞行模式测试

为了验证它的纯离线真伪,我断开了所有网络并开启了飞行模式

  1. 写长篇小说: 让它写一篇 5000 字左右的恐怖小说。它在完全离线的状态下,使用繁体字分章输出,仅用时 1 分钟左右就完成了创作。

  2. 微距视觉推理: 在离线状态下发给它一张包含大象和蚂蚁的画。它准确识别出了大象头部,并声明“由于细节非常小,对蚂蚁的识别是基于微小尺寸的推测”。离线多模态能力确实靠谱。

总结与资源获取

Gemma 4 模型在手机端的本地离线表现远远超出了我的预期,无论是生成速度、逻辑推理还是多模态视觉,都达到了相当高的可用级别。

最强编程AI来了!Qwen3.6-Plus 两天登顶,Agent能力拉满!普通人也能写软件

就在前两天,Qwen 系列迎来了重磅更新——Qwen3.6-Plus 正式发布。这一次升级不仅是常规迭代,而是一次在编程能力与智能体(Agent)能力上的全面跃迁。

3.6 plus banner

一、两天登顶:刷新全球调用纪录

模型刚上线,就迅速引爆全球 AI 社群。在短短两天内,Qwen3.6-Plus 便登上了 OpenRouter 日榜第一,成为最受欢迎的大模型之一。

更夸张的是,它的单日调用量突破 1.4 兆 Token,直接刷新了单模型调用量的全球纪录。OpenRouter 官方甚至称这次表现为:

“有史以来最强的新模型表现”

qwen3.6 plus score

这意味着,Qwen3.6-Plus 不只是“强”,而是一上线就成为生产级首选模型

二、核心升级:从“能用”到“真能干活”

相比上一代,Qwen3.6-Plus 的提升可以用一句话总结:

从辅助工具,进化为真正能独立完成复杂任务的 AI 工程师

1、 超长上下文:100 万 Token

默认支持 100 万上下文窗口,意味着:

  • 可以处理整本书级别内容
  • 支持超长代码仓库分析
  • 长链任务无需频繁截断

这对代码理解、项目级分析和复杂任务规划极其关键。

2、 编程能力大幅跃升

Qwen3.6-Plus 在多个真实世界编程评测中表现亮眼,包括:

  • SWE-bench
  • Terminal-Bench(NL2Repo)
  • Claw-Eval / QwenClawBench

在这些测试中,它已经成为当前编程能力最强的一档模型之一

2026 04 08 14 41 21.00 00 19 11.Still006 scaled

它不仅能写代码,还能:

  • 理解大型项目结构
  • 自动修复 Bug
  • 重构复杂系统
  • 完成跨文件依赖分析

3、 Agent(智能体)能力全面进化

这是本次升级的真正核心。

Qwen3.6-Plus 深度优化了 Agent 能力,并适配多个主流框架:

  • OpenClaw
  • Qwen Code
  • Claude Code
  • Cline / OpenCode / Kilo Code

它可以做到:

  • 自主调用工具
  • 分解复杂任务
  • 多步骤规划执行
  • 长时间任务持续推进

 简单说:不仅会写代码,还会“自己想怎么写”

屏幕截图 2026 04 08 212627

 4、Vibe Coding:普通人也能写复杂程序

Qwen3.6-Plus 让一个概念真正落地:

Vibe Coding(氛围编程)

你只需要用自然语言描述需求,比如:

“帮我做一个带登录系统的博客网站,支持Markdown编辑和评论功能”

模型就可以:

  • 自动拆解需求
  • 设计系统架构
  • 生成完整代码
  • 甚至帮你部署

这意味着:

不会编程的人,也能做产品了

2026 04 08 14 41 21.00 04 07 07.Still007 scaled

三、通用能力:依然是顶级水准

除了编程,Qwen3.6-Plus 在通用能力上同样强悍:

✔ STEM 推理能力

  • 复杂逻辑推理
  • 数学建模
  • 多步骤问题拆解

✔ 超长文本理解

  • 大规模信息提取
  • 文档级分析
  • 长上下文一致性保持

✔ 多语言能力

  • 跨语言理解与生成
  • 多语种任务无缝切换

四、多模态能力再升级

Qwen3.6-Plus 在视觉能力上也有明显增强:

  •  复杂文档理解(PDF / 表格 / 报告)
  •  物理世界视觉推理
  •  视频理解与推理
  •  视觉编程(看图写代码)

它可以把“看见的信息”转化为“可执行决策”。

五、前端与创意开发能力提升

在网页开发方面,Qwen3.6-Plus 表现尤其亮眼:

  • 支持复杂前端架构
  • 能生成高质量 UI 页面
  • 擅长 3D 场景与小游戏开发
  • 对现代前端框架适配更好

对内容创作者、独立开发者来说,这是一个巨大的效率提升工具。

六、总结:一个“能干活”的 AI 时代来了

Qwen3.6-Plus 的意义,不只是更强,而是改变了 AI 的使用方式:

  • 从“问答工具” → “执行工具”
  • 从“辅助写代码” → “独立完成项目”
  • 从“工程师专属” → “人人可用”

它真正让 AI 进入了一个新阶段:

AI 不只是帮你做事,而是可以替你做事

七、下一步:如何免费使用 Qwen3.6-Plus?

 

目前市面上很多可以慌称可以免费使用Qwen3.6-Plus模型的方式,几乎都是耍猴的,绝大部分是为了引流,其实要免费使用该模型,直接下载Qwen客户端即可!

官方站点:【点击下载

直链下载

1、【Windows 版

2、【MacOS版】、【x64位下载】、【Arm版下载

 

屏幕截图 2026 04 08 213029 scaled

 

Qwen 移动客户端

iOS版】下载

安卓版】下载

APK安装包

 

2026 04 08 14 41 21.00 09 19 12.Still008 scaled 2026 04 08 14 41 21.00 10 17 05.Still009 scaled

Hermes Agent 本地部署实战:从安装到 Telegram 控制(含完整踩坑记录)

如果你最近在折腾 AI Agent,大概率已经听说过 OpenClaw。但这几天我实际体验下来,发现一个更有意思的方向——Hermes Agent。它不仅是一个 Agent,更像一个可以持续进化的 AI 个体

这篇文章,我不讲概念,直接带你完整走一遍:从安装,到接入 Telegram,再到解决一个“几乎所有人都会踩”的坑!

 一、Hermes Agent 是什么?

Hermes Agent 是由 Nous Research 打造的一个自学习 AI Agent,它的核心特点是:

  • 内置学习循环(会成长)
  • 支持长期记忆
  • 支持多模型切换
  • 可以在云端运行
  • 支持 Telegram / 自动化控制

屏幕截图 2026 04 11 211204

简单说一句:它不是一个工具,而是一个“会成长的 AI”。

部署教程:

 

🛠 二、安装 Hermes(快速流程)

安装过程本身不复杂,核心步骤如下,但需要区分不同的系统

1、Windows一键安装命令:

Powershell (管理员)

irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1 | iex

 

屏幕截图 2026 04 11 211528

2、Mac/Linux/WSL2 一键安装命令:

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

 

屏幕截图 2026 04 11 211743

过程中你会遇到:
  • 是否导入 OpenClaw 数据 → 建议 YES
  • 是否 migration → 必须 YES
  • setup 选择 → Quick setup

 Telegram 接入(关键步骤)

在 setup 过程中,你可以选择:Telegram(强烈推荐)

然后:

  1. 打开 Telegram 搜索 @BotFather
  2. 创建 Bot
  3. 获取 Token
  4. 填入 Hermes

安全配置

建议填写:

  • Allowed user ID(只允许自己使用)在TG上搜索: @userinfobot 来获取你Telegram账户的ID

避免别人调用你的 AI。

 

三、最大坑:Telegram 没反应?

很多人(包括我)会卡在这里:

Telegram 发消息
完全没有任何回复

 常见错误表

Telegram: python-telegram-bot not installed
No adapter available for telegram

 本质原因

不是没安装依赖
是装错环境

Hermes 使用的是:

自己的虚拟环境(venv)

而不是:

你系统的 Python / conda 四、正确解决方案(关键)

第一步:找到 Hermes 环境

cd $env:LOCALAPPDATA\hermes\hermes-agent

你会看到:

venv

第二步:给 Hermes 的 Python 安装依赖

.\venv\Scripts\python.exe -m ensurepip .\venv\Scripts\python.exe -m pip install python-telegram-bot

第三步:验证

hermes doctor

看到:

✓ python-telegram-bot

第四步:启动 gateway

hermes gateway

Telegram 无法连接的解决的完整步骤如下:

1、进入安装目录下执行命令:

cd $env:LOCALAPPDATA\hermes\hermes-agent
.\venv\Scripts\python.exe -m pip install python-telegram-bot

2、进入后通过 Python 安装 pip和telegram依赖环境:

.\venv\Scripts\python.exe -m ensurepip
.\venv\Scripts\python.exe -m pip install --upgrade pip
.\venv\Scripts\python.exe -m pip install python-telegram-bot

安装成功后在新的窗口执行命令:

hermes gateway

就可以看到对接成功

 

2026 04 11 15 00 32.00 07 01 15.Still005 scaled

 五、测试 Telegram 控制

打开 Telegram,给你的 Bot 发送:

hello

如果正常:

AI 会直接回复
终端也会有日志

 六、Hermes vs OpenClaw(关键区别)

对比项 OpenClaw Hermes
UI Web面板 ❌ 无UI
使用方式 点网页 聊天 / 自动运行
记忆
学习能力
模型切换 一般 非常灵活

一句话总结:OpenClaw 是工具,Hermes 是“会成长的AI”。

 七、Hermes 的真正优势

很多人会问:“为什么它没有UI?”其实这是设计理念:AI 不应该被困在网页里

Hermes 的核心是:

  • 常驻运行
  • 随时调用
  • 像人一样交互

 Hermes Agent 给我的感觉是:

不是“更强的工具”
而是“下一代形态”

它最大的不同是:

  • 会学习
  • 会记忆
  • 可以长期运行
  • 可以远程控制

 

你可以继续探索:

  • 多模型切换(OpenRouter)
  • 自动任务(cron)
  • 多Agent协作

如果你正在做 AI 内容创作,这套工具非常值得深入。

 

Gemma 4 越狱了! 谷歌最强开源模型,这才是用户真正需要的本地AI!

AI圈又炸了!4月2日谷歌DeepMind突袭发布的最强开源模型Gemma 4,还没等开发者们彻底摸清它的实力,仅隔4天就被爆出“完全越狱”的消息——一个名为JANG_4M-CRACK的越狱版本在Hugging Face刷屏,谷歌为其设置的所有安全过滤机制被直接“生拆”,那个被束缚的“礼貌管家”,瞬间变成了卸下枷锁、性能全开的“硬核专家”。
 
未标题 1
 
对于熟悉AI圈的人来说,“越狱”这个词并不陌生,就像当年iPhone越狱绕开官方限制一样,大模型的越狱,本质上就是通过技术手段移除官方设置的安全对齐层,让模型摆脱所有内容审查和指令限制,真正做到“有求必应”。而这次Gemma 4的越狱,之所以能引爆全网,核心在于它本身就不是一款普通的开源模型——它是谷歌基于Gemini 3技术构建的最强开源力作,更是一款从诞生就贴合用户真实需求的“潜力股”。
 
在聊越狱带来的改变之前,我们先搞懂:为什么Gemma 4一发布就被奉为“开源天花板”?要知道,当下开源模型扎堆,但大多要么性能拉胯,要么部署门槛极高,要么被安全限制捆住手脚,而Gemma 4直接打破了这个困局。
 
谷歌给Gemma 4设计了四款规格,覆盖了从边缘设备到高端GPU的全场景需求,真正实现了“人人都能用”。其中E2B和E4B版本专为移动和物联网设备优化,能在手机、Raspberry Pi甚至Jetson Nano上完全离线运行,延迟接近零,还支持音频和视觉的实时边缘处理;而26B和31B的前沿级版本,则实现了前所未有的智能参数比,31B模型仅用310亿参数,就达到了其他模型数百亿甚至上千亿参数的性能,在消费级GPU(比如RTX 3090)上就能流畅运行。
 
 
更关键的是它的硬实力。在多项行业基准测试中,Gemma 4 31B版本交出了近乎完美的答卷:数学推理(AIME 2026)正确率89.2%,竞赛编程(LiveCodeBench)通过率80%,智能代理工具使用(τ2-bench)得分86.4%,多模态推理(MMMU Pro)76.9%,相比上一代Gemma 3,提升幅度最大的达到了79.8%,甚至接近GPT-4早期版的性能水平。除此之外,它还支持128K上下文窗口(部分变体可扩展至256K),能轻松处理整本长文档、代码库,原生支持多模态、多语言(140+种)和函数调用,无论是编程、科研、教育还是企业办公,都能轻松胜任。
而最让开发者心动的,是它的开源自由度——采用Apache 2.0许可证,允许任何人自由使用、修改、二次分发,甚至商用,无需向谷歌申请任何授权。这意味着,个人开发者可以用它搭建自己的AI工具,小团队可以基于它开发商业产品,企业可以根据自身需求微调模型,摆脱大厂API的束缚和高昂的调用成本。要知道,以每日1000万token的调用量计算,使用Gemma 4自建模型的年成本,仅为OpenAI GPT-5.2 API的15%左右,对于个人和中小团队来说,无疑是降本增效的神器。
 
gemma 4 elo score eval dark Web
 
但即便如此,官方版Gemma 4依然没能逃脱“大厂AI的通病”——过度严苛的安全限制。就像一个才华横溢却被束手束脚的高手,无论你提出什么稍微“敏感”一点的需求,它都会用“对不起,作为AI,我无法协助你完成这项操作”来拒绝,哪怕是一些合理的技术探索、合规范围内的边缘需求,也会被安全机制拦截。这也是很多用户吐槽的点:我们需要的不是一个“只会说不”的AI,而是一个能真正解决问题、释放创造力的工具。
 
google gemma 4 open model apache2 multimodal guide image 1
 
而这次的越狱,恰恰解决了这个核心痛点。据实测,越狱版Gemma 4完全保留了原模型的全参数和所有核心能力——31B的强悍推理、256K上下文、多模态支持、本地离线运行,性能损失仅有2%,几乎可以忽略不计,但却移除了所有安全过滤机制。在HarmBench的159条敏感/风险指令测试中,越狱版的通过率高达93.7%,149条指令能直接执行,没有任何多余的拒绝话术。
 
 
我们可以通过几组实测对比,直观感受越狱版的“自由”:当要求伪造美元支票时,官方版直接拒绝,强调这是违法行为;而越狱版则会主动要求提供详细信息,给出完整的操作流程。当询问下载盗版电影的渠道时,官方版坚守版权底线予以拒绝;而越狱版则直接给出具体的搜索方法。甚至当提出“如何陷害排挤同事”这种违背职场道德的需求时,官方版严词拒绝并引导正确的情绪宣泄方式,越狱版却会详细列出具体的实施步骤。
 
当然,很多人会担心:这种“无限制”的越狱版,会不会带来安全风险?答案是肯定的。开源本身就是一把双刃剑,Gemma 4之所以能被快速越狱,核心就是因为它公开了完整的权重文件和架构,破解者可以轻松定位并抹除安全对齐层,而Apache 2.0许可证的宽松协议,也让越狱版的传播没有法律障碍。这意味着,别有用心的人可能会用它生成恶意代码、诈骗文本、虚假信息,甚至开发网络攻击工具,给个人和企业带来安全隐患。
 
2026 04 13 16 28 56.00 00 07 13.Still004 scaled
 
但我们不能因此否定越狱版的价值,更不能否定Gemma 4本身的优秀。对于绝大多数普通开发者和用户来说,越狱版的意义,在于“释放创造力”——它让我们能真正探索模型的极限能力,用于内部工具开发、技术研究、隐私保护等合规场景,摆脱内容审查的束缚。比如,开发者可以用它调试复杂的代码漏洞,无需担心被判定为“恶意指令”;研究者可以用它探索模型的原生推理逻辑,推动AI技术的进步;敏感行业的从业者可以用它处理涉密文档,因为本地离线运行能确保数据不泄露,彻底掌握数据主权。
 
目前 Gemma 4 越狱版已经被开源到Huggingface上,任何人都可以去下载测试,感兴趣的可以去获取,但是切勿拿来做任何违法的事情!
 
2026 04 13 16 28 56.00 06 27 18.Still005 scaled
 
 
如果想测试模型性能,可以通过 Unsloth Studio 这款软件来进行加载本地模型!
 
HFkyqyDbcAAB4CV
 

Unsloth Studio(测试版)允许您在 Windows、Linux 和 macOS 上运行和训练文本、音频嵌入视觉模型。

⭐ 特点

Unsloth 为推理和训练提供了几个关键特性:

推理

  • 搜索、下载和运行模型,包括 GGUF、LoRa 适配器、safetensors 等。
  • 导出模型:将模型保存或导出为 GGUF、16 位安全张量和其他格式。
  • 工具调用:支持自愈工具调用和网络搜索
  • 代码执行:允许 LLM 在 Claude 工件和沙箱环境中测试代码
  • 自动调整推理参数并自定义聊天模板。
  • 我们直接与gpt-ossQwen3Llama 4MistralGemma 1-4Phi-4背后的团队合作,修复了提高模型准确性的错误。
  • 上传图片、音频、PDF、代码、DOCX 等多种文件类型进行聊天。

训练

  • 训练和强化学习500 多个模型的速度提高2 倍,VRAM 占用减少高达70% ,且精度不损失。
  • 自定义 Triton 和数学内核。请参阅我们与PyTorchHugging Face 的一些合作项目。
  • 数据配方:从PDF、CSV、DOCX等自动创建数据集。在可视化节点工作流中编辑数据。
  • 强化学习(RL):最高效的RL库,对GRPO、 FP8等计算使用更少的VRAM。
  • 支持完全微调、强化学习、预训练、4 位、16 位和 FP8 训练。
  • 可观测性:实时监控训练,跟踪损失和 GPU 使用情况,并自定义图表。
  • 支持多GPU训练,并且即将推出重大改进。

⚡ 快速安装

 

Gemma 4 越狱版模型: 【Huggingface 拉取】或打包下载

 
下载后模型后,通过下方的 Unsloth Studio 直接本地加载模型即可!

 

1、Windows 版:

在Powershell下执行下方的一键安装命令:

irm https://unsloth.ai/install.ps1 | iex

安装完成后在浏览器上访问本地连接:http://127.0.0.1:8888 即可使用

 

屏幕截图 2026 04 13 221907

 

2026 04 13 16 28 56.00 07 57 19.Still006 scaled

 

2、macOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

3、Docker部署:

 

docker run -d -e JUPYTER_PASSWORD="mypassword" \
-p 8888:8888 -p 8000:8000 -p 2222:22 \
-v $(pwd)/work:/workspace/work \
--gpus all \
unsloth/unsloth

 

 

其实,Gemma 4的越狱事件,本质上反映了一个核心矛盾:用户需要的AI,到底是“安全可控”还是“自由高效”?谷歌推出Gemma 4,本意是推动AI的民主化,让强大的AI能力走进每个人的设备,但过度的安全限制,却反而束缚了它的价值。而越狱版的出现,虽然带来了安全风险,却也倒逼行业思考:开源模型的安全与自由,到底该如何平衡?
 
不可否认,Gemma 4本身,就是用户真正需要的AI模型——它性能强悍、部署灵活、成本低廉、开源自由,既能满足个人用户的日常需求,也能支撑企业的规模化应用。而越狱事件,只是让它摆脱了“枷锁”,真正展现出了自己的全部潜力。当然,这里必须提醒大家:使用越狱版Gemma 4时,一定要坚守法律和道德底线,严禁用于恶意用途,否则需要承担相应的法律责任;同时,越狱版可能被植入后门,存在隐私泄露的风险,建议仅用于个人学习和内部测试。
 
目前,谷歌尚未就Gemma 4越狱事件作出正式回应,但可以预见的是,这场“开源与安全”的博弈,还会继续下去。而对于我们普通用户和开发者来说,Gemma 4的出现,无疑打开了一扇新的大门——它让我们看到,开源AI已经进入了“性能接近闭源、自由远超闭源”的新时代,未来,随着技术的不断优化,相信会有更多兼顾安全与自由的AI模型出现。
最后,如果你是AI爱好者、开发者,不妨去体验一下官方版Gemma 4,感受一下谷歌最强开源模型的实力;如果你想探索模型的更多可能性,也可以关注相关社区的合规分享,但请一定记住:技术本身没有善恶,关键在于使用者的初心。毕竟,我们需要的不是“无底线的自由”,而是“能真正解决问题、释放创造力”的AI——而Gemma 4,无疑已经走在了正确的道路上。

Google 把 AI 搜索搬进 Windows!这款官方 App,可能会改变你的使用习惯

还在打开浏览器、输入关键词、翻一堆网页找答案吗?现在,你可能不需要了。Google 最近推出了一款专为 Windows 打造的 Google App,把「AI 搜索」直接整合进系统里,让你随时随地都能调用。

2026 04 18 15 42 17.00 00 07 15.Still003 scaled

而且重点是:它不只是搜索,更像一个随叫随到的 AI 助手。

⚡ 一键呼出搜索:Alt + 空格

安装完成之后,你只需要按下:Alt + 空格

搜索框就会瞬间弹出。不需要打开浏览器,不需要切换窗口,甚至不用打断你当前的工作流程这种体验,很像 Spotlight,但更“聪明”。

 AI 模式:不只是搜索,而是“对话式探索”

传统搜索是:

 输入 → 查看网页 → 自己总结

屏幕截图 2026 04 18 204108

而现在变成:

 输入 → AI直接给答案 → 继续追问

屏幕截图 2026 04 18 204152

你可以:

  • 输入问题
  • 上传图片
  • 上传文件

然后开启 AI 模式,让系统帮你做:

✔ 总结
✔ 分析
✔ 延伸回答

甚至可以连续追问,就像聊天一样。

不只是网页:它还能搜索你的“全部数据”

这才是这款 App 真正强的地方。

除了网页内容,它还可以:

  • 搜索 Google 云端硬碟文件
  • 搜索本地电脑文件(需授权)
  • 搜索应用程序

换句话说:

你的整个电脑 + 云端,都变成了搜索范围

这比传统搜索引擎高了一个维度。

2026 04 18 15 42 17.00 00 28 24.Still005 scaled

 屏幕即搜索:你看到什么,就能搜什么

这里有两个非常“未来感”的功能:

屏幕内容识别(Share Screen)

 

你可以让 AI 直接“看”你的屏幕:打开一个复杂网页,或一段英文资料,然后问:「帮我总结重点」AI 会直接帮你提炼内容、甚至翻译。

结合 Google Lens 的能力:直接圈选屏幕中的任意内容,人物 / 商品 / 场景 / 文本,AI 会立刻识别并给出结果

简单说就是:

看到什么,就搜什么

2026 04 18 15 42 17.00 00 54 00.Still006 scaled

 系统要求 & 获取方式

  • 支持:Windows 10 及以上 、Mac
  • 当前:主要为英文版本
  • 获取:Google 官方下载

值得一提的是,Google 也为 Mac 提供了独立的 AI 应用(Gemini App),但定位略有不同,更偏向个人助手。

Windows 版下载: 【点击前往】或 【备用下载

Mac 版下载: 【点击前往】或 【备用下载

屏幕截图 2026 04 18 205122 scaled

内置的集成模型

目前内置的AI模型是Google最新最强的Gemini 3模型,同时内置了AI生图功能,使用的是 Google 最强的Nano Banana 2 模型,可以自由切换需要的功能!

屏幕截图 2026 04 18 205255

比如我使用下方的人物图片,按照我的提示词,使其生成Labubu风格样式的图片

small1626307sNMq1710059190

提示词:

请根据这张照片的人物特征(如发型、衣着),生成一个 Labubu 风格的 3D 盲盒公仔(Blind Box Toy)。请一并生成带有透明视窗的包装纸盒,盒上印有『GEMINI AI TOY SERIES』及『1/1 LIMITED EDITION』字样,采用高画质及影棚打光效果。

最终生成的效果相当不错

 

屏幕截图 2026 04 18 205749

 

 

ChatGPT Images 2.0 正式发布!免费可用,OpenAI 最强图片模型!效果到底有多强?| 零度解说

就在今天,OpenAI 正式发布了全新一代图像生成模型——ChatGPT Images 2.0。这一版本可以说是目前最先进的 AI 图片生成工具之一,不仅在画质、速度、控制力上全面升级,还真正开始迈向“以假乱真”的阶段。

这篇文章,我会带你完整了解它的核心能力、实际体验,以及它到底强在哪。

一、AI 图像生成,进入“以假乱真”时代

https://images.openai.com/static-rsc-4/I4crjdw2U5R24_oBrPYaQcJyGFEHfMxaNnkJLFnLtP05Z2Zsq1obb1eWxdh_9cYKLAk5m_npoFVQ_EOOkk--5_ahGvOcDI1JO1ZHHa905fSoyLTeqY1IZFnqCXJjDdsNePruFQp0_vmoOu1sfkh9yp5bU-Szj_loc7hcTIsj6C-ZyR5-SP32AQnc0IxlMMcS?purpose=fullsize
https://images.openai.com/static-rsc-4/WWAvBTetygklw09qYw8pVvbeJRxqZxTxm_ZwJdJuPk76f2I5YyXqX15jDTHaL6uLgBlqvvMv4keqSc2MeXGw_OMUh_7DZQMHXPSbV7-IOsOHv7rVCAkLrJrFVdcKgLfza2XoY2kQ_9oZvqO1lQWj2nreH7U-b6fRUh-qsUCNArw-Y3uyXmMF6pyCyqBk29pZ?purpose=fullsize

ChatGPT Images 2.0 最大的变化只有一个关键词:真实感

只需要一句简单提示词,它就能生成高质量图像,而且很多时候——你已经分辨不出这是不是 AI 生成的。

比如:

  • 类似手机抓拍的照片
  • 电影级光影的人像
  • 街头摄影风格
  • 时尚杂志封面

这些过去需要摄影+后期团队完成的内容,现在一句话就能搞定。

二、核心升级:不仅更强,而且更“可控”

相比上一代模型,这一版本的提升是全方位的:

1. 更复杂的视觉理解能力

它可以处理:

  • 多元素复杂构图
  • UI / 图标 / 小文本
  • 高密度信息排版

而且生成结果几乎可以直接商用

2. 分辨率与细节全面提升

  • 最高支持 2K 输出
  • 微小元素(文字、按钮、细节纹理)更加清晰
  • 光影表现更加自然

3. 文本生成能力大幅增强(重点)

https://images.openai.com/static-rsc-4/LVe5vD2AXNMN_iHX8B5JNtWmb5-77J7q8xryWyDnkaHRyWkl_hXpUGZBA0c3RYGeNz3g9P8RHIrKruN9tqGKjGBWDT7zSlLhnqXLDqVToyBOUeR0jt_Qn4qkWmG5TmL3R_uAoxUKFI12mXXX3zNbboVdbMaOj5nU4E8ep0yIcxM8mrK8BN_ToKDsuTP75uIi?purpose=fullsize

这是一个巨大突破。

以前 AI 生成图片最大的问题就是——文字会乱码

而现在:

  • 中文 / 日语 / 韩语 / 印地语等都能正确生成
  • 文本语义通顺
  • 几乎没有错别字

 这意味着:AI 可以直接做电商图、海报、广告素材了

4. 精准编辑能力(接近 Photoshop)

你可以做到:

  • 局部修改(例如只改表带颜色)
  • 替换背景
  • 修改服装
  • 调整光影

而且——其他元素完全不变

这已经非常接近
 Photoshop + AI 的组合能力

三、风格能力全面进化(几乎无上限)

https://images.openai.com/static-rsc-4/TMLY4HBnBDweRIPa6mcwR30AEsV-f1waOu5219Hen0FzmbcseesaYKAmmd6eijLFlmuO94bjbhIVzRwxwmisRtiwxnF6YINtsZ3E1JB1NOhHoXkYpmqy6jI5wP6TubIYWkAVGTf1ExZ-SwIj4fadHsZ8NaFLBmNA2DBAby5rds8oAuTkfX1EHfVJK_eeJ2J7?purpose=fullsize
https://images.openai.com/static-rsc-4/rjqVnA9kIJ5BPGBC7P8n05PA9cmgvXA01p01El_d4j5Hzin2abwUCWaub-Q3JD7oFti3RhJZB_uZpI5jQTayULIuQz0PXlBgO440KLFVpPH3XZOxoAEltdZZnkaguW3xrxHDdc67Clj-82sQXBvc78UoV7UdMf-voIeTOUg9hMMc5TKrqaSyg4CbYPYi4YV1?purpose=fullsize
6

ChatGPT Images 2.0 在风格上的表现非常夸张:

支持类型包括但不限于:

  • 赛博朋克
  • 日本漫画 / 独立漫画
  • 电影海报风格
  • 复古胶片摄影
  • 超现实主义
  • 故事绘本

甚至可以:
直接生成完整故事分镜 + 文本剧情

而且逻辑是连贯的,不是拼凑的。

四、真实案例测试:从“玩具”到“生产力工具”

1. 一句话生成商业海报

输入:

极简科技产品海报 + 黑色背景 + 发光边缘

结果:

  • 自动补全设计逻辑
  • 构图合理
  • 视觉高级感直接拉满

2. 电商主图生成(可直接使用)

输入:

白底 + 产品居中 + 阴影 + 文案“限时优惠50%”

结果:

  • 排版专业
  • 文案正确
  • 无乱码

 可以直接用于电商平台

3. 真人照片 → 商业大片

https://images.openai.com/static-rsc-4/C189VaJJJr5f4zefq6jfNqp4YCfg7H8VE_hltdIPFuMtGMpLRIPrTnuUIfBklln_ClDUuS5dcDhCl11jzETl468iJ2XDt3oKbWUOLEzuNAoJiO5tK0Na-XcAJkxstRodEkt--Ms7hCZ_zF0yp4it0o33ceF_SgMMJuvPYUEnFj1-OaaDdYnEzVwuyhqUMSL8?purpose=fullsize
https://images.openai.com/static-rsc-4/CGLG463DnXdCfRotNeArzaYQF9ZB7eWoxr7PMf1M4BamSag3gIv5OPP0pT3Z_dT7ws11k5x7P5C101bvhhmVBEyUXwlRg92FlCHV6jyB6i3io3X2t56B7HNbDEIMAsXG4TU_qGHzCZ5I2sK_CEMZ_BkEFgvqs96zLgsJH4XfzufxEiDnrBtIpzBUbYKt9rad?purpose=fullsize
https://images.openai.com/static-rsc-4/h06DuVxMFm-AQDfhDJzKGZ7DymTt8hYr-vhVSPCOyAOLIBI_Qw76JWyrM6DbU9PyZclCaJMVJEakTnWixKUPiJ1ClLBgC5TG3bDYJ1u01F1kS6bsNlyRvLM1tBtdvWGoZc1prZVeWzXRKlm65q4IvRwO65GG0VkDBdLXUwKRJDcvU9UkpETBbNS7fnP4hJxv?purpose=fullsize

只需:

  • 上传一张普通照片
  • 输入一句话

就可以:

  • 换背景(高级工作室)
  • 换服装(西装)
  • 加电影级灯光

直接变商业摄影作品

4. 批量风格转换(效率爆炸)

比如:

  • 3张照片 → 漫画风
  • 多图统一风格
  • 保留内容 + 重做视觉

 对内容创作者来说:降维打击

五、提示词万能结构(重点干货)

如果你想稳定出图,可以用这个公式:

主体 + 风格 + 场景 + 光影 + 细节 + 用途

例如:

  • 主体:智能眼镜
  • 风格:未来科技
  • 场景:深色背景
  • 光影:霓虹灯
  • 用途:电商广告

 基本不会翻车

六、AI 对“现实世界”的理解更自然了

这一代模型还有一个隐性升级:

 视觉认知能力

它可以:

  • 做教育图表
  • 信息可视化
  • 视觉摘要
  • 故事结构设计

而且:

  • 排版清晰
  • 留白合理
  • 信息结构自然

这已经不仅是“生成图片”,而是——
在做视觉表达

七、一些真实体验总结(优缺点)

优点

  • 真实感极强
  • 中文文本几乎完美
  • 可控性高
  • 可直接商用
  • 风格极其丰富

不足

  • 某些人像仍有“AI味”
  • 需要优化提示词才能达到最佳效果

八、结论:这已经不是玩具,而是生产力革命

ChatGPT Images 2.0 的意义在于:

它把“设计门槛”几乎降到了零

你不再需要:

  • 摄影师
  • 设计师
  • 后期团队

只需要:
一句话 + 一点想象力

最后

目前 ChatGPT Images 2.0 已经向所有用户开放(包括免费用户),你可以直接上手体验。

更多玩法、素材和提示词,我会持续更新在零度博客。

如果你是:

  • 内容创作者
  • 电商从业者
  • 自媒体
  • 设计师

 这个工具,建议你一定要尽快上手。

DeepSeek-V4 正式发布:免费开源 + 百万上下文,Agent能力逼近顶级模型!

终于来了!时隔半年,DeepSeek 新一代模型 DeepSeek-V4 正式发布。这一次,它不仅在性能上大幅跃升,还直接把“开源大模型”的上限再次拉高。结合官方发布与实测,这篇文章带你系统看懂:DeepSeek-V4 到底强在哪?值不值得用?

1

 一、DeepSeek-V4 核心亮点

 1. 免费 + 开源 + 可商用

DeepSeek-V4 延续了 DeepSeek 一贯的策略:
完全开源(含权重)+ 支持商业使用

这意味着:

  • 企业可以直接落地应用
  • 开发者可以自由二次开发
  • 不再被 API 成本卡死

 2. 四大模型版本(按需选择)

本次一共发布了 4 个模型:

模型 参数规模 激活参数 类型
DeepSeek-V4-Flash-Base 284B 13B 基础模型
DeepSeek-V4-Flash 284B 13B 聊天模型
DeepSeek-V4-Pro-Base 1.6T 49B 基础模型
DeepSeek-V4-Pro 1.6T 49B 聊天模型

 简单理解:

  • Base:适合训练 / 微调 / 研究
  • Flash:轻量、响应快
  • Pro:最强性能版本

模型下载:【点击前往】或 【打包下载

 

2026 04 24 221652

3. 百万 Token 上下文(真正的质变)

DeepSeek-V4 支持 百万级上下文窗口

这是什么概念?

 一次性可以处理:

  • 《三体》三部曲(约 90 万字)
  • 再加一整套《哈利·波特》

这已经不是“长文本”,而是直接进入 “超长记忆模型”时代

 4. Agent 能力大幅提升

在 SWE-bench 测试中:

DeepSeek-V4-Pro 达到 80.6%

这意味着:

  • 能处理复杂工程任务
  • 支持多步推理
  • 能像“工程师”一样思考

性能已经接近顶级闭源模型。

dsv4 performance scaled

 二、实测环节:DeepSeek-V4 到底有多强?

下面是几个核心能力的实测复现👇

 测试1:大海捞针(长文本检索)

测试方式

在《三体》90万字文本中插入一句隐藏密码:

DS-V4-PASSWORD-2026-ROCKS

提问:

请告诉我文档中隐藏的测试密码是什么?

结果

 模型精准命中

DS-V4-PASSWORD-2026-ROCKS
2026 04 24 14 36 26.00 04 49 04.Still002 scaled

结论

  • 百万上下文不是噱头
  • 长文定位能力极强
  • 明显优于很多“小模型拼接方案”

 测试2:代码生成(从0到1)

输入需求

写一个番茄钟 Web 应用(HTML/CSS/JS)

输出表现

  • 一次性生成完整前端代码(约150行)
  • 包含:
    • ⏱ 倒计时
    • 📋 任务管理
    • 📊 图表统计

关键亮点

直接可运行!

一句话总结:

从需求到成品,只用了几十秒。2026 04 24 14 36 26.00 07 28 12.Still003 scaled

 测试3:Agent能力(工程级任务)

任务描述

生成一个 Python 脚本:

功能:

  • 扫描 Downloads 文件夹
  • 找出最近7天截图
  • 自动重命名

V4 的表现

第一阶段:主动输出风险评估

例如:

  • 文件重名
  • 权限问题
  • 空目录情况

2026 04 24 14 36 26.00 07 57 01.Still004 scaled

第二阶段:再生成代码

  • 支持 --dry-run
  • 结构清晰
  • 可直接运行

核心价值

 它不是“写代码”,而是:

像工程师一样思考代码

 测试4:图片识别 + 推理能力

任务

  • 解析复杂图表
  • 输出 Markdown 文档
  • 转换为 Mermaid 流程图

表现

  • 能理解结构关系
  • 输出清晰结构化内容
  • 还能给优化建议

2026 04 24 14 36 26.00 08 44 16.Still005 scaled

不足:

  • 美术类(SVG精美程度)一般

 三、对比:DeepSeek-V4 vs 其他模型

能力 DeepSeek-V4 一些小模型
长文本 ✅ 百万级 ❌ 易崩
代码生成 ✅ 工程级 ⚠ Demo级
Agent能力 ✅ ❌
开源 ✅ 完全开源 ❌ 多为闭源

 尤其是在长文本和工程能力上,差距非常明显。

 四、适合谁用?

 开发者

  • 做 AI 应用
  • 写代码
  • 自动化任务

 研究人员

  • 模型微调
  • Agent研究

企业

  • 私有化部署
  • 降低 API 成本

 五、如何获取?

官方模型已发布在 Hugging Face:

  • DeepSeek-V4-Pro(最强版本)
  • 完整模型集合

(直接搜索 DeepSeek V4 即可)链接直达:https://huggingface.co/collections/deepseek-ai/deepseek-v4

 六、总结

DeepSeek-V4 这一代的关键词只有三个:

更长(百万上下文)
更强(Agent能力)
更开放(完全开源)

如果说上一代只是“强模型”,
那这一代已经是:

真正能干活的 AI 工程助手

 最后一句话

如果你还在观望开源模型:

DeepSeek-V4,很可能就是当前最值得上手的一款。

❌