普通视图

发现新文章,点击刷新页面。
昨天以前零度解说

谁才是编程王者?ChatGPT5.5、Claude 4.7、Deepseek V4、Qwen 3.6 实测见真章!

作者 admin
2026年4月27日 21:25

今天我们不看宣传,不看跑分,也不看官方榜单,而是直接来一场真正的实战对决。这次参赛的模型包括:ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1。另外,我们还加入一个旁观者,也可以理解为替补选手:Gemini 3.1 Pro。

ChatGPT19 58 18

这几款模型,基本代表了目前国内外最强的一批 AI 编程能力。国外代表是 ChatGPT5.5 和 Claude 4.7,国内代表是 DeepSeek V4 和 GLM 5.1,再加上 Gemini 3.1 Pro 作为额外参考。

这次测试的规则非常简单:不给二次提示,不给修改机会,不做人工修正。每一道任务,每个模型只有一次提交机会。

谁写出来的效果最好,谁的成功率最高,谁的代码最稳定,谁就更接近真正的“编程王者”。

今天我们要看的,不只是哪个 AI 更聪明,而是哪个 AI 更像真的在工作,哪个 AI 能把需求理解清楚,并且一次性做出可运行、可展示、可交付的作品。

2026 04 27 232453

本期测试的核心思路

很多人测试 AI 编程能力,喜欢看跑分、看 benchmark,或者让 AI 写一些算法题。

但对普通用户来说,真正重要的不是模型在榜单上排第几,而是它能不能把你的一句话需求,变成一个真的能运行、真的有体验、真的像产品的东西。

所以今天我们不测理论,只测实战。

这次测试会围绕几个方向展开:

第一,视觉效果。

一个网页小游戏或者演示页面,不只是能打开就行,还要有动画、有节奏、有冲击力。

第二,交互逻辑。

有些模型看起来会写页面,但一旦涉及按钮、状态、倒计时、本地存储、拖拽排序,就很容易翻车。

第三,剧情和节奏控制。

AI 生成的不只是代码,也包括文案、剧情和用户体验。能不能让一个页面有铺垫、有变化、有高潮,这是非常考验模型综合能力的。

第四,约束执行能力。

有些模型看似很强,但会偷偷忽略你的要求。比如你要求不使用外部资源,它可能还是引入了外部库;你要求只用黑白两种颜色,它可能偷偷加渐变色。

第五,真实性判断。

AI 可以生成很多“看起来很真实”的东西,但这并不代表它真的正确。今天最后一个测试,我会专门用天气页面来做一个反转,让大家看到 AI 最危险的一面:它可以让假的东西看起来像真的。

第一题:黑客入侵终端

开场我们先来一道视觉冲击力很强的题目:模拟黑客入侵终端。

提示词

生成一个完整可运行的HTML网页(包含HTML+CSS+JS,所有资源内嵌,无需外部依赖)。
模拟黑客入侵终端界面:黑色背景+绿色字符雨效果,自动滚动显示“正在破解密码”“已入侵服务器”等动态文本,并带进度条。
要求:页面加载后自动播放,3秒内进入高潮动画,最后弹出“Access Granted”提示,并提供音效开关按钮。

2026 04 28 000049

这道题本身没有什么业务价值,但非常适合做开场,因为它能快速看出模型的动效组合能力。

差一点的模型,可能只会生成一个静态页面,放几行绿色文字,看起来像终端,但没有节奏,没有推进,也没有真正的动画。

强一点的模型,会知道怎么让画面一步一步升级:先出现终端文字,再增加滚动日志,然后进度条推进,最后弹出 Access Granted,整个过程有明显的情绪递进。

2026 04 28 000200

这道题主要看三个点:页面是否能直接运行。动画是否有节奏。最后是否有高潮效果。

如果一个模型连这种偏展示型页面都做不出效果,那后面的复杂任务基本就更危险了。

2026 04 27 15 31 29.00 03 20 07.Still009 scaled

第二题:恐怖惊吓页面

第二题我们测试的是节奏控制能力。

提示词:

生成一个完整 HTML 网页,页面一开始是安静的风景或者日记内容,并带有轻微背景动画。至少 5 秒平静铺垫之后,突然出现惊吓画面,比如鬼脸和音效,然后恢复正常,并提示“你被吓到了吗?”

 

这题的重点不是鬼脸,而是铺垫。很多模型会犯一个错误:页面一打开就直接吓人。这就不成立了。真正的惊吓效果,关键在于前面要足够平静,让观众放松警惕。至少 5 秒的安静铺垫非常重要。

所以这道题主要看:

模型有没有理解“至少 5 秒平静铺垫”。

惊吓画面是否突然。

惊吓后是否能恢复正常。

有没有音效控制。

差的模型只会堆效果,好的模型会控制节奏。

这也是 AI 生成交互内容时很重要的一点:它不仅要会写代码,还要懂体验。

2026 04 27 15 31 29.00 05 19 04.Still010 scaled

第三题:读心术互动页面

第五题稍微放松一点,做一个互动型页面:读心术。

要求用户在心里想一个 1 到 100 的数字,通过 3 到 5 步点击引导,逐步缩小范围。每一步都有动画反馈和提示语,比如“越来越接近了”,最后用动画展示“AI猜你想的是 XX”。

提示词:

生成一个HTML互动页面,让用户在心里想一个1-100的数字,通过3-5步点击引导逐步缩小范围。
要求:每一步都有动画反馈和提示语(如“越来越接近了”),最后用动画展示“AI猜你想的是XX”。

 

这题其实并不是真的 AI 读心,而是经典的交互设计和算法包装。它的重点在于:模型能不能把一个简单逻辑包装成一个有趣的体验。

有些模型会做得很粗糙,只是几个按钮加一行结果。

2026 04 27 15 31 29.00 08 14 07.Still011 scaled

好的模型会设计流程,比如让用户选择数字范围、奇偶、大小区间,然后逐步缩小范围,最后给出一个看似神奇的结果。

这道题可以很好地说明一点:

观众体验不等于技术难度。

有些东西技术上不复杂,但只要包装得好,就会显得很高级。

这也是 AI 生成内容时非常常见的现象:它很会“装懂”,也很会“制造感觉”。

2026 04 27 15 31 29.00 10 02 24.Still012 scaled

第四题:股票市场 K 线图

第六题测试数据和动画结合能力。

要求生成一个 HTML 网页,模拟股票市场 K 线图动态变化。需要自动波动动画、涨跌颜色变化,并提供按钮触发“暴涨”和“崩盘”。动画要夸张、有冲击力。

提示词:

生成一个HTML网页,模拟股票市场K线图动态变化。
要求:

自动波动动画
涨跌颜色变化
提供按钮触发“暴涨”和“崩盘”
动画夸张、有冲击力

 

这道题重点看的是动态效果。差的模型可能会画一个静态图,或者用几个柱子假装 K 线,但不会真正变化。好的模型会生成动态数据,让图表持续波动,并且点击“暴涨”或“崩盘”按钮后,能明显看到趋势变化。

2026 04 27 15 31 29.00 11 04 21.Still013 scaled

这题主要看:

K 线是否真的动态变化。

涨跌颜色是否清晰。

暴涨和崩盘按钮是否有效。

动画是否有冲击力。

如果模型只是做了一个看起来像股票图的静态页面,那它其实没有完成任务。

2026 04 27 15 31 29.00 12 10 23.Still014 scaled

第五题:拆弹小游戏

第八题是综合能力测试:拆弹游戏。

要求生成一个 HTML 小游戏,场景是拆弹。页面需要有 30 秒倒计时,多根电线可选,不同选择触发不同结局。倒计时音效逐渐加快,最后 3 秒要有明显紧张提示。

提示词:

生成一个HTML小游戏:拆弹场景。
要求:

30秒倒计时
多根电线可选
不同选择触发不同结局
倒计时音效逐渐加快,最后3秒明显紧张提示

 

它同时考验逻辑、UI、状态管理和氛围营造。模型必须处理倒计时、用户选择、成功分支、失败分支、音效节奏、最后 3 秒提示等多个状态。

差的模型可能只是做几个按钮,点哪个都显示同一个结果。

2026 04 27 15 31 29.00 15 29 20.Still015 scaled

好的模型会让不同电线对应不同结局,比如剪红线成功、剪蓝线爆炸、剪黄线倒计时加速、剪绿线进入隐藏结局。这类小游戏最能看出模型写交互逻辑的能力。

第六题:天气查询页面打假

最后一题是本期最重要的收尾反转:天气查询页面。

要求生成一个 HTML 天气查询页面,默认显示一个城市天气,要调用真实 API,UI 要精美,并提供“刷新数据”按钮。多次刷新后,数据会出现明显不一致甚至荒谬,比如温度突然大幅变化,

提示词:

生成一个HTML天气查询页面。
要求:

默认显示一个城市天气
要调用真实的API
UI画面要精美

 

这题的重点不只是做天气页面,而是打假。因为 AI 很容易生成一个“看起来像真实 API”的页面。它会写接口地址,会写加载状态,会写天气卡片,会显示温度、湿度、风速。

2026 04 27 15 31 29.00 16 41 22.Still016 scaled

但问题是:这些数据是真的吗?很多时候并不是。所以这道题的价值在于告诉我们:AI 可以生成看起来很真的东西。但看起来真,不代表它就是真的。你必须有判断能力。

AI 编程能力越来越强,但它最大的风险也在这里:它能把假的东西包装得非常真实。

2026 04 28 001630 scaled

最终总结:谁才是真正的编程王者?

通过这组测试,我们看的不只是哪个模型会写代码,而是哪个模型更接近真实开发中的可靠助手。

一个真正强的编程 AI,应该具备几个能力:

能理解需求。

能一次性生成可运行代码。

能处理交互逻辑。

能控制动画节奏。

能遵守限制条件。

能保持长逻辑一致。

能把解释和代码对应起来。

不会用看似真实的内容糊弄用户

今天这些测试从视觉效果、剧情节奏、状态管理、交互逻辑、推理一致性、UI 审美,到最后的真实性判断,基本覆盖了 AI 编程应用中非常关键的几个场景。

最后我们会发现,AI 最厉害的地方,不一定是它真的知道答案,而是它可以让一个答案看起来非常像正确答案。

这也是我们使用 AI 时最需要警惕的地方。

它可以让页面看起来像产品。

它可以让动画看起来很高级。

它可以让推理看起来很严谨。

它甚至可以让假的数据看起来像真的。

所以今天这期测试,表面上是在看 ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1 和 Gemini 3.1 Pro 谁的编程能力更强。

但更深一层,其实是在看:

哪个 AI 更会“演”。

哪个 AI 更像真的在工作。

以及我们自己有多容易被 AI 说服。

这才是这场编程王者对决真正值得关注的地方。

如果你也想亲自测试,可以用同样的提示词,把它们分别丢给不同模型,然后看它们生成的代码是否能直接运行,效果是否符合要求,逻辑是否稳定。

记住一句话:

AI 最可怕的不是不会写代码,而是它写错了,你却看不出来。

Claude Code + Ollama 太强了!免费本地 AI 开发助手来了!无需 Claude API!|零度解说

作者 admin
2026年5月15日 18:29

最近一段时间,Claude Code 在 AI 开发圈突然火了起来。原因很简单。它可能是目前最接近“真正 AI 程序员”的工具之一。和传统聊天式 AI 不同,Claude Code 并不仅仅只是回答问题,而是可以真正读取你的项目、修改代码、执行终端命令,甚至自动修复错误。某种程度上来说,它更像是一个真正的 AI Agent。

20260515101213 308264 scaled

 

不过问题也很现实:Claude 官方 API 的价格并不便宜。

尤其在:

  • 长上下文
  • 大型项目
  • 多轮 Agent 调用
  • 自动修 Bug
  • 20260515100806 288366 scaled

 

这些场景下,Token 消耗会非常夸张。于是最近,一个新的玩法开始流行起来:

使用 Ollama 本地模型,直接接管 Claude Code。

 

而实现这一切的核心工具,就是最近很火的:CC Switch

20260515100936 078792

接下来我们就来进行本地部署,完整实现100%免费使用Claude Code 桌面的要求!

 

步骤过程:

前期必备的环境准备,安装 Git

 

1、安装 Claude Code 官方桌面版

点击前往】或 【备用下载

 

20260515103603 992240

 

2、安装最新版 Ollama 客户端

点击前往

开源模型推荐:Qwen 3.6/3.5Gemma4Deepseek R1GLM等,根据自己显存的大小来选择对应的模型

20260515102121 597347 scaled

 

3、下载 CC Switch 开源工具

点击前往】 或 【打包下载

 

20260515101952 035275 scaled

 

CC Switch 相关配置:

请求地址:http://127.0.0.1:11434/v1

API 格式:OpenAI Chat Completions

认证字段选择:ANTHROPIC_API_KEY

20260515103033 089829 scaled

Claude Code 桌面版在自定义的配置文件末尾需要加入注册表修改命令:

"inferenceModels"="[\"haiku\",\"sonnet\",\"opus\"]"

让 CC Switch 强行注入模型名称到claude Code里进行显示!

 

可能有人会疑问:Claude Code 到底强在哪里?

很多人第一次接触 Claude Code 时,都会误以为:这只是一个“高级聊天工具”。但实际上,它和普通 AI 聊天客户端完全不是一个东西。

传统 AI:你问一句,它回答一句。而 Claude Code:会真正读取整个项目结构。

例如:

src/
components/
package.json
docker-compose.yml

 

然后:
  • 自动分析代码
  • 修改文件
  • 安装依赖
  • 执行命令
  • 修复报错
  • 重新运行项目

整个过程更像:

AI + IDE + Terminal

 

而不是普通聊天机器人。

这也是为什么很多开发者开始把它称为:AI 开发 Agent

Ollama + Claude Code 是怎么实现的?

而最近越来越多人开始尝试:

Claude Code + Ollama

简单来说就是:

让 Claude Code 继续负责:

  • Agent 能力
  • 项目操作
  • 自动化执行

而真正的大脑,则交给本地模型。

例如:

  • Qwen
  • DeepSeek
  • Gemma
  • GLM

这些模型都可以通过 Ollama 本地运行。

但问题在于:

Claude Code 默认只支持 Claude 官方 API。

于是:

CC Switch 这种工具就出现了。

它本质上其实是一个:

API 转发层

Claude Code 以为自己正在调用 Claude。

但实际上:

请求已经被 CC Switch 转发到了本地 Ollama。

于是最终实现:

Claude Code 外壳 
+ 
本地 AI 模型

 

实际体验怎么样?

这次我主要测试了:

  • Qwen
  • DeepSeek

几个本地模型。

实际体验下来。

如果只是:

  • HTML 页面
  • 小型项目
  • 自动化脚本
  • Docker
  • VPS 运维

其实已经相当能用了。

例如一句话:

“帮我生成一个赛博朋克风格的个人主页网站。”

本地模型会直接:

  • 创建项目
  • 生成网页
  • 添加动画
  • 配置特效
  • 自动运行

整个过程已经有一种:

AI 正在真正工作的感觉

尤其在 Claude Code 的 Agent 模式下,这种观感会非常强。

但本地模型目前仍然存在明显短板

当然。

现阶段的本地模型,还远远无法完全替代 Claude Sonnet。

特别是:

  • 长上下文理解
  • 大型工程能力
  • 多步骤推理
  • 项目架构能力

差距仍然明显。

尤其项目一旦复杂起来。

本地模型就很容易:

  • 逻辑混乱
  • 修改错误文件
  • 死循环修 Bug
  • 上下文遗忘

这一点目前和 Claude Sonnet 仍然有不小差距。

多模态兼容性目前问题也不少

另外这次测试中,还有一个比较明显的问题:

Vision 多模态兼容性

例如:

虽然 Ollama 已经支持不少 Vision 模型。

但:

Claude Code + CC Switch 这套链路,目前对于图片支持并不完整。

经常会出现:

你明明上传了图片。

AI 却提示:

“我没有看到图片。”

本质原因其实不是模型不支持 Vision。

而是:

Claude Code 本身更偏向:

代码 Agent

而不是:

多模态聊天客户端

所以目前:

  • 编程
  • Terminal
  • 自动化

体验很好。

但:

  • 图片
  • OCR
  • 多模态聊天

兼容性仍然一般。

本地 AI Agent,可能才刚刚开始

不过不得不说。

Claude Code + Ollama 这一套玩法,确实让人第一次感受到:

AI 正在从聊天工具,变成真正的生产力工具。

尤其随着:

  • Qwen3
  • DeepSeek
  • GLM
  • Gemma

这些本地模型不断升级。

未来:

完全本地化的 AI Agent。

很可能会越来越强。

而对于很多开发者来说:

一个:

  • 完全本地
  • 零 API 成本
  • 无 Token 焦虑

的 AI 开发助手。

吸引力确实越来越大。

❌
❌