今天我们不看宣传,不看跑分,也不看官方榜单,而是直接来一场真正的实战对决。这次参赛的模型包括:ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1。另外,我们还加入一个旁观者,也可以理解为替补选手:Gemini 3.1 Pro。

这几款模型,基本代表了目前国内外最强的一批 AI 编程能力。国外代表是 ChatGPT5.5 和 Claude 4.7,国内代表是 DeepSeek V4 和 GLM 5.1,再加上 Gemini 3.1 Pro 作为额外参考。
这次测试的规则非常简单:不给二次提示,不给修改机会,不做人工修正。每一道任务,每个模型只有一次提交机会。
谁写出来的效果最好,谁的成功率最高,谁的代码最稳定,谁就更接近真正的“编程王者”。
今天我们要看的,不只是哪个 AI 更聪明,而是哪个 AI 更像真的在工作,哪个 AI 能把需求理解清楚,并且一次性做出可运行、可展示、可交付的作品。

本期测试的核心思路
很多人测试 AI 编程能力,喜欢看跑分、看 benchmark,或者让 AI 写一些算法题。
但对普通用户来说,真正重要的不是模型在榜单上排第几,而是它能不能把你的一句话需求,变成一个真的能运行、真的有体验、真的像产品的东西。
所以今天我们不测理论,只测实战。
这次测试会围绕几个方向展开:
第一,视觉效果。
一个网页小游戏或者演示页面,不只是能打开就行,还要有动画、有节奏、有冲击力。
第二,交互逻辑。
有些模型看起来会写页面,但一旦涉及按钮、状态、倒计时、本地存储、拖拽排序,就很容易翻车。
第三,剧情和节奏控制。
AI 生成的不只是代码,也包括文案、剧情和用户体验。能不能让一个页面有铺垫、有变化、有高潮,这是非常考验模型综合能力的。
第四,约束执行能力。
有些模型看似很强,但会偷偷忽略你的要求。比如你要求不使用外部资源,它可能还是引入了外部库;你要求只用黑白两种颜色,它可能偷偷加渐变色。
第五,真实性判断。
AI 可以生成很多“看起来很真实”的东西,但这并不代表它真的正确。今天最后一个测试,我会专门用天气页面来做一个反转,让大家看到 AI 最危险的一面:它可以让假的东西看起来像真的。
第一题:黑客入侵终端
开场我们先来一道视觉冲击力很强的题目:模拟黑客入侵终端。
提示词
生成一个完整可运行的HTML网页(包含HTML+CSS+JS,所有资源内嵌,无需外部依赖)。
模拟黑客入侵终端界面:黑色背景+绿色字符雨效果,自动滚动显示“正在破解密码”“已入侵服务器”等动态文本,并带进度条。
要求:页面加载后自动播放,3秒内进入高潮动画,最后弹出“Access Granted”提示,并提供音效开关按钮。

这道题本身没有什么业务价值,但非常适合做开场,因为它能快速看出模型的动效组合能力。
差一点的模型,可能只会生成一个静态页面,放几行绿色文字,看起来像终端,但没有节奏,没有推进,也没有真正的动画。
强一点的模型,会知道怎么让画面一步一步升级:先出现终端文字,再增加滚动日志,然后进度条推进,最后弹出 Access Granted,整个过程有明显的情绪递进。

这道题主要看三个点:页面是否能直接运行。动画是否有节奏。最后是否有高潮效果。
如果一个模型连这种偏展示型页面都做不出效果,那后面的复杂任务基本就更危险了。

第二题:恐怖惊吓页面
第二题我们测试的是节奏控制能力。
提示词:
生成一个完整 HTML 网页,页面一开始是安静的风景或者日记内容,并带有轻微背景动画。至少 5 秒平静铺垫之后,突然出现惊吓画面,比如鬼脸和音效,然后恢复正常,并提示“你被吓到了吗?”
这题的重点不是鬼脸,而是铺垫。很多模型会犯一个错误:页面一打开就直接吓人。这就不成立了。真正的惊吓效果,关键在于前面要足够平静,让观众放松警惕。至少 5 秒的安静铺垫非常重要。
所以这道题主要看:
模型有没有理解“至少 5 秒平静铺垫”。
惊吓画面是否突然。
惊吓后是否能恢复正常。
有没有音效控制。
差的模型只会堆效果,好的模型会控制节奏。
这也是 AI 生成交互内容时很重要的一点:它不仅要会写代码,还要懂体验。

第三题:读心术互动页面
第五题稍微放松一点,做一个互动型页面:读心术。
要求用户在心里想一个 1 到 100 的数字,通过 3 到 5 步点击引导,逐步缩小范围。每一步都有动画反馈和提示语,比如“越来越接近了”,最后用动画展示“AI猜你想的是 XX”。
提示词:
生成一个HTML互动页面,让用户在心里想一个1-100的数字,通过3-5步点击引导逐步缩小范围。
要求:每一步都有动画反馈和提示语(如“越来越接近了”),最后用动画展示“AI猜你想的是XX”。
这题其实并不是真的 AI 读心,而是经典的交互设计和算法包装。它的重点在于:模型能不能把一个简单逻辑包装成一个有趣的体验。
有些模型会做得很粗糙,只是几个按钮加一行结果。

好的模型会设计流程,比如让用户选择数字范围、奇偶、大小区间,然后逐步缩小范围,最后给出一个看似神奇的结果。
这道题可以很好地说明一点:
观众体验不等于技术难度。
有些东西技术上不复杂,但只要包装得好,就会显得很高级。
这也是 AI 生成内容时非常常见的现象:它很会“装懂”,也很会“制造感觉”。

第四题:股票市场 K 线图
第六题测试数据和动画结合能力。
要求生成一个 HTML 网页,模拟股票市场 K 线图动态变化。需要自动波动动画、涨跌颜色变化,并提供按钮触发“暴涨”和“崩盘”。动画要夸张、有冲击力。
提示词:
生成一个HTML网页,模拟股票市场K线图动态变化。
要求:
自动波动动画
涨跌颜色变化
提供按钮触发“暴涨”和“崩盘”
动画夸张、有冲击力
这道题重点看的是动态效果。差的模型可能会画一个静态图,或者用几个柱子假装 K 线,但不会真正变化。好的模型会生成动态数据,让图表持续波动,并且点击“暴涨”或“崩盘”按钮后,能明显看到趋势变化。

这题主要看:
K 线是否真的动态变化。
涨跌颜色是否清晰。
暴涨和崩盘按钮是否有效。
动画是否有冲击力。
如果模型只是做了一个看起来像股票图的静态页面,那它其实没有完成任务。

第五题:拆弹小游戏
第八题是综合能力测试:拆弹游戏。
要求生成一个 HTML 小游戏,场景是拆弹。页面需要有 30 秒倒计时,多根电线可选,不同选择触发不同结局。倒计时音效逐渐加快,最后 3 秒要有明显紧张提示。
提示词:
生成一个HTML小游戏:拆弹场景。
要求:
30秒倒计时
多根电线可选
不同选择触发不同结局
倒计时音效逐渐加快,最后3秒明显紧张提示
它同时考验逻辑、UI、状态管理和氛围营造。模型必须处理倒计时、用户选择、成功分支、失败分支、音效节奏、最后 3 秒提示等多个状态。
差的模型可能只是做几个按钮,点哪个都显示同一个结果。

好的模型会让不同电线对应不同结局,比如剪红线成功、剪蓝线爆炸、剪黄线倒计时加速、剪绿线进入隐藏结局。这类小游戏最能看出模型写交互逻辑的能力。
第六题:天气查询页面打假
最后一题是本期最重要的收尾反转:天气查询页面。
要求生成一个 HTML 天气查询页面,默认显示一个城市天气,要调用真实 API,UI 要精美,并提供“刷新数据”按钮。多次刷新后,数据会出现明显不一致甚至荒谬,比如温度突然大幅变化,
提示词:
生成一个HTML天气查询页面。
要求:
默认显示一个城市天气
要调用真实的API
UI画面要精美
这题的重点不只是做天气页面,而是打假。因为 AI 很容易生成一个“看起来像真实 API”的页面。它会写接口地址,会写加载状态,会写天气卡片,会显示温度、湿度、风速。

但问题是:这些数据是真的吗?很多时候并不是。所以这道题的价值在于告诉我们:AI 可以生成看起来很真的东西。但看起来真,不代表它就是真的。你必须有判断能力。
AI 编程能力越来越强,但它最大的风险也在这里:它能把假的东西包装得非常真实。

最终总结:谁才是真正的编程王者?
通过这组测试,我们看的不只是哪个模型会写代码,而是哪个模型更接近真实开发中的可靠助手。
一个真正强的编程 AI,应该具备几个能力:
能理解需求。
能一次性生成可运行代码。
能处理交互逻辑。
能控制动画节奏。
能遵守限制条件。
能保持长逻辑一致。
能把解释和代码对应起来。
不会用看似真实的内容糊弄用户
今天这些测试从视觉效果、剧情节奏、状态管理、交互逻辑、推理一致性、UI 审美,到最后的真实性判断,基本覆盖了 AI 编程应用中非常关键的几个场景。
最后我们会发现,AI 最厉害的地方,不一定是它真的知道答案,而是它可以让一个答案看起来非常像正确答案。
这也是我们使用 AI 时最需要警惕的地方。
它可以让页面看起来像产品。
它可以让动画看起来很高级。
它可以让推理看起来很严谨。
它甚至可以让假的数据看起来像真的。
所以今天这期测试,表面上是在看 ChatGPT5.5、Claude 4.7、DeepSeek V4、GLM 5.1 和 Gemini 3.1 Pro 谁的编程能力更强。
但更深一层,其实是在看:
哪个 AI 更会“演”。
哪个 AI 更像真的在工作。
以及我们自己有多容易被 AI 说服。
这才是这场编程王者对决真正值得关注的地方。
如果你也想亲自测试,可以用同样的提示词,把它们分别丢给不同模型,然后看它们生成的代码是否能直接运行,效果是否符合要求,逻辑是否稳定。
记住一句话:
AI 最可怕的不是不会写代码,而是它写错了,你却看不出来。