普通视图

发现新文章,点击刷新页面。
昨天以前首页

讯飞首款 AI 眼镜,用 40 克撬动 AI 工作流

作者 李超凡
2026年5月28日 17:27

2026 还没过半,已经有 30 多款 AI 眼镜亮相了。

除了华为、阿里千问、Rokid、雷鸟、小米这些老玩家,连老板电器都推出 AI 烹饪眼镜,京东方也做了骑行眼镜……百镜齐放,但大体上在围着三件事卷:谁能做得更轻、谁的摄像头更清晰、谁的镜片上能塞进更大更好的显示屏。

热闹之下,有一个数据通常会被忽略。

目前主流电商平台上,AI 眼镜的退货率高得惊人,普遍在 30% 左右,在冲动消费占大头的直播渠道,退货率甚至能飙到 40% 到 50%

用户因为新鲜感下单,戴了几天,默默点了退货。销量高开低走、退货率居高不下,就是众多 AI 眼镜的「生命周期」。

说白了,尝鲜期过去后,消费者就会开始产生这样的疑惑:戴上之后它到底能帮我干什么。

就在今天,科大讯飞在澳门发布了旗下首款 AI 眼镜。这副 40 克的眼镜没有卷像素、卷全彩大屏、卷时尚联名,把核心能力押注在一个看起来十分常见的能力上——翻译

但翻译只是它的入口,不是终点。

发布会前夕,APPSO 和科大讯飞副总裁王玮、穿戴设备业务部总经理林会杰聊了聊。聊到后半段,话题从具体的产品技术转移到了一个更大的命题上:AI 眼镜下半场的关键,到底在硬件层面还是在 AI 工作流?

AI 眼镜的「奇点」,是让人愿意一直戴

百镜大战之后,在现有供应链里攒出一款智能眼镜真不难,华强北两周就能给你出一个样机。但难的是,你怎么给用户一个「一直佩戴」的理由。

对于第一次做 AI 眼镜的讯飞来说,这也是个绕不开的坎。

王玮跟 APPSO 聊起讯飞做 AI 眼镜的起点,其实源于一个非常具体的画面:你想啊,翻译机在展会、小型商务洽谈这些场景里是很好用的,甚至公司共用一台就够。但总有一些时刻,当你在国外旅游或者某些场合,你不方便掏出设备和低头看屏幕,不想等翻译结果打断说话的自然节奏。

你希望交流是「沉浸式」的,眼神始终对着彼此,对话顺畅流动,翻译像空气一样感受不到存在。这副眼镜的起点,就是用户对那种「无感」体验的期待。

这种「物理中断」,是讯飞看了无数个翻译机用户的真实反馈后,攒下来的痛点。做 AI 眼镜的公司可以一夜之间冒出来,但做翻译的底子,真的没法速成。

讯飞翻译机卖了 100 万台、翻译了 10 亿次。讯飞同传跑了 42 万场国际会议,覆盖 50 多个国家,触达 4 亿观众,连续 8 年服务全国两会。

这些数字沉淀下来的不只是算法,还有对真实场景里那些琐碎问题的感知:什么时候用户会嫌翻译慢,什么场景下手持设备让人尴尬,什么噪音条件会让准确率断崖……

去年 10 月讯飞已经推出了一款翻译耳机。耳机验证了两件事:用户确实需要释放双手的穿戴式翻译;端到端的同传在穿戴设备上是跑得通的,反应速度能掐在 2 秒以内。

但耳机只管耳朵,在林会杰看来,耳机的局限在于它是一个「听觉」设备(现在也开始加摄像头了),眼镜则可以增加视觉的模态,多种模态叠加在一起,跨语言沟通的信息输入就丰富多了。

说白了,眼镜上有摄像头可以拍照翻译,有显示可以投射字幕让你不用低头看手机,还能放更多的麦克风做定向降噪。

用王玮的话说就是,「眼镜离人的眼睛、耳朵、嘴巴最近,它是物理世界与数字世界天然的桥梁,让翻译像呼吸一样自然发生。」

而到了 2026 年,供应链成本开始被拉下来了,国补也首次把智能眼镜纳了进来,再加上星火 X2 大模型云端翻译能力的提升,天时地利凑齐了。

林会杰倒挺坦率:「我们选择这个节点,是因为看到了增速才刚刚开始。」王玮更直接:我们不想用「iPhone 时刻」这个词,但实际上就是这个意思,眼镜马上到了奇点临近的时候。

40 克,一道系统工程题

讯飞这款 AI 眼镜,我戴上之后第一反应是比想象中轻。它集成了微型显示屏、摄像头、5+1 麦克风矩阵、喇叭,但整机重量被死死卡在了 40 克。

这个数字可能很多人没概念,我们来横向对比一下:

  • Meta Ray-Ban 是 49 克,但它没有显示屏;
  • Rokid Glasses 也是 49 克,带显示,但比讯飞重了将近 25%;
  • 华为 AI 眼镜确实轻,35.5 克,但它没有显示屏。

在「带显示屏」的智能眼镜阵营里,讯飞目前几乎做到了行业最轻。

为什么非得是 40 克?林会杰说,这个数字是他们用模拟仿真和海量调研死磕出来的。欧美人的头型和体型对重量的钝感力比较强,Meta 做到 50 多克他们依然觉得能接受。但亚洲人的颅骨结构和鼻梁高度不同,对重量极度敏感。

对于中国用户来说,45 克是一道分水岭,超过这个分量,戴久了就会有明显的压迫感。40 克,是长时间佩戴的「舒适阈值」。

为了抠掉这几克,团队在工程上跟供应链磨了很久。最关键的一招,是用树脂镜片替代了传统的玻璃镜片。

传统近视眼镜早就是树脂的天下了,但为什么智能眼镜一直不用?因为工艺太搞心态了。智能眼镜的镜片需要做「全贴合」,把显示层和镜片压在一起。树脂材料在成型和加热时极易产生微小的气泡,胶水一旦有一丝一毫的空隙,光线的折射曲率就偏了,整个镜片就废了,良率控制比玻璃难得多。

林会杰透露,讯飞应该是行业里第一个在带显示的智能眼镜上把全贴合树脂工艺跑通的。研发过程中经历了非常多尝试和失败,才最终把树脂材料用在了显示镜片上,但回报是巨大的,单靠镜片这一项,就比玻璃方案轻了 30% 到 40%。

再加上定制的 0.15CC 微型光机、微型摄像头模组,镜框镜腿一体成型。芯片选型和算法做了深度耦合:同样的功能别家可能要 100mAh 电池,讯飞可能 50mAh 就够了。

所以最后我们看到的讯飞 AI 眼镜,整机重量更轻,续航却没打折。

这是一道系统工程题,没有捷径,每一环都要跟供应链反复磨合良品率。树脂镜片、微型光机、低功耗芯片、算法-硬件耦合,哪一环掉链子,重量都得回到 50 克以上。

唇动识别降噪,用眼睛帮耳朵听

翻译固然是讯飞的舒适区,但这副眼镜上,讯飞还首发了一个有点科幻的技术——唇动识别降噪,这是多模态降噪系统的核心部分

这是唇动识别降噪首次搭载到 AI 眼镜上,实现逻辑是眼镜的前置摄像头会死死锁定对面说话人的嘴唇。同时,眼镜上的 5 颗气导麦克风和 1 颗骨传导麦克风组成了一个六通道的音频流。

系统实时通过「看到谁的嘴在动」,来辅助判断「该听谁的声音」, 从而在嘈杂的多人混声中,精准地把目标人物的语音「抠」出来。

这就实现了「看谁翻谁」的效果,你的眼镜盯着谁,耳边响起的、镜片上跳出来的,就是谁的翻译字幕。

这个技术直接决定很多场景的翻译质量,因为翻译准不准,有一个重要的前提听得清不清。

安静的会议室里,其实目前的翻译软硬件都可以较好处理交流问题。但讯飞 AI 眼镜重要的一个用户群是商务人士,他们真正需要用到的翻译场景是什么?是展会、商务酒会、机场,环境噪音随便都能 80 到 90 分贝。传统翻译工具在这种环境下,准确率直接掉进马里亚纳海沟。

高噪场景下,唇动识别降噪让识别准确率提升了 50% 以上。林会杰解释说,这并不是单纯看口型,它融合了声源位置增强、目标人锁定等一整套多模态降噪系统,各路信号在实际使用中自动协同。

这个能力也不是拍脑袋想出来的。讯飞在大型会议系统和汽车智能座舱里,搞这种多通道语音分离和多模态降噪已经很多年了,在 CHiME 国际语音分离大赛上拿过 6 连冠。

王玮还给我们分享了一个几年前的内部 Demo:几个研究员同时讲话,人耳完全分不清,系统把每个人的声音干净利落分离出来,谁说了什么都清清楚楚。

这事儿有趣的地方在于,以前开大会,你有足够的物理空间塞麦克风,有服务器的算力,有插座供电。现在,你要把这套复杂的视觉-音频融合算法,塞进一副 40 克、算力和功耗被极度压榨的眼镜里。

王玮觉得,这恰恰是讯飞在硬件上秀出的「肌肉」:怎么把大设备上的硬核算法做高倍率的压缩,移植到小尺寸、轻量化的移动端侧,而且还能离线实时处理多路语音数据

讯飞做硬件的路径是「大设备验证、小设备迁移」。在会议系统和汽车上跑通的算法压缩到眼镜端侧。唇动识别降噪需要视觉-音频配对数据、端侧实时处理能力、多麦克风硬件的联合调优,单靠现成算法集成难以实现。

降噪的准确性直接决定翻译的准确性,这也是整条工作流的第一道关卡。

「全能翻译」背后的基础设施

听得清之后,才是译得准的问题。

讯飞 AI 眼镜支持 122 种语言的实时互译,划分了同声传译(听演讲)、面对面翻译(商务洽谈)、通话翻译(跨国电话)和线上同传(接腾讯会议或 Zoom)等四种模式,摄像头还能直接拍 PPT, 做外文资料翻译。

在现场体验中最让我觉得有意思的是通话翻译

这大概是目前市面上唯一一款能在你打电话时,同时帮你做跨国翻译和记录的眼镜。它的路径是这样的:眼镜通过蓝牙挂载在手机上,捕捉到电话那头的英语,端到端同传模型全自动翻译,再把你的中文回答翻译成英文顶回去,延迟在秒级。

也就是说,你在电话这头说中文,老外在那头听到的是你的音色克隆出来的英文。电话一挂,眼镜甚至能帮你把一份结构化的会议纪要发你。

过去,传统的翻译系统是「老三样」:语音识别(ASR)→文本翻译(MT)→语音合成(TTS)。这套方案最大的毛病就是延迟大,而且每过一个环节,信息的「语义损失」就多一层。

讯飞这次在眼镜上搭载端到端的语音同传大模型,跳过了中间的文本转译步骤,直接实现「语音进、语音出」,把首字响应时间压进了 2 秒。云端撑腰的是星火 X2 模型(293B 参数的 MoE 架构,基于华为昇腾训练)。

林会杰说,他们把翻译场景切分得极其细微,因为不同场景下需要的行业知识库和降噪模式是完全不一样的。

讯飞这款眼镜在翻译功能上花的功夫,这有点像手机行业卷影像,拍照功能谁都有,但我有 2 亿像素,有10 倍长焦,有4K live 图,甚至能覆盖专业摄影场景。

翻译之后,AI 工作流才开始

到了这一步,你会发现,讯飞想做的已经不只是「翻译工具」了。这大概也是为什么它不叫「翻译眼镜」,而被视「眼前的超级 AI 助理」。

林会杰认为,「眼镜更像是一个戴在眼前的超级计算机,带有显示、摄像头、语音能力,它的配置跟手机、PC 基本一样。

承载这层能力的是讯飞的 GlassClaw,这个 Agent 能调用大模型能力、接入生态服务、做多模态理解,把从听懂到干活的整个过程打通,同时也支持 OpenClaw 等第三方 Agent 接入。

你没看错,这还是一副「龙虾」眼镜。

林会杰分享了他自己使用 GlassClaw 的日常工作流:他出门不用频繁掏手机。在路上走着,可以直接用语音唤醒 GlassClaw,让它调取手机通讯录、找客户拨号,电话接通自动开翻译。

跟客户面对面聊天时,突然需要查阅之前的某份合同纪要,直接盲操吩咐眼镜,眼镜会去检索他的电脑资料,提取出要点并同步到镜片上。

甚至开完会后,眼镜自动做完多模态的角色区分(谁说了什么),输出结构化纪要,他直接语音:「把纪要以邮件形式发给项目组,并把下周三的复盘会同步到日历上。」

如果你也养过虾对这些功能肯定不陌生,只不过这次交互发生在你的脸上。

当初让AI 眼镜出圈的提词器功能,在这款眼镜里也迎来升级。

讯飞 AI 眼镜的智能提词器功能做到了语义跟随,说到哪跟到哪,不再是机械按速度滚动,可以做自然的智能语义理解和跟随。配套的充电胶囊可以当遥控器,按键切换和暂停文稿。

这就是 AstronClaw 架构在底层玩的「端-边-云」三级协同:眼镜端侧负责环境感知和预处理,边缘侧做决策,复杂的推理丢给云端的星火 X2。GlassClaw 基于讯飞自研的 Agent 能力,同时也支持 OpenClaw 等第三方 Agent 接入。

王玮的判断是,未来的眼镜不再只是很简单的一副眼镜,而是你穿戴最方便的一个随身助理

市场上单做翻译或单做 AI 助手的产品不少,但把「翻译 + 记录 + 纪要 + 跨端执行」串成顺滑的工作流,需要语音、翻译、大模型、智能体(Agent)四种底层能力同时在线,且环环相扣

讯飞这种全栈的技术能力,恰好在眼镜这个载体上找到了合适的闭环。

AI 眼镜的下半场,拼的是什么

过去两年,AI 浪潮裹挟着整个硬件行业寻找那个所谓的「Next Gen」入口。

AI Pin 翻车了,各种智能吊坠无疾而终,虽然 AI 硬件的产品形态和技术路线各异,但行业也逐渐形成一些共识: AI 需要眼睛,它必须能实时感知人类所处的三维物理世界。

AI 眼镜未必不是最终形态,但它是目前唯一能够全天候、第一视角承载视觉与听觉输入的形态。

王玮在采访里提到一个挺有意思的预判:「未来的数字生活三件套,大概率是电脑、手机和眼镜。眼镜不是手机的配件,它自己就是一台架在鼻梁上的独立主机。」

眼镜天然适合做连接物理世界和数字世界的设备。而且硬件本身还有很长的迭代空间:显示会从单色走向全彩、从 2K 走向 4K;摄像头和麦克风还会向 AI 原生的 token 编码方式升级。王玮说这些技术路径已经开始有比较明晰的发展方向了。

林会杰透露,讯飞的第二代 AI 眼镜已经在规划中,最快 2026 年秋季能看到,面向更多不同人群,也在摸索一些细分的垂直场景。

过去一年 APPSO 测过、写过不少 AI 眼镜。回头看百镜大战,行业其实已经分化出了两条不同的路:

一条是「做最好的眼镜,让 AI 成为加分项」。 Meta Ray-Ban 是这个逻辑:用时尚设计和品牌文化来对冲用户对 AI 能力的低频刚需。

另一条是「做更深的 AI 工作流,让眼镜成为新的电脑」。 讯飞选择的就是这条路。两条路指向不同的竞争维度,但后一条更难走,因为它要求你同时具备硬件工程能力和 AI 全栈能力,缺一不可。

AI 眼镜的下半场,真正的分水岭在于,谁能把 AI 揉进高度细分的真实场景里,替用户把一件件琐碎任务给办了。

让眼镜回归眼镜, AI 老老实实当「牛马」。

最后能留下来的设备,我想大概是这样的:当你摘下它的时候,会突然觉得眼前的世界变得沉重而低效。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

1999 元的 AI 眼镜,Meta 想让你像买墨镜一样买它

作者 肖钦鹏
2026年6月24日 18:36

6 月 23 日,Meta 发布了三款以 Meta 自有品牌命名的智能眼镜——分别是 Adventurer、Fury,以及与美国红人 Kylie Jenner 联名的 Starfire。

前两款定价 299 美元,约合人民币 1999 元;Starfire 联名款 399 美元,约合人民币 2700 元。

这个价格比去年发布的第二代 Ray-Ban Meta 便宜 80 美元,比今年 3 月推出的 Ray-Ban Meta Optics 便宜整整 200 美元。更关键的是,这是 Meta 第一次不借 Ray-Ban 或 Oakley 的牌子,直接用自己的名字卖眼镜。

1999 元的 Meta AI 眼镜,会是年轻人的第一副 AI 眼镜吗?

更便宜,更好用

这次的三款 Meta AI 眼镜,依然是 Meta 跟依视路 EssilorLuxottica 联合开发,只不过 Meta 觉得,与其冠以 EssilorLuxottica 旗下的中低端眼镜品牌,还不如 Meta 自己的品牌来得有号召力。

这几款 Meta 眼镜都首发搭载了 Muse Spark,这是 Meta 超级智能实验室最新的多模态大模型。之前的 Ray-Ban Meta 和 Oakley Meta,未来通过 OTA 更新也能用上——可以说,这三款更便宜的产品,反而先用上了更好的大模型。

硬件规格也是拉满:1200 万像素的摄像头,支持 3K 视频录制,6 颗麦克风阵列——比上一代产品还多了一颗。续航 8 小时以上,随机附带的充电盒还能额外提供 40 小时电量。

值得一提的是,这个盒子采用了可折叠设计,塞进口袋或包里不占地方,非常实用。

新功能 Dynamic Photo 会在你按下快门时连拍多帧,然后推荐最好的一张。

在新的多模态大模型的支持下,Meta 眼镜将会支持步行场景的逐向语音导航——也就是说,人在走路时,导航会像车载导航一样,一步一步用语音告诉你接下来怎么走。对一副没有屏幕的眼镜来说,是个相当聪明的设计。

此外,支持 20 种语言的实时翻译功能也在路上,包括日语、韩语和普通话——The Verge 的编辑实测后表示,普通话的翻译还蛮准确的。

外观上,三款造型覆盖了不同的审美:

Adventurer 是经典方框,有标准和大号两个尺寸;

Fury 更粗犷,线条更有存在感;

Kylie Jenner 的 Starfire 是细椭圆框,镜片上还嵌了一颗小宝石,金属鼻托据说是为了不吸附粉底液专门设计的;

配色方面,提供了赛车绿、砂岩色、玳瑁色等选项,加上透明、偏光、变色三种镜片,可以组合出 26 种搭配。

还有几个设计细节值得注意:

这次的鼻托支持三档宽度手动调节,镜腿末端还内置金属芯线,可以向内或向外掰来贴合脸型。铰链做了过度展开设计,头大的用户镜腿会自然外撇一点,并支持处方镜片,度数范围覆盖 -12 到 +2.25。

这些都是 EssilorLuxottica 做了几十年眼镜积累下来的工艺经验,这次 Meta 眼镜的制造商和渠道经销商,依然是这家全球最大的眼镜集团,在 LensCrafters 和 Sunglass Hut 都能买到新款的 Meta 眼镜——可以说,Meta 将过去这么多年在 AI 眼镜上的积累,都带到了这几款新品上。

与之前的 Meta 联名眼镜相比,新的 Meta 自有品牌眼镜,更便宜,也更好用。

他们真正在改造的品类,是墨镜

这算背刺老用户吗?

似乎也并不是——毕竟,之前掏出 499 美元买 Meta 眼镜的用户,有一半是冲着 Ray-Ban、Oakley 的品牌去的,而新款眼镜的大部分 AI 功能,旧款眼镜也可以通过软件 OTA 获得。

事实上,过去几年,Meta 在智能眼镜上做的所有尝试,本质上都在解决同一个问题:怎么让人愿意把一个电子设备戴在脸上。

跟 Ray-Ban 合作的方框眼镜,是借经典设计解决智能眼镜「不好看」的问题。

跟 Oakley 合作的滑雪镜,则是用运动品牌的基因寻找「戴出去」的理由。

Ray-Ban Meta

最底层的逻辑,都是找一个消费者信任的时尚品牌来担保,先让人接受「它是好看的」,再让人接受「它是智能的」。

这个路线确实管用——Meta 官方数据显示,智能眼镜销量去年翻了三倍,已经累计卖出了 900 万副 AI 眼镜。

但 900 万副智能眼镜,加起来还没有 iPhone 一个季度卖得多。

2025 年下半年全球智能眼镜市场,自 Counterpoint Research 数据

智能手机每年出货超过 10 亿部,愿意花四五百美元——折合三四千人民币——买一副 Ray-Ban 或 Oakley 智能眼镜的人,终归是少数。

高端眼镜品牌的背书能解决「有没有人愿意买」的问题,但解决不了「大多数人买不起」的问题。

Meta 眼镜这次出手,就是为了把 AI 眼镜的价格打下来——事实上,这已经非常接近一副墨镜的价格区间。

想想你上一次买墨镜花了多少钱?

一副还不错的品牌墨镜,Ray-Ban 的经典款、Oakley 的运动款,大概也要花上 150 到 300 美元。墨镜不便宜,也不是全天候设备——显然,你不会在办公室里戴着它开会。

但无论我们戴不戴眼镜,大多数人都会至少有一副墨镜,合适的时候,就愿意戴上它出门。

花 1999 元,买一副墨镜的同时,还能兼顾拍照、听歌、AI,性价比一下子就凸显了出来。

这里有一个微妙的心理转换:当我花了更贵的价钱买一副 Ray-Ban Meta,我还是会留下买了一副「智能眼镜」的印象,我当然会用技术标准来考核它——AI 够不够聪明,摄像头够不够清晰,续航够不够长。

但当我花一副墨镜的钱,买了一副 AI 眼镜时,所有的智能,都成了高附加值的功能。

附加值——才是 1999 元的 AI 眼镜真正在卖的东西。在一个你本来就可能花这个钱买墨镜的价位上,你多获得了一整套的功能。

同样的预算,为什么不选那个能多干几件事的产品?

Meta 的这步棋,暗示了整个智能眼镜行业的变化——用低价格和高附加值,去占领「墨镜」这个品类。

Meta 瞄准的不再是智能眼镜这个小品类,而是墨镜这个大品类。

平时身上揣一副几百上千块墨镜的人,大有人在。这些人未必关心 AI,他们更关心墨镜好不好看、轻不轻、价格合不合适?

当一副智能眼镜在这三个维度上都能跟普通墨镜打平,还能提供更丰富的功能时,消费者自然会做出选择。

不只 Meta 一家看到了这个机会。

上个月,国产 AR 眼镜品牌 Xreal 推出了旗下第一个子品牌 xbx,主打年轻群体。首款产品 xbx a01 系列,国内售价 1699 元起。

这个产品的形态很有意思:它就是一副墨镜。

前框可拆卸,支持经典款、运动款、黑镜款等多种风格更换,甚至开放了 3D 打印参数让用户自己设计。

标准版重量 62 克,拆掉前框只有 56 克。

除此之外,xbx a01 还提供了最基础的 AR 显示体验——内置的屏幕峰值亮度有 1600 尼特,支持 120Hz 刷新率和 HDR10。由于墨镜天然自带遮光效果,这让 xbx 的显示体验有了先天优势。

Xreal 的策略很明确:设计、轻便、年轻化排在最前面,显示功能排在后面。

如果你冲着「AR 显示」去买它,你大概率觉得不够好。但如果你冲着「买一副好看的墨镜」去买它,附加的显示功能就变成了惊喜。

1999 元的 Meta 眼镜,1699 元的 xbx a01,这两款产品,一个做 AI,一个做 AR——尽管技术栈完全不同,但它们落地的方式却惊人地相似:做一副更好的墨镜,把智能功能变成附加值。

扎克伯格曾在年初时做出一个预测:

几年后,很难想象大多数眼镜不是 AI 眼镜。

当时,他没有做更多的解释。但刚刚发布的 Meta AI 眼镜,就是他给出的答案。

智能眼镜也许不是眼镜的替代品,而是眼镜本身。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌