Bendi新闻
>
“天猫精灵之父”创业打造「鼻尖上的GPT」,扫射豆包、Kimi盲区

“天猫精灵之父”创业打造「鼻尖上的GPT」,扫射豆包、Kimi盲区

5月前

Meta苹果看中的新赛道,“天猫精灵之父”已带领国产抢跑。
作者 |  三北
编辑 |  漠影
拥有一款“鼻尖上的GPT”是一种什么体验?
近期,杭州李未可科技公司推出了首款AI眼镜Chat,支持用户通过语音与眼镜中的智能助手进行交互,比如答疑解惑、日程安排、语音导航、英语翻译等,都不在话下。
同时,这款AI眼镜背后的多模态AI大模型平台WAKE-AI也随之开放。据悉,这是国内首个面向AI眼镜等可穿戴设备的大模型平台,既支持李未可科技内部团队做开发,同时也为广大AI开发者伙伴提供技术共享。
当下,市面上已经有豆包、Kimi等多款支持大模型语音交互的平台,但它们大多以匹配PC、手机为主;WAKE-AI则率先切入AI眼镜这一新形态,试图为用户带来更自然的交互、更人性化的陪伴、更场景化的精准服务
李未可科技创立于2021年10月,创立之初便聚焦“AI+AR”眼镜赛道,公司成立仅三个月便拿下字节跳动的融资,其创始人茹忆曾是阿里AI实验室智能终端负责人、天猫精灵硬件&产品总经理,也是这波大模型浪潮中最具代表性的创业者之一。

▲李未可科技创始人兼CEO茹忆

当下,随着Ai Pin、Rabbit R1AI新硬件产品在国外崭露头角,掀起大模型智能终端的新风口,国内“天猫精灵之父”带队的新锐团队也交出了答卷,成为智能硬件产业关注的一个焦点。
AI智能眼镜是否会成为一种主流的AI新硬件?面向“AI+终端”的多模态AI大模型平台WAKE-AI有什么过人之处?通过对话李未可科技创始人兼CEO茹忆、AI首席架构师庄博宇,本文对此进行了深入探讨。

01.
在豆包、Kimi的射程盲区
打造“鼻尖上的GPT”陪伴助手


尽管豆包、Kimi等各种大模型App风靡手机端,但它们却迟迟未攻入智能眼镜等可穿戴设备。
背后的一大“拦路虎”是时延问题。庄博宇告诉智东西,用户在眼镜上对机器时延的容忍度比在手机上更低,1.8秒是一个容忍时间,如果超过这个时间点,用户就会感到交互不流畅自然。然而,包括豆包等市面上的多个大模型落地眼镜都需要5秒左右。
为此,李未可科技自研了WAKE-AI大模型平台,试图为用户打造一个随叫随到的“鼻尖上的GPT”陪伴助手。
据悉,该平台专门面向可穿戴设备等终端优化研发,能在500毫秒内快速精准地识别用户指令,且将大模型实时回答反馈控制在2秒左右,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。
从体验来说,这意味着用户将可以在AI智能眼镜上享受到自然流畅的AI交互,比如让眼镜搜索新闻、导航目的地或增加日程,都不会太费功夫。AI智能眼镜可能取代手机的部分功能,让用户真正体验到AI融入生活。
技术的一小步,用户体验的一大步”茹忆说。从2016年3月阿尔法狗打败李世石到2022年的12月份ChatGPT 发布,中间经历了六年六个月时间,AI算法架构从CNN、BERT改进到Transformer,模型参数扩展带来智能涌现,茹忆对此感到很兴奋,认为这将为语音交互体验带来巨大提升
与在上一波AI浪潮中押准智能音箱风口不同,这一次,茹忆认为,眼镜将成为AI落地的最佳载体之一。这与Meta首席科学家、图灵奖得主杨立昆的观点不谋而合,杨立昆在前不久也曾提到:“通过智能眼镜访问的AI助手是未来的趋势。

面向这一趋势,李未可科技近期推出的AI智能眼镜Chat是其小试牛刀之作。
以低至699元的价格让用户低门槛地迈入AI体验大门,Chat可以说非常亲民。这款AI眼镜的外形与日常佩戴的眼镜几乎没有差异,但简约却不简单,一个贴身陪伴助手的雏形已经出现。


02.
自研WAKE-AI大模型平台
三大技术护城河打造交互新体验


可以预测,大模型未来将重新定义智能眼镜等可穿戴设备。可穿戴设备将不再只是工具,而是好像有一个真人助理在用户旁边,或者一个虚拟人在用户鼻尖上的眼镜里,帮用户解决各种复杂的问题。
WAKE-AI大模型平台推出的意义,则是将大模型运用到AI硬件设备上的诸多畅想落地实际,不仅实现更自然的交互,还带来更人性化的陪伴,更精准的服务。
那么从技术角度来看,WAKE-AI大模型平台究竟有什么过人之处?
据悉,李未可科技通过三种方式提升WAKE-AI大模型平台的效果:
第一,使用定向优化的分发大模型,帮助AI助手能快速地分发用户的指令,打造更自然的交互。
第二,基于情感大模型,使用户和设备产生深度信任,让AI助手形成更有温度的陪伴。
第三,针对室外场景需要大量的数据,使用多模态的VQA(视觉问答)模型,让用户可以指哪问哪,获得更精准的服务。
1、分发大模型+Agent,让交互更自然
作为一款C端产品,AI智能眼镜的交互体验被李未可科技放在首位。WAKE-AI大模型平台能提供更丰富的交互功能,同时耗时比同行更低。
庄博宇谈道,比如当用户与豆包语音聊天,往往需要2秒才能完成语音交互,时间主要花在语音与文本相互转化及大模型推理上。但这一交互体验仅限于聊天,而不能执行网络搜索、导航等更复杂的任务。
但是,基于WAKE-AI大模型平台,用户在AI智能眼镜上调用大模型的时延大大降低,一般对话时延控制在1.8秒左右、2秒以内;同时,用户还可以体验主动搜索、语音导航、眼镜操控等多样化的功能,复杂的交互反应也能缩短至3-5秒。
背后,李未可科技团队使用分发大模型,通过语音输入来快速分发用户意图,为用户提供反馈;同时,大模型支持不同的AI Agent的能力,能快速执行用户的导航、买票、备忘录等可能存在的刚需意图。

此外,团队也在降噪技术、收音、ASR(自动语音识别)技术等方面也做了大量优化,从而使得用户能与智能助手更丝滑地进行交互。
2、情感大模型+超拟人TTS,让陪伴更人性化
茹忆和庄博宇都提到了《她》(Her)这部科幻电影,片中的机器人由于与主人公建立了情感连接,从而能进行更有深度的聊天和陪伴,这是李未可科技希望打造的智能助手的一个理想形态。
基于这样的愿景,李未可科技与市面上同行的一大差异化是做情感搭配
为了让AI眼镜产品具备更拟人化的特征,李未可科技团队一是基于情感大模型研发了长记忆系统情感类的Agent,二是打磨了拟人化的TTS(文本转语音)技术,以此打造用户能够天天使用AI智能眼镜的核心基础

在情感大模型方面,对标国内外的Claude等相关模型,庄博宇及其团队发现了一个行业核心的问题:大模型的记忆力是有上限的,不利于长时间陪伴用户。
为此,李未可科技团队通过核心记忆长期记忆,不断更新用户的画像,从而使得智能助手在对话中能够更充分地理解用户想要什么,更懂用户
而在打造拟人化的语气方面,目前市面上能上线情感表述的文本转语音TTS能力的厂家并不多,因为它有一个延时的考量,AI抽取、理解和表述会耗费大量的时间,所以速度上面需要优化;第二是成本上的优化,比如豆包虽然在App上能够提供情感表达,但它并没有把这个API能力开放出来,智能终端厂商无法获取。
但是,李未可科技率先将超拟人TTS上线,把它轻量化到时延和成本都可承受的范围,然后开放出来,供自己的团队和合作伙伴使用。
3、多模态+LBS能力,让服务更精准
多模态大模型+LBS(基于位置的服务)会产生什么样的化学反应?
李未可科技已经找到了验证场景。Citywalk(城市漫步)是当下备受年轻人青睐的室外项目,多模态大模型可以让Citywalk的人做到“指哪儿问哪儿”,比如指着岳王庙里的碑问“碑上写的到底是什么”,一套精准的智能导览服务就诞生了。
据悉,李未可科技已经打造了“旅游助手+城市漫游系统”,核心是数据内容,以景区作为核心供给,现在大概有2000多个景区数据。
结合这些景区数据,团队已经打造了景点游玩导览、自动巡航系统、地点弹幕等多个服务,而多模态大模型的加持则让“指哪儿问哪儿”、自动生成路线、自动生成游记等更多丰富功能涌现,从而为用户提供更精准的服务。

庄博宇告诉智东西,大模型使得原本碎片化的场景走向大一统,从而使精准服务的成本大大降低。一方面,WAKE-AI大模型可以更好地理解和消化海量的景区数据,另一方面,Agent可以对数据进行更加自动化地处理,这使得团队能够在精准度和信息数量基础上提供更好的服务。
可以看到,通过从模型了解意图、搜索资料、转化风格、分析情绪、转化声音的各个环节去做优化,李未可科技试图打造交互更自然、陪伴更人性化和服务更精准的AI眼镜设备,从而交出其大模型应用创业的“答卷”。

03.
Meta苹果看中的新赛道
“天猫精灵之父”带领国产抢跑


当下,已经有不少大厂盯上了“AI+AR”眼镜赛道。比如Meta与雷朋合作的AI智能眼镜已经在测试多模态大模型,并在近期宣布将推出首副“AI+AR”眼镜;苹果近期也传出正研究端侧大模型,可能将落地Vision Pro……
与此同时,也有一些知名企业似乎在抽火。比如近期OPPO被传出了暂停XR探索,相关人员将转向AI设备方向的开发,或许意味着其“AI+XR”眼镜业务踩下了刹车。
对此,茹忆认为这是由于产业发展仍处于初级阶段,大家还未形成共识。这就考验创业者对事情的认知,以及如何与自身优势做结合。
站在李未可科技的角度来看,“AI+AR”眼镜的发展已经处于一个临界点,即将突破用户体验差,为此团队进行了积极布局。
李未可科技打法的一大特点是不强行创造出一种产品形态,而是在已存在的产品上进行AI升级,从而在存量市场基础上拓展出新的增量市场。根据知名数据分析机构Statista数据,2023年全球眼镜市场总规模超1400亿美元,2015-2025年全球眼镜市场规模从1183 亿美元提升至1552亿美元
“未来我们的眼镜都会智能化,就像手表智能化一样。”茹忆说,“它的标志是体验成本大大降低,用户买一副AI智能眼镜和买一副传统眼镜价格也差不多,那为什么不买一个AI智能眼镜?现在手表就是这样。”
AI智能眼镜市场的发展壮大需要生态共融。目前,李未可科技已经将WAKE-AI大模型平台面向伙伴开放,与伙伴一起来建设AR眼镜+AI能力、在室外等多个场景的生态。


04.
结语:大模型卷入设备端
AI智能眼镜或成室外最佳载体


当下,大模型加速落地端侧,我们可以看到AI PC、AI手机、AI智能眼镜以及各色的AI新硬件如雨后春笋般冒了出来。凭借便携、可扩展等多重优势,眼镜或许成为大模型在室外落地的一大最佳载体。
现阶段大模型在端侧落地应用仍处于初级阶段。可以预测,未来云边端异构架构将发展得更加庞杂,同时多模态交互变得更加丰富,这对速度、性能和成本的平衡会提出新的要求,也将成为AI硬件赛道玩家需要直面的新挑战。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)


微信扫码关注该文公众号作者

来源:智东西

相关新闻

天才科学“玩”家、信息论之父的游戏人生手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态定了!包邮区“超级地铁”逐步修建!说走就走的水乡古镇之旅不再是梦!Go语言之父反思错误:“并发”理念指导不足、没做好包管理、用C写了编译器、文档缺失……药盒上常见的“OTC”是哪3个单词?竟然这么简单?medicine、pill、drug的区别又是什么呢上百人死伤!俄外交部:是血腥的恐怖袭击!“伊斯兰国”宣称负责!枪手冲入开枪扫射,投手榴弹或燃烧弹,遇袭音乐厅起火、顶部坍塌网暴下的“胖猫之死”,没有赢家GMV双位数增长 淘宝天猫的“回归用户”奏效了“胖猫之死”的B面真相,和刘学州一样“胖猫之死”的最大绝望,是“所有生门皆死门”!5月最新活动预告 | 专为产品经理、运营打造的“AI+”直播、沙龙、峰会来了!“天选之人”的10大特征:情感不顺,但大器晚成山东人饭桌上的“调味之王”,何以赢得全国人的胃?拍下苹果 Vision Pro 最美 X 光图的公司,「iPod 之父」也有投资太可怜了!美国小夫妻买奶粉突遭“十几枪扫射”,车上3个月男婴胸口中弹(图)70年前的阿兰·图灵情书!计算机之父和一段「有罪」的罗曼史【荐】一眼惊艳的“纸上艺术之旅”,值得一生反复翻阅奥本海默,被谁摧毁的美国“原子弹之父”?“盲开”湾区Cupertino的日料Gochi,结果非常惊喜!重磅!“中国新冠疫苗之父”、国药首席科学家杨晓明,涉嫌严重违纪违法被查!【官方确认】“中国新冠疫苗之父”、国药首席科学家杨晓明被抓很难不心动啊​!李小龙穿它拍电影,不亏是“跑鞋之父”,太舒服、太好穿了!100岁的华裔首富:“香格里拉之父”出手伦敦豪宅奥运跑道上被扔钉子,“革命老区”的反奥运人士还在持续抗争……
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。