Bendi新闻
>
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
11月前
新智元报道
新智元报道
【新智元导读】Sam Altman认为AGI很快就会降临,但若是没有感官兼备的AI何以称为智能?最近,UCLA等机构研究人员提出多模态具身智能大模型MultiPLY,AI可以知冷知热、辨音识物。
多感官大模型
Multisensory-Universe数据集
向3D场景中添加互动对象
主要来源有:
ObjectFolder,包含了1000个对象模型,这些对象的撞击声效被储存在隐式神经场中,并且还标注了对象的材质; Objaverse,是一个涵盖了丰富类别的800,000个三维对象的集合。
挑选一些外观相似的对象。比如,选两个外形相似的瓶子,其中一个是塑料的,另一个是金属的。这样,就需要通过不同的传感器收集信息来消除歧义。 挑选那些与环境匹配、并可以组合使用完成任务的对象。例如,在厨房环境中,可以选择食材和烹饪工具。
获取新物体的传感器数据
智能体采集场景构建数据
MultiPLY架构
以对象为中心的场景表征
动作token
状态token
训练与推理
实验结果
对象检索
工具使用
多感官标注
任务分解
定性实验
作者介绍
其所需关键要素包括:
- 构建三维世界的模型;
- 发展大规模具身基础模型;
微信扫码关注该文公众号作者
来源:新智元
相关新闻
今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑AI早知道|AI首次拥有类人感官;Adobe发布视频模型;三星Galaxy AI两年内将开启付费斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司赋予机器人思考能力!北大提出自纠正多模态大模型,赋能端到端机器人操作面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!鲶鱼效应显著!Sora 发布满月,多模态领域成果丰硕 | 大模型一周大事阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会中国移动千亿多模态大模型发布,「九天-九九」风趣畅聊堪比GPT-4o未央播报 | 央行进一步推动优化支付服务工作 OpenAI发布多模态大模型GPT-4o第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G浙江大学发布全能多模态大模型OmniBind,刷榜13大benchmark零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR多模态大模型,爆了!网友:YYDS!