Bendi新闻
>
大模型+智能眼镜,让失明人士也能无障碍阅读

大模型+智能眼镜,让失明人士也能无障碍阅读

夕小瑶科技说 原创
作者 | 墨墨

引言:大模型+智能眼镜,让失明人士也能无障碍阅读

你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢?

不是民科,也不是量子波动速读!借助大语言模型和智能眼镜,来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者,提出了一种无需视力也能阅读的辅助系统,帮助视力受损人群进行无障碍阅读。

视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在,其中老年人是主要的受影响群体。调研数据显示,超过40岁的人群中,大约有50%以上的人有不同程度的视力障碍问题。

2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内,视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高,加剧了这一问题,视障人士更难以在海量信息中寻找到自己需要的细节信息(例如阅读药物说明书以了解正确剂量)。

那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢?

下面让我们来看看这一研究的具体内容。

论文标题:
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

论文链接:
https://arxiv.org/pdf/2404.09254

系统设计:基于LLM的智能眼镜

作者认为,使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据,并根据上下文提供指导。提出的框架如下图所示。

围绕视障人士在餐厅点餐为例,作者对系统做出了如下设计:

(1) 图像获取

首先,实验让用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。

为了精确定位包含菜单信息的Aria录像帧,作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变,算法会选择菜单位于图片最中心的帧。下图中,左图是使用Aria录制的视频帧(菜单位于最中心的图被选中),右图是佩戴Aria设备的用户正在与菜单卡进行交互。

(2) 文本信息提取

获得菜单图像后,作者使用开源的OCR算法EasyOCR (https://github.com/JaidedAI/EasyOCR) 提取菜单中的文本。值得注意的是,此步骤需要确保不相关的文本被隔离开。随后,论文使用GPT4对这些文本做了进一步的处理,以构建文字版本的菜单信息。在这个步骤,LLM提高了数字化过程的速度和准确性,实现了从现实到数字领域的无缝过度。

(3) 用户界面

提取出菜单文本信息后,接下来用户就可以与眼镜进行交互了。出于演示目的,论文构建了一个简单的基于Gradio的聊天应用程序。作者提到,这个系统将在后续被改进为语音控制,让视障人士能够更方便的与智能眼镜进行交互。

这个聊天应用程序是使用GPT4开发的,并通过检索增强生成(RAG)的方法进行了增强。该方法分为两个步骤:首先,根据用户请求,从已知信息(从图像中提取的菜单,用户的口味偏好等)中检索到相关文本片段。随后,将这些相关文本片段和用户请求一起输入GPT4,以获取个性化的大模型响应。因此,系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。

实验:获取真实场景下用户的评价

设计了这套基于LLM的智能眼镜交互系统后,作者希望获取来自真实场景的用户评价,确认这套系统可以为视障人士带来帮助。

还是以辅助点餐场景为例,作者设置了包括四种不同语言的菜单,包含英语、意大利语、波兰语和希腊语,来确保系统能够克服可能存在的语言障碍。在这项研究中,四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同,并提供了他们不懂的语言的菜单。在所有场景下,系统都可以高精度的还原菜单项目(准确率96.77%)。同时,系统允许用户根据自身需求定制建议,例如事先将口味偏好、食物过敏信息录入系统。最后,每个参与者都被要求对他们与系统的交互进行评分,评分范围为 1 到 5,系统取得的平均评分为 4.87。

总结

这项研究提出了一个基于大语言模型的智能眼镜阅读助手,帮助视力受损人群阅读文本、互动和获取信息,并以此提高其生活独立性和舒适度。

研究通过使用智能眼镜中的嵌入式RGB摄像头,获取使用者视角的影像视频,再使用对象检测技术(Object Detection)和光学字符识别(OCR)对获取的视频进行处理。然后,通过大语言模型与用户进行交互,处理给定的用户请求。

最后,在真实生活场景中,研究者获取了所有参与者满意的评价,验证了系统可以作为主动辅助生活(Active Assisted Living,AAL)的一种解决方案。

研究旨在帮助视力受损人群自主生活,更少的依赖外界,从而给视障人士提供更高的生活质量。期待在未来,视力障碍将不再成为人们生活与社交的阻碍。

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024港大发布XRec:首个让推荐系统「会说话」的智能大模型CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型让智能设备更懂你,主动式AI正在崛起 | 大模型一周大事小红书让智能体们吵起来了!联合复旦推出大模型专属群聊工具中移智库;2024年弈衡人工智能大模型评测平台白皮书不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight从“百模”到“千体”:大模型智能体的竞争格局、商业模式和技术挑战让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机吴恩达:四个步骤,让大模型变得更好智能体技术发展趋势:李鹏谈大模型智能体与开放领域融合大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司246篇文献!参数高效微调最新综述发布,让大模型不再「巨无霸」让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述Meta最新进展!“超级外挂”RAG如何让大模型不再胡说八道?给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力微软亚研院新作:让大模型一口气调用数百万个API!EmbodiedGPT一作穆尧:具身智能大模型与通用机器人系统 | GenAICon 2024中国工业互联网研究院:人工智能大模型工业应用准确性测评报告三行命令,大模型让 Excel 直接回答问题复旦大学最新研究:如何让大模型敢回答“我不知道”?今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。