Bendi新闻
>
大模型+智能眼镜,让失明人士也能无障碍阅读

大模型+智能眼镜,让失明人士也能无障碍阅读

夕小瑶科技说 原创
作者 | 墨墨

引言:大模型+智能眼镜,让失明人士也能无障碍阅读

你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢?

不是民科,也不是量子波动速读!借助大语言模型和智能眼镜,来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者,提出了一种无需视力也能阅读的辅助系统,帮助视力受损人群进行无障碍阅读。

视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在,其中老年人是主要的受影响群体。调研数据显示,超过40岁的人群中,大约有50%以上的人有不同程度的视力障碍问题。

2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内,视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高,加剧了这一问题,视障人士更难以在海量信息中寻找到自己需要的细节信息(例如阅读药物说明书以了解正确剂量)。

那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢?

下面让我们来看看这一研究的具体内容。

论文标题:
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

论文链接:
https://arxiv.org/pdf/2404.09254

系统设计:基于LLM的智能眼镜

作者认为,使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据,并根据上下文提供指导。提出的框架如下图所示。

围绕视障人士在餐厅点餐为例,作者对系统做出了如下设计:

(1) 图像获取

首先,实验让用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。

为了精确定位包含菜单信息的Aria录像帧,作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变,算法会选择菜单位于图片最中心的帧。下图中,左图是使用Aria录制的视频帧(菜单位于最中心的图被选中),右图是佩戴Aria设备的用户正在与菜单卡进行交互。

(2) 文本信息提取

获得菜单图像后,作者使用开源的OCR算法EasyOCR (https://github.com/JaidedAI/EasyOCR) 提取菜单中的文本。值得注意的是,此步骤需要确保不相关的文本被隔离开。随后,论文使用GPT4对这些文本做了进一步的处理,以构建文字版本的菜单信息。在这个步骤,LLM提高了数字化过程的速度和准确性,实现了从现实到数字领域的无缝过度。

(3) 用户界面

提取出菜单文本信息后,接下来用户就可以与眼镜进行交互了。出于演示目的,论文构建了一个简单的基于Gradio的聊天应用程序。作者提到,这个系统将在后续被改进为语音控制,让视障人士能够更方便的与智能眼镜进行交互。

这个聊天应用程序是使用GPT4开发的,并通过检索增强生成(RAG)的方法进行了增强。该方法分为两个步骤:首先,根据用户请求,从已知信息(从图像中提取的菜单,用户的口味偏好等)中检索到相关文本片段。随后,将这些相关文本片段和用户请求一起输入GPT4,以获取个性化的大模型响应。因此,系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。

实验:获取真实场景下用户的评价

设计了这套基于LLM的智能眼镜交互系统后,作者希望获取来自真实场景的用户评价,确认这套系统可以为视障人士带来帮助。

还是以辅助点餐场景为例,作者设置了包括四种不同语言的菜单,包含英语、意大利语、波兰语和希腊语,来确保系统能够克服可能存在的语言障碍。在这项研究中,四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同,并提供了他们不懂的语言的菜单。在所有场景下,系统都可以高精度的还原菜单项目(准确率96.77%)。同时,系统允许用户根据自身需求定制建议,例如事先将口味偏好、食物过敏信息录入系统。最后,每个参与者都被要求对他们与系统的交互进行评分,评分范围为 1 到 5,系统取得的平均评分为 4.87。

总结

这项研究提出了一个基于大语言模型的智能眼镜阅读助手,帮助视力受损人群阅读文本、互动和获取信息,并以此提高其生活独立性和舒适度。

研究通过使用智能眼镜中的嵌入式RGB摄像头,获取使用者视角的影像视频,再使用对象检测技术(Object Detection)和光学字符识别(OCR)对获取的视频进行处理。然后,通过大语言模型与用户进行交互,处理给定的用户请求。

最后,在真实生活场景中,研究者获取了所有参与者满意的评价,验证了系统可以作为主动辅助生活(Active Assisted Living,AAL)的一种解决方案。

研究旨在帮助视力受损人群自主生活,更少的依赖外界,从而给视障人士提供更高的生活质量。期待在未来,视力障碍将不再成为人们生活与社交的阻碍。

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意这个大模型,真的治好了我的论文阅读障碍扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024港大发布XRec:首个让推荐系统「会说话」的智能大模型小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型让智能设备更懂你,主动式AI正在崛起 | 大模型一周大事小红书让智能体们吵起来了!联合复旦推出大模型专属群聊工具ECCV 2024:北大提出多模态提示学习:让大模型更懂人类在做什么!首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了中国中小企业服务网正式开通 黑马天启人工智能大模型提供政策智能服务和AI数字人政策智能专家服务彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了!上海AI lab开源LLaMAX,用3.5万小时的A100训练让大模型掌握上百种语言翻译抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法ACM SIGSPATIAL中国分会:空间数据智能大模型研究-2024年中国空间数据智能战略发展白皮书(117页)中国互联网30年:站在与人工智能大模型交汇的十字路口贾佳亚团队新作:10k数据让大模型数学能力超GPT-4中移智库;2024年弈衡人工智能大模型评测平台白皮书不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。