Bendi新闻
>
彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
3月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024 论文链接:https://arxiv.org/abs/2307.11772 代码链接:https://github.com/ruizhang-ai/AutoAlign
用于将谓词(predicate)对齐的谓词嵌入模块(Predicate Embedding Module)。 用于将实体(entity)对齐的实体嵌入学习部分,包括两个模块:属性嵌入模块 (Attribute Embedding Module)和结构嵌入模块(Structure Embedding Module)。
实体类型提取:研究团队通过获取每个实体在知识图谱中的rdfs:type谓词的值来提取实体类型。通常,每个实体有多个类型。例如,德国(Germany)实体在知识图谱中可能有多个类型,如“thing”、“place”、“location”和“country”。在谓词邻近图中,他们用一组实体类型替换每个三元组的头实体和尾实体。 类型对齐:由于不同知识图谱中的实体类型可能使用不同的表面形式(例如,“person”和“people”),研究团队需要对齐这些类型。为此,研究团队利用最新的大语言模型(如ChatGPT和Claude)来自动对齐这些类型。例如,研究团队可以使用Claude2来识别两个知识图谱中相似的类型对,然后将所有相似类型对齐为统一的表示形式。为此,研究团队设计了一套自动化提示词(prompt),能够根据不同的知识图谱进行自动化对齐词的获取。
属性嵌入学习:属性嵌入模块通过编码属性值的字符序列来建立头实体和属性值之间的关系。研究团队提出了三种组合函数来编码属性值:求和组合函数、基于LSTM的组合函数和基于N-gram的组合函数。通过这些函数,我们能够捕捉属性值之间的相似性,从而使得两个知识图谱中的实体属性可以对齐。 结构嵌入学习:结构嵌入模块基于TransE方法进行了改进,通过赋予不同邻居不同的权重来学习实体的嵌入。已对齐的谓词和隐含对齐的谓词将获得更高的权重,而未对齐的谓词则被视为噪声。通过这种方式,结构嵌入模块能够更有效地从已对齐的三元组中学习。 联合训练:谓词嵌入模块、属性嵌入模块和结构嵌入模块这三个模块可以进行交替训练,通过交替学习的方式互相影响,通过优化嵌入使其在各个结构的表示中达到整体最优。训练完成后,研究团队获得了实体(entity)、谓词(predicate)、属性(attribute)和类型(type)的嵌入表示。最后,我们通过对比两个知识图谱中的实体相似性(如cosine similarity),找到相似性高的实体对(需要高于一个阈值)来进行实体对齐。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐30%参数达到92%的表现,大模型稀疏化方法显神通今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现图解大模型推理优化之KV Cache港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐Nature子刊 | 基于内生复杂性,自动化所新类脑网络构筑人工智能与神经科科学的桥梁大模型“挣钱”新方法!用GPT-4优化众筹文稿,提高筹款成功率11.9%!暑假“弯道超车”!如何冲刺标化让你的美本申请更顺利?向用不起的AI宣战!宇视掀起“装备大模型化”变革2024傅盛开年大课:企业“私有化大模型的时代”来了?阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024Kimi连续宕机打醒巨头!阿里百度360连夜出手长文本,大模型商业化厮杀开始了北大等提出MoE-LLaVA:将多模态大模型稀疏化将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B这款自动化工具,让广告投放从「玄学」变成「科学」性能优化|几个方法让图片加载更快一些教育科技风向标!猿力科技亮相WAIC 2024,自研教育大模型全面产品化落地万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化大模型应用商业化落地关键:给企业带来真实的业务价值SAT考位全面开放!大学恢复标化成绩要求,对中国学生是好是坏最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon