Bendi新闻
>
蚂蚁智能可观测 Mpilot Al 助手落地实践

蚂蚁智能可观测 Mpilot Al 助手落地实践

6月前

作者 | 陈真(孜重)
在数字化浪潮的推动下,AI 技术正以前所未有的速度渗透到各行各业,成为推动社会进步的重要力量,并同步革新企业组织模式,以此催化企业实现从技术、产品到组织的全方位立体化的转型升级。AI 将如何重塑现有的生产关系?我们又需要如何利用 AI 技术在现有的业务环节提高效率?

近日,QCon 在北京国测国际会议会展中心举办了“QCon 全球软件开发大会暨智能软件开发生态展”,各行各业的技术负责人在大会上分享实践洞见与深度经验,在这个汇聚了众多行业专家和前沿技术的平台上,蚂蚁集团的智能可观测平台负责人陈真(孜重),以蚂蚁智能可观测 Mpilot AI 助手落地实践为主题,分享了生成式 AI 在可观测领域的应用。

智能提效:生成式 AI ✖️ 蚂蚁智能可观测平台

产品 AI 化趋势不可避免,蚂蚁集团的智能可观测平台作为技术革新的前沿阵地,很早就开始思考生成式 AI 在可观测领域有哪些应用?可观测性加上生成式 AI 究竟能给我们带来什么?

陈真认为,生成式 AI 主要能从以下三个方面给可观测产品带来较大的提升:

  1. 从 GUI(图形用户界面)到 LUI(对话驱动),通过对话与数据交互。

  2. 优化流程,提高稳定性,比如可以利用可观测性平台进行故障恢复定位和界定。

  3. 降低门槛,由于我们的业务越来越复杂,多元用工的层面也会随之出现,让非专业人士也能参与到运维中来。

蚂蚁的可观测性平台其业务涵盖两大核心部分:Antmonitor 和 HoloInsight。Antmonitor 作为集团内部的可观测产品,主要针对内部规模化复杂运维场景,处理百万级容器和每分钟数十 TB 的数据量。而 HoloInsight 则是近两年孵化的新产品,它轻量化、多样化,旨在服务于蚂蚁生态及开源社区,特别适用于出海业务、小站点业务和支付宝小程序云等生态业务。

图片面对业务的快速发展和技术的不断演进,蚂蚁可观测平台遇到了一系列挑战。其中包括模型推理能力的限制、输入限制以及多模态数据处理能力不足等。为了解决这些问题,团队采取了专注于核心场景的策略,并采用单场景模式进行深入探索,有效提升了错误日志分析、时序数据获取和告警处理的效率。

Mpilot 技术:智能观测的实践与应用

Mpilot 是蚂蚁智能可观测平台的关键组成部分,它结合了生成式 AI 技术,通过三个主要的助手 agent——时序助手、日志助手和告警助手——来提供服务。这些助手基于蚂蚁内部的百灵大模型和 向量数据库 运行,旨在将智能助手嵌入到用户的工作流中,提升效率。

Mpilot 的技术架构包括 Antmonitor、MaaS 函数插件服务和 Ceresdb 时序存储等组件的协同工作,为智能告警和故障恢复提供了强有力的支持。Mpilot 的技术架构由以下几个关键组成部分构成:

  1. 时序助手:专注于监控指标分析,它通过一个定制的 SQL 模型,允许用户以自然语言的方式查询和分析时序数据。这个模型经过大量内部数据集和业界标准数据集的训练,能够理解和执行复杂的查询需求。

  2. 日志助手:提供应用错误日志的解读,它基于蚂蚁内部的日志数据和外部数据集,通过 SFT(Supervised Fine-Tuning)微调得到大模型,帮助快速定位和解决问题。

  3. 告警助手:结合智能规则和大模型处理,优化告警流程,减少人工干预,提升告警处理的效率和准确性。

  4. 4.LLM + 向量数据库:利用大型语言模型(LLM)和向量数据库(向量数据库)的结合,Mpilot 能够处理复杂的数据检索和生成任务,提供精准的数据分析和预测。

  5. MaaS 函数插件服务:作为工具智能体的角色,提供了一系列的原子级工具能力,如 FullGC 处理、Dump 分析等,通过 API 调用简化了运维操作。

Mpilot 的应用场景覆盖了智能观测的多个方面:

  1. 故障排查:用户可以通过对话方式快速获取故障信息和解决方案,Mpilot 能够解析错误日志并提供综合解读,包括错误原因、处理手段和代码定位。

  2. 性能优化:在性能问题上,Mpilot 能够分析时序数据,帮助用户识别性能瓶颈,如 CPU 利用率的异常峰值,并提供优化建议。

  3. 业务决策支持:通过分析业务指标,Mpilot 能够辅助业务决策,例如通过用户在客户端的行为数据来优化产品体验。

  4. 自动化运维:结合 MaaS 平台的插件服务,Mpilot 能够实现自动化运维任务,如在检测到特定错误模式时自动重启服务。

通过 Mpilot 的不断迭代和优化,蚂蚁集团的智能可观测平台将更好地服务于内部和外部的业务需求,推动智能运维向更高水平发展。

HoloInsight 开源产品:技术共享与生态构建

HoloInsight 是蚂蚁集团推出的一款全功能的开源可观测性产品,它集数据采集、洞察分析、智能运维于一体。

HoloInsight 的设计理念是服务于小站点和生态场景,特别适用于支付宝小程序云等轻量级业务。同时支付宝小程序云也为支付宝小程序生态提供了基础设施支持,并将这套监控产品以 SaaS 形式进行输出。

HoloInsight 的技术架构基于 LLM 和 向量数据库,此外,HoloInsight-gpt 与蚂蚁开源的 CodeFuse 代码模型进行了整合,提供了一套私有化部署的解决方案,满足企业私有部署和安全合规的需求,同时 Holoinsight-gpt 也将规划发布到开源仓库。在支付宝小程序生态中,用户通常更加关注业务增长,在稳定性及质量上投入有限。因此,HoloInsight 的主要目标之一是降低运维门槛并快速定位技术故障原因,以支持用户的业务需求

在应用上,HoloInsight 特别关注于小程序场景的定位和排查,如白屏问题。通过分析用户的访问路径和异常曲线,对比 向量数据库 中 Top 5 的案例,直接提供对应的解决方案,极大地提升了用户体验和业务效率。随着技术的不断进步,HoloInsight 也将继续深化行业合作,推动小程序应用与 AI 技术的融合与创新。

蚂蚁集团的智能可观测平台通过不断的技术创新和开放合作,正在重塑智能观测的交互模式,推动行业的发展。随着 AI 技术的不断进步,我们有理由相信,蚂蚁集团将在智能应用的新篇章中扮演更加重要的角色。

活动推荐

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

今天是会议 9 折购票阶段,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

智能音频能力移动端落地实践阿里云服务领域Agent智能体:从概念到落地的思考、设计与实践上海/杭州内推 | ​蚂蚁智能引擎事业部招聘多模态认知算法研究员/实习生2024 年过半,AI 大模型在各行业的落地实践走到哪了?6月AI探索:深圳百位产品人集结,与实战专家共探AI大模型的行业落地实践阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践查询提速 11 倍,资源节省 70%,Apache Doris 在网易日志和时序场景的落地实践谷歌、阿里、字节、科大讯飞、月之暗面、智谱等大模型落地实践案例集结完毕|AICon 北京 2024 议程上线易点天下:从0到1精益创新-AIGC产品应用及商业化落地实践报告清华联合蚂蚁提出TimeMixer,可分解多尺度融合的时序预测模型 | ICLR 2024第一财经2024“绿点中国·可持续消费实践案例评选”提名名单正式揭晓报名 | 第一财经2024“绿点中国·可持续消费实践案例评选”正式启动全文 | 生成式人工智能治理与实践白皮书大模型增强下的图智能在金融场景的应用与实践亮点剧透丨大模型产业应用如何落地,WAIC 探讨技术突破与最新实践可远程!腾讯放出30+实践项目!有机会拿奖金、证书和offer!含金量超高!市场唯一,实操落地:通往魔法星球AI游戏设计实践营的飞船正式开票!24-27届可投!北美CS方向岗位暑期实践项目捞人从排产到库存,智能算法在供应链优化中的应用与实践对话面壁智能CEO李大海:开源模式更像“蚂蚁雄兵”,能够有更广泛的创新探索AICon 上海日程确认,蔚来汽车李斌、面壁智能李大海等同台分享,为你呈现 50+ 大模型前沿实践万字长文 | 从 AIGC 典型客户实践揭秘云原生向量数据库内核设计与智能创新阿里、蚂蚁、昇腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon中科曙光智能计算产品事业部胡晓东:大模型时代的AI全栈软件能力应用实践 | GenAICon 2024
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。