蚂蚁智能可观测 Mpilot Al 助手落地实践
近日,QCon 在北京国测国际会议会展中心举办了“QCon 全球软件开发大会暨智能软件开发生态展”,各行各业的技术负责人在大会上分享实践洞见与深度经验,在这个汇聚了众多行业专家和前沿技术的平台上,蚂蚁集团的智能可观测平台负责人陈真(孜重),以蚂蚁智能可观测 Mpilot AI 助手落地实践为主题,分享了生成式 AI 在可观测领域的应用。
产品 AI 化趋势不可避免,蚂蚁集团的智能可观测平台作为技术革新的前沿阵地,很早就开始思考生成式 AI 在可观测领域有哪些应用?可观测性加上生成式 AI 究竟能给我们带来什么?
陈真认为,生成式 AI 主要能从以下三个方面给可观测产品带来较大的提升:
从 GUI(图形用户界面)到 LUI(对话驱动),通过对话与数据交互。
优化流程,提高稳定性,比如可以利用可观测性平台进行故障恢复定位和界定。
降低门槛,由于我们的业务越来越复杂,多元用工的层面也会随之出现,让非专业人士也能参与到运维中来。
蚂蚁的可观测性平台其业务涵盖两大核心部分:Antmonitor 和 HoloInsight。Antmonitor 作为集团内部的可观测产品,主要针对内部规模化和复杂运维场景,处理百万级容器和每分钟数十 TB 的数据量。而 HoloInsight 则是近两年孵化的新产品,它轻量化、多样化,旨在服务于蚂蚁生态及开源社区,特别适用于出海业务、小站点业务和支付宝小程序云等生态业务。
图片面对业务的快速发展和技术的不断演进,蚂蚁可观测平台遇到了一系列挑战。其中包括模型推理能力的限制、输入限制以及多模态数据处理能力不足等。为了解决这些问题,团队采取了专注于核心场景的策略,并采用单场景模式进行深入探索,有效提升了错误日志分析、时序数据获取和告警处理的效率。
Mpilot 是蚂蚁智能可观测平台的关键组成部分,它结合了生成式 AI 技术,通过三个主要的助手 agent——时序助手、日志助手和告警助手——来提供服务。这些助手基于蚂蚁内部的百灵大模型和 向量数据库 运行,旨在将智能助手嵌入到用户的工作流中,提升效率。
Mpilot 的技术架构包括 Antmonitor、MaaS 函数插件服务和 Ceresdb 时序存储等组件的协同工作,为智能告警和故障恢复提供了强有力的支持。Mpilot 的技术架构由以下几个关键组成部分构成:
时序助手:专注于监控指标分析,它通过一个定制的 SQL 模型,允许用户以自然语言的方式查询和分析时序数据。这个模型经过大量内部数据集和业界标准数据集的训练,能够理解和执行复杂的查询需求。
日志助手:提供应用错误日志的解读,它基于蚂蚁内部的日志数据和外部数据集,通过 SFT(Supervised Fine-Tuning)微调得到大模型,帮助快速定位和解决问题。
告警助手:结合智能规则和大模型处理,优化告警流程,减少人工干预,提升告警处理的效率和准确性。
4.LLM + 向量数据库:利用大型语言模型(LLM)和向量数据库(向量数据库)的结合,Mpilot 能够处理复杂的数据检索和生成任务,提供精准的数据分析和预测。
MaaS 函数插件服务:作为工具智能体的角色,提供了一系列的原子级工具能力,如 FullGC 处理、Dump 分析等,通过 API 调用简化了运维操作。
Mpilot 的应用场景覆盖了智能观测的多个方面:
故障排查:用户可以通过对话方式快速获取故障信息和解决方案,Mpilot 能够解析错误日志并提供综合解读,包括错误原因、处理手段和代码定位。
性能优化:在性能问题上,Mpilot 能够分析时序数据,帮助用户识别性能瓶颈,如 CPU 利用率的异常峰值,并提供优化建议。
业务决策支持:通过分析业务指标,Mpilot 能够辅助业务决策,例如通过用户在客户端的行为数据来优化产品体验。
自动化运维:结合 MaaS 平台的插件服务,Mpilot 能够实现自动化运维任务,如在检测到特定错误模式时自动重启服务。
通过 Mpilot 的不断迭代和优化,蚂蚁集团的智能可观测平台将更好地服务于内部和外部的业务需求,推动智能运维向更高水平发展。
HoloInsight 是蚂蚁集团推出的一款全功能的开源可观测性产品,它集数据采集、洞察分析、智能运维于一体。
HoloInsight 的设计理念是服务于小站点和生态场景,特别适用于支付宝小程序云等轻量级业务。同时支付宝小程序云也为支付宝小程序生态提供了基础设施支持,并将这套监控产品以 SaaS 形式进行输出。
HoloInsight 的技术架构基于 LLM 和 向量数据库,此外,HoloInsight-gpt 与蚂蚁开源的 CodeFuse 代码模型进行了整合,提供了一套私有化部署的解决方案,满足企业私有部署和安全合规的需求,同时 Holoinsight-gpt 也将规划发布到开源仓库。在支付宝小程序生态中,用户通常更加关注业务增长,在稳定性及质量上投入有限。因此,HoloInsight 的主要目标之一是降低运维门槛并快速定位技术故障原因,以支持用户的业务需求。
在应用上,HoloInsight 特别关注于小程序场景的定位和排查,如白屏问题。通过分析用户的访问路径和异常曲线,对比 向量数据库 中 Top 5 的案例,直接提供对应的解决方案,极大地提升了用户体验和业务效率。随着技术的不断进步,HoloInsight 也将继续深化行业合作,推动小程序应用与 AI 技术的融合与创新。
蚂蚁集团的智能可观测平台通过不断的技术创新和开放合作,正在重塑智能观测的交互模式,推动行业的发展。随着 AI 技术的不断进步,我们有理由相信,蚂蚁集团将在智能应用的新篇章中扮演更加重要的角色。
AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。
今天是会议 9 折购票阶段,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。
微信扫码关注该文公众号作者