Bendi新闻
>
Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

5月前

作者 | Claudio Masolo
译者 | 马可薇
策划 | Tina

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能(AI)部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品,都依赖于不断发展的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供  ML 方面取得了无与伦比的规模,突出了稳健 ML 培训方法的重要性。

Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石,利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD  是用于声明式 GitOps,实现了应用程序和基础架构的自动化部署和管理。

公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台,后者为 Kubernetes 上的机器学习工具流平台,且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF  项目促进。

为了协助数据科学家们使用正确工具,自信且高效地启动项目,Cloudflare 的 MLops 团队提供了模型模板,作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板,但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括:

  1. 训练模板: 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。

  2. 批推理模板: 为高效处理计划模型进行优化。

  3. 流推理模型: 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。

  4. 可解释性模板: 使用 Streamlit 和 Bokeh 等工具生成 dashboard(仪表盘),用于模型的洞察。

MLOps 平台的另一项重要任务是高效地协调 ML 工作流,Cloudflare 根据团队偏好和用例采用了各种协调工具:

  • Apache Airflow一个标准的 DAG 组成其,拥有丰富的社区支持。

  • Argo 工作流以 Kubernetes 原生形式协调微服务类型工作流。

  • Kubeflow 管道专为 ML 工作流定制,强调协调和版本管理。

  • Temporal专注于事件驱动型应用的有状态工作流。

性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率,利用普罗米修斯(Prometheus)所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化,以及向缺乏数据科学专业知识的团队介绍项目。

公司的愿景是一个数据科学可以在企业中发挥重要作用的未来,这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因,其中包括在 Cloudflare 平台上向全球提供 LLama2。

查看英文原文:

Cloudflare's Journey in ML and AI: MLOps Platform and Best Practices(https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

纯向量数据库和向量插件都有局限,那未来发展有其他方向吗?

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

钉钉抢做“中国版 GPT Store”

赔光 OpenAI?!研究人员:版权诉讼不休,其实大模型普遍存在“抄袭”现象

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

辩证看待“幻觉”问题,蔚来汽车在 AI 和大模型领域的应用实践辩证看待“幻觉”问题,蔚来汽车在AI和大模型领域的应用实践使用Go打造百亿级文件系统的实践之旅使用 Go 打造百亿级文件系统的实践之旅PBL全系统培训 | 从0到1的创新实践之旅查询提速 11 倍,资源节省 70%,Apache Doris 在网易日志和时序场景的落地实践【直播预告】泪小管插入剂的产业化实践、风险和机遇零售业海量场景下 ToC 系统的数据库选型和迁移实践阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践AI辅助内部研发效率提升,昇腾大模型推理的最佳实践AI 时代的人力资源战略转型:香港中华煤气的实践分享中科曙光智能计算产品事业部胡晓东:大模型时代的AI全栈软件能力应用实践 | GenAICon 20246月AI探索:深圳百位产品人集结,与实战专家共探AI大模型的行业落地实践如何在 AI 浪潮中屹立不倒:来自企业的组织弹性实践安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告使用 RBD 作为 Kubernetes 存储解决方案的最佳实践指南多元CPU性能调优技术挑战、产品设计和业务实践Redis最佳实践:系统性能提升了10倍,真香!Go应用性能优化的8个最佳实践,快速提升资源利用效率!提升性能的利器!探索Redis集群的强大功能与最佳实践打破“上云”顾虑:AutoMQ 云服务最佳实践【研究方法】1. 科学实践:对研究方法的介绍深入解析Nginx Location匹配规则:顺序详解与最佳实践超越密码:Elastic 的防钓鱼 MFA 实践
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。