Bendi新闻
>
Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

作者 | Rafal Gancarz
译者 | 王强
策划 | 丁晓昀

Yelp 公司 采用 Apache Beam 和 Apache Flink 重新设计了原来的数据流架构。该公司使用 Apache 数据流项目创建了统一而灵活的解决方案,取代了将交易数据流式传输到其分析系统(如 Amazon Redshift 和内部数据湖)的一组分散的数据管道。

Yelp 在两套不同的在线系统中管理业务实体(其平台中的主要数据实体之一)的属性。平台的旧版部分将业务属性存储在 MySQL 数据库中,而采用微服务架构的较新部分则使用 Cassandra 存储数据。

在过去,该公司将数据从在线数据库流式传输到离线(分析)数据库的解决方案,是由上述管理业务属性的两个区域的一些独立数据管道组成的。该方案使用  MySQL 复制处理程序 从旧系统推送数据,使用  Cassandra 源连接器 从新系统推送数据。在这两种情况下,更新都发布到 Apache Kafka,而  Redshift 连接器负责将数据同步到相应的 Redshift 表。

之前的业务属性流式传输架构(来源:Yelp 工程博客)

原有解决方案采用单独的数据管道,将数据从在线数据库流式传输到分析数据存储中,其封装性较弱,因为离线(分析)数据存储中的数据表与在线数据库中的对应表完全对应,使数据分析团队面临数据差异和数据准确性问题。此外,分析过程必须从多个表中收集数据,并将这些数据规范化为一致的格式。最后,由于在线和离线数据存储之间的表架构相同,对架构的更改必须在两处各自部署,从而带来了维护挑战。

Yelp 团队决定解决原有方案的这些问题,方法是将在线系统的内部实施细节抽象出来,并为使用分析数据存储的客户提供一致的体验。Yelp 高级数据工程师 Hakampreet Singh Pandher 解释了团队采用的方法:[...]

我们实施了一个统一的流,以一致且用户友好的格式提供所有相关的业务属性数据。这种方法可确保业务属性消费者无需处理业务属性和功能之间的细微差别,也无需了解它们的在线源数据库中数据存储的复杂性。

团队利用 Apache Beam 和 Apache Flink 作为分布式处理后端。Apache Beam 转换作业从旧版 MySQL 和较新的 Cassandra 表中获取数据,将数据转换为一致的格式并将其发布到单个统一的流中。工程师使用  Joinery Flink 作业 将业务属性数据与相应的元数据合并。另一项作业用于解决数据不一致的问题,最后在 Redshift Connector 和 Data Lake Connector 的帮助下,业务属性数据进入两个主要的离线数据存储中。

业务属性的新流式架构(来源:Yelp 工程博客)

彻底改造流式架构的总体收益是让数据分析团队能够通过单一模式访问业务属性数据,这有助于数据发现,让数据消费更简单。该团队还利用 实体 - 属性 - 值(EAV)模型,将新业务属性纳入系统,同时减少维护开销。

原文链接:

Yelp Overhauls Its Streaming Architecture with Apache Beam and Apache Flink (https://www.infoq.com/news/2024/04/yelp-streaming-apache-beam-flink/)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

谷歌大裁员引发元老集体抗议:领导脑袋空空,无能的中层管理团队不断扩大

“真男人就应该用 C 编程”!用 1000 行 C 代码手搓了一个大模型,Mac 即可运行,特斯拉前 AI 总监爆火科普 LLM

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

深入解析Apache和LAMP架构:打造高效网站的终极指南!MaxCompute 近实时增全量处理一体化新架构和使用场景介绍从0到1探索淘宝短视频流的架构再设计和工程重构网易游戏如何基于 Apache Doris 构建全新湖仓一体架构高并发架构设计(三大利器:缓存、限流和降级)黑芝麻智能芯片和架构副总裁何铁军:舱驾一体的算力挑战和时代机遇|演讲预告“大芯片”的挑战、模式和架构智谱加入 AI 视频竞赛:使用 DiT 架构,30 秒生成视频片段分布式存储架构发展及技术挑战lululemon 首席产品官离职引发股价下跌,资本市场对其重组架构的行动反响不一只关注“顶层架构”和“底线思维”的非典型家长,如何培养出被藤校青睐的孩子?|成长教育之道系列访谈<五>NASA超级机器人将用于火星;北航本科生芯片设计团队打造基于龙架构的Lain和EULA处理器丨智能制造日报通用多模态人工智能:架构、挑战和机遇综述基于微服务和DDD的架构模板深度探索大模型时代的软件架构最佳范式,攻略就绪、就等你来|ArchSummitPerplexity将Yelp数据引入其聊天机器人爆发式增长业务的高可用架构优化之路熔断、隔离、重试、降级、超时、限流,一文帮你顺理高可用架构流量治理汽车电子架构升级:汽车级IP助力ADAS和IVI融合美经济战略架构师辛格:不确定性和恐慌才是常态Flink 十周年专访莫问:存算分离 2.0 架构的探索与展望从架构设计到行业应用,腾讯云 TDSQL 新一代分布式数据库引擎详解 | Q推荐新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。