Databricks 在最近召开的 Data+AI Summit,发布了很多数据工程和 AI 相结合的功能和应用,每一个和数据相关的工程师都应该仔细看一看,AI 时代里,如何用 AI 赋能 DATA,以及 DATA 该如何服务 AI,是我们应该密切关注的领域方向。
Feast 技术架构详解
Feast 和 Tecton 是海外久负盛名的 Feature Store 框架,也是很多特征工程同学期望了解的技术模块之一,本文将拆解部分 Feast 的核心功能并对其拆解阐述。
实时计算系列(4) - Failover in Flink
作业出现异常,产生了重启或 failover 的情况,我们可能都已经习以为常,甚至对于绝大多数开发者来说,主动重启是遇到问题的第一反应。如果想深层次地定位问题,以及更深程度知道 Flink 的限制,那么了解 Failover 会非常重要。
实时计算系列(3) - 规则引擎和 Flink CEP
复杂事件处理(CEP),在企业内部实践中,又常被称作规则引擎。随着实时数仓的发展,CEP 会成为很多实时计算相关团队的另一个大的发展方向。
数据湖系列(2) - Iceberg 核心功能原理剖析
上一篇文章 数据湖系列(1) - Hudi 核心功能原理剖析 中讲解了关于 Hudi 的基本概念和功能原理,Hudi 利用主键索引的方法来实现了 Upsert 的语义。Apache Iceberg 也是一个广为应用的数据湖框架,虽然两个框架的设计初衷和思路不同,但如今随着需求逐步丰富,两者对于使用者来说,却是越来越趋于一致了。
数据湖系列(1) - Hudi 核心功能原理剖析
随着互联网业务的逐步成熟,数仓和模型训练的基本盘逐步稳固,越来越多的工程师从业务开发需求转移到了工程的架构升级,而常用的 Hudi 和 Iceberg 往往会成为替代 Hive/Hdfs 等架构升级的选型。
Ray Datasets - 模型训练前的"最后一公里"
Ray 1.8+ 版本中提出使用 Datasets 来解决模型训练的”最后一公里”问题。由于并未在 Ray 上做过多的实践,所以本文更多是将 Datasets 做了系统化的梳理。关于 Ray 的介绍可以参考 Ray - A Distributed Framework for Emerging AI Applications。
Why not RocksDB in Streaming State?
本文以 Apache Flink 为例,聊聊为什么 RocksDB 不是流计算引擎中理想的状态存储。Flink 中使用 RocksDB 作为大状态的存储后端,但在实际线上大规模的生产应用中,我们发现 RocksDB 和流计算场景的组合,即使在参数调优及技术优化后,也始终达不到预期的理想状态。
Hazelcast Jet - Low-latency Stream Processing at the 99.99th Percentile
原文:Hazelcast Jet: Low-latency Stream Processing at the 99.99th
Percentile,Hazelcast Jet 是一个流处理引擎,整篇论文通读下来,它的定位和当前广为应用的流计算引擎 Apache Flink 和 Spark Streaming 又有些不同,详见以下文章的解析。