乐鱼体育晓讲数据工程4-数据管道
具体介绍

  这是数据工程观念系列 10 局部中的第 4 局部。正在这一局部中,咱们将协商数据管道。

  实质:1. 数据管道2. 数据管道的类型3. 怎样达成数据管道4. 怎样制止数据管道破损5. Apache Kafka

  它是一组将数据从一个编制传输到另一个编制并正在此历程中推行少少转换的历程。数据管道中有六个闭键阶段,如下图所示:

  1. 批执掌管道批执掌管道批量执掌数据,并以差异的推行时候按期推行传输数据的操作。它经常用于对史册数据举行数据了解,以得出营业形式和趋向。ETL历程小批量推行,最终数据安置正在数据货仓顶用于贸易智能操作。

  2. 及时/流数据管道这是一种数据管道,用于执掌从近及时数据和本能了解中接续摄取和检索主张,以更新可用的目标、呈报和摘要统计数据以反应每个可用事情。用于知道金融股市等及时事情的动摇。

  关于大型非布局化数据集,而且当实时性很紧张时,ELT 历程(“提取、加载和转换”)比 ETL 更适当。起首,从差异的流媒体源中提取数据并将其加载到数据货仓中,然后转换货仓中的数据以使其兼容及时了解。

  比方:举动环球搬动效劳供给商,Uber 紧张依赖呆板研习来运转动态订价(遵照及时数据调剂费率)、算计最大估计达到时候、预测需乞降供应以及推行其他繁杂职责。

  因为该公司的宗旨是近乎及时地得到可行的主张,于是它运用流管道从驾驶员和旅客利用法式中获取眼前数据。数据流根源步骤的重心组件是Apache Flink,它是一个分散式执掌引擎,也许算计供需事情流中的特色。这些特色被输入到呆板研习模子中,以每分钟天生预测。与此同时,Uber 使用批执掌来识别中永远趋向。

  3. 零ETL/数据复制零ETL是指将数据从源传输到主意地而不举行任何巨大转换并将数据从差异数据源复制到数据货仓的历程。它经常正在相似的云根源步骤上实行,以达成更速、更高效的数据传输。

  4. 数据虚拟化/数据共享数据虚拟化是一种供给拜候数据源的接口的门径,无需任何物理数据传输,仅通过逻辑层批准用户遵照须要盘问数据。

  能够遵从以下几个举措为利用计划数据管道:1. 正在与营业甜头相干者协商其需求后决心数据源。还要询查他们众久须要一次数据。2. 界说 ETL 管道3. 运用数据编排用具按期筑树自愿就业流程。4. 筑树监控用具来检讨数据质料5. 记实营业逻辑的就业流程、设备和依赖性。

  能够采纳众种抗御举措来制止损坏:1. 计划独立的管道,使其每次运转时都爆发相似的结果。2.增加验证检讨,使数据适当预订义的质料规范。3. 庇护版本独揽以复兴到以前稳固的管道代码4. 隔摆脱发、临盆和 QA 情况以及数据分区,以供给数据子集并易于识别纰谬5. 将设备存储正在远离代码的地点,以便轻松管制它们6. 运用增量数据执掌技艺使检讨点复兴到7.创立警报编制和数据可观望性模子来跟踪纰谬因由

  Apache Kafka 是一个开源分散式流平台,批准开采及时事情驱动的利用法式。它是一种敏捷、切实、有序且容错的用具。Kafka闭键供给音尘队伍、数据摄取和数据集告成效。

  临盆者是将数据颁发到 Kafka 集群的实体,该集群由署理构成。每个经纪人担负存储数据。消费者正在称为offset 的给定地点消费数据。

  它供给了音尘队伍功效,用于侦听由临盆者流式传输并由消费者订阅的音尘。通过增进对所发送音信的跟踪,使交互解耦、简化、可扩展且牢靠乐鱼体育

  Kafka 有 4 个重心 API:1.临盆者 API- 它助助天生流数据并将其存储到按事情流数据递次布列的核心中2.消费者 API -它通过订阅核心来消费来自决题的数据3.流 API- 它批准运用核心中的数据并对其举行转换并天生新数据以存储正在相似或差异的核心中4.连绵器 API —它批准开采职员编写可反复运用的临盆者和消费者,比方从 MongoDb 资源获取数据

  示例:鞋类电子商务网站正正在跟踪用户的行动并将其存储正在 Kakfa 集群中,消费者利用法式每晚对相像商品探寻推行批量就业并向用户发送电子邮件,或者能够供给及时了解的提议。

  其他用例:1. 及时执掌 -关于自愿驾驶车辆,咱们须要像 Kafka 云云的及时摄取编制来导航2. 目标/ KPI -分外检测编制能够从 Kafka 吸收 CPU 运用率、纰谬率等归纳目标3.日记凑集 -日记凑集用具能够执掌来自 Kakfa 的日记流数据或将其赠给到 SIEM(安适音信和事情管制)编制4. 音尘转达 -微效劳编制能够运用 Kafka 发送音尘,以向差异的编制供给共享音信等音尘。

 

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296