数据工程知识库

Welcome!

在这里,你可以一站式学习到数据工程师需要掌握的知识集合,从数据流的角度来书,数据从被创造出来一直到产生价值,其中包括数据摄取,数据存储,数据处理,数据可视化等环节,而在数据存储环节则需要利用到数据仓库设计,在数据摄取到计算环节涉及到数据管道和数据治理,通过数据挖掘可以释放数据的商业价值,所以数据工程师的知识图谱可以通过数据流和方法论这两条主线来构建。 如果喜欢的话,也可以通过 GitHub 贡献自己的知识哦。 ⭐ GitHub地址

介绍了与数据工程相关的常用编程语言和基本概念。

数据摄取,或者是数据集成,是数据平台的第一步,无论在开源领域还是云服务商,都提供了针对不同情况下的数据集成服务。

介绍了关系型数据库,NOSQL数据库, 分布式文件系统和对象存储系统,其中数据库是该领域的重点。

数据计算对应到建设数据仓库中的各种ETL操作,这里重点介绍开源的Spark, Flink和常见的云端数据计算服务。

数据分析是和数据平台的商业价值息息相关,此处重点关注的是数据分析和商业价值的关系,如何利用商业价值驱动整个数据平台的建设。

数据管道是一个工作流程(Workflow),代表了不同的数据工程流程和工具如何协同工作,以实现将数据从源传输到目标存储系统。

数据仓库是一个战略性的数据集合,用于支持企业各级决策制定过程。它是一个单一的数据存储,专为分析性报告和决策支持而创建。

数据治理是个综合的领域,包含数据质量管理元数据管理数据合规性管理数据安全管理数据权限控制数据血缘数据标准等。

数据架构关注以下领域,系统的高性能系统的高可用性系统处理及时性数据的可回溯性系统的可观测性等。

数据挖掘,介绍几种常见的机器学习算法,比如聚类,分类,回归,模式匹配等。

本章介绍如何在AWS、阿里云等公有云上建设云端数据平台的,重点介绍在云端数据平台上所涉及到的相关服务。