是一个很棒的项目,因为它连接到多个云存储系统中的多个数据源,所有数据源均由 Airflow 精心编排。该项目非常全面,因为它有许多移动部件并且类似于现实世界的数据架构。该项目还通过在 Tableau 中添加可视化来解决商业智能 (BI) 问题。
资源
以下是一些有价值的资源,例如课程和视频教程,可以逐步指导您:
YouTube 视频:
使用 Airflow、S3 和 Snowflake 管道化数据:在此视频中,Seattle Data Guy 演示了如何使用 Airflow 从 PredictIt API 提取数据、将其加载到 Amazon S3、执行 Snowflake 转换以及创建 Tableau 可视化。这个综合指南非常适合了解将多个工具集成到数据管道中。
课程:
Python 中的 Apache Airflow 简介:本课程概述了 Apache Airflow,涵盖 DAG、运算符和任务依赖项等基本概念。它是了解如何在 Airflow 中构建和管理工作流程的良好基础。
Snowflake简介:本课程介绍Snowflake,一个强大的数据存储解决方案。它涵盖数据存储管理、查询和优化。它非常适合在使用 Snowflake 处理数据管道之前获取基础知识。
Tableau 中的数据可视化:本课程涵盖数据可视化的基本 Tableau 技能,,这是解释数据管道结果的关键步骤。
发展的技能
练习在 Airflow 中创建 DAG
练习用 Python 连接到 API
练习在 Amazon S3 存储桶中存储数据
将数据从 Amazon 移至 Snowflake 进行分析
在 Tableau 中轻松实现数据可视化
打造完整、全面的数据平台
项目 10:使用 Airflow 在 AWS 上进行 Reddit ETL
该项目使用 AWS 生态系统中的高级数据处理工具来解决复杂的多步骤数据管道问题。
首先配置 Apache Airflow 以从 Reddit 提取数据并使用 SQL 对其进行转换。接下来,您将数据放入 S3 存储桶中,将其连接到 AWS,我们将在其中使用 AWS Glue 进行更多格式化。然后,您可以使用 Athena 测试查询,然后将数据存储在 Redshift 中以进行长期数据仓库和分析查询。
资源
以下是一些资源,例如课程和视频教程,将逐步指导您:
YouTube 视频:
Reddit 数据管道工程项目: CodeWithYu 在本视频中演示了完整的 Reddit 数据管道,包括使用 Airflow 进行数据提取、使用 PostgreSQL 进行转换以及与 S3、Glue、Athena 和 Redshift 等 AWS 服务集成。本演练是解决复杂数据管道中的多层步骤的有用指南。
课程:
AWS 简介:本课程为 AWS 打下坚实的基础,涵盖基本概念和工具。了解 S3、Glue、Athena 和 Redshift 等 AWS 服务的基础知识对于成功完成该项目至关重要。
Redshift 简介:本课程全面介绍 Amazon Redshift,重点介绍数据仓库概念、Redshift 架构以及管理和查询大型数据集的基本技能。这是加深您对 AWS 管道中的 Redshift 的了解的绝佳资源。
发展的技能
将网站数据输入 Airflow
使用 PostgreSQL 转换数据
将 Airflow 连接到 AWS 以将数据传输到 S3 存储桶
使用 AWS Glue 进行 ETL
使用 AWS Athena 进行简单查询
将数据从 S3 传输到 Amazon Redshift 进行数据存储
项目 11:使用 PySpark、Kafka 和 Redshift 构建实时数据管道
在此项目中,您将使用 PySpark、Apache Kafka 和 Amazon Redshift 取、处理和存储。
该管道将从多个来源实时捕获数据,使用 PySpark 对其进行处理和转换,并将转换 日本手机数据 后的数据加载到 Redshift 中以进行进一步分析。此外,您将实施监控和警报,以确保数据准确性和管道可靠性。
该项目是获得有关实时数据处理和处理大数据技术(例如用于流媒体的 Kafka 和用于云中数据存储的 Redshift)的基本知识的绝佳机会。
资源
以下是一些资源,例如课程和视频教程,将逐步指导您:
YouTube 视频:
使用 PySpark、Kafka 和 Redshift 构建实时数据管道: Darshir Parmar 制作的这段视频将引导您使用 PySpark、Kafka 和 Redshift 构建完整的实时数据管道。包括数据摄取、转换和加载的步骤。该视频还涵盖了确保管道性能的监控和警报技术。
课程:
Apache Kafka 简介:本课程涵盖 Apache Kafka 的基础知识,Apache Kafka 是该项目中实时数据流的关键组件。概述 Kafka 架构以及如何在数据管道中实现它。
流概念:本课程介绍流数据的基本概念,包括实时处理和基于事件的架构。它是在构建实时管道之前获取基础知识的理想资源。
数据工程项目汇总表