AWS 中的数据湖
动手实践 – Glue、Athena、S3、ETL、Spark、Parquet、QuickSight、Kinesis、Lambda、Comprehend AI
课程英文名:Data Lake in AWS
此视频教程共1.12GB,中英双语字幕,画质清晰无水印,源码附件全
课程地址:https://xueshu.fun/1473
演示地址:https://www.udemy.com/course/data-lake-in-aws/
课程内容
你会学到什么
- 了解数据湖与数据仓库
- 数据湖架构的关键组件
- 直接使用SQL查询文件
- 使用 Kinesis Firehose、Lambda、Comprehend AI、Glue、Athena 和 S3 进行实践集成
本课程包括:
- 5.5 小时点播视频
- 22篇
- 6 个可下载资源
- 终身访问
- 在手机和电视上访问
要求
- AWS 的基本知识很有用,但不是强制性的
描述
大家好,我叫 Chandra Lingam,我将担任 AWS 数据湖课程的讲师。
在本课程中,我们将首先了解数据湖的基本概念,以及它何时是相对于数据仓库的合适解决方案
然后,我们将深入研究构成数据湖解决方案的各种组件,包括使用 SQL 直接查询文件以对数据集进行快速临时分析的能力
在课程中,我们将涵盖处理数据湖中文件结构更改的主题。我们将深入探讨新字段、新分区、数据类型变化、数据丢失等各种场景,并讨论如何有效处理这些场景的技术。我们还将深入研究 Glue 目录管理和模式的演变,重点是最大限度地减少对下游系统的干扰
我们还将研究不同的数据格式,例如 CSV、Parquet、Avro 和 ORC,并检查它们各自的优缺点。之后,我们将深入研究 Glue ETL,这是一种强大的基于 Apache Spark 的数据转换解决方案。
本课程充满了实践练习和项目。
您将分析一个大学排名数据集,该数据集易于理解、有用,并且混合了数据类型和许多数据质量问题。
您将学习利用Athena 查询数据、通过 SQL 解决数据质量问题,以及使用 Glue – Apache Spark ETL 清理数据。
此外,该课程还涵盖使用视图简化查询和使用 Amazon QuickSight 可视化数据的技术。
为了展示 Athena 的可扩展性,我们将查询包含超过 1.3 亿条评论的大型亚马逊客户评论数据集。最后,我们将使用 Kinesis Firehose、Lambda、Comprehend AI、Glue、Athena 和 S3 构建一个无服务器应用程序,它可以处理无限数量的客户评论,进行情感分析,并将结果存储在数据湖中以供查询。
我很高兴很快见到你!
谢谢你!
钱德拉林甘
计算与云公司
本课程适合谁:
- 想要了解数据湖的决策者
- 处理结构化和非结构化数据的专业人员