Python Spark大数据处理

Taming Big Data with Apache Spark and Python - Hands On
🔥使用Apache Spark和Python驯服大数据,带你手把手实践!本课程涵盖Spark构建,PySpark编程和数据处理技术,帮助你掌握大数据分析和处理的方法。👨‍💻💻📊 #大数据 #ApacheSpark #Python #实战

课程地址:https://xueshu.fun/1347

课程内容

ark!您将学习使用 Spark 3 中的 DataFrames 和结构化流来解决常见的数据挖掘问题,并使用 MLLib 机器学习库。此外,您还将了解如何使用 Spark Streaming 实时处理连续的数据流,并学习将大数据分析问题定义为 Spark 问题的方法。您还将学习如何在具有 Hadoop YARN 的集群上运行作业,并安装和运行 Apache Spark。

在这个课程中,您将使用 Spark 的 RDD(弹性分布式数据集)来处理和分析跨多个 CPU 的大型数据集。您还将使用 Spark 实现迭代算法,例如广度优先搜索,并了解 Spark SQL 如何处理结构化数据。最后,您将学习如何对集群上运行的大型作业进行调整和故障排除,并在 Spark 集群上的节点之间共享信息,例如广播变量和累加器。

另外,本课程包括 7 小时的随选视频、4 篇文章、26 个可下载资源以及结业证书。您需要访问个人计算机,本课程使用 Windows,但示例代码也可以在 Linux 上正常运行。一些先前的编程或脚本经验对您会有很大帮助,但您可以边学边练习。💻🕹️🎓📜

标签:Spark、MLLib、大数据分析、数据挖掘、实时处理、Apache Spark、RDD、迭代算法、Spark SQL、故障排除、广播变量、累加器、GraphX库。🔖🔎📊💡🔨📈🖥️🛠️🔍👩‍💻👨‍💻📚