Python中的聚类分析和无监督学习

聚类分析是无监督机器学习和数据科学的主要内容。

它对于数据挖掘和大数据非常有用，因为它会自动在数据中找到模式，而不需要标签，这与监督机器学习不同。

课程英文名：Cluster Analysis and Unsupervised Machine Learning in Python

此视频教程共2.0小时，中英双语字幕，画质清晰无水印，源码附件全

下载地址

在现实世界的环境中，您可以想象机器人或人工智能并不总是能够获得最佳答案，或者可能没有最佳正确答案。您希望该机器人能够自行探索世界，并仅通过寻找模式来学习事物。

你有没有想过我们如何获得我们在监督机器学习算法中使用的数据？

我们似乎总是有一个不错的 CSV 或表格，其中包含 X 和相应的 Y。

如果您自己没有参与获取数据，您可能没有想到这一点，但是必须有人制作这些数据！

那些”Y”必须来自某个地方，而且很多时候都涉及到体力劳动。

有时，您无法访问此类信息，或者获取此类信息不可行或成本高昂。

但是您仍然希望对数据的结构有所了解。如果您正在进行数据分析，那么在您的数据中自动进行模式识别将是非常宝贵的。

这就是无监督机器学习发挥作用的地方。

在本课程中，我们将首先讨论聚类。这是我们尝试创建自己的标签而不是标签训练的地方！我们将通过将看起来相似的数据组合在一起来做到这一点。

我们将讨论两种聚类方法： k-means 聚类和层次聚类。

接下来，因为在机器学习中我们喜欢谈论概率分布，我们将进入高斯混合模型和核密度估计，在这里我们将讨论如何”学习”一组数据的概率分布。

一个有趣的事实是，在某些条件下，高斯混合模型和 k-means 聚类是完全一样的！我们将证明这是怎么回事。

我们将在本课程中讨论的所有算法都是机器学习和数据科学的主要内容，因此如果您想知道如何通过数据挖掘和模式提取自动找到数据中的模式，而无需人工投入标记该数据，那么本课程适合您。

本课程的所有材料都是免费的。您可以在Windows、Linux 或 Mac 上使用简单的命令下载和安装 Python、Numpy 和 Scipy。

本课程的重点是”如何构建和理解”，而不仅仅是”如何使用”。任何人都可以在阅读一些文档后在 15 分钟内学会使用 API。这不是关于”记住事实”，而是关于通过实验”亲眼看到”。它将教您如何在内部可视化模型中发生的事情。如果您不只是想了解机器学习模型的肤浅，那么本课程适合您。

“如果你不能实现它，你就不会理解它”