不平衡数据的机器学习
Machine Learning with Imbalanced Data
👨💻💻🤖 学习不平衡数据下的机器学习技术。本书介绍了解决数据不均衡的问题,包括各种算法和工具。是一本值得一读的好书。
课程内容
👨🏫在这门课程中,您将学到:
- 应用随机欠采样来从多数类中删除观察结果
- 通过删除难以分类的观察来执行欠采样
- 通过在类分离的边界保留观察值来进行欠采样
- 应用随机过采样来增加少数类
- 创建综合数据以增加少数类的示例
- 实施 SMOTE 及其变体以综合生成数据
- 使用集成方法和采样技术来提高模型性能
- 更改模型优化的错误分类成本以适应少数类
- 使用最适合不平衡数据集的指标来确定模型性能
📚本课程包括:
- 11小时的随选视频
- 20篇文章
- 2个可下载资源
- 在移动设备和电视上观看
- 结业证书
🔍要求:
- 了解机器学习基本算法,即回归、决策树和最近邻算法
- 熟悉Python编程,包括NumPy、Pandas和Scikit-learn
- 安装Python和Jupyter笔记本
🗒️说明:
欢迎使用不平衡数据集进行机器学习。在本课程中,您将学习多种可用于不平衡数据集的技术,以提高机器学习模型的性能。
如果您正在使用不平衡的数据集并希望提高模型的性能,或者您只是想了解更多有关如何解决数据不平衡的信息,本课程将为您提供指导。
我们将通过引人入胜的视频教程逐步指导您,并教您有关使用不平衡数据集的所有知识。在这门课程中,我们几乎涵盖了处理不平衡数据集的所有可用方法,讨论了它们的逻辑、它们在 Python 中的实现、它们的优点和缺点,以及使用该技术时的注意事项。具体来说,您将学习:
- 随机抽样不足或侧重于突出某些样本群体的抽样方法
- 随机过采样方法以及根据现有观察创建新示例的方法
- 利用多个弱学习器的力量与采样技术相结合来提高模型性能的集成方法
- 成本敏感的方法,对少数群体的错误决定进行更严厉的惩罚
- 在不平衡数据集上评估模型性能的适当指标
在课程结束时,您将能够决定哪种技术适合您的数据集,和/或应用和比较不同方法在多个数据集上返回。
🏷️标签:机器学习,数据不平衡,Python编程,SMOTE,随机过采样,随机欠采样,集成学习方法。