基础篇数据挖掘的聚类算法和优势

发布时间：2020年09月30日 04:11:34 来源：点击量：432

【摘要】基础篇：数据挖掘的聚类算法和优势比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类

基础篇：数据挖掘的聚类算法和优势

比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类数量，类间差异（范围大小，样本个数，形状差异）

可以参照一下sklearn网站给出的列表：2.3. Clustering

除了这些聚类方法以外，统计老师讲过一些传统的聚类方法，归属于系统聚类的范畴，先定义观测间的距离和类之间的距离计算方法，然后按照距离把最接近的两个观测（类）合并，直到合并成一个大类为止。

最短距离法：

类间距为两类中最近观测的距离。
不限制类形状，对拉长的分布效果好，会删除边缘的观测点

最长距离法：

类间距为两类中最远观测的距离。
倾向于产生直径相等的类，易受异常值影响。

中间距离法：

类间距为最长距、最短距、类内距离的加权。

重心法：

类间距为两类重心之间的距离
对奇异值稳健

类平均法：

类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类，偏向于产生方差相同的类。

离差平方和法：

将合并后类内方差最小的两类合并
倾向于产生数量相等的两类，对异常值敏感

密度估计：

较远的距离设为无穷。较近的两个样本，距离与局部密度成反比。
适用于不规则形状类，不适用样本数太少。

两阶段密度估计：

用密度估计计算距离，再用最短距离法聚类。
普适性较强

除了以上这些常见方法，值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大，邻域范围难以设定的问题，非常鲁棒，看起来棒棒的。

ps：如果希望聚的效果好，距离度量方法有时候比聚类方法更重要。

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：大数据如何改变旅游行业

体验课

2024年注册会计师新手训练营

数据分析师 1次课共1小时

周吉喆

火热报名中

¥1

体验课

2024年中级会计职称新手训练营

数据分析师 1次课共1小时

郑娟娟

马贞

刘永麟

火热报名中

¥1

体验课

0基础入门初会+实操7天训练营

数据分析师 15次课共1小时

吴老师

火热报名中

¥1

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

数据分析师相关文章推荐

数据分析师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

数据分析师热点排行

基础篇 数据挖掘的聚类算法和优势

就业培训申请领取

数据分析师相关文章推荐

数据分析师最新文章推荐

绑定手机号

基础篇数据挖掘的聚类算法和优势