longgb246的博客


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 公益404

  • 搜索
close
longgb246的博客

聚类分析(1):基本概念和算法

发表于 2017-02-15 | 分类于 机器学习 |

一、概述

(1)聚类分析

目标是,分组数据使得,组内的对象是相似的(相关的),不同组是不同的(不相关的)。

(2)聚类类型

1、层次、划分

层次聚类(嵌套聚类,hierarchial clustering):聚类簇组织成一棵树,每一个结点是其子女的并。
划分聚类(非嵌套聚类,partional clustering):简单的将数据对象划分为不重叠的子集。

阅读全文 »
longgb246的博客

关联分析(2):高级概念

发表于 2017-02-15 | 分类于 机器学习 |

一、处理分类属性

依然使用虚拟变量。
7_01.png

(1)属性值有可能不频繁,可以分组处理,使得较小数据合并。
(2)某些属性的频率出现比其他压高很多,出现冗余模式,可能需要剔除。

阅读全文 »
longgb246的博客

关联分析(1):基本概念和算法

发表于 2017-02-15 | 分类于 机器学习 |

一、基本概念

(一)基本概念
二元概念

对于购物篮数据,使用二元变量表示。1表示购买,0表示没有购买。

项集和支持度计数

事务:一行数据。
k-项集:一个事务中,出现项。如:3-项集,{啤酒,尿布,牛奶}
6_01.png

支持度计数:
$$\sigma (X)=|\left \{ t_{i}|X\subseteq t_{i},t_{i}\in T \right \}|$$

如,上式中,项集{啤酒,尿布,牛奶}的支持度计数为2,因为只有2个事务同时包含3个项。

阅读全文 »
longgb246的博客

分类(6):不平衡和多分类问题

发表于 2017-02-15 | 分类于 机器学习 |

一、不平衡问题

(1)不平衡数据

例如:一个产品生产的不合格产品数量会远低于合格产品数量。信用卡欺诈的检测中,合法交易远远多于欺诈交易。
这时候,准确率的度量会出现一些问题,因为她把每个类都看得同等重要。
例如,1%的信用卡交易是欺诈行为,则预测每个交易都是合法的模型有99%的准确率,它也可能检测不到任何欺诈交易。

(2)混淆矩阵

在不平衡数据中,稀有类比较有意义,对于二元分类,稀有类通常记为正类,而多数类被认为是负类。下面显示了混淆矩阵:

5_37.png

阅读全文 »
longgb246的博客

分类(5):组合分类器-随机森林

发表于 2017-02-15 | 分类于 机器学习 |

一、组合方法

(1)组合分类器原理:

考虑25个二元分类器,每一个分类误差a=0.35。组合分类器通过多数投票,如果基分类器是独立的,则仅当超过一半的基分类器都预测错误时,组合才会错误,则:
$$ e_{ensemble}=\sum_{i=1}^{25}C_{25}^{i}a^{i}(1-a)^{25-i}=0.06$$

可以看出,其远低于0.35。

(2)组合分类器与基分类器比较:

5_26.png

阅读全文 »
1…567…11
longgb246

longgb246

这个人太懒了,什么都没有留下...

52 日志
9 分类
24 标签
RSS
GitHub 微博 简书 CSDN 经管之家
我的好友
  • 大抹茶君
© 2017 longgb246
由 Hexo 强力驱动
主题 - NexT.Pisces