longgb246的博客

关联分析(2):高级概念

一、处理分类属性

依然使用虚拟变量。
7_01.png

(1)属性值有可能不频繁,可以分组处理,使得较小数据合并。
(2)某些属性的频率出现比其他压高很多,出现冗余模式,可能需要剔除。

二、处理连续变量

(1)基于离散化方法

问题:区间宽度不好确定,计算开销比较大,提取许多冗余的规则。

(2)基于统计学方法

[略]

(3) 非离散化方法

[略]

三、处理概念分层

[略]

四、序列模式

[略]

五、子图模式

[略]

六、非频繁模式

[略]

坚持原创技术分享,您的支持将鼓励我继续创作!