基于树结构进行判定
- 有三种情形会导致递归返回
- 当前节点样本属于同一类别,无需划分
- 当前属性为空,或所有样本取值相同,无法划分
- 当前节点包含集合为空
- 划分选择(最优划分属性)
- 信息熵Ent(D)越小, 纯度越高
- 信息增益越大,纯度提升越大
- CART采用基尼指数来选择划分属性 : 随机抽取两个样本,标志不一致的概率
- 剪枝处理减小过拟合
- 预剪枝
- 比较划分前后验证集精度是否优化
- 后剪枝(相对更优 但时间开销大)
- 连续与缺失值
- 连续值 : 二分法
- 缺失值 : 观察没有缺失属性a的样本子集
- 多变量决策树
- 斜划分