机器学习(周志华) 04决策树

基于树结构进行判定

machine learning tutorials

  • 有三种情形会导致递归返回
    1. 当前节点样本属于同一类别,无需划分
    2. 当前属性为空,或所有样本取值相同,无法划分
    3. 当前节点包含集合为空
  • 划分选择(最优划分属性)
    • 信息熵Ent(D)越小, 纯度越高
    • 信息增益越大,纯度提升越大
    • CART采用基尼指数来选择划分属性 : 随机抽取两个样本,标志不一致的概率
    • 剪枝处理减小过拟合
  • 预剪枝
    • 比较划分前后验证集精度是否优化
    • 后剪枝(相对更优 但时间开销大)
  • 连续与缺失值
    • 连续值 : 二分法
    • 缺失值 : 观察没有缺失属性a的样本子集
  • 多变量决策树
    • 斜划分
文章目录