2.2.2　决策树算法_量子机器学习及区块链技术导论-QQ阅读女生幻言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.2.2　决策树算法

决策树也是一种常见的机器学习方法，该方法先划分数据再进行对比，以尽快结束判断的过程。仍然以上述的电影数据为例：首先计算以不同方式划分的数据，得到不同的信息增益；再以熵（Entropy）为单位进行对比。在信息论中，熵是每个研究对象中包含的信息平均量，是衡量信息量的指标之一。

按某类镜头个数是否大于或等于50来划分数据所获得的信息如表2.2所示。

表2.2　按某类镜头是否大于或等于50来划分数据所获得的信息

决策树算法的步骤如下：

（1）计算全体数据集的熵。全体数据集的熵计算公式为：

式中，Sigma表示对括号内的内容求和。

在本例中，一共有4类电影，每类出现的概率分别是2/6、1/6、2/6和1/6，全体数据集的熵为：

（2）指定分类方式，划分数据集。按照打斗镜头个数≥50、接吻镜头≥50和爆破镜头个数≥50的界限，划分数据集。以打斗镜头为例，其中正例（打斗镜头个数≥50的电影）共计2个、负例（打斗镜头个数＜50的电影）共计4个，得到打斗镜头的熵为：

按照同样的方法，可得到接吻镜头的熵和爆破镜头的熵分别为1.919和1.216。

（3）计算信息增益。用3种方式划分数据集得到的熵减去总熵，差值越大越好。可知用打斗镜头个数≥50的熵为1.919-1=0.919，接吻镜头个数≥50的熵也是0.919），都好于爆破镜头个数≥50的熵。

（4）构建决策树。分别根据打斗镜头个数、接吻镜头个数和爆破镜头个数对6部老电影进行3次划分，得到的决策树如图2.3所示。

图2.3　决策树

（5）裁剪决策树。如果决策树上的节点只能增加少许信息，则可以与其他节点合并或者删除该节点。例如，在图2.3中，爆破镜头个数≥50的节点并未被触发过，因此可以删除该节点。

（6）测试效果。构建好决策树后，用新电影的信息测试决策树：新电影的打斗镜头个数为8，继续判断一次，接吻镜头个数为92，直接判断为爱情片，正确率为100%。

决策树算法旨在以最快的速度、正确地结束判断过程。与K近邻算法的不同之处在于，决策树算法的已知特征都是以0和1的形式存在的，也就是说，对于三种镜头，需要按照其个数大于或等于50，以及小于50来进行划分，个数大于或等于50就是1，个数小于50就是0。决策树算法的缺点是难以准确预测连续性的字段，需要对数据进行很多预处理。

2.2.2 决策树算法

2.2.2　决策树算法