决策树是一种用分支结构表示选择及其结果的算法。结合图形,它能对数据结构进行描述,并生成预测和分类,从而帮助我们去了解哪些变量符合模型预设条件,以及哪些变量所起作用最大。本文通过R语言内置的readingSkills来进行决策树的演示:该数据集中的变量描述了某人的阅读能力得分(Score)、年龄(age)、鞋码(shoeSize)以及该人是否为母语者(nativeSpeaker)。我们根据得分、年龄和鞋码通过决策树预测该人为母语者的可能性大小。
简介
R语言中,我们可以利用party包实现决策树功能。
安装
首次使用可能需要执行install.packages(“party”)
进行安装。
语法
生成决策树的函数为ctree(formula, data)
其中
-
formula代表被解释变量与解释变量之间的关系
-
data即为我们需要分析的数据集的名称
操作实例
读入party包
library(party)
此过程会自动加载和party相关联的其他包。
创建数据集
input.dat <- readingSkills[c(1:105),]
该操作将readingSkills数据集中的前105个变量创建成一个新的数据集,称为input.dat
生成决策树
output.tree <- ctree(
nativeSpeaker ~ age + shoeSize + score,
data = input.dat
)
对应上面讲的ctree的语法,此处我们的formula为nativeSpeaker与age, shoeSize和score之间的关系,data是上面刚刚创建的input.dat
绘图
plot(output.tree)