### 一、randomForest包先容
**randomForest包**实现了随机丛林算法,随机丛林算法可以办理分类和回归问题,是一种很有效的预测技能。
随机丛林的焦点思想:**两个随机特性,随机地选择样本数和随机地选择特征数**,两者组合,基于决定树的思想进修和生成“丛林”内里的一颗颗决定树,然后基于每颗决定树举办预测,把所有的功效举办综合获得最终功效。这种进修思想,也是一种集成进修思想的典范应用。
![](http://img.shujuren.org/pictures/HT/58a9609af26ff.png)
### 二、randomForest包安装与加载
每每应用R语言的扩展,都需要先安装,再加载和利用。
“`{r}
if(!suppressWarnings(require(‘randomForest’)))
{
install.packages(‘randomForest’)
require(‘randomForest’)
}
“`
### 三、randomForest包应用
选择party包内里带有的**readingSkills数据集。**
数据集的具体先容
“`{r}
help("readingSkills", package = "party")
“`
readingSkills的数据布局
“`{r}
str(readingSkills)
“`
![](http://img.shujuren.org/pictures/EA/58a963ae291d5.png)
“`{r}
## 建设随机丛林模子
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score,
data = readingSkills)
print(output.forest)
“`
随机丛林模子功效
![](http://img.shujuren.org/pictures/EV/58a96518692c5.png)
“`{r}
# 预测变量重要性阐明
print(importance(output.forest,type = 2))
“`
预测变量重要性功效
![](http://img.shujuren.org/pictures/XK/58a96560d9386.png)
说明:参数type取值
>**either 1 or 2**, specifying the type of importance measure (**1=mean decrease in accuracy, 2=mean decrease in node impurity**).
### 四、总结
从上面显示的随机丛林,我们可以得出结论,shoesize和score是抉择假如或人是母语者或不是母语的重要因素。 另外,该模子只有**1%的误差**,这意味着我们可以**预测精度为99%。**
### 参考资料
1 随机丛林R包文档:https://cran.r-project.org/web/packages/randomForest/randomForest.pdf
2 随机丛林算法道理:https://en.wikipedia.org/wiki/Random_forest
**您在阅读中,有什么发起可能想法,请留言。**
假如您以为本文有收获,请小额赞赏,让我有动力继承写出高质量的文章。
![](http://img.shujuren.org/pictures/S2/5867988ca85ca.png)