### 数据导入
选自[**Kaggle**](https://www.kaggle.com/ "Kaggle")的影戏数据集movies。
R代码
“`
## 数据导入
data.url <- "http://s3.amazonaws.com/dcwoods2717/movies.csv"
movies.data <- read.csv(
url(data.url)
)
“`
### 数据领略
一旦数据乐成导入后,利用***str()函数***核查数据布局。
R代码
“`
### 1 数据布局核查
str(movies.data)
names(movies.data)
“`
![](http://img.shujuren.org/pictures/C5/59e9348f05936.png)
结论:
影戏数据集包括2961个调查(样本)和11个变量(属性)
### 特征工程
特征衍生,利润=收入-本钱。
R代码
“`
movies.data$profit <- movies.data$gross – movies.data$budget
summary(movies.data$profit)
“`
功效:
![](http://img.shujuren.org/pictures/ZH/59e935c6d923f.png)
### 相关性
视察影戏利润与影戏评分的干系。(**散点图+回归线**)
R代码
“`
plot(movies.data$rating, movies.data$profit)
abline(lm(movies.data$profit ~ movies.data$rating), col = ‘red’, lwd = 2)
“`
功效
![](http://img.shujuren.org/pictures/GB/59e9372c3eb1d.png)
凡是环境下,影戏评级越高,利润越大,利润与影戏评级存在**正相关性**。
可是,也存在一些评级较低,利润蛮高的影戏。
**【温馨提示】:相关性并不料味着因果性!**
### 相干系数计较
影戏评级与利润的相关水平毕竟怎么样,可以用相干系数举办怀抱。
R代码
“`
#计较Pearson correlation
cor(movies.data$rating, movies.data$profit)
# 计较多变量的两两之间变量相干系数矩阵
cor(movies.data[,5:8])
“`
功效
![](http://img.shujuren.org/pictures/MW/59e9399c9de44.png)
默认要领Pearson相关性假设您的变量是正态漫衍的,每个变量之间存在直线干系,而且数据凡是在回归线上漫衍。您可以利用Hmisc包的rcorr函数,用于计较Pearson和spearman相关性的明显性程度。
相关矩阵实际上是显示变量集之间的相干系数的表。
### 相关矩阵可视化
影戏数据集的变量绘制相关矩阵,相关矩阵图可以利便地发明变量之间的正负性和强弱性。
相关矩阵利用GGally包的ggcorr()函数。
R代码
“`
## 相关矩阵图
if(!require(GGally))
{
install.packages("GGally")
require(GGally)
}
ggcorr(movies.data,
label = TRUE,
label_alpha = TRUE)
“`
功效
![](http://img.shujuren.org/pictures/CI/59ea76f46e687.png)
通过上图,可以清晰地发明,那些变量之间是强相关,那些变量是弱相关,以及相关性的正负性和相关性详细量化值。
### 相关范例
由相关矩阵图可知,变量votes和变量reviews强相关,相干系数为0.8。
R代码
“`
qplot(movies$votes,
movies$reviews,
data = movies,
geom = c("point", "smooth"),
method = "lm",
alpha = I(1 / 5),
se = FALSE)
“`
功效
![](http://img.shujuren.org/pictures/3L/59ea789236e1b.png)
同理,变量profit与变量year弱相关,相干系数为-0.1。
R代码
“`
qplot(movies.data$year,
movies.data$profit,
data = movies.data,
geom = c("point", "smooth"),
alpha = I(1 / 5))
“`
功效
![](http://img.shujuren.org/pictures/0T/59ea79c3ea8be.png)
### 综合
操作GGally中的ggpairs函数,可以很好地把上面先容的内容以简捷易懂的方法举办综合。
R代码
“`
names(movies.data)
ggpairs(movies.data,
columns = c("budget", "rating", "profit"),
upper = list(continuous = wrap("cor",
size = 10)),
lower = list(continuous = "smooth"))
“`
功效
![](http://img.shujuren.org/pictures/FV/59ea7bb775fd8.png)
但愿这些常识可以或许应用于您的阐明里,这些是R平台做数据摸索的基本常识,它是让你在数据阐明和建模之前对数据有更好地认识。
您在阅读中,有什么发起可能想法,请参加评论。
想插手圈子,请加微信。