1 数据导入
对初学者来讲,面临一片空缺的呼吁行窗口,第一道真正的难关也许就是数据的导入。数据导入有许多途径,譬喻从网页抓取、民众数据源得到、文本文件导入。为了快速入门,发起初学者采纳R语言协同Excel电子表格的要领。也就是先用较为熟悉的Excel读取和整理你要处理惩罚的数据,然后“粘贴”到R中。
譬喻我们先从这个地点下载iris.csv演示数据,在Excel中打开,框选所有的样本然后“复制”。在R语言中输入如下呼吁:
data=read.table(‘clipboard’,T)这的里read.table是R读取外部数据的常用呼吁,T暗示第一行是表头信息,整个数据存在名为data的变量中。另一种更利便的导入要领是操作Rstudio的成果,在workspace菜单选择“import dataset”也是一样的。
2 Dataframe操纵
在数据导入R语言后,会以数据框(dataframe)的形式储存。dataframe是一种R的数据名目,可以将它想象成雷同统计表格,每一行都代表一个样本点,而每一列则代表了样本的差异属性或特征。初学者需要把握的根基操纵要领就是dataframe的编辑、抽取和运算。
尽量发起初学者在Excel中就把数据处理惩罚好,但有时候照旧需要在R中对数据举办编辑,下面的呼吁可以让你有时机修改数据并存入到新的变量newdata中:
newdata=edit(data)另一种环境就是我们大概只存眷数据的一部门,譬喻从原数据中抽取第20到30号样本的Sepal.Width变量数据,因为Sepal.Width变量是第2个变量,所以此时键入下面的呼吁即可:
newdata=data[20:30,2]假如需要抽取所有数据的Sepal.Width变量,那么下面两个呼吁是等价的:
newdata=data[,2]第三种环境是需要对数据举办一些运算,譬喻需要将所有样本的Sepal.Width变量都放大10倍,我们先将原数据举办一个复制,再用$标记来提取运算工具即可:
newdata=data$Sepal.Width
newdata=data3 描写统计
newdata$Sepal.Width=newdata$Sepal.Width*10
描写统计是一种从大量数据中压缩提取信息的东西,最常用的就是summary呼吁,运行summary(data)获得功效如下:对付数值变量计较了五个分位点和均值,对付分类变量则计较了频数。
也可以单独计较Sepal.Width变量的平均值和尺度差
mean(data$Sepal.Width)计较分类数据Species变量的频数表和条形图
sd(data$Sepal.Width)
table(data$Species)对付一元数值数据,绘制直方图和箱线图调查其漫衍是常用的要领:
barplot(table(data$Species))
hist(data$Sepal.Width)对付二元数值数据,则可以通过散点图来调查纪律
boxplot(data$Sepal.Width)
plot(data$Sepal.Width,Sepal.Length)假如需要生存画图功效,发起利用Rstudio中的plot菜单呼吁,选择save plot as image
