当前位置:天才代写 > tutorial > 其他教程 > R语言基本入门之二:数据导入和描写统计

R语言基本入门之二:数据导入和描写统计

2017-12-04 08:00 星期一 所属: 其他教程 浏览:422

1 数据导入
对初学者来讲,面临一片空缺的呼吁行窗口,第一道真正的难关也许就是数据的导入。数据导入有许多途径,譬喻从网页抓取、民众数据源得到、文本文件导入。为了快速入门,发起初学者采纳R语言协同Excel电子表格的要领。也就是先用较为熟悉的Excel读取和整理你要处理惩罚的数据,然后“粘贴”到R中。

譬喻我们先从这个地点下载iris.csv演示数据,在Excel中打开,框选所有的样本然后“复制”。在R语言中输入如下呼吁:

data=read.table(‘clipboard’,T)
这的里read.table是R读取外部数据的常用呼吁,T暗示第一行是表头信息,整个数据存在名为data的变量中。另一种更利便的导入要领是操作Rstudio的成果,在workspace菜单选择“import dataset”也是一样的。


2 Dataframe操纵
在数据导入R语言后,会以数据框(dataframe)的形式储存。dataframe是一种R的数据名目,可以将它想象成雷同统计表格,每一行都代表一个样本点,而每一列则代表了样本的差异属性或特征。初学者需要把握的根基操纵要领就是dataframe的编辑、抽取和运算。

尽量发起初学者在Excel中就把数据处理惩罚好,但有时候照旧需要在R中对数据举办编辑,下面的呼吁可以让你有时机修改数据并存入到新的变量newdata中:

newdata=edit(data)
另一种环境就是我们大概只存眷数据的一部门,譬喻从原数据中抽取第20到30号样本的Sepal.Width变量数据,因为Sepal.Width变量是第2个变量,所以此时键入下面的呼吁即可:

newdata=data[20:30,2]
假如需要抽取所有数据的Sepal.Width变量,那么下面两个呼吁是等价的:

newdata=data[,2]
newdata=data$Sepal.Width
第三种环境是需要对数据举办一些运算,譬喻需要将所有样本的Sepal.Width变量都放大10倍,我们先将原数据举办一个复制,再用$标记来提取运算工具即可:

newdata=data
newdata$Sepal.Width=newdata$Sepal.Width*10
3 描写统计
描写统计是一种从大量数据中压缩提取信息的东西,最常用的就是summary呼吁,运行summary(data)获得功效如下:对付数值变量计较了五个分位点和均值,对付分类变量则计较了频数。

也可以单独计较Sepal.Width变量的平均值和尺度差

mean(data$Sepal.Width)
sd(data$Sepal.Width)
计较分类数据Species变量的频数表和条形图

table(data$Species)
barplot(table(data$Species))
对付一元数值数据,绘制直方图和箱线图调查其漫衍是常用的要领:

hist(data$Sepal.Width)
boxplot(data$Sepal.Width)
对付二元数值数据,则可以通过散点图来调查纪律

plot(data$Sepal.Width,Sepal.Length)
假如需要生存画图功效,发起利用Rstudio中的plot菜单呼吁,选择save plot as image
 

    关键字:

天才代写-代写联系方式