其他教程
其他教程:包含了所有代写案例以及部分答案
-
自从去年刚学R的时候碰了下和谐曲线图之后就再也没碰过了,可巧本日正好有人问起,索性爽性就几种常见的实现要领简朴写一写,不算上本身动手写函数的话大抵有那么三种,虽然必定也尚有许多更好的步伐。1 MSG包中的andrews_curve()这是我以为最不错的要领,函数代码很科学,在我的另一篇文章上也以它作为示例,而且在参数配置上与一般的plot等保持了一致,感受在作图结果的配置上也很机动,这是因为函数自己依赖于matplot,参数中撤除x和n外其余均可完全参照matplot,x则指的是需提供作图的数据 … 继续阅读“和谐曲线图在R中的几种差异实现”
:
-
GUI方案 R自己是个统计计较平台,也不是用来做GUI的,所以其实都是在用R和其他语言或组件的接口来做这个工作。当初玩过的平台有三个:Tcl/Tk,GTK(借助Rgtk2,台甫鼎鼎的Rattle也是用的这个方案)和Qt。 Tcl/Tk,利用tcltk 这个是R自带的一个接口,安装的时候只要没决心去掉,就可以直接用的。最早发明它就是因为在R默认的几个package里,它好像和统计没任何关系,厥后发明,这玩意是用来写图形界面的。这里是个用tcltk写的计较器的小例子,运行结果如下,能看到图形一行一行 … 继续阅读“R下的GUI方案”
:
-
RHive 是一种通过HIVE高机能查询来扩展R计较本领的包。它可以在R情况中很是容易的挪用HQL, 也答允在Hive中利用R的工具和函数。理论上数据处理惩罚量可以无限扩展的Hive平台,搭配上数据挖掘的利器R情况, 堪称是一个完美的大数据阐明挖掘的事情情况。 情况设置 (设置部门是同事搞定的,只记录一些细节) RHive 依赖于Rserve,因此在安装R的时候有些变革: ./configure –disable-nls –enable-R-shlib make make install e … 继续阅读“RHive的安装和用法”
:
-
本文心得自:The Split-Apply-Combine Strategy for Data Analysis, Hadley Wickham, Journal of Statistical Software, April 2011, V.40. 引子: 我们经常会碰着这样的问题,数据量很大,并不需要依顺序来依次处理惩罚。公道分块处理惩罚,并最终整合起来是一个不错的选择。这也就是所谓的Split-Apply-Combine Strategy计策。这在速度上会有比做一个loop有优势,因为它可以 … 继续阅读“R数据阐明傍边的化整为零(Split-Apply-Combine)计策”
:
-
引言预测模子的精确率可以用2种要领来提高:要么举办特征设计,要么直接利用boosting算法。介入过许大都据科学大赛后,我发明很多人喜欢用boosting算法,因为它只需更少的时间就能发生相似的功效。今朝有很多boosting算法,如Gradient Boosting、 XGBoost,、AdaBoost和Gentle Boost等等。每个算法都有本身根基的数学道理而且在利用它们时城市发明有一些细微的变革。假如你刚打仗boosting算法,那太好了!以后刻开始你可以在一周内进修所有这些观念。在本 … 继续阅读“R: 进修Gradient Boosting算法,提高预测模子精确率”
:
-
概述在真实的数据科学世界里,我们会有两个极度,一个是业务,一个是工程。方向业务的数据科学被称为数据阐明(Data Analysis),也就是A型数据科学。方向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。从东西上来看,按由业务到工程的顺序,这个两条是:Excel >> R >> Python >> Scala在实际事情中,对付小数据集的简朴阐明来说,利用EXCEL是较佳选择。当我们需要更多巨大的统计阐明和数据处理惩罚时,我们就 … 继续阅读“深入比拟数据科学东西箱:Python和R之争”
:
-
一、简介 hbase是bigtable的开源山寨版本。是成立的hdfs之上,提供高靠得住性、高机能、列存储、可伸缩、及时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等巨大操纵)。主要用来存储非布局化和半布局化的松散数据。与hadoop一样,Hbase方针主要依靠横向扩展,通过不绝增加便宜的商用处事器,来增加计较和存储本领。 HBase中的表一般有这样的特点: 1 大:一个表可以 … 继续阅读“Hbase 先容(转载)”
:
-
分地域地对我国原保险保费的阐明和预测 改良开放以来,中国的保险业经验了三十多年的高速增长,在赔偿灾害损失、维护社会安宁、支持中国的经济建树等方面发挥了重要浸染,具有辽阔的成长前景和潜力。跟着中国保险业进入深化改良、全面开放、加速成长的新阶段,保险业处事经济社会的规模越来越广,包袱的社会责任越来越重,保险业正在尽力提高科学成长和处事经济社会全局的本领。这就要求保险行业能有效地举办成长筹划。个中,原保费收入是权衡保险业成长的 … 继续阅读“分地域地对我国原保险保费的阐明和预测”
:
-
R是统计规模遍及利用的降生于 1980年阁下的S语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔尝试室开拓的一种用来举办数据摸索、统计阐明、作图的表明型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个贸易软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。厥后Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开拓了一个R系统。R的利用与S-PLUS有许多雷同之处,两个软件有必然的兼容性。S-PL … 继续阅读“R语言拥抱大数据时代”
:
-
看着有节,摸着无节–打一糊口用品不知不觉,夏日已逐步邻近。女人们飞扬的裙角,小贩叫卖的西瓜,蚊蝇嗡嗡的声音,以及翻过的一页日历,都提醒着你–夏天快来了。夏季有着差异的界说,按照中国人的日历,我们所俗称的夏季从“立夏”开始,到“立秋”竣事。在气候学上,若持续五天平均温度高出22度,则算作夏季的开始,若五天平均温度低于22度则算作入秋。而天文学上的夏季一般是指6、7、8三个月。我们想知道:哪一种夏季的界说更合乎我们的感受?照旧用数据可视化来措辞吧。这项任务根基上有两个步调,一 … 继续阅读“日历中的夏天”
: