http://yishuo.org/2012/02/r-is-a-kind-of-life-and-statistics-is-an-attitude/
提示:本文归格物堂所有,转载请注明出处!有几多人传闻过R软件?有几多人用过R软件?你此刻最常用的软件是什么?SAS?SPSS?EViews?假如你是一个常常和数据阐明打交道的人,可能从事金融建模,数学建模的人员,还不消R,你就有点out了。假如此刻不学R,五年后你没有任何优势可言;假如5年后,你还不学R,那你差不多就可以被裁减了。
接下来,我先先容一下R软件,然后,会具体的讲授为什么你不消R就会out。

R是有Ross Ihaka跟Robert一起开拓的一个面向工具的编程语言。什么是面向工具呢?就像此刻,我在这里演讲,直接瞥见你们,你们就是我面向的工具,虽然,这是恶作剧。面向工具的意思就是,R内里的一切对象都是视为工具(Object)。无论是数据框、列表照旧函数可能情况,这里先不讲,省得把各人吓跑了。
R语言的前身是S语言,这个语言一度是数据阐明规模内里的尺度语言。虽然,此刻也是,可是正在慢慢被R语言代替。S语言是由贝尔尝试室开拓的,贝尔尝试室开拓了许多经典的对象,S是个中之一。S语言的缺点是它不是免费的,而R较大的利益在于R是免费的。

此刻许多人用SPSS,SAS,MatLab,可是用的都是盗版软件。从法令上来讲这是犯科的,可是犯科的对象在中国很风行,许多传授也用这些犯科软件,而且还帮着同学去获取盗版软件,其实,这不太可取。虽然,在情感上我予以充实领略。

上次去上海介入第4届R集会会议,来了一个高朋是新西兰人,新西兰是R的家园,中间熊熹提到她复印了一本ggplot2的书,被外国人看到,外国人就问她征求过版权问题吗?在外国人看来这是很严肃的工作。虽然,这是题外话。

免费是R很大的利益,但不是的。R的较大利益是精彩的作图成果、富厚的统计学要领以及超快的更新速度。下面讲一下R的各类成果。
首先,R可以作为计较器利用,譬喻(屏幕演示)。其次,精彩的画图成果,譬喻(屏幕演示,直方图,小提琴图),还可以绘制一些高级的图形,向日葵图,玫瑰花瓣图,脸谱图。虽然,这是最根基的成果。固然很根基,SPSS这些软件是不行能做到这么完美的。R的绘图分四个层级,最根基的就是适才演示的。高级一点的是grid,然后是,Lattice,Lattice的图形是这样的(屏幕演示),很适合做多元数据展示。grid是这样的(屏幕演示),grid图形引入了图层观念,而且可以切换图形的视角。举个例子:(A4纸演示),接下来是ggpolt2:ggplot2是一个更具有创新性的画图设备,它建设了本身的语法,相当于R内里有建设了一门新的画图语言。ggplot2的成果是这样的(屏幕演示)。最后,较量终极的画图BOSS是ggobi,这是一个动态的画图软件,交互性很强,不外大概很将近被谢益辉的cecran给代替了。后者是前者的增强版。

然后,就是R建模。R的建模本领超强。成立线性模子,只需要用lm函数就可以了,广义线性模子glm就可以了,广义可加模子gam就可以了。

然后是,时间序列阐明。这个很有用的。我以为,对付本科生也好,研究生也好,想基于一元可能多元回归做一个较量上条理的论文是坚苦的。可是,用时间序列阐明是可以的,可以用arima,说到这里许多人就笑了,arima这个我知道,终于听到一个本身知道的模子了,其次是garch模子。我知道许多人做garch模子用EViews,可是这个软件太老了,极其不智能,稍微高级的要领都用不了。加一个外生变量要折腾半天。并且最重要的是你用的是盗版软件,话说过来,纵然是正版的Eviews也不智能。R内里做garch模子就很简朴,用rgarch包就可以了,可以构建各类高级的garch模子,tgarch,igarch,gjrgarch之类的,尚有高级的Dccgarch,大概你又听不懂了,尚有更高阶的BEKK模子,BEKK没什么神秘的,其实就是多元GARCH模子,就是把GARCH模子从一维推广到了二维了。尚有更高阶的,因为参数预计起来太贫苦,所以应用较量少。
Rgarch包还能计较VaR。也就是Value at Risk。风险代价。这个对象很高级,没有听过吧?其实,我认为上了大三的人就应该很熟悉VaR。可是许多人不知道,因为中国的教诲不太乐成,我们叫不乐成,不叫失败,省得冲击教诲部。高校的老师,怎么说呢,较量善于推己及人。他们当年读大三的时候,就不分明VaR,他们温习半年,考上研究生的时候也不怎么懂。所以他们认为此外本科生也不懂,可能说没有本领懂。他们对中国的学生太没有信心了。其实,VaR的观念并不是很难。(演示)
这就是VaR,其实就是分位数。分位数其实就是对密度函数求变上限的积分,求变上限的积分城市吧?不外,也不消手动求,用R就可以了。

理论上讲,只要知道了密度函数,求积分不在话下。所以求密度函数其实是VaR的焦点。按照求VaR密度函数的要领的差异,可以将它分成三种重用的要领,汗青模仿法,蒙特卡洛模仿法,方差-协方差法。汗青模仿法就是用汗青数据的密度函数取代将来的密度函数,蒙特卡洛模仿法就是假设一个漫衍,模仿一批随机数。说到随机数,想起来本科期间一件工作,其时精算专业要生成随机数,一批学生不知道怎么做,在Excel内里瞎折腾。我就想不大白,为什么不消R呢,发生正态漫衍的随机数rnorm(5)就可以了,发生5万个,rnorm(50000),在Excel内里,折腾死你。

蒙特卡洛模仿完随机数,就按照这一批样原来计较VaR。方差-协方差呢,跟这个差异,它求的是条件密度函数,理论上讲应该更精确。汗青模仿法对汗青区间的选择很敏感;蒙特卡洛对漫衍的假设很敏感,正态漫衍假设和t漫衍假设功效相差很大;方差-协方差对厚尾与否很敏感。

假如是单个资产的话,像上面这样求分位数就搞定了。资产组合的时候,要知道连系漫衍,才气求分位数。连系漫衍怎么求,的要领是Copula。简朴而言就是个复合函数:假设你有连系漫衍函数F(x1,x2,x3,…),有边际漫衍,f(x1),f(x2),f(x3)…要找到要个函数H(·)使得F(x1,x2,x3,…)=H(f(x1),f(x2),f(x2)…)。
这个函数就是Copula。这是事情道理,操纵起来有一系列巨大的技能。虽然,求解这个进程计较时机资助的,不需要手算。君子善假于物也。
本科生的时候做过一个项目是关于VaR的。其时学校的一个老师提出过质疑,因为VaR的最初界说是是关于头寸的。而R内里是基于收益率的。两者在丈量风险方面没什么差别。可是,他非得僵持算头寸。答辩的时候,我跟他讲这是很容易换算的,他问怎么容易。我就表明给他,其时幼年蒙昧,持续向他发问,我预计他好久没有看的VaR文献了,因此,我质疑的问题,他一个都答不上来,后头听答辩的同学,开始欢呼,掌声雷动。我很相识同龄人,各人都喜欢瞥见权威被打垮。这是潜在的暴力倾向,我很不喜欢。值得留意的是,刘姝威老师也在下面鼓掌。

此刻想起来其时太激动了,过后我试图向谁人老师致歉。虽然,不是因为我用错了要领,只是因为我用错了立场。我以为一小我私家照旧应该尊重另一小我私家的。
刘姝威老师厥后说,本科生能做出来这个VaR是很不容易的。我其时心里很舒服,获得了赞赏。厥后想想,这个赞赏的价钱很大。VaR显着很容易计较,她却因为这个儿传颂我,那不是在贬低其他所有的不会算VaR的同学吗?这是我厥后想大白的。

R还能做极值理论。本年上海交大的一个研究生问我用R作极值理论的对象,我就帮他说了一下,他说帮了他大忙。说要感激我,我说不消,在论文后头,鸣谢一下就可以了。其实,我心里一直在猜疑,研究生要结业了,极值理论都还不懂,研究生到底读的是神马?更进一步,这样的工钱什么能踏过研究生的门槛,问什么能考上研究生呢?中国的研究生登科机制有问题。

再之外,R在数据挖掘规模是顶呱呱的。内里有各类要领,好比随机丛林,支持向量机,Lasso等。什么是Lasso,也许你说,那是lasso,我跟你说,你说错了,这个单词的重音在第二个。关于这方面,刘思喆是专家,你们可以到论坛上可能微博上咨询他。

R能做的对象许多。那有没有R不能做到的工作?让我想一想,仿佛还真有。好比,R仿佛不能下影戏,看影戏,听音乐。不外,R内里却是提供了许多高级的东西,它提供了一个hook,可以启动电脑中的其他措施,好比迅雷,可以自动下载网页附件,自动解压缩,读入数据等等。许多R粉丝甚至用R关机,用R发微博,发校内状态。R能给人许多惊喜,好比用R下五子棋,扫雷,玩儿递归汉诺塔。做贺卡,马赛克图,这内里是什么知道吗?是AV女伶,不信你看看,是不是发明白许多熟人?
话说返来,很长一段时间里。SPSS,SAS,Matlab还会继承存在,不会骤然消失。我甚至认为这些软件不会消失。因为他照旧有本身的受众的。你不能要求所有人的都进修R编程。

这些软件也有些利益,我最喜欢Matlab,他跟R有点像。好吧R跟matlab有点像,省得伤害Matlab user的情感。曾经有一小我私家发了一段代码,让用R实现。我不知道那人是什么念头。是想看看R能不能做到,照旧想看看COS有没有人会。很欠盛情思,我两者城市一点,于是我就用R重现了谁人进程,代码极其简朴。厥后,那人说,太牛了,这都能做到。其实,我想说,这不算什么。真的。牛人都在做更重要的工作。

我但愿未来跟着时日推移、跟着SPSS,SAS,Matlab这一批老人家的辞世,R能快速的生长起来,老人家不肯意学编程,这一点我是很领略的,可是,他们阻碍了R的崛起,R未来势必是一种潮水。

今朝,市场上风行一个概念。即数据越自制,数据阐明技能越昂贵。我早就意识到了这个问题,今朝中国获取数据很难,各人都把数据当资源来买。海外就是纷歧样,海外开放很大都据,因为海外认为,数据内里的信息才是资源。我把数据源放开,你有才干就从内里寻找信息吧。所以,海外阐明数据的人就很贵。
未来,中国的数据提供商必定会转型,会开始搞咨询,搞阐明,而不是纯真的卖数据。卖数据没有前途。他们不卖数据了,数据阐明师就会开始值钱了。这一天,我相信很快就到来了。

R这么好,如何进修R呢?我推荐一些质料给各人。一个是Rforbeginner,R导论。看完之后,看一下Rin a Nutshell,接着看The R book可能Statistics with R。这些资源根基都是开放的。

你们也可以随着学校的老师学,假如有用R的老师的话,实在不可就靠本身自学,来论坛问也是可以的。
总之,R是一片辽阔的海疆,你认为本身有抱负,就放马过来吧。插手时代的海潮,Come on!最后一点但愿,但愿在做的列位,未来结业时都可以或许写出一篇大度的论文,不要抄袭!

祝列位身体康健,每天快乐,感谢!

                       

其他教程

2017-12-04


http://yishuo.org/2012/02/r-is-a-kind-of-life-and-statistics-is-an-attitude/提示:本文归格物堂所有,转载请注明出处!有几多人传闻过R软件?有几多人用过R软件?你此刻最常用的软件是什么?SAS?S