Google和facebook如何应用R举办数据挖掘
在R用户组织的主题为“R与预测阐明科学”的panel集会会议上,有来自家产界的四位代表颁发了发言,先容各自在家产界是如何应用R举办数据挖掘。他们别离是:
Bo Cowgill, Google
Itamar Rosenn, Facebook
David Smith, Revolution Computing
Jim Porzak, The Generations Network
他们别离先容了在各个公司是如何利用R举办预测阐明,R作为阐明东西的优势和劣势,而且提供了进修案例,以下是对他们的先容的相关总结。
Panel先容
R作为一门编程语言在以下三个方面具有很强的优势:数据处理惩罚,统计和数据可视化。和其他数据阐明东西差异的是,它是由统计学家开拓的,它是免费的软件,而且可以通过用户开拓的包举办扩展,今朝约莫有2000多个包在CRAN中。
许多包可以应用在预测阐明中。Jim重点先容了 Max Kuhn 的caret包,它提供了大量的分类和回归模子,包罗神经网络和朴素贝叶斯模子。
Bo Cowgill, Google
按照Bo Cowgill 的先容,R是google最风行的统计阐明包,事实上,google也是R基本的捐助者。他报告道:R较好的工作是,它是统计学家发现的。它最糟糕的工作是,它是统计学家发现的。无论如何,他很乐观地对待R开拓者社区的成长,R文档也慢慢在改造,它的机能也在慢慢提高。
Google主要利用R举办数据摸索和构建模子原型,它并不是应用在出产系统,在Bo的团队中,R主要运行在桌面情况中。Bo主要按照以下的流程利用R:(1)利用其他的东西提取数据;(2)将数据加载到R中;(3)利用R建模阐明;(4)在出产情况中利用c++可能python实现功效模子。
Itamar Rosenn, Facebook
Itamar先容了facebook数据团队利用R的环境,他答复了新用户提数的两个问题:预测用户是否保持在某个数据点,假如他们逗留,如何预测他们在三个月之后是否还会逗留。
对付第一个问题,Itamar的团队利用递归分别揣度出仅仅两个数据点被预测出来用户是否保存在facebook上:(1)新用户拥有多个会话;(2)输入用户根基信息时。
对付第二个问题,他们利用最小角度回归要领成立逻辑回归模子(lars包),按照三个类此外行为发明用户三个月的勾当:(1)用户被其他用户会见的频率;(2)第三方应用措施利用的频率;(3)即将会见该站点的用户。
David Smith, Revolution Computing
David的公司,R改良计较,不只仅利用R,并且R是他们的焦点业务。David描写道:他们对R的孝敬雷同于redhat对Linux 的孝敬。他的公司处理惩罚利用R碰着的一些问题,譬喻,(1)支持老版本软件,即向下兼容;(2)通过他们的ParallelR套件可以支持并行计较。
David展示了他们的生命科学客户是如何利用R通过randomForest包对基因组数据集举办分类处理惩罚,以及如何利用他们的foreach包对分类树阐明举办并行处理惩罚。
他还提到他们和其他公司相助将R应用在出产情况中,将特定的剧本放在处事器上,用户通过客户端挪用该剧本举办数据处理惩罚。
Jim Porzak, The Generations Network
Jim简朴先容了如何利用R举办市场阐明。尤其是,Jim还利用flexclust为sun公司的客户数据举办聚类阐明,而且应用该功效数据识别高代价销售的主导业务。
在Q&A环节,尚有许多提问,而且举办了答复。
1在利用R的进程中,如何办理内存限制问题?
R事情区是在RAM上,因此他的巨细是受到限制的。
步伐:
(1)
(2)
(3)
2R如何与其他东西和语言举办交互?
CRAN内里有一些包提供了和matlab,splus,SAS,Excel的交互接口,别的,还提供了与python和Java的接口包(Rpy和RJava)。
