其他教程
其他教程:包含了所有代写案例以及部分答案
-
依赖于google的一个处事,天天只能读取2500个,每个地点也没有google earth较准确,但可以作为参考。 require(RCurl)require(XML)require(rjson) x1 = getURI(‘http://maps.googleapis.com/maps/api/geocode/json?address=Jiutian,+Taihu,+anhui+china&sensor=false’)x2 = getURI(‘htt … 继续阅读“用R语言读取经纬度的一个要领”
:
-
计较告白和推荐系统城市用到一个算法,协同过滤。 协同过滤是推荐算法的基石,固然当前炒得火热的隐语义和图的随机游走挡住了根基的邻域算法,基于物品的协同过滤依然有他不行替代的优势。电子商务开拓推荐算法目标是想让用户拥有本性化的商店,亚马逊的人曾经说过我们有几多用户就有几多个商店,说的就是推荐。 回过甚来说说告白,计较告白的本质是audience selection,也就是通过给用户展示他感乐趣的告白,来提高各环节的转化率以便到达提高销售额的目标;尤其是在RTB日益火热的本日,告白公司对技 术的依赖性 … 继续阅读“一个被遗忘的推荐R包:recommanderlab(一)”
:
-
自从去年刚学R的时候碰了下和谐曲线图之后就再也没碰过了,可巧本日正好有人问起,索性爽性就几种常见的实现要领简朴写一写,不算上本身动手写函数的话大抵有那么三种,虽然必定也尚有许多更好的步伐。1 MSG包中的andrews_curve()这是我以为最不错的要领,函数代码很科学,在我的另一篇文章上也以它作为示例,而且在参数配置上与一般的plot等保持了一致,感受在作图结果的配置上也很机动,这是因为函数自己依赖于matplot,参数中撤除x和n外其余均可完全参照matplot,x则指的是需提供作图的数据 … 继续阅读“和谐曲线图在R中的几种差异实现”
:
-
GUI方案 R自己是个统计计较平台,也不是用来做GUI的,所以其实都是在用R和其他语言或组件的接口来做这个工作。当初玩过的平台有三个:Tcl/Tk,GTK(借助Rgtk2,台甫鼎鼎的Rattle也是用的这个方案)和Qt。 Tcl/Tk,利用tcltk 这个是R自带的一个接口,安装的时候只要没决心去掉,就可以直接用的。最早发明它就是因为在R默认的几个package里,它好像和统计没任何关系,厥后发明,这玩意是用来写图形界面的。这里是个用tcltk写的计较器的小例子,运行结果如下,能看到图形一行一行 … 继续阅读“R下的GUI方案”
:
-
RHive 是一种通过HIVE高机能查询来扩展R计较本领的包。它可以在R情况中很是容易的挪用HQL, 也答允在Hive中利用R的工具和函数。理论上数据处理惩罚量可以无限扩展的Hive平台,搭配上数据挖掘的利器R情况, 堪称是一个完美的大数据阐明挖掘的事情情况。 情况设置 (设置部门是同事搞定的,只记录一些细节) RHive 依赖于Rserve,因此在安装R的时候有些变革: ./configure –disable-nls –enable-R-shlib make make install e … 继续阅读“RHive的安装和用法”
:
-
本文心得自:The Split-Apply-Combine Strategy for Data Analysis, Hadley Wickham, Journal of Statistical Software, April 2011, V.40. 引子: 我们经常会碰着这样的问题,数据量很大,并不需要依顺序来依次处理惩罚。公道分块处理惩罚,并最终整合起来是一个不错的选择。这也就是所谓的Split-Apply-Combine Strategy计策。这在速度上会有比做一个loop有优势,因为它可以 … 继续阅读“R数据阐明傍边的化整为零(Split-Apply-Combine)计策”
:
-
引言预测模子的精确率可以用2种要领来提高:要么举办特征设计,要么直接利用boosting算法。介入过许大都据科学大赛后,我发明很多人喜欢用boosting算法,因为它只需更少的时间就能发生相似的功效。今朝有很多boosting算法,如Gradient Boosting、 XGBoost,、AdaBoost和Gentle Boost等等。每个算法都有本身根基的数学道理而且在利用它们时城市发明有一些细微的变革。假如你刚打仗boosting算法,那太好了!以后刻开始你可以在一周内进修所有这些观念。在本 … 继续阅读“R: 进修Gradient Boosting算法,提高预测模子精确率”
:
-
概述在真实的数据科学世界里,我们会有两个极度,一个是业务,一个是工程。方向业务的数据科学被称为数据阐明(Data Analysis),也就是A型数据科学。方向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。从东西上来看,按由业务到工程的顺序,这个两条是:Excel >> R >> Python >> Scala在实际事情中,对付小数据集的简朴阐明来说,利用EXCEL是较佳选择。当我们需要更多巨大的统计阐明和数据处理惩罚时,我们就 … 继续阅读“深入比拟数据科学东西箱:Python和R之争”
:
-
一、简介 hbase是bigtable的开源山寨版本。是成立的hdfs之上,提供高靠得住性、高机能、列存储、可伸缩、及时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等巨大操纵)。主要用来存储非布局化和半布局化的松散数据。与hadoop一样,Hbase方针主要依靠横向扩展,通过不绝增加便宜的商用处事器,来增加计较和存储本领。 HBase中的表一般有这样的特点: 1 大:一个表可以 … 继续阅读“Hbase 先容(转载)”
:
-
分地域地对我国原保险保费的阐明和预测 改良开放以来,中国的保险业经验了三十多年的高速增长,在赔偿灾害损失、维护社会安宁、支持中国的经济建树等方面发挥了重要浸染,具有辽阔的成长前景和潜力。跟着中国保险业进入深化改良、全面开放、加速成长的新阶段,保险业处事经济社会的规模越来越广,包袱的社会责任越来越重,保险业正在尽力提高科学成长和处事经济社会全局的本领。这就要求保险行业能有效地举办成长筹划。个中,原保费收入是权衡保险业成长的 … 继续阅读“分地域地对我国原保险保费的阐明和预测”
: