当前位置:天才代写 > tutorial > 其他教程 > R语言网页爬取函数

R语言网页爬取函数

2017-12-04 08:00 星期一 所属: 其他教程 浏览:339

#*************网页爬虫-R语言实现,函数库文件*******##****作者:oldlee11***************************************##****版本:v0.1*******************************************##****时间:2012-11-14*************************************#library(XML);#****函数:(crawler1)#****提要:网络抓取的主要函数1,可以抓取n个网页的m个变量。每个xpath只爬取一个数据,假如大于1个则提示有误。(较准确抓取)#****输入:#        名称           |    数据名目#        url            |    欲抓取的网站的url                向量:n个#        xpath          |    给出的抓取变量的xpath            向量:m个#        content        |    变量是结点的内容照旧结点的属性值 向量:m个  #                            "text"是内容(默认),可能是属性名称#****输出:只有print,无输出#        名称           |    寄义 crawler1<-function(url,xpath,content=rep("text",length(xpath))){    #假如xpath以及content的数量差异,则输入数据有误    num_url<-length(url)    

 

    关键字:

天才代写-代写联系方式