#*************网页爬虫-R语言实现,函数库文件*******##****作者:oldlee11***************************************##****版本:v0.1*******************************************##****时间:2012-11-14*************************************#library(XML);#****函数:(crawler1)#****提要:网络抓取的主要函数1,可以抓取n个网页的m个变量。每个xpath只爬取一个数据,假如大于1个则提示有误。(较准确抓取)#****输入:# 名称 | 数据名目# url | 欲抓取的网站的url 向量:n个# xpath | 给出的抓取变量的xpath 向量:m个# content | 变量是结点的内容照旧结点的属性值 向量:m个 # "text"是内容(默认),可能是属性名称#****输出:只有print,无输出# 名称 | 寄义 crawler1<-function(url,xpath,content=rep("text",length(xpath))){ #假如xpath以及content的数量差异,则输入数据有误 num_url<-length(url)
R语言网页爬取函数
最后更新 2017-12-04 08:00 星期一 所属:
其他教程 浏览:413
