#*************网页爬虫-R语言实现,函数库文件*******#
#****作者:oldlee11***************************************#
#****版本:v0.1*******************************************#
#****时间:2012-11-14*************************************#
library(XML);
#****函数:(crawler1)
#****提要:网络抓取的主要函数1,可以抓取n个网页的m个变量。每个xpath只爬取一个数据,假如大于1个则提示有误。(较准确抓取)
#****输入:
# 名称 | 数据名目
# url | 欲抓取的网站的url 向量:n个
# xpath | 给出的抓取变量的xpath 向量:m个
# content | 变量是结点的内容照旧结点的属性值 向量:m个
# "text"是内容(默认),可能是属性名称
#****输出:只有print,无输出
# 名称 | 寄义
crawler1<-function(url,xpath,content=rep("text",length(xpath))){
#假如xpath以及content的数量差异,则输入数据有误
num_url<-length(url)
R语言网页爬取函数
最后更新 2017-12-04 08:00 星期一 所属:
其他教程 浏览:339