R语言网页爬取函数

#*************网页爬虫-R语言实现，函数库文件*******##****作者：oldlee11***************************************##****版本：v0.1*******************************************##****时间：2012-11-14*************************************#library(XML);#****函数：(crawler1)#****提要：网络抓取的主要函数1，可以抓取n个网页的m个变量。每个xpath只爬取一个数据，假如大于1个则提示有误。（较准确抓取）#****输入：# 名称 | 数据名目# url | 欲抓取的网站的url 向量：n个# xpath | 给出的抓取变量的xpath 向量：m个# content | 变量是结点的内容照旧结点的属性值向量：m个 # "text"是内容(默认)，可能是属性名称#****输出：只有print，无输出# 名称 | 寄义 crawler1<-function(url,xpath,content=rep("text",length(xpath))){ #假如xpath以及content的数量差异，则输入数据有误 num_url<-length(url)

关键字：