Python爬虫利用署理proxy抓取网页

署理范例（proxy）:透明署理匿名署理夹杂署理和高匿署理. 这里写一些python爬虫利用署理的常识, 尚有一个署理池的类. 利便各人应对事情中各类巨大的抓取问题。

urllib 模块利用署理

urllib/urllib2利用署理较量贫苦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.

署理名目是"http://127.0.0.1:80",假如要账号暗码是"http://user:[email protected]:80".

proxy="http://127.0.0.1:80"
# 建设一个ProxyHandler工具
proxy_support=urllib.request.ProxyHandler({'http':proxy})
# 建设一个opener工具
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen('http://youtube.com',timeout = 500)

requests 模块利用署理

requests利用署理要比urllib简朴多了…这里以单次署理为例. 多次的话可以用session一类构建.

假如需要利用署理，你可以通过为任意请求要领提供 proxies 参数来设置单个请求:

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

你也可以通过情况变量 HTTP_PROXY 和 HTTPS_PROXY 来设置署理。

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

若你的署理需要利用HTTP Basic Auth，可以利用 http://user:password@host/ 语法:

proxies = {
    "http": "http://user:[email protected]:3128/",
}

python的署理利用很是简朴，最重要的是要找一个网络不变靠得住的署理，有问题接待留言提问

关键字：