署理范例(proxy):透明署理 匿名署理 夹杂署理和高匿署理. 这里写一些python爬虫利用署理的常识, 尚有一个署理池的类. 利便各人应对事情中各类巨大的抓取问题。
urllib 模块利用署理
urllib/urllib2利用署理较量贫苦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.
署理名目是"http://127.0.0.1:80",假如要账号暗码是"http://user:password@127.0.0.1:80".
proxy="http://127.0.0.1:80" # 建设一个ProxyHandler工具 proxy_support=urllib.request.ProxyHandler({'http':proxy}) # 建设一个opener工具 opener = urllib.request.build_opener(proxy_support) # 给request装载opener urllib.request.install_opener(opener) # 打开一个url r = urllib.request.urlopen('http://youtube.com',timeout = 500)
requests 模块 利用署理
requests利用署理要比urllib简朴多了…这里以单次署理为例. 多次的话可以用session一类构建.
假如需要利用署理,你可以通过为任意请求要领提供 proxies 参数来设置单个请求:
import requests proxies = { "http": "http://127.0.0.1:3128", "https": "http://127.0.0.1:2080", } r=requests.get("http://youtube.com", proxies=proxies) print r.text
你也可以通过情况变量 HTTP_PROXY 和 HTTPS_PROXY 来设置署理。
export HTTP_PROXY="http://127.0.0.1:3128" export HTTPS_PROXY="http://127.0.0.1:2080" python >>> import requests >>> r=requests.get("http://youtube.com") >>> print r.text
若你的署理需要利用HTTP Basic Auth,可以利用 http://user:password@host/ 语法:
proxies = { "http": "http://user:pass@127.0.0.1:3128/", }
python的署理利用很是简朴, 最重要的是要找一个网络不变靠得住的署理,有问题接待留言提问