python爬虫之reuqests库,及基本使用

✍️Auth:运维笔记       Date:2022/10/3       Cat:python相关       👁️:1,039 次浏览

一、Requests简介

urllib库参考:Python 爬虫之urllib库

Requests是用python语言基于urllib编写的,该模块主要用来发 送 HTTP 请求,requests 模块比 urllib 模块更简洁,是学习 python 爬虫的较好的http请求模块。

不是 python 的内置库,如果没有安装,可以安装先。

pip install requests

二、各种请求方式

requests里提供个各种请求方式,每次调用 requests 请求之后,会返回一个 response 对象,该对象包含了具体的响应信息。响应信息如下:

属性或方法说明
apparent_encoding编码方式
close()关闭与服务器的连接
content返回响应的内容,以字节为单位
cookies返回一个 CookieJar 对象,包含了从服务器发回的 cookie
elapsed返回一个 timedelta 对象,包含了从发送请求到响应到达之间经过的时间量,可以用于测试响应速度。比如 r.elapsed.microseconds 表示响应到达需要多少微秒
encoding解码 r.text 的编码方式
headers返回响应头,字典格式
history返回包含请求历史的响应对象列表(url)
is_permanent_redirect如果响应是永久重定向的 url,则返回 True,否则返回 False
is_redirect如果响应被重定向,则返回 True,否则返回 False
iter_content()迭代响应
iter_lines()迭代响应的行
json()返回结果的 JSON 对象 (结果需要以 JSON 格式编写的,否则会引发错误)
links返回响应的解析头链接
next返回重定向链中下一个请求的 PreparedRequest 对象
ok检查 “status_code” 的值,如果小于400,则返回 True,如果不小于 400,则返回 False
raise_for_status()如果发生错误,方法返回一个 HTTPError 对象
reason响应状态的描述,比如 “Not Found” 或 “OK”
request返回请求此响应的请求对象
status_code返回 http 的状态码,比如 404 和 200(200 是 OK,404 是 Not Found)
text返回响应的内容,unicode 类型数据
url返回响应的 URL

1、基本Get 请求

import requests

x = requests.get('http://www.baidu.com')
print(x.status_code)
print(x.reason)
print(x.apparent_encoding)
print(x.text)

执行结果:

200                                                                                                                                                                                                      
OK                                                                              
utf-8                                                                           
<!DOCTYPE html>                                                                 
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>.....

请求 json 数据文件,返回 json 内容:

通过params参数传递一个字典内容,从而直接构造url

import requests
params = {
    'name': 'zhangsan',
    'age': 100
}
x = requests.get('http://httpbin.org/get',params=params)
print(x.url)
print(x.json())

执行结果:

http://httpbin.org/get?name=zhangsan&age=100                                                                                                                                                             
{'args': {'age': '100', 'name': 'zhangsan'}, 'headers': {'...

抓取二进制数据

在上面的例子中,我们抓取的是网站的一个页面,实际上它返回的是一个 HTML 文档。如果想抓取图片、音频、视频等文件,需要用到content,这样获取的数据是二进制数据。

如抓取百度logo图片:

import requests

x = requests.get('https://www.baidu.com/img/flexible/logo/pc/result.png')

print(x.content)

执行结果:

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\xca\x00\

得到的是一串二进制的乱码,如果想得到图片,直接将其保存到本地即可。

import requests

x = requests.get('https://www.baidu.com/img/flexible/logo/pc/result.png')

with open('baidulogo.png','wb') as f:
    f.write(x.content)

执行后,在本地目录,可以看到图片已经下载

添加headers
有些网页,必须需要headers才能访问。这时只需要将参赛传到 headers参数中即可,如下所示:

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}

x = requests.get('https://baidu.com/', headers=headers)

print(x.text)

2、基本POST请求

在爬虫中,另外一个比较常见的请求方式就是 POST 请求,跟GET用法差不多。

post() 方法可以发送 POST 请求到指定 url,一般格式如下:

requests.post(url, data={key: value}, json={key: value}, args)
  • url 请求 url。
  • data 参数为要发送到指定 url 的字典、元组列表、字节或文件对象。
  • json 参数为要发送到指定 url 的 JSON 对象。
  • args 为其他参数,比如 cookies、headers、verify等。
import requests

data = {'name': 'zhangsan', 'age': '100'}
x = requests.post("http://httpbin.org/post", data=data)
print(x.text)

执行结果:

{                                                                                                                                                                                                        
  "args": {},                                                                   
  "data": "",                                                                   
  "files": {},                                                                  
  "form": {                                                                     
    "age": "100",                                                                                                                                                                                        
    "name": "zhangsan"                                                          
  },                                                                                                                                                                                                     
  "headers": {                                                                                                                                                                                           
    "Accept": "*/*",                                                                                                                                                                                     
    "Accept-Encoding": "gzip, deflate",                                                                                                                                                                  
    "Content-Length": "21",
    ....

3、其他请求

其他请求可以自行测试,差不多用法。

r = requests.put('https://httpbin.org/put', data = {'key':'value'})

r = requests.delete('https://httpbin.org/delete')

r = requests.head('https://httpbin.org/get')

r = requests.options('https://httpbin.org/get')

三、requests 方法

requests 方法如下表:

方法描述
delete(url, args)发送 DELETE 请求到指定 url
get(url, params, args)发送 GET 请求到指定 url
head(url, args)发送 HEAD 请求到指定 url
patch(url, data, args)发送 PATCH 请求到指定 url
post(url, data, json, args)发送 POST 请求到指定 url
put(url, data, args)发送 PUT 请求到指定 url
request(method, url, args)向指定的 url 发送指定的请求方法
import requests

# 发送请求
x = requests.request('get', 'https://httpbin.org/')

# 返回网页内容
print(x.status_code)

执行结果:

200

设置请求头:

# 导入 requests 包
import requests


kw = {'s':'python 教程'}

# 设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# params 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
response = requests.get("https://httpbin.org", params = kw, headers = headers)

# 查看响应状态码
print (response.status_code)

# 查看响应头部字符编码
print (response.encoding)

# 查看完整url地址
print (response.url)

# 查看响应内容,response.text 返回的是Unicode格式的数据
print(response.text)

执行结果:

 200                                                                                                                                                                                                      
 utf-8                                                                           
 https://httpbin.org/?s=python+%E6%95%99%E7%A8%8B                                
 <!DOCTYPE html>                                                                 
 <html lang="en">                                                                

 <head>                                                                          
     <meta charset="UTF-8">                                                      
     <title>httpbin.org</title>                                                  
     <link href="https://fonts.googleapis.com/css?family=Open+Sans:400,700|Source+Code+Pro:300,600|Titillium+Web:400,600,700"
        rel="stylesheet"> 
        ....

四、requests其他高级用法

1、文件上传

实现方法和其他参数类似,也是构造一个字典然后通过files参数传递。

import requests
files= {"files":open("git.jpeg","rb")}
response = requests.post("http://httpbin.org/post",files=files)
print(response.text)

2、获取cookie

import requests

response = requests.get("http://www.baidu.com")
print(response.cookies)

for key,value in response.cookies.items():
    print(key+"="+value)

3、会话维持

cookie的一个作用就是可以用于模拟登陆,做会话维持。

import requests
s = requests.Session()
s.get("http://httpbin.org/cookies/set/number/123456")
response = s.get("http://httpbin.org/cookies")
print(response.text)

4、证书验证

现在的很多网站都是https的方式访问,所以这个时候就涉及到证书的问题,有时遇到:requests.exceptions.SSLError: HTTPSConnectionPool 错误。

import requests
from requests.packages import urllib3
urllib3.disable_warnings()
response = requests.get("https://httpbin.org",verify=False)
print(response.status_code)

当然,我们也可以指定一个本地证书用作客户端证书,这可以是单个文件(包含密钥和证书)或一个包含两个文件路径的元组:

import requests

response = requests.get('https://httpbin.org/', cert=('/path/server.crt', '/path/server.key'))
print(response.status_code)

上面的代码是演示实例,我们需要有 crt 和 key 文件,并且指定它们的路径。另外注意,本地私有证书的 key 必须是解密状态,加密状态的 key是不支持的。

5、代理设置

import requests

from requests.auth import HTTPBasicAuth

response = requests.get("http://192.168.152.100:9001/",auth=HTTPBasicAuth("user","123"))
print(response.status_code)

还有一种方式

import requests

response = requests.get("http://192.168.152.100:9001/",auth=("user","123"))
print(response.status_code)

6、超时设置

在某些网络情况不好的情况下,服务器可能很久才会响应甚至无法响应,此时就需要设置超时来避免无限的等待。在 requests 中,我们可以通过 timeout 参数来设置超时时间,这个时间是发出请求到服务器返回的整个过程所用的时间,即连接和读取两个过程,单位为秒。当然,也可以分别设置连接和读取各自的超时时间:

import requests

r = requests.get('https://httpbin.org/get', timeout=1)
print(r.status_code)
r = requests.get('https://httpbin.org/get', timeout=(5, 30))

当然,如果不设置 timeout 或者将其设置为 None ,则表示不会进行超时处理,即会永久等待下去。

打赏作者

python爬虫之reuqests库,及基本使用》有1个想法

  1. Pingback引用通告: python爬虫练习,爬取豆瓣最受欢迎的250部电影,并保存至excel - 运维笔记(ywbj.cc)

发表评论