如何使用 Python 请求网络资源

发表于:2022-10-17 09:38

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:刘光录    来源:TIAP

  很长时间以来我们都在分享 Linux 系统相关的知识,所以可能会有朋友误以为我们只分享 Linux 操作相关的东西,其实不是啊,我们在平时开发过程中遇到的一些问题,感觉可以总结的,都有可能拿来分享。
  最近在写一个定时访问网络资源的程序,里面涉及到使用 python 访问网络,所以我们今天就对这一个点做一个简短的总结。
  使用 python 访问网络资源
  要访问网络中的资源,有些朋友可能会使用 urllib.request,这个模块也是一个 python 的标准库。不过我们使用的是 requests,它是 urllib.request 的封装,使用起来更方便。 如果是第一次使用的话,需要安装 requests,我们使用 pip 安装:
  pip install --user requests
  安装成功后,就可以直接使用了,使用的时候,需要在 python 文件的上方引入:
  import requestsimport requests
  为了方便演示,我们使用 requests 模块访问一下 github 上星最高的 python 项目,地址为:
  https://api.github.com/search/repositories q=language:python&sort=stars
  然后我们新建一个 test-resp.py 的文件,里面输入如下代码:
  import requests
  url=' https://api.github.com/search/repositories q=language:python&sort=stars ';
  get_resp=requests.get(url);
  上述代码中第 1 行为引入 requests 模块,第 2 行将待访问地址存储到 url 变量中,第 3 行使用 requests 模块的 get 方法来访问这个 url,并将响应存储在变量 get_resp 中。这个响应是一个对象,包含请求资源的内容和状态。可以打印一下这个响应的状态,使用 status_code 对象,如下代码:
  print(get_resp.status_code)
  结果如下:
  $ python test-resp.py
  200
  当然,也可以打印出响应的文本,即打印 get_resp.text,不过这个文本没有格式化,不易读。
   python 对 json 的解析功能是很强大的,如下我们可以打印出这个 json 的 key 值:  
  print(get_resp.json().keys())
  结果如下:
  $ python test-resp.py
  dict_keys(['total_count', 'incomplete_results', 'items'])
  由上结果可以知道,我们完全可以将这个响应结果当作一个 json 对象来处理。比如,上述结果中的第一个 keyi 值 total_count,其表示 python 仓库的总数,我们可以将这个数值打印出来,如下所示:
  response_dict=get_resp.json();
  print("Total repositories:", response_dict['total_count'])
  其运行结果如下:
  $ python test-resp.py
  Total repositories: 9128125
  如果读取的网络资源,是普通的 html 格式,可以使用一个第三方库 BeautifulSoup,可以完美解决 html 解析。
  添加请求头信息
  有些网络资源对于请求的响应可能做了限制,比如阻止机器人(程序)访问,或者需要登录(有用户会话)才能访问,为此,可以在请求中添加请求头,在请求头中模拟浏览器,添加用户会话信息(token)等。如下所示:
  headers={
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
  'Authorization':'41d15146-c3f3-4c0b-b48b-b5210151a9df'
  }
  get_resp=requests.get(url,headers=headers,params=None)
  上述代码中,headers 对象中的 User-Agent 为模拟的浏览器信息,Authorization 为请求令牌。 也可以按需添加其他请求头信息,如下所示:
  header={
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8',
  'Accept-Encoding': 'gzip, deflate, sdch',
  'Accept-Language': 'zh-CN,zh;q=0.8',
  'Connection': 'keep-alive',
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
  }
  其他
  上面我们使用的例子,都是处理的 get 请求,对于 post 请求也同样适用,使用 requests 的 post 方法,如下:
  post_resp=requests.post(url,headers=headers,data=None,json=None)
  使用方法与 get 请求完全相同。
  以上就是我们本次分享全部内容,欢迎讨论。
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号