分类目录归档:python相关
python爬虫之selenium库,浏览器访问搜索页面并提取信息,及隐藏浏览器运行
一、 selenium简介 如果链接简单,爬虫可以通过链接用requests库提取页面信息,如爬取豆瓣top250影片信息,链接简单易懂。参考:爬取豆瓣top250影片信息 但如果遇到一些搜索之类的,基于js动态加载的网页,以上就不适合,如爬虫b站,搜索“爬虫”页面,第一页链接如下,第二页又是很长没规律的链接。很难用requests库提取页面。 针对以上情况,我们可以通过浏览器直接访问每个页面,然 [……]
继续阅读»»»
python爬虫练习,爬取豆瓣最受欢迎的250部电影,并保存至excel
简介 目标:使用 BeautifulSoup + Reuqests,爬取豆瓣上评分最高的250部电影,并保存到excel表格中。 requests库,参考文章:python爬虫之reuqests库BeautifulSoup库,参考文章:python爬虫之Beautiful Soup库 一、创建xls表格 需要用到xlwt库,没安装的话,安装即可 创建空表格 二、创建请求函数 这里创建douban_ [……]
继续阅读»»»
python爬虫之Beautiful Soup库,基本使用以及提取页面信息
一、Beautiful Soup简介 爬虫正则表达式参考:Python 爬虫正则表达式和re库 在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦。因为花大量时间分析正则表达式。这时候可以用高效的网页解析库Beautiful Soup。 Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 Beautiful Soup支持Py [……]
继续阅读»»»
python爬虫之reuqests库,及基本使用
一、Requests简介 urllib库参考:Python 爬虫之urllib库 Requests是用python语言基于urllib编写的,该模块主要用来发 送 HTTP 请求,requests 模块比 urllib 模块更简洁,是学习 python 爬虫的较好的http请求模块。 不是 python 的内置库,如果没有安装,可以安装先。 二、各种请求方式 requests里提供个各种请求方式, [……]
继续阅读»»»
Python 爬虫正则表达式和re库,及re库的基本使用,提取单个页面信息
一、正则表达式 正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下,正则表达式在所有编程里通用,所以不仅仅是python使用。 以下是常用的正则表达式,用的时候参考即可,不需要死记硬背,用得多了自然就熟悉了。 字符 描述 d 匹配任意数字,等价于 [0-9] D 匹配任意非数字的字符,d的取反 w 代表字母,数字,下划线。也就是 a-z、A [……]
继续阅读»»»
Python 爬虫之urllib库,及urllib库的4个模块基本使用和了解
一:Python urllib库 Python urllib 库用于操作网页 URL,并对网页的内容进行抓取处理。 Python3 的 urllib。 urllib 包 包含以下几个模块: urllib.request – 打开和读取 URL。 urllib.error – 包含 urllib.request 抛出的异常。 urllib.parse – 解析 U [……]
继续阅读»»»
Python初学者练习小实例(21-50例),1个实例多个列子相互参考
以下所有测试实例来自于菜鸟教程:https://www.runoob.com/python3/python3-examples.html 21、Python 最大公约数算法 最大公约数,也称最大公因数、最大公因子,指两个或多个整数共有约数中最大的一个。 个人参考代码 执行结果 菜鸟教程参考代码 执行以上代码输出结果为: 其他人参考代码 可按以下思路减少循环次数: 当最小值为最大公约数时,直接返回; [……]
继续阅读»»»
Python初学者练习小实例(1-20例),1个实例多个列子相互参考
以下所有测试实例来自于菜鸟教程:https://www.runoob.com/python3/python3-examples.html 1:Python 数字求和 自己的代码 执行结果: 菜鸟教程参考代码 执行结果: 或者直接一行代码执行 %.1f 指的输出保留一位小数的浮点数。%f 表示其输出格式为浮点数。 其他人参考笔记 写了一个报错重新输入的处理 print(f” “ [……]
继续阅读»»»