分类目录归档：python相关

python爬虫之多线程threading、多进程程multiprocessing、协程aiohttp 批量下载图片

一、单线程常规下载常规单线程执行脚本爬取壁纸图片，只爬取一页的图片。执行结果：结果，第一页24张图片，就下载差不多8分钟，排除网络等因素，还没有手动下载快。二、多线程下载上面的有两个循环，第一个是页面的循环，一页一页的加载，每页在单独循坏单独下载图片。所以有两个等待时间，第一个就是等待第一页下载完成，才会到第二页。第二个等待就是每页图片一张下载完才下载第二张。综上，优化两点：第一点， [……]

继续阅读»»»

python爬虫练习selenium+BeautifulSoup库，爬取b站搜索内容并保存excel

一、简介前面文章已经介绍了selenium库使用，及浏览器提取信息相关方法。参考：python爬虫之selenium库现在目标要求，用爬虫通过浏览器，搜索关键词，将搜索到的视频信息存储在excel表中。二、创建excel表格，以及chrome驱动三、创建定义搜索函数里面有button_next 为跳转下一页的功能，之所有不用By.CLASS_NAME定位。看html代码可知 class名 [……]

继续阅读»»»

python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行

一、 selenium简介如果链接简单，爬虫可以通过链接用requests库提取页面信息，如爬取豆瓣top250影片信息，链接简单易懂。参考：爬取豆瓣top250影片信息但如果遇到一些搜索之类的，基于js动态加载的网页，以上就不适合，如爬虫b站，搜索“爬虫”页面，第一页链接如下，第二页又是很长没规律的链接。很难用requests库提取页面。针对以上情况，我们可以通过浏览器直接访问每个页面，然 [……]

继续阅读»»»

python爬虫练习，爬取豆瓣最受欢迎的250部电影，并保存至excel

简介目标：使用 BeautifulSoup + Reuqests，爬取豆瓣上评分最高的250部电影，并保存到excel表格中。 requests库，参考文章：python爬虫之reuqests库BeautifulSoup库，参考文章：python爬虫之Beautiful Soup库一、创建xls表格需要用到xlwt库，没安装的话，安装即可创建空表格二、创建请求函数这里创建douban_ [……]

继续阅读»»»

python爬虫之Beautiful Soup库，基本使用以及提取页面信息

一、Beautiful Soup简介爬虫正则表达式参考：Python 爬虫正则表达式和re库在爬虫过程中，可以利用正则表达式去提取信息，但是有些人觉得比较麻烦。因为花大量时间分析正则表达式。这时候可以用高效的网页解析库Beautiful Soup。 Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。 Beautiful Soup支持Py [……]

继续阅读»»»

python爬虫之reuqests库，及基本使用

一、Requests简介 urllib库参考：Python 爬虫之urllib库 Requests是用python语言基于urllib编写的，该模块主要用来发送 HTTP 请求，requests 模块比 urllib 模块更简洁，是学习 python 爬虫的较好的http请求模块。不是 python 的内置库，如果没有安装，可以安装先。二、各种请求方式 requests里提供个各种请求方式， [……]

继续阅读»»»

Python 爬虫正则表达式和re库，及re库的基本使用，提取单个页面信息

一、正则表达式正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下，正则表达式在所有编程里通用，所以不仅仅是python使用。以下是常用的正则表达式，用的时候参考即可，不需要死记硬背，用得多了自然就熟悉了。字符描述 d 匹配任意数字，等价于 [0-9] D 匹配任意非数字的字符,d的取反 w 代表字母，数字，下划线。也就是 a-z、A [……]

继续阅读»»»

Python 爬虫之urllib库，及urllib库的4个模块基本使用和了解

一：Python urllib库 Python urllib 库用于操作网页 URL，并对网页的内容进行抓取处理。 Python3 的 urllib。 urllib 包包含以下几个模块： urllib.request – 打开和读取 URL。 urllib.error – 包含 urllib.request 抛出的异常。 urllib.parse – 解析 U [……]

继续阅读»»»

Python初学者练习小实例（21-50例），1个实例多个列子相互参考

以下所有测试实例来自于菜鸟教程：https://www.runoob.com/python3/python3-examples.html 21、Python 最大公约数算法最大公约数,也称最大公因数、最大公因子,指两个或多个整数共有约数中最大的一个。个人参考代码执行结果菜鸟教程参考代码执行以上代码输出结果为：其他人参考代码可按以下思路减少循环次数：当最小值为最大公约数时，直接返回； [……]

继续阅读»»»

Python初学者练习小实例（1-20例），1个实例多个列子相互参考

以下所有测试实例来自于菜鸟教程：https://www.runoob.com/python3/python3-examples.html 1：Python 数字求和自己的代码执行结果：菜鸟教程参考代码执行结果：或者直接一行代码执行 %.1f 指的输出保留一位小数的浮点数。%f 表示其输出格式为浮点数。其他人参考笔记写了一个报错重新输入的处理 print(f” &#8220 [……]

继续阅读»»»