月度归档:2022年10月
python爬虫之多线程threading、多进程程multiprocessing、协程aiohttp 批量下载图片
一、单线程常规下载 常规单线程执行脚本爬取壁纸图片,只爬取一页的图片。 执行结果: 结果,第一页24张图片,就下载差不多8分钟,排除网络等因素,还没有手动下载快。 二、多线程下载 上面的有两个循环,第一个是页面的循环,一页一页的加载,每页在单独循坏单独下载图片。 所以有两个等待时间,第一个就是等待第一页下载完成,才会到第二页。第二个等待就是每页图片一张下载完才下载第二张。 综上,优化两点:第一点, [……]
继续阅读»»»
python爬虫练习selenium+BeautifulSoup库,爬取b站搜索内容并保存excel
一、简介 前面文章已经介绍了selenium库使用,及浏览器提取信息相关方法。参考:python爬虫之selenium库 现在目标要求,用爬虫通过浏览器,搜索关键词,将搜索到的视频信息存储在excel表中。 二、创建excel表格,以及chrome驱动 三、创建定义搜索函数 里面有button_next 为跳转下一页的功能,之所有不用By.CLASS_NAME定位。看html代码可知 class名 [……]
继续阅读»»»
python爬虫之selenium库,浏览器访问搜索页面并提取信息,及隐藏浏览器运行
一、 selenium简介 如果链接简单,爬虫可以通过链接用requests库提取页面信息,如爬取豆瓣top250影片信息,链接简单易懂。参考:爬取豆瓣top250影片信息 但如果遇到一些搜索之类的,基于js动态加载的网页,以上就不适合,如爬虫b站,搜索“爬虫”页面,第一页链接如下,第二页又是很长没规律的链接。很难用requests库提取页面。 针对以上情况,我们可以通过浏览器直接访问每个页面,然 [……]
继续阅读»»»
python爬虫练习,爬取豆瓣最受欢迎的250部电影,并保存至excel
简介 目标:使用 BeautifulSoup + Reuqests,爬取豆瓣上评分最高的250部电影,并保存到excel表格中。 requests库,参考文章:python爬虫之reuqests库BeautifulSoup库,参考文章:python爬虫之Beautiful Soup库 一、创建xls表格 需要用到xlwt库,没安装的话,安装即可 创建空表格 二、创建请求函数 这里创建douban_ [……]
继续阅读»»»
python爬虫之Beautiful Soup库,基本使用以及提取页面信息
一、Beautiful Soup简介 爬虫正则表达式参考:Python 爬虫正则表达式和re库 在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦。因为花大量时间分析正则表达式。这时候可以用高效的网页解析库Beautiful Soup。 Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 Beautiful Soup支持Py [……]
继续阅读»»»
python爬虫之reuqests库,及基本使用
一、Requests简介 urllib库参考:Python 爬虫之urllib库 Requests是用python语言基于urllib编写的,该模块主要用来发 送 HTTP 请求,requests 模块比 urllib 模块更简洁,是学习 python 爬虫的较好的http请求模块。 不是 python 的内置库,如果没有安装,可以安装先。 二、各种请求方式 requests里提供个各种请求方式, [……]
继续阅读»»»
Python 爬虫正则表达式和re库,及re库的基本使用,提取单个页面信息
一、正则表达式 正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下,正则表达式在所有编程里通用,所以不仅仅是python使用。 以下是常用的正则表达式,用的时候参考即可,不需要死记硬背,用得多了自然就熟悉了。 字符 描述 d 匹配任意数字,等价于 [0-9] D 匹配任意非数字的字符,d的取反 w 代表字母,数字,下划线。也就是 a-z、A [……]
继续阅读»»»