python selenium+chromedriver安装及爬虫算例

Posted by XiLock on August 24, 2021

安装

安装selenium
pip install selenium

但pip有时候出幺蛾子,不行的话就用conda装:

conda install selenium
安装chromedriver

chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。

  1. 有两个下载地址:1、 http://chromedriver.storage.googleapis.com/index.html;2、 https://npm.taobao.org/mirrors/chromedriver/
  2. 下载完后解压,找到chromedriver.exe复制到chrome的安装目录(C:\Program Files (x86)\Google\Chrome\Application\),将文件位置(C:\Program Files (x86)\Google\Chrome\Application\)添加到环境变量PATH里
  3. 在cmd里输入chromedriver检查是否安装成功,或者输入下面代码看是否自动弹出一个浏览器:
from selenium import webdriver
import time

def main():
    b = webdriver.Chrome()
    b.get('https://www.baidu.com')
    time.sleep(5)
    b.quit()

if __name__ == '__main__':
    main()

爬虫知网算例

写了几个爬知网文献的case,但是XPATH变得比较频繁,用的话可能需要经常自己手动更新。顺便录了一个使用selenium爬知网实例

注:xpath可用edge的插件“SelectorsHub - XPath Plugin”或“Xpath finder”获取。

要练习的爬虫算例

  1. requests+正则表达式爬取静态网页(最好是加入搜索关键词的),并加入多进程,数据库存储,文件下载(图片和文本)
  2. requests+lxml+xpath爬取静态网页,其他同第(1)点
  3. requests+bs4+css/xpath爬取静态网页,其他同第(1)点
  4. requests+pyquery+css爬取静态网页,其他同第(1)点
  5. selenium+Phantomjs爬取静态网页,其他同第(1)点
  6. pyspider+ selenium+Phantomjs爬取静态网页,其他同第(1)点(静态网页用pyspider爬感觉大材小用)
  7. scrapy爬取动态网页,其他同第(1)点
  8. 找一个封IP和cookies的网站(比如微博),用scrapy爬取,把几个pipeline都用起来,然后加入分布式爬取(找3个云服务器就ok了,一个发布任务,两个爬取),其他同第(1)点

参考资料

  1. selenium 安装与 chromedriver安装
  2. Python爬虫,批量获取知网文献信息
  3. Some bioinformatics tool scripts


手机版“神探玺洛克”请扫码