Python爬虫进阶:从Requests到Selenium实战指南
文章小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《Python爬虫反爬攻略:requests到Selenium进阶实战》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!

1. 理解传统HTTP请求的局限性
在进行网页数据抓取时,requests库是Python中最常用且高效的工具之一。它能够发送HTTP请求并接收响应,适用于抓取静态HTML内容。然而,当目标网站部署了高级反爬机制(如Cloudflare、Akamai等)或页面内容需要JavaScript动态渲染时,requests库往往会遭遇瓶颈,导致无法成功获取预期数据。
考虑以下使用requests库尝试抓取网页的示例代码:
import requests
url = "https://cafe.bithumb.com/view/boards/43?keyword=¬iceCategory=9"
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
"Referer": "https://cafe.bithumb.com/",
}
try:
response = requests.get(url, headers=headers, timeout=10)
response.raise_for_status() # 检查HTTP状态码,如果不是200则抛出异常
print(response.text)
except requests.exceptions.RequestException as err:
print(f"请求发生错误: {err}")尽管代码中设置了User-Agent和Referer等HTTP头信息,尝试模拟浏览器访问,但如果网站使用了Cloudflare等安全服务进行流量过滤,或者页面内容在客户端通过JavaScript动态加载,requests库将无法执行这些JavaScript代码,从而获取到的可能是一个空白页面、一个验证码页面,或者直接被拒绝访问。此时,即使在浏览器中可以正常访问,requests也可能失败。
2. 引入Selenium进行浏览器自动化
为了应对上述挑战,我们需要一个能够模拟真实浏览器行为的工具,即能够执行JavaScript、处理Cookie、渲染页面并与页面元素进行交互。Selenium正是这样一款强大的浏览器自动化测试框架,它可以通过驱动真实的浏览器(如Chrome、Firefox)来访问网页。
2.1 Selenium的工作原理
Selenium通过WebDriver协议与浏览器进行通信。当你使用Selenium时,它会启动一个真实的浏览器实例(可以是无头模式),然后像用户一样操作这个浏览器:输入URL、点击按钮、填写表单,并等待页面加载和JavaScript执行完毕。这意味着Selenium可以有效绕过那些依赖JavaScript验证或动态渲染的反爬机制。
2.2 环境准备
在开始使用Selenium之前,需要安装selenium库并下载对应浏览器的WebDriver。
- 安装Selenium库:
pip install selenium
- 下载WebDriver:
以Chrome浏览器为例,你需要下载ChromeDriver。
- 首先,查看你本地Chrome浏览器的版本(在Chrome浏览器中输入chrome://version)。
- 然后,访问ChromeDriver官方下载页面(https://sites.google.com/chromium.org/driver/),下载与你Chrome版本兼容的ChromeDriver。
- 将下载的chromedriver可执行文件放置在系统PATH中,或者指定其完整路径给webdriver.Chrome()。
2.3 使用Selenium抓取网页内容
以下是使用Selenium(Chrome浏览器)抓取之前无法访问的网站的示例代码:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By # 导入By模块用于元素定位
from selenium.webdriver.support.ui import WebDriverWait # 导入WebDriverWait用于等待元素
from selenium.webdriver.support import expected_conditions as EC # 导入expected_conditions用于设置等待条件
url = "https://cafe.bithumb.com/view/boards/43?keyword=¬iceCategory=9"
# 配置Chrome浏览器选项
chrome_options = Options()
# 设置User-Agent,进一步模拟真实浏览器
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36')
# 启用无头模式,即不显示浏览器界面,在服务器环境或后台运行时非常有用
chrome_options.add_argument('--headless')
# 其他常用选项,可根据需要添加
chrome_options.add_argument('--disable-gpu') # 禁用GPU加速,在无头模式下可能有用
chrome_options.add_argument('--no-sandbox') # 禁用沙箱模式,在某些Linux环境下可能需要
chrome_options.add_argument('--disable-dev-shm-usage') # 解决/dev/shm分区太小的问题
# 初始化WebDriver,启动Chrome浏览器
# 如果chromedriver不在系统PATH中,需要指定executable_path
# driver = webdriver.Chrome(executable_path='/path/to/chromedriver', options=chrome_options)
driver = webdriver.Chrome(options=chrome_options)
try:
print(f"正在访问URL: {url}")
driver.get(url) # 访问目标URL
# 可以添加等待机制,确保页面完全加载和JavaScript执行完毕
# 例如,等待某个特定元素出现,表示页面内容已加载
# WebDriverWait(driver, 10).until(
# EC.presence_of_element_located((By.CSS_SELECTOR, 'div.some-content-class'))
# )
# 获取当前页面的完整HTML源代码
page_source = driver.page_source
print("成功获取页面内容,前500字符:")
print(page_source[:500]) # 打印部分内容以验证
except Exception as e:
print(f"访问或获取页面内容时发生错误: {e}")
finally:
# 无论是否发生错误,都确保关闭浏览器实例,释放资源
print("关闭浏览器实例。")
driver.quit()2.4 代码解析与注意事项
- from selenium import webdriver: 导入WebDriver模块。
- from selenium.webdriver.chrome.options import Options: 导入Options类,用于配置Chrome浏览器行为。
- chrome_options.add_argument(...): 添加启动参数。
- 'user-agent=...': 设置User-Agent,进一步模拟真实浏览器。
- '--headless': 关键参数,使Chrome在后台运行,不显示图形界面。这对于服务器部署和提高效率非常重要。
- 其他参数如--disable-gpu、--no-sandbox等有助于在特定环境下(如Linux服务器)稳定运行。
- driver = webdriver.Chrome(options=chrome_options): 初始化Chrome WebDriver,并应用配置的选项。
- driver.get(url): 浏览器访问指定的URL。Selenium会自动等待页面加载完成(包括JavaScript执行)。
- WebDriverWait 和 expected_conditions: 这是Selenium中非常重要的等待机制。当页面内容是动态加载时,仅仅driver.get()可能不足以确保所有元素都已渲染。通过WebDriverWait,我们可以设置一个最长等待时间,并指定一个条件(如某个元素出现),直到条件满足或超时为止。这能有效提高爬虫的健壮性。
- page_source = driver.page_source: 获取当前页面加载完成后的完整HTML源代码。
- driver.quit(): 非常重要,关闭浏览器实例并终止WebDriver进程。如果不调用此方法,浏览器进程可能会持续运行,占用系统资源。
3. 总结与选择建议
当传统的requests库无法满足爬取需求时,Selenium提供了一个强大的替代方案,尤其适用于以下场景:
- 反爬机制复杂:网站采用Cloudflare、Akamai等高级反爬技术。
- 动态内容渲染:页面内容主要通过JavaScript在客户端动态生成。
- 需要模拟用户交互:如点击按钮、填写表单、滚动页面等。
然而,Selenium并非没有缺点:
- 性能开销大:每次请求都需要启动一个完整的浏览器实例,资源消耗远高于requests。
- 速度较慢:页面加载和JavaScript执行需要时间,抓取效率低于requests。
- 环境配置复杂:需要安装WebDriver并确保与浏览器版本兼容。
因此,在实际开发中,应根据具体需求选择合适的工具:
- 优先使用requests:如果目标网站内容静态、反爬机制不强,requests是更高效、更轻量级的选择。
- 在必要时使用Selenium:当requests无法解决问题时,再考虑引入Selenium。可以尝试结合使用,例如先用requests获取部分静态数据,再用Selenium处理动态部分。
通过灵活运用requests和Selenium,开发者可以构建出更加健壮和高效的Python爬虫系统,应对各种复杂的网页抓取挑战。
文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Python爬虫进阶:从Requests到Selenium实战指南》文章吧,也可关注golang学习网公众号了解相关技术文章。
Golang并发优化:GMP调度调优全解析
- 上一篇
- Golang并发优化:GMP调度调优全解析
- 下一篇
- Golangio库读写与缓冲处理全解析
-
- 文章 · python教程 | 5分钟前 |
- 汉诺塔递归算法详解与代码实现
- 207浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Tkinter游戏开发:线程实现稳定收入不卡顿
- 383浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- 优化VSCodeJupyter单元格插入方式
- 358浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- Python如何重命名数据列名?columns教程
- 165浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- 异步Python机器人如何非阻塞运行?
- 216浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- Python排序忽略大小写技巧详解
- 325浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- Python列表引用与复制技巧
- 300浏览 收藏
-
- 文章 · python教程 | 11小时前 | 数据处理 流处理 PythonAPI PyFlink ApacheFlink
- PyFlink是什么?Python与Flink结合解析
- 385浏览 收藏
-
- 文章 · python教程 | 11小时前 | sdk 邮件API requests库 smtplib Python邮件发送
- Python发送邮件API调用方法详解
- 165浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3193次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3406次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3436次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4543次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3814次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

