当前位置:首页 > 文章列表 > 文章 > 前端 > Python分页数据抓取技巧分享

Python分页数据抓取技巧分享

2025-12-03 21:27:37 0浏览 收藏

本文针对Python网络爬虫中遇到的“静态URL下的动态分页”问题,提供了一种有效的解决方案,符合百度SEO优化标准。当网页URL在翻页时保持不变,传统的URL枚举方法失效。文章详细阐述了如何通过分析浏览器网络请求,特别是POST请求的请求体,来识别和构造分页参数。教程结合requests库发送POST请求,利用BeautifulSoup库解析HTML内容,最终使用pandas将抓取的数据整理成结构化的DataFrame。通过模拟POST请求,可以高效、完整地抓取看似静态的网页中的所有分页数据,突破传统爬虫的局限,为数据分析和挖掘提供更广阔的可能性。

Python网络爬虫:处理URL不变的分页数据抓取

本文详细介绍了如何使用Python处理看似静态但实际通过POST请求实现分页的网页数据抓取。当URL在翻页时保持不变时,传统的URL枚举方法将失效。教程将指导读者如何通过分析网络请求,识别并构造POST请求体中的分页参数,结合requests和BeautifulSoup库,实现高效、完整的数据爬取,并将结果整理为结构化的DataFrame。

引言:理解静态URL下的动态分页挑战

在进行网络数据抓取时,我们经常会遇到网站内容通过分页展示的情况。传统的分页机制通常会在URL中体现页码参数(如 page=1, page=2),这使得通过简单地修改URL即可遍历所有页面。然而,许多现代网站为了提供更流畅的用户体验,会采用AJAX技术或通过POST请求在不刷新整个页面的情况下加载新数据。这意味着即使页面内容(例如表格数据)发生变化,浏览器地址栏中的URL也可能保持不变。

对于爬虫开发者而言,这种“静态URL下的动态分页”机制带来了挑战。例如,在抓取像 https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview 这样的网站时,尽管页面上显示了数千条数据并提供了翻页功能,但实际的URL在翻页时并不会改变。此时,单纯依赖 requests.get() 和 pd.read_html() 只能获取到当前显示页面的数据,无法遍历所有页面。

核心策略:识别并模拟POST请求

解决此类问题的关键在于理解浏览器在用户点击“下一页”时实际执行了什么操作。通常,当URL不发生变化但内容更新时,浏览器会向服务器发送一个异步请求,这个请求往往是一个POST请求,并且在请求体(Request Body)中包含了控制分页、排序或筛选的参数。

我们的目标就是模拟这种POST请求:

  1. 识别POST请求: 使用浏览器开发者工具(如Chrome的DevTools,Network Tab),监控在翻页操作时发出的HTTP请求。
  2. 提取请求参数: 找到对应的POST请求,分析其请求URL和请求负载(Payload/Form Data),确定哪些参数是控制分页的关键(如 pageNum)。
  3. 构造请求: 在Python中使用 requests 库,构造相同的POST请求,并迭代地修改分页参数以获取不同页的数据。

Python实现步骤

以下将详细介绍如何使用Python的 requests、BeautifulSoup 和 pandas 库来抓取此类分页数据。

1. 导入所需库

首先,我们需要导入本教程将使用的Python库:

  • requests:用于发送HTTP请求。
  • pandas:用于将抓取到的数据结构化为DataFrame。
  • BeautifulSoup:用于解析HTML内容并提取所需数据。
import requests
import pandas as pd
from bs4 import BeautifulSoup
import time # 建议引入,用于控制请求间隔

2. 分析POST请求参数

通过浏览器开发者工具(F12),切换到“Network”选项卡,然后尝试点击网页上的“下一页”按钮。观察新出现的请求,通常会有一个POST请求到相同的URL。点击该请求,查看其“Payload”或“Form Data”部分,你会发现一系列键值对。

针对 https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview 这个网站,经过分析,我们发现翻页时会发送以下形式的POST数据,其中 pageNum 是控制页码的关键参数:

data = {
    "folder": "auctionResults",
    "loginID": "00",
    "pageNum": "1", # 关键参数,用于控制页码
    "orderBy": "AdvNum",
    "orderDir": "asc",
    "justFirstCertOnGroups": "1",
    "doSearch": "true",
    "itemIDList": "",
    "itemSetIDList": "",
    "interest": "",
    "premium": "",
    "itemSetDID": "",
}

url = "https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview"

3. 迭代发送POST请求并提取数据

有了请求URL和POST数据模板,我们就可以在一个循环中迭代 pageNum 参数,发送请求,并解析返回的HTML内容。

all_data = [] # 用于存储所有页面的数据

# 假设我们需要抓取前N页数据,这里以3页为例,实际应根据总页数调整
# 注意:网站可能没有直接显示总页数,可能需要通过抓取一页数据后解析出总记录数再计算,
# 或者设置一个较大的循环次数直到不再返回新数据为止。
for page_num in range(1, 3): # <-- 增加循环次数以获取更多页面
    data["pageNum"] = str(page_num) # 更新页码参数

    # 发送POST请求
    response = requests.post(url, data=data)

    # 检查请求是否成功
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, "html.parser")

        # 定位数据表格,根据页面HTML结构,数据通常在特定的ID或Class的表格中
        # 示例中,数据在id为"searchResults"的表格中,且前两行是表头
        for row in soup.select("#searchResults tr")[2:]: 
            tds = [td.text.strip() for td in row.select("td")]
            all_data.append(tds)
    else:
        print(f"请求第 {page_num} 页失败,状态码: {response.status_code}")

    time.sleep(1) # 建议增加延迟,避免请求过快被服务器屏蔽

4. 构建Pandas DataFrame

抓取到所有页面的数据后,我们可以将其转换为一个结构化的Pandas DataFrame,以便于后续的数据分析和处理。

# 定义列名,确保与网页表格的列顺序一致
columns = [
    "SEQ NUM",
    "Tax Year",
    "Notices",
    "Parcel ID",
    "Face Amount",
    "Winning Bid",
    "Sold To",
]

df = pd.DataFrame(all_data, columns=columns)

# 打印DataFrame的最后10条数据进行验证
print(df.tail(10).to_markdown(index=False)) # index=False 避免打印DataFrame索引

完整示例代码

import requests
import pandas as pd
from bs4 import BeautifulSoup
import time

# 目标URL,即使翻页也不会改变
url = "https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview"

# POST请求的表单数据模板
# 这些参数通过浏览器开发者工具分析得到
data = {
    "folder": "auctionResults",
    "loginID": "00",
    "pageNum": "1", # 关键参数,会在循环中更新
    "orderBy": "AdvNum",
    "orderDir": "asc",
    "justFirstCertOnGroups": "1",
    "doSearch": "true",
    "itemIDList": "",
    "itemSetIDList": "",
    "interest": "",
    "premium": "",
    "itemSetDID": "",
}

all_data = [] # 用于存储从所有页面抓取到的数据

# 假设网站有N页数据,这里以抓取前2页为例。
# 实际应用中,你需要根据网站的实际总页数或通过其他方式判断何时停止。
# 例如,可以尝试抓取一页,解析出总记录数或总页码,再进行循环。
# 或者,可以循环到一个较大的页码,如果返回的数据为空或与上一页重复,则停止。
for page_num in range(1, 3):  # 示例:抓取第1页和第2页
    data["pageNum"] = str(page_num) # 更新当前请求的页码

    try:
        # 发送POST请求,附带更新后的表单数据
        response = requests.post(url, data=data)
        response.raise_for_status()  # 检查HTTP请求是否成功,如果失败则抛出异常

        # 使用BeautifulSoup解析HTML内容
        soup = BeautifulSoup(response.content, "html.parser")

        # 查找包含数据的表格行。根据HTML结构,#searchResults是表格的ID,
        # tr是行,[2:]表示跳过前两行(通常是表头)
        for row in soup.select("#searchResults tr")[2:]:
            tds = [td.text.strip() for td in row.select("td")]
            all_data.append(tds)

        print(f"成功抓取第 {page_num} 页数据。")

    except requests.exceptions.RequestException as e:
        print(f"请求第 {page_num} 页时发生错误: {e}")
    except Exception as e:
        print(f"解析第 {page_num} 页数据时发生错误: {e}")

    time.sleep(1) # 每次请求后暂停1秒,避免对服务器造成过大压力

# 定义DataFrame的列名,与网页表格的列对应
columns = [
    "SEQ NUM",
    "Tax Year",
    "Notices",
    "Parcel ID",
    "Face Amount",
    "Winning Bid",
    "Sold To",
]

# 将抓取到的所有数据转换为Pandas DataFrame
df = pd.DataFrame(all_data, columns=columns)

# 打印DataFrame的最后10行数据进行验证
print("\n--- 抓取到的数据(最后10行)---")
print(df.tail(10).to_markdown(index=False))

注意事项与最佳实践

  1. 动态参数识别: 最关键的一步是正确识别POST请求中的所有必要参数,特别是那些会随用户操作(如翻页、筛选、排序)而变化的参数。这通常需要通过浏览器开发者工具仔细观察。
  2. 反爬机制: 许多网站会实施反爬机制来限制自动化访问。
    • User-Agent: 在 requests.post() 中添加 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'} 等模拟浏览器头信息,可以降低被识别为爬虫的风险。
    • 请求间隔: 使用 time.sleep() 在每次请求之间增加延迟(如1-5秒),模拟人类浏览行为,避免因请求频率过高而被服务器屏蔽IP。
    • Cookie/Session: 有些网站可能需要携带会话Cookie才能访问。在 requests 中,可以使用 requests.Session() 对象来自动管理Cookie。
  3. 错误处理: 编写健壮的爬虫代码至关重要。使用 try-except 块来捕获可能发生的网络错误(如连接超时、DNS解析失败)或解析错误,确保爬虫不会因单个页面的问题而中断。
  4. JavaScript渲染: 如果页面数据是通过复杂的JavaScript在客户端动态渲染的,仅使用 requests 和 BeautifulSoup 可能无法获取到所有数据。在这种情况下,可能需要考虑使用 Selenium 或 Playwright 等无头浏览器自动化工具,它们可以模拟完整的浏览器环境来执行JavaScript。
  5. 法律与道德: 在进行任何网络爬取活动之前,请务必查看网站的 robots.txt 文件和用户服务条款,了解其数据使用政策。遵守相关法律法规,尊重网站的数据所有权和服务器资源,进行负责任的爬取。

总结

即使面对URL不变的分页场景,通过深入理解HTTP协议和网站的交互机制,我们依然可以有效地抓取所需数据。关键在于利用浏览器开发者工具分析出实际的POST请求及其参数,然后使用 requests 库模拟这些请求,结合 BeautifulSoup 进行HTML解析,最后用 pandas 整理数据。掌握这一技巧,将大大扩展Python网络爬虫的应用范围。

今天关于《Python分页数据抓取技巧分享》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

12306帮朋友加速候补方法12306帮朋友加速候补方法
上一篇
12306帮朋友加速候补方法
Golang优化内存拷贝提升性能方法
下一篇
Golang优化内存拷贝提升性能方法
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3186次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3398次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3429次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4535次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3807次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码