当前位置:首页 > 文章列表 > 文章 > 前端 > 动态网页提取方法:Selenium与Playwright实战教程

动态网页提取方法:Selenium与Playwright实战教程

2025-11-14 16:09:40 0浏览 收藏

动态网页内容提取是网络爬虫开发中的一项重要任务,尤其当网页内容由 JavaScript 动态生成时,传统 HTML 解析方法失效。本文针对这一问题,提供了一种解决方案:通过分析网页源代码,定位包含数据的 JavaScript 代码片段,并利用正则表达式提取所需信息。文章详细介绍了如何使用开发者工具或 curl 获取网页 HTML 内容,搜索目标数据独有的字符串,定位 JSON 格式数据,并通过 Python 示例展示了如何使用 `requests` 和 `re` 模块提取数据,最后还分享了注意事项,例如定期检查和更新正则表达式,以及遵守相关法律和道德规范。本文旨在帮助开发者有效抓取 JavaScript 渲染的网页数据。

使用 JavaScript 提取动态网页内容

本文旨在介绍如何从使用 JavaScript 动态生成内容的网页中提取数据。通过分析网页源代码,定位关键数据,并利用正则表达式等工具提取所需信息,为网络爬虫开发提供一种解决方案。

对于一些网站,其部分内容并非直接包含在 HTML 源代码中,而是通过 JavaScript 动态生成。这给数据抓取带来了一定的挑战。本文将介绍一种针对这种情况的解决方案,即通过分析网页源代码,定位包含数据的 JavaScript 代码片段,并从中提取所需信息。

分析网页源代码

首先,我们需要查看目标网页的源代码。可以通过浏览器自带的开发者工具(通常按 F12 键打开)或者使用 curl 等命令行工具获取网页的 HTML 内容。

在源代码中,我们需要寻找包含目标数据的 JavaScript 代码。一种常用的方法是搜索目标数据中独有的字符串,例如,在示例中,我们可以搜索 event=479 或 event=643。

定位数据

通过搜索,我们可能找到一个包含 JSON 格式数据的 JavaScript 代码片段。例如:

{
   "icon": "calendar_weekendmistsofpandariastart",
   "name": "Timewalking Dungeon Event",
   "side": "both",
   "url": "/event=643/timewalking-dungeon-event"
}

这个 JSON 对象包含了我们想要抓取的信息,例如活动名称、图标 URL 和活动 URL。

提取数据

一旦我们找到了包含数据的 JavaScript 代码片段,就可以使用正则表达式或其他字符串处理方法来提取所需的信息。

例如,我们可以使用以下正则表达式来提取 JSON 对象:

import re

html_content = """
// Some other javascript code
{
   "icon": "calendar_weekendmistsofpandariastart",
   "name": "Timewalking Dungeon Event",
   "side": "both",
   "url": "/event=643/timewalking-dungeon-event"
}
// Some other javascript code
"""

pattern = re.compile(r'\{.*?\"url\": \"\/event=\d+\/.*?\".*?\}', re.DOTALL)
match = pattern.search(html_content)

if match:
    json_data = match.group(0)
    print(json_data)
else:
    print("No JSON data found.")

这段代码首先定义了一个包含 JSON 对象的 HTML 字符串。然后,它使用正则表达式 \{.*?\"url\": \"\/event=\d+\/.*?\".*?\} 来匹配 JSON 对象。re.DOTALL 标志使得 . 可以匹配换行符,从而可以匹配多行 JSON 对象。

如果匹配成功,match.group(0) 将返回匹配到的 JSON 字符串。然后,我们可以使用 json.loads() 函数将 JSON 字符串转换为 Python 字典,并从中提取所需的信息。

完整示例(Python)

import re
import requests
import json

def extract_data(url):
    """
    从网页源代码中提取 JSON 数据。
    """
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功

        html_content = response.text

        pattern = re.compile(r'\{.*?\"url\": \"\/event=\d+\/.*?\".*?\}', re.DOTALL)
        matches = pattern.findall(html_content)

        data = []
        for match in matches:
            try:
                json_data = json.loads(match)
                data.append(json_data)
            except json.JSONDecodeError:
                print(f"Error decoding JSON: {match}")

        return data

    except requests.exceptions.RequestException as e:
        print(f"Error fetching URL: {e}")
        return None


if __name__ == "__main__":
    url = "https://www.wowhead.com/today-in-wow"
    extracted_data = extract_data(url)

    if extracted_data:
        for item in extracted_data:
            print(f"Name: {item['name']}")
            print(f"URL: {item['url']}")
            print("-" * 20)
    else:
        print("No data extracted.")

这段代码首先定义了一个 extract_data 函数,该函数接受一个 URL 作为参数,并返回一个包含 JSON 数据的列表。该函数首先使用 requests.get() 函数获取网页的 HTML 内容。然后,它使用正则表达式来匹配 JSON 对象,并使用 json.loads() 函数将 JSON 字符串转换为 Python 字典。最后,它将 JSON 字典添加到列表中,并返回该列表。

在 if __name__ == "__main__": 块中,我们调用 extract_data 函数来提取数据,并打印提取到的数据。

注意事项

  • 网站结构变化: 网站的结构可能会发生变化,导致正则表达式失效。因此,需要定期检查和更新正则表达式。
  • 反爬虫机制: 某些网站可能会使用反爬虫机制来阻止数据抓取。例如,网站可能会限制请求频率或使用 CAPTCHA 验证。需要采取相应的措施来绕过这些反爬虫机制。
  • 法律和道德: 在抓取数据之前,请务必阅读网站的robots.txt文件和使用条款,并遵守相关的法律和道德规范。

总结

本文介绍了一种从使用 JavaScript 动态生成内容的网页中提取数据的方法。该方法包括分析网页源代码、定位数据和提取数据。通过这种方法,我们可以抓取到一些无法通过传统方法抓取的数据。但是,需要注意网站结构的变化、反爬虫机制以及相关的法律和道德规范。

理论要掌握,实操不能落!以上关于《动态网页提取方法:Selenium与Playwright实战教程》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

Win11设置文件所有者权限步骤Win11设置文件所有者权限步骤
上一篇
Win11设置文件所有者权限步骤
PHP自动下载文件方法全解析
下一篇
PHP自动下载文件方法全解析
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    1314次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    1254次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    1201次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    1371次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    1371次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码