当前位置:首页 > 文章列表 > 文章 > 前端 > 无XHR获取动态JS内容方法详解

无XHR获取动态JS内容方法详解

2025-10-27 09:27:32 0浏览 收藏

本教程针对网页爬虫中遇到的“无XHR获取JS动态内容”难题,提供了一种高效的数据提取策略,符合百度SEO。当目标网页内容由JavaScript动态生成,且没有明显的XHR请求时,传统爬虫方法失效。本教程的核心在于揭示数据可能已内嵌于初始HTML或JS代码中。通过检查页面源代码,利用关键词搜索定位隐藏的JSON格式数据,并结合正则表达式与JSON解析技术,实现精准的数据抓取。同时,强调了网站特异性、正则表达式的脆弱性以及维护成本等注意事项,旨在帮助开发者在遵守规则的前提下,以更轻量级的方式解决JS动态内容的爬取问题,提升爬虫效率。

无XHR请求时提取JavaScript动态生成内容的教程

本教程探讨了在爬取网页时,当目标内容由JavaScript动态生成且无明显XHR请求时的数据提取策略。我们将揭示数据可能已内嵌于初始HTML或JS代码中,并演示如何通过检查页面源代码、识别关键标识符来定位并提取这些隐藏的JSON格式数据,从而实现高效的网页内容抓取。

挑战:JavaScript动态内容与XHR请求缺失

在进行网页数据抓取时,我们经常会遇到内容由JavaScript动态生成的情况。传统的爬虫通常通过解析服务器返回的原始HTML来提取数据,例如使用XPath或CSS选择器。然而,当页面内容在浏览器端通过JavaScript执行后才呈现,且在网络请求中观察不到明显的XHR(XMLHttpRequest)或Fetch API请求来获取这些数据时,传统的静态解析方法便会失效。这给爬虫开发者带来了挑战,因为这意味着数据并非通过异步请求独立加载,而是以某种方式“隐藏”在初始页面加载中。

例如,对于以下HTML结构,如果其内容 Darkmoon Faire 是由JavaScript动态填充的:

<section class="tiw-line-name " id="EU-group-holiday-line-0" data-side="both">
<a href="/event=479/darkmoon-faire"><img src="https://wow.zamimg.com/images/wow/icons/tiny/calendar_darkmoonfaireelwynnstart.gif">Darkmoon Faire</a>
</section>

直接使用XPath查询如 //*[contains(@id, "EU-group-holiday-line")] 可能无法获取到完整或最新的内容,因为在爬虫获取原始HTML时,JavaScript尚未执行。

核心洞察:数据内嵌于初始加载

当网站使用JavaScript生成内容但没有发起额外的XHR请求时,一个关键的推断是:所需数据很可能已经包含在最初加载的HTML文档或内联/外部JavaScript文件中。这意味着数据在页面加载时就已经存在于代码中,只是在DOM构建完成并执行JavaScript后才被“激活”或渲染到用户界面上。

实践步骤:定位内嵌数据

要提取这类数据,我们需要改变思路,不再仅仅关注渲染后的DOM结构,而是深入检查页面的原始源代码。

  1. 查看页面源代码: 使用浏览器(如Chrome、Firefox)打开目标网页,然后通过“查看页面源代码”(通常是 Ctrl+U 或右键菜单)来获取未经JavaScript处理的原始HTML内容。

  2. 利用特征字符串搜索: 在原始源代码中,搜索那些在渲染页面上可见的、具有唯一性的关键词或模式。例如,如果渲染后的链接中包含 event=479 或 event=643 这样的标识符,那么在源代码中搜索这些字符串,很可能会定位到包含这些数据的JavaScript变量、JSON字符串或HTML注释。

    示例分析: 以 https://www.wowhead.com/today-in-wow 为例,如果我们要提取类似 event=479/darkmoon-faire 的事件信息,在原始页面源代码中搜索 event=643 (一个类似的事件ID),我们可能会发现以下JSON格式的子字符串:

    {
       "icon": "calendar_weekendmistsofpandariastart",
       "name": "Timewalking Dungeon Event",
       "side": "both",
       "url": "/event=643/timewalking-dungeon-event"
    },

    这个发现证实了我们的推断:所需数据以JSON格式直接嵌入在页面的初始加载内容中。

数据提取方法

一旦定位到内嵌的数据,我们可以采用以下方法进行提取:

  1. 正则表达式与JSON解析: 对于像上面示例中发现的JSON格式数据,我们可以使用正则表达式从原始HTML字符串中匹配并提取出完整的JSON字符串。

    Python 示例:

    import requests
    import re
    import json
    
    url = "https://www.wowhead.com/today-in-wow"
    response = requests.get(url)
    html_content = response.text
    
    # 使用正则表达式匹配包含事件数据的JSON结构
    # 这里的正则表达式需要根据实际情况调整,以精确匹配目标JSON块
    # 假设我们知道数据在一个特定的JavaScript变量赋值或特定模式中
    # 这是一个简化示例,实际可能需要更复杂的匹配逻辑
    match = re.search(r'\[\s*\{[^}]*"url":\s*"/event=643/[^}]*\}\s*(?:,\s*\{[^}]*\})*\s*\]', html_content)
    
    if match:
        json_str = match.group(0)
        try:
            # 有时匹配到的可能不是一个完整的JSON数组,而是一个对象列表的一部分
            # 需要根据实际情况判断是否需要手动补齐或调整匹配
            # 假设我们匹配到的是一个完整的JSON数组或其一部分
            data = json.loads(json_str)
            for item in data:
                if item.get("url") == "/event=643/timewalking-dungeon-event":
                    print("找到目标事件:")
                    print(f"名称: {item.get('name')}")
                    print(f"URL: {item.get('url')}")
                    print(f"图标: {item.get('icon')}")
        except json.JSONDecodeError as e:
            print(f"JSON解析错误: {e}")
            print(f"匹配到的字符串: {json_str[:200]}...") # 打印部分字符串帮助调试
    else:
        print("未找到匹配的JSON数据。")
    

    注意: 上述正则表达式是一个示意,实际应用中需要根据目标网站的HTML结构和JavaScript代码,编写更精确和鲁棒的正则表达式来捕获完整的JSON字符串或包含数据的JavaScript变量赋值。

  2. 无头浏览器(备选方案): 如果数据确实是在JavaScript执行后才完全构建到DOM中,并且无法在原始源代码中找到易于解析的JSON或变量,那么使用无头浏览器(如Selenium或Puppeteer)仍然是一个选择。无头浏览器可以模拟真实浏览器环境,执行JavaScript并等待页面完全渲染,然后通过其提供的API(如 page.evaluate() 或 driver.find_element_by_xpath())来提取数据。然而,对于本教程探讨的场景(数据已内嵌但无XHR),直接解析源代码通常更高效、资源消耗更低。

注意事项与总结

  • 网站特异性: 这种数据内嵌的方法高度依赖于目标网站的实现方式。每次抓取前都需要对目标页面进行详细的源代码分析。
  • 正则表达式的脆弱性: 使用正则表达式匹配HTML或JavaScript代码中的数据可能不够健壮。如果网站的HTML结构或JavaScript代码发生微小变化,正则表达式可能失效。因此,需要定期检查和更新爬虫逻辑。
  • 维护成本: 相比于解析结构化的API响应,从原始HTML/JS中提取数据通常需要更高的维护成本。
  • 遵守规则: 在进行网页抓取时,务必遵守网站的 robots.txt 协议、使用条款,并注意抓取频率,避免对网站造成不必要的负担。

通过理解“无XHR请求时JavaScript生成内容”的本质,即数据很可能已内嵌于初始加载中,我们可以通过检查源代码和运用字符串匹配、JSON解析等技术,有效地提取这些看似难以获取的数据。这种方法提供了一种在传统爬虫和无头浏览器之间,更高效、更轻量级的解决方案。

好了,本文到此结束,带大家了解了《无XHR获取动态JS内容方法详解》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

ZipGenius免费下载及使用教程ZipGenius免费下载及使用教程
上一篇
ZipGenius免费下载及使用教程
126邮箱官网登录入口及网页地址
下一篇
126邮箱官网登录入口及网页地址
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3186次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3398次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3429次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4535次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3807次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码