无XHR获取动态JS内容方法详解
本教程针对网页爬虫中遇到的“无XHR获取JS动态内容”难题,提供了一种高效的数据提取策略,符合百度SEO。当目标网页内容由JavaScript动态生成,且没有明显的XHR请求时,传统爬虫方法失效。本教程的核心在于揭示数据可能已内嵌于初始HTML或JS代码中。通过检查页面源代码,利用关键词搜索定位隐藏的JSON格式数据,并结合正则表达式与JSON解析技术,实现精准的数据抓取。同时,强调了网站特异性、正则表达式的脆弱性以及维护成本等注意事项,旨在帮助开发者在遵守规则的前提下,以更轻量级的方式解决JS动态内容的爬取问题,提升爬虫效率。

本教程探讨了在爬取网页时,当目标内容由JavaScript动态生成且无明显XHR请求时的数据提取策略。我们将揭示数据可能已内嵌于初始HTML或JS代码中,并演示如何通过检查页面源代码、识别关键标识符来定位并提取这些隐藏的JSON格式数据,从而实现高效的网页内容抓取。
挑战:JavaScript动态内容与XHR请求缺失
在进行网页数据抓取时,我们经常会遇到内容由JavaScript动态生成的情况。传统的爬虫通常通过解析服务器返回的原始HTML来提取数据,例如使用XPath或CSS选择器。然而,当页面内容在浏览器端通过JavaScript执行后才呈现,且在网络请求中观察不到明显的XHR(XMLHttpRequest)或Fetch API请求来获取这些数据时,传统的静态解析方法便会失效。这给爬虫开发者带来了挑战,因为这意味着数据并非通过异步请求独立加载,而是以某种方式“隐藏”在初始页面加载中。
例如,对于以下HTML结构,如果其内容 Darkmoon Faire 是由JavaScript动态填充的:
<section class="tiw-line-name " id="EU-group-holiday-line-0" data-side="both"> <a href="/event=479/darkmoon-faire"><img src="https://wow.zamimg.com/images/wow/icons/tiny/calendar_darkmoonfaireelwynnstart.gif">Darkmoon Faire</a> </section>
直接使用XPath查询如 //*[contains(@id, "EU-group-holiday-line")] 可能无法获取到完整或最新的内容,因为在爬虫获取原始HTML时,JavaScript尚未执行。
核心洞察:数据内嵌于初始加载
当网站使用JavaScript生成内容但没有发起额外的XHR请求时,一个关键的推断是:所需数据很可能已经包含在最初加载的HTML文档或内联/外部JavaScript文件中。这意味着数据在页面加载时就已经存在于代码中,只是在DOM构建完成并执行JavaScript后才被“激活”或渲染到用户界面上。
实践步骤:定位内嵌数据
要提取这类数据,我们需要改变思路,不再仅仅关注渲染后的DOM结构,而是深入检查页面的原始源代码。
查看页面源代码: 使用浏览器(如Chrome、Firefox)打开目标网页,然后通过“查看页面源代码”(通常是 Ctrl+U 或右键菜单)来获取未经JavaScript处理的原始HTML内容。
利用特征字符串搜索: 在原始源代码中,搜索那些在渲染页面上可见的、具有唯一性的关键词或模式。例如,如果渲染后的链接中包含 event=479 或 event=643 这样的标识符,那么在源代码中搜索这些字符串,很可能会定位到包含这些数据的JavaScript变量、JSON字符串或HTML注释。
示例分析: 以 https://www.wowhead.com/today-in-wow 为例,如果我们要提取类似 event=479/darkmoon-faire 的事件信息,在原始页面源代码中搜索 event=643 (一个类似的事件ID),我们可能会发现以下JSON格式的子字符串:
{ "icon": "calendar_weekendmistsofpandariastart", "name": "Timewalking Dungeon Event", "side": "both", "url": "/event=643/timewalking-dungeon-event" },这个发现证实了我们的推断:所需数据以JSON格式直接嵌入在页面的初始加载内容中。
数据提取方法
一旦定位到内嵌的数据,我们可以采用以下方法进行提取:
正则表达式与JSON解析: 对于像上面示例中发现的JSON格式数据,我们可以使用正则表达式从原始HTML字符串中匹配并提取出完整的JSON字符串。
Python 示例:
import requests import re import json url = "https://www.wowhead.com/today-in-wow" response = requests.get(url) html_content = response.text # 使用正则表达式匹配包含事件数据的JSON结构 # 这里的正则表达式需要根据实际情况调整,以精确匹配目标JSON块 # 假设我们知道数据在一个特定的JavaScript变量赋值或特定模式中 # 这是一个简化示例,实际可能需要更复杂的匹配逻辑 match = re.search(r'\[\s*\{[^}]*"url":\s*"/event=643/[^}]*\}\s*(?:,\s*\{[^}]*\})*\s*\]', html_content) if match: json_str = match.group(0) try: # 有时匹配到的可能不是一个完整的JSON数组,而是一个对象列表的一部分 # 需要根据实际情况判断是否需要手动补齐或调整匹配 # 假设我们匹配到的是一个完整的JSON数组或其一部分 data = json.loads(json_str) for item in data: if item.get("url") == "/event=643/timewalking-dungeon-event": print("找到目标事件:") print(f"名称: {item.get('name')}") print(f"URL: {item.get('url')}") print(f"图标: {item.get('icon')}") except json.JSONDecodeError as e: print(f"JSON解析错误: {e}") print(f"匹配到的字符串: {json_str[:200]}...") # 打印部分字符串帮助调试 else: print("未找到匹配的JSON数据。")注意: 上述正则表达式是一个示意,实际应用中需要根据目标网站的HTML结构和JavaScript代码,编写更精确和鲁棒的正则表达式来捕获完整的JSON字符串或包含数据的JavaScript变量赋值。
无头浏览器(备选方案): 如果数据确实是在JavaScript执行后才完全构建到DOM中,并且无法在原始源代码中找到易于解析的JSON或变量,那么使用无头浏览器(如Selenium或Puppeteer)仍然是一个选择。无头浏览器可以模拟真实浏览器环境,执行JavaScript并等待页面完全渲染,然后通过其提供的API(如 page.evaluate() 或 driver.find_element_by_xpath())来提取数据。然而,对于本教程探讨的场景(数据已内嵌但无XHR),直接解析源代码通常更高效、资源消耗更低。
注意事项与总结
- 网站特异性: 这种数据内嵌的方法高度依赖于目标网站的实现方式。每次抓取前都需要对目标页面进行详细的源代码分析。
- 正则表达式的脆弱性: 使用正则表达式匹配HTML或JavaScript代码中的数据可能不够健壮。如果网站的HTML结构或JavaScript代码发生微小变化,正则表达式可能失效。因此,需要定期检查和更新爬虫逻辑。
- 维护成本: 相比于解析结构化的API响应,从原始HTML/JS中提取数据通常需要更高的维护成本。
- 遵守规则: 在进行网页抓取时,务必遵守网站的 robots.txt 协议、使用条款,并注意抓取频率,避免对网站造成不必要的负担。
通过理解“无XHR请求时JavaScript生成内容”的本质,即数据很可能已内嵌于初始加载中,我们可以通过检查源代码和运用字符串匹配、JSON解析等技术,有效地提取这些看似难以获取的数据。这种方法提供了一种在传统爬虫和无头浏览器之间,更高效、更轻量级的解决方案。
好了,本文到此结束,带大家了解了《无XHR获取动态JS内容方法详解》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!
ZipGenius免费下载及使用教程
- 上一篇
- ZipGenius免费下载及使用教程
- 下一篇
- 126邮箱官网登录入口及网页地址
-
- 文章 · 前端 | 34秒前 |
- Python分页数据抓取技巧分享
- 481浏览 收藏
-
- 文章 · 前端 | 4分钟前 |
- JavaScript操作Canvas绘图详解
- 156浏览 收藏
-
- 文章 · 前端 | 10分钟前 |
- ESModule加载方式有哪些?详解ESModule用法
- 434浏览 收藏
-
- 文章 · 前端 | 12分钟前 |
- WebGL与Three.js打造3D网页沉浸体验
- 343浏览 收藏
-
- 文章 · 前端 | 13分钟前 |
- CSS图标旋转实现技巧与教程
- 348浏览 收藏
-
- 文章 · 前端 | 30分钟前 |
- JavaScript服务端渲染优化方法
- 433浏览 收藏
-
- 文章 · 前端 | 32分钟前 | html 预览 Atom live-server open-in-browser
- Atom编辑器运行HTML详细教程
- 352浏览 收藏
-
- 文章 · 前端 | 45分钟前 |
- js判断质数的for循环实现方法
- 439浏览 收藏
-
- 文章 · 前端 | 47分钟前 |
- JavaScript数组排序技巧与优化解析
- 200浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3186次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3398次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3429次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4535次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3807次使用
-
- JavaScript函数定义及示例详解
- 2025-05-11 502浏览
-
- 优化用户界面体验的秘密武器:CSS开发项目经验大揭秘
- 2023-11-03 501浏览
-
- 使用微信小程序实现图片轮播特效
- 2023-11-21 501浏览
-
- 解析sessionStorage的存储能力与限制
- 2024-01-11 501浏览
-
- 探索冒泡活动对于团队合作的推动力
- 2024-01-13 501浏览

