当前位置:首页 > 文章列表 > 文章 > php教程 > RSelenium抓取动态PHP表格数据方法

RSelenium抓取动态PHP表格数据方法

2025-10-04 08:33:36 0浏览 收藏

golang学习网今天将给大家带来《RSelenium抓取动态PHP表格数据到R数据框》,感兴趣的朋友请继续看下去吧!以下内容将会涉及到等等知识点,如果你是正在学习文章或者已经是大佬级别了,都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家!

使用 RSelenium 从动态 PHP 网站提取表格数据到 R 数据框

本教程详细介绍了如何利用 RSelenium 库从动态加载内容的 PHP 网站中提取表格数据并将其转换为 R 数据框。针对传统 rvest 或 XML 方法无法处理 JavaScript 渲染页面的问题,我们采用浏览器自动化技术,模拟用户访问并获取完整的页面源,从而准确抓取目标表格。文章提供了完整的 R 代码示例和操作步骤,并强调了环境配置与资源清理的重要性。

理解动态网页数据抓取挑战

在进行网页数据抓取(Web Scraping)时,我们经常会遇到内容通过 JavaScript 动态加载的网站。传统的 R 库,如 rvest 或 XML,通常依赖于直接获取页面的原始 HTML 源代码。然而,对于那些在浏览器端通过 JavaScript 渲染或填充内容的页面,原始源代码可能不包含我们所需的所有数据,特别是表格数据。例如,一个 PHP 网站可能在服务器端生成 HTML,但也可能包含客户端 JavaScript 逻辑来动态修改或添加内容。当尝试使用 GET 请求获取页面并解析时,如果目标表格是动态加载的,则会抓取失败。

为了克服这一挑战,我们需要一种能够模拟真实浏览器行为的工具,即执行 JavaScript、等待内容加载完毕后再提取数据。RSelenium 库正是为此而生,它允许我们通过 R 代码控制一个真实的浏览器实例(如 Firefox 或 Chrome),从而实现对动态网页的自动化操作和数据抓取。

环境准备与库加载

在使用 RSelenium 之前,需要确保您的系统已安装 Java 开发环境(JDK)以及您选择的浏览器(如 Firefox 或 Chrome)及其对应的 WebDriver(例如,Firefox 需要 geckodriver)。RSelenium 会在后台启动一个 Selenium Server 来协调 R 和浏览器之间的通信。

首先,加载所需的 R 库:

library(RSelenium)
library(rvest)
library(xml2)

使用 RSelenium 自动化浏览器

RSelenium 的核心思想是启动一个浏览器实例,然后通过 R 代码控制这个实例进行导航、交互和获取页面内容。

1. 启动 Selenium Server 和浏览器客户端

使用 rsDriver 函数来启动 Selenium Server 并创建一个浏览器客户端。您可以指定要使用的浏览器类型、端口号等。

# 启动 RSelenium 驱动和客户端
# browser: 指定要使用的浏览器 (如 "firefox", "chrome")
# port: 指定 Selenium Server 监听的端口
# verbose: 是否输出详细日志
driver <- rsDriver(browser = "firefox", port = 4545L, verbose = FALSE) 
server <- driver$server   # 获取 Selenium Server 对象
browser <- driver$client  # 获取浏览器客户端对象

注意: 首次运行 rsDriver 时,它可能会自动下载所需的 WebDriver。如果遇到问题,请检查 Java 环境和 WebDriver 的安装情况。端口 4545L 是一个示例,如果该端口被占用,rsDriver 会尝试其他可用端口。

2. 导航到目标 URL

通过 browser$navigate() 方法,让启动的浏览器实例访问目标网页。

# 导航到目标 URL
browser$navigate("http://www.medindex.am/glossary/semantic_types/B2.2-disease-syndrome-pathologic-function.php")

此时,浏览器会在后台打开并加载指定的页面。RSelenium 会等待页面加载完成,包括 JavaScript 脚本的执行。

3. 获取完整的页面源并提取表格

一旦页面加载完毕,我们可以通过 browser$getPageSource() 获取当前浏览器中渲染出的完整 HTML 源代码。这个源代码包含了所有动态加载的内容。然后,我们可以使用 xml2::read_html() 将其解析为 HTML 文档对象,并结合 rvest::html_table() 来提取页面中的所有表格。

# 获取浏览器中渲染出的完整页面源代码
doc <- xml2::read_html(browser$getPageSource()[[1]])

# 使用 rvest 提取页面中的所有表格
all.table <- rvest::html_table(doc)

html_table() 函数会返回一个列表,其中每个元素都是一个从 HTML 表格转换而来的数据框。通常,我们需要根据表格的内容或结构来判断哪个是目标表格。在本例中,目标数据位于列表的第二个元素。

# 访问并查看目标表格(例如,列表中的第二个表格)
target_table <- all.table[[2]]
print(target_table)

输出示例:

# A tibble: 22,397 x 4
# CUI      Term                              Dictionary SemanticType                 
#                                                                
# 1 C0003865 Arthritis, Adjuvant               NDFRT      Experimental Model of Disease
# 2 C0004426 avian sarcoma                     CSP        Experimental Model of Disease
# 3 C0004565 B16 Malignant Melanoma            NCI        Experimental Model of Disease
# ... (更多行)

完整代码示例

以下是整个过程的完整 R 代码:

library(RSelenium)
library(rvest)
library(xml2)

# 1. 启动 RSelenium 驱动和客户端
# 注意:首次运行可能需要下载 WebDriver,确保 Java 环境已安装
driver <- rsDriver(browser = "firefox", port = 4545L, verbose = FALSE) 
server <- driver$server
browser <- driver$client

# 2. 导航到目标 URL
browser$navigate("http://www.medindex.am/glossary/semantic_types/B2.2-disease-syndrome-pathologic-function.php")

# 3. 获取浏览器中渲染出的完整页面源代码
doc <- xml2::read_html(browser$getPageSource()[[1]])

# 4. 使用 rvest 提取页面中的所有表格
all.table <- rvest::html_table(doc)

# 5. 访问并查看目标表格(例如,列表中的第二个表格)
target_table <- all.table[[2]]
print(target_table)

# 6. 关闭 RSelenium 资源
browser$close()
server$stop()

# 7. 清理 Java 进程(如果需要,特别是 Windows 系统)
# 这有助于释放被 Selenium Server 占用的端口
# 请谨慎使用此命令,它会终止所有名为 java.exe 的进程
system("taskkill /im java.exe /f", intern = FALSE, ignore.stdout = FALSE)

注意事项与资源清理

  • 资源清理至关重要: RSelenium 会启动独立的进程(Selenium Server 和浏览器实例)。如果不正确关闭,这些进程可能会继续占用系统资源,特别是端口。因此,务必在完成操作后执行 browser$close() 和 server$stop()。
  • Java 进程清理: 在某些操作系统(尤其是 Windows)上,即使 server$stop() 之后,Java 进程可能仍然存在并占用端口。system("taskkill /im java.exe /f") 命令可以强制终止所有 java.exe 进程,从而彻底释放资源。但请注意,这会终止所有正在运行的 Java 应用程序,请谨慎使用。
  • WebDriver 版本: 确保您安装的 WebDriver 版本与您的浏览器版本兼容。rsDriver 通常会自动管理,但如果遇到启动问题,可以手动检查。
  • 端口冲突: 如果 rsDriver 报告端口已被占用,可以尝试指定不同的端口号,或者在关闭所有相关进程后重试。
  • 等待时间: 对于某些加载缓慢的页面,可能需要在 browser$navigate() 之后添加一个显式的等待时间(例如 Sys.sleep(5)),以确保所有内容都已加载完毕。
  • 表格定位: html_table() 会返回一个表格列表。如果页面中有多个表格,您可能需要通过表格的特征(如标题、列名、行数)来确定哪个是您需要的表格。xpathSApply 或 html_nodes 结合 CSS 选择器或 XPath 表达式可以更精确地定位特定表格。

总结

RSelenium 提供了一个强大而灵活的解决方案,用于从动态加载内容的网页中抓取数据。通过模拟真实用户的浏览器行为,它能够处理 JavaScript 渲染的页面,从而获取传统方法无法获取的数据。虽然设置和清理过程比直接的 rvest 抓取更复杂,但对于复杂的网页抓取任务,RSelenium 是一个不可或缺的工具。正确理解其工作原理并遵循资源清理的最佳实践,将确保您的数据抓取过程高效且稳定。

终于介绍完啦!小伙伴们,这篇关于《RSelenium抓取动态PHP表格数据方法》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识,快来关注吧!

Spring事件驱动开发技巧分享Spring事件驱动开发技巧分享
上一篇
Spring事件驱动开发技巧分享
JavaScript事件循环如何处理异步?
下一篇
JavaScript事件循环如何处理异步?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    2074次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    1929次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    1863次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    2072次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    2057次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码