rvest提取表格数据技巧:防空变量方法
2026-02-07 20:46:14
0浏览
收藏
有志者,事竟成!如果你在学习文章,那么本文《rvest提取表格数据技巧:避免空变量方法》,就很适合你!文章讲解的知识点主要包括,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~

本文详解如何用 rvest 正确抓取 HTML 表格:推荐优先使用 `html_table()` 自动解析,若手动定位需注意 CSS 选择器语法(如误加 `.` 导致匹配失败),并提供可直接运行的完整代码示例。
在使用 R 进行网页数据抓取时,初学者常因 CSS 选择器书写错误或忽略 HTML 结构特性而遭遇“空变量”问题——即 html_nodes() 返回零长度结果,最终生成的数据框全为空值。以抓取 Fortune 500 公司列表页 为例,该页面仅包含一个标准
标签(HTML 标签名,非 class)。正确写法应为 "td:nth-child(1)"(无点号):# ⚠️ 修正后的手动提取(仅作教学参考)
rank <- page %>% html_nodes("td:nth-child(1)") %>% html_text(trim = TRUE)
company <- page %>% html_nodes("td:nth-child(2)") %>% html_text(trim = TRUE)
website <- page %>% html_nodes("td:nth-child(3)") %>% html_text(trim = TRUE) # 更清晰:直接选第3列,替代模糊的 "td~ td+ td"
fortune500_manual <- tibble(
Rank = as.integer(rank),
Company = company,
Website = website
)关键注意事项:
|

2.5乘9.9的简便算法解析
