当前位置：首页 > 文章列表 > 文章 > python教程 > FBref隐藏数据提取方法详解

FBref隐藏数据提取方法详解

2025-08-03 15:54:30 0浏览收藏

想要从FBref网站高效提取隐藏的表格数据吗？本文为你揭秘！FBref的网页结构特殊，部分数据表格被巧妙地隐藏在HTML注释中，导致常规方法难以抓取。别担心，我们提供了一种简单而强大的解决方案：利用Python的requests库获取网页内容，巧妙地去除HTML注释，再借助pandas库的read_html()函数，通过指定attrs参数，根据表格ID精准定位并提取目标数据，最终将其转化为易于分析的DataFrame格式。告别繁琐的手动复制，掌握这项技巧，轻松获取FBref上的隐藏数据，为你的足球数据分析项目赋能！

从 FBref 网站提取隐藏表格的正确方法

本文旨在解决从 FBref 网站提取隐藏表格数据的问题。通过分析网页结构，我们发现目标表格被包含在 HTML 注释中。本文将提供一种简单有效的解决方案，利用 requests 和 pandas 库，先去除 HTML 注释，然后通过 pandas.read_html() 函数的 attrs 参数，根据表格 ID 精确提取所需数据，最终将其转换为 DataFrame 格式，方便后续的数据分析与处理。

FBref 网站上的数据通常以表格形式呈现，但在某些情况下，目标表格可能被隐藏在 HTML 注释中。直接使用 BeautifulSoup 或 pandas.read_html() 函数可能无法正确提取数据。本教程将介绍如何解决这个问题，并提供可直接使用的代码示例。

解决方案：去除 HTML 注释并使用 pandas.read_html() 函数

解决问题的关键在于先移除 HTML 注释，然后再利用 pandas.read_html() 函数读取表格。以下是详细步骤和代码示例：

导入必要的库：

import requests
import pandas as pd

获取网页内容并移除注释：

url = 'https://fbref.com/it/comp/11/gca/Statistiche-di-Serie-A#all_stats_gca'
html_content = requests.get(url).text.replace('','')

requests.get(url).text 获取网页的 HTML 内容。
.replace('','') 移除 HTML 注释标签。

使用 pandas.read_html() 函数提取表格：

df = pd.read_html(
    html_content,
    attrs={'id':'stats_gca'}
)[0]

pandas.read_html() 函数用于从 HTML 内容中提取表格。
attrs={'id':'stats_gca'} 指定 attrs 参数，通过表格的 id 属性精确匹配目标表格。这比仅仅依赖表格在页面中的位置更可靠。
[0] 提取 read_html() 返回的列表中的第一个元素，因为通常只有一个表格符合条件。

查看结果：

print(df)

完整代码示例：

import requests
import pandas as pd

url= 'https://fbref.com/it/comp/11/gca/Statistiche-di-Serie-A#all_stats_gca'
df = pd.read_html(
    requests.get(url).text.replace('','')
    ,attrs={'id':'stats_gca'}
)[0]

print(df)

注意事项：

网页结构变化： FBref 网站的结构可能会发生变化。如果代码无法正常工作，请检查网页源代码，确认表格的 id 和 HTML 注释的格式是否仍然相同。
attrs 参数的重要性： 使用 attrs 参数可以提高代码的鲁棒性。即使页面结构发生变化，只要表格的 id 保持不变，代码仍然可以正确提取数据。
编码问题： 如果遇到编码问题，可以尝试在 requests.get() 函数中指定编码方式，例如 requests.get(url, encoding='utf-8')。

总结：

通过去除 HTML 注释并结合 pandas.read_html() 函数的 attrs 参数，可以有效地从 FBref 网站提取隐藏的表格数据。这种方法具有较高的鲁棒性和可靠性，能够应对网页结构的变化。记住，在实际应用中，始终要检查网页源代码，确保代码能够正确匹配目标表格。

好了，本文到此结束，带大家了解了《FBref隐藏数据提取方法详解》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！