当前位置：首页 > 文章列表 > 文章 > python教程 > Pandas快速合并多文件提取关键数据

Pandas快速合并多文件提取关键数据

2025-10-16 18:00:38 0浏览收藏

还在为处理海量数据而烦恼？本文将深入讲解如何利用Python的Pandas库，**高效合并多文件数据，提取关键信息**。面对需要从多个文本文件中提取关联数据的需求，例如IP地址、MAC地址和端口信息的匹配，传统方法效率低下且代码复杂。本文提供了一种**基于Pandas DataFrame的解决方案**，通过merge操作，将多个文件的数据进行整合，实现IP地址到MAC地址再到端口的精确匹配，并最终以结构化的形式输出结果。告别繁琐的文件操作，**掌握Pandas高效数据处理技巧**，让你的数据分析事半功倍！文章包含完整代码示例，助你轻松上手。

使用 Pandas 高效关联多文件数据并提取特定信息

本教程详细介绍了如何利用 Python 的 Pandas 库，高效地处理来自多个文本文件的关联数据。通过将文件内容加载到 DataFrame 中，并运用 merge 操作进行数据整合，实现 IP 地址、MAC 地址和端口信息的精确匹配与提取，最终生成结构化的输出结果，避免了传统文件处理的复杂性。

场景需求：多文件数据关联与信息提取

在日常的数据处理任务中，我们经常会遇到需要从多个关联文件中提取和整合信息的情况。例如，给定三个文件：

file1.txt 包含一系列待查询的 IP 地址。
file2.txt 包含 IP 地址到 MAC 地址的映射关系。
file3.txt 包含 MAC 地址到端口的映射关系。

我们的目标是，对于 file1.txt 中的每个 IP 地址，首先在 file2.txt 中找到对应的 MAC 地址，然后利用这个 MAC 地址在 file3.txt 中找到对应的端口，最终以 "IP 地址 MAC 地址端口" 的格式输出所有匹配的结果。

传统的文件处理方法，如逐行读取、嵌套循环和字符串匹配，在处理这类关联数据时往往效率低下且代码复杂，尤其当文件较大时，性能问题会更加突出。

Pandas 解决方案概览

Python 的 Pandas 库提供了一套强大的数据结构（DataFrame）和数据分析工具，特别适用于处理表格型数据。利用 Pandas，我们可以将每个文件视为一个 DataFrame，然后通过类似于 SQL 的 merge（合并）操作，高效地将这些 DataFrame 关联起来，从而轻松实现数据的整合和查询。这种方法不仅代码简洁，而且在处理大量数据时具有显著的性能优势。

数据准备：加载文件至 DataFrame

首先，我们需要将每个文本文件的内容加载到 Pandas DataFrame 中。在实际应用中，通常使用 pd.read_csv() 或 pd.read_table() 等函数从文件中读取数据。对于本教程的示例，我们将直接通过 Python 字典创建 DataFrame，以确保代码的自包含性和可运行性。

假设我们的原始文件内容如下：

file1.txt (IP地址列表):

1.1.1.1
1.1.1.2
1.1.1.3
1.1.1.6
1.1.1.11

file2.txt (IP到MAC的映射):

Protocol  Address   Age (min)  Addr            Type   Interface
Internet  1.1.1.1         5    6026.aa11.1111  A      Ethernet1/49
Internet  1.1.1.2         -    0006.f2d2.2d2f  A      Vlan1
Internet  1.1.1.3         -    6026.aa33.3333  A      Vlan1
Internet  1.1.1.4         0    Incomplete      A
Internet  1.1.1.5         0    Incomplete      A
Internet  1.1.1.6         64   fa16.6edb.6666  A      Vlan1
Internet  1.1.1.11        23   fa16.7e7d.7777  A      Vlan1

file3.txt (MAC到端口的映射):

Unicast Entries
 vlan     mac address     type        protocols               port
---------+---------------+--------+---------------------+-------------------------
 1        6026.aa11.1111   static  ip,ipx,assigned,other Switch
 1        0006.f2d2.2d2f   dynamic ip,ipx,assigned,other Ethernet1/24
 1        6026.aa33.3333   dynamic ip,ipx,assigned,other Ethernet1/12
 1        fa16.6edb.6666   dynamic ip,ipx,assigned,other Ethernet1/8
 1        fa16.7e7d.7777   dynamic ip,ipx,assigned,other Ethernet1/10

对应的 DataFrame 创建代码如下：

import pandas as pd

# 假设 file1.txt 只有一列IP地址，无表头
# 实际读取文件示例: df1 = pd.read_csv('file1.txt', header=None, names=['ipv4'])
df1 = pd.DataFrame({"ipv4":{"0":"1.1.1.1","1":"1.1.1.2","2":"1.1.1.3","3":"1.1.1.6","4":"1.1.1.11"}})

# 假设 file2.txt 有表头，并且是空格分隔
# 实际读取文件示例: df2 = pd.read_csv('file2.txt', delim_whitespace=True)
df2 = pd.DataFrame({
  "Protocol":{ "0":"Internet", "1":"Internet", "2":"Internet", "3":"Internet", "4":"Internet", "5":"Internet", "6":"Internet" },
  "Address":{ "0":"1.1.1.1", "1":"1.1.1.2", "2":"1.1.1.3", "3":"1.1.1.4", "4":"1.1.1.5", "5":"1.1.1.6", "6":"1.1.1.11" },
  "Age (min)":{ "0":"5", "1":"-", "2":"-", "3":"0", "4":"0", "5":"64", "6":"23" },
  "Addr":{ "0":"6026.aa11.1111", "1":"0006.f2d2.2d2f", "2":"6026.aa33.3333", "3":"Incomplete", "4":"Incomplete", "5":"fa16.6edb.6666", "6":"fa16.7e7d.7777" },
  "Type":{ "0":"A", "1":"A", "2":"A", "3":"A", "4":"A", "5":"A", "6":"A" },
  "Interface":{ "0":"Ethernet1\/49", "1":"Vlan1", "2":"Vlan1", "3":None, "4":None, "5":"Vlan1", "6":"Vlan1" }
})

# 假设 file3.txt 有表头，并且是空格分隔
# 实际读取文件示例: df3 = pd.read_csv('file3.txt', delim_whitespace=True, skiprows=[1]) # skiprows跳过分隔线
df3 = pd.DataFrame({
    "vlan":{"0":1,"1":1,"2":1,"3":1,"4":1},
    "mac address":{"0":"6026.aa11.1111","1":"0006.f2d2.2d2f","2":"6026.aa33.3333","3":"fa16.6edb.6666","4":"fa16.7e7d.7777"},
    "type":{"0":"static","1":"dynamic","2":"dynamic","3":"dynamic","4":"dynamic"},
    "protocols":{"0":"ip,ipx,assigned,other","1":"ip,ipx,assigned,other","2":"ip,ipx,assigned,other","3":"ip,ipx,assigned,other","4":"ip,ipx,assigned,other"},
    "port":{"0":"Switch","1":" Ethernet1\\/24","2":" Ethernet1\\/12","3":" Ethernet1\\/8","4":" Ethernet1\\/10"}})

核心操作：使用 merge 函数整合数据

Pandas 的 merge 函数是实现 DataFrame 之间关联的核心工具。它类似于 SQL 中的 JOIN 操作，可以根据一个或多个共同的列将两个 DataFrame 合并。

在本例中，我们需要进行两次合并：

第一次合并：将 df1（包含IP地址）与 df2（包含IP到MAC的映射）合并。
- df1 中的 ipv4 列与 df2 中的 Address 列是共同的关联键。
- 我们使用 how="inner" 来确保只有在两个 DataFrame 中都存在的 IP 地址才会被保留。
第二次合并：将第一次合并的结果与 df3（包含MAC到端口的映射）合并。
- 第一次合并结果中的 Addr 列（即MAC地址）与 df3 中的 mac address 列是共同的关联键。

合并操作如下：

# 第一次合并：根据IP地址关联 df1 和 df2
# left_on="ipv4" 指 df1 的关联列，right_on="Address" 指 df2 的关联列
merged_df_ip_mac = df1.merge(df2, how="inner", left_on="ipv4", right_on="Address")

# 第二次合并：根据MAC地址关联第一次合并的结果和 df3
# left_on="Addr" 指 merged_df_ip_mac 的关联列，right_on="mac address" 指 df3 的关联列
maindf = merged_df_ip_mac.merge(df3, how="inner", left_on="Addr", right_on="mac address")

通过这两次 inner 合并，maindf 中将只包含那些在所有三个文件中都能找到对应关系的 IP、MAC 和端口信息。

结果输出：提取并格式化所需信息

合并完成后，maindf 包含了所有我们需要的关联数据。现在，我们只需要从 maindf 中选择我们关心的列 (ipv4, Addr, port)，并按照指定格式输出。

# 提取所需的列
result_df = maindf[["ipv4", "Addr", "port"]]

# 按照指定格式打印结果
print("期望输出:")
for index, row in result_df.iterrows():
    print(f"ip {row['ipv4']} addr {row['Addr']} port {row['port']}")

这将产生以下输出：

ip 1.1.1.1 addr 6026.aa11.1111 port Switch
ip 1.1.1.2 addr 0006.f2d2.2d2f port Ethernet1/24
ip 1.1.1.3 addr 6026.aa33.3333 port Ethernet1/12
ip 1.1.1.6 addr fa16.6edb.6666 port Ethernet1/8
ip 1.1.1.11 addr fa16.7e7d.7777 port Ethernet1/10

完整示例代码

以下是整合了所有步骤的完整 Python 代码：

import pandas as pd

# 1. 数据准备：加载文件至 DataFrame (此处为演示目的，直接创建DataFrame)
# 实际文件读取示例:
# df1 = pd.read_csv('file1.txt', header=None, names=['ipv4'])
# df2 = pd.read_csv('file2.txt', delim_whitespace=True)
# df3 = pd.read_csv('file3.txt', delim_whitespace=True, skiprows=[1]) # 假设需要跳过第二行分隔线

df1 = pd.DataFrame({"ipv4":{"0":"1.1.1.1","1":"1.1.1.2","2":"1.1.1.3","3":"1.1.1.6","4":"1.1.1.11"}})

df2 = pd.DataFrame({
  "Protocol":{ "0":"Internet", "1":"Internet", "2":"Internet", "3":"Internet", "4":"Internet", "5":"Internet", "6":"Internet" },
  "Address":{ "0":"1.1.1.1", "1":"1.1.1.2", "2":"1.1.1.3", "3":"1.1.1.4", "4":"1.1.1.5", "5":"1.1.1.6", "6":"1.1.1.11" },
  "Age (min)":{ "0":"5", "1":"-", "2":"-", "3":"0", "4":"0", "5":"64", "6":"23" },
  "Addr":{ "0":"6026.aa11.1111", "1":"0006.f2d2.2d2f", "2":"6026.aa33.3333", "3":"Incomplete", "4":"Incomplete", "5":"fa16.6edb.6666", "6":"fa16.7e7d.7777" },
  "Type":{ "0":"A", "1":"A", "2":"A", "3":"A", "4":"A", "5":"A", "6":"A" },
  "Interface":{ "0":"Ethernet1\/49", "1":"Vlan1", "2":"Vlan1", "3":None, "4":None, "5":"Vlan1", "6":"Vlan1" }
})

df3 = pd.DataFrame({
    "vlan":{"0":1,"1":1,"2":1,"3":1,"4":1},
    "mac address":{"0":"6026.aa11.1111","1":"0006.f2d2.2d2f","2":"6026.aa33.3333","3":"fa16.6edb.6666","4":"fa16.7e7d.7777"},
    "type":{"0":"static","1":"dynamic","2":"dynamic","3":"dynamic","4":"dynamic"},
    "protocols":{"0":"ip,ipx,assigned,other","1":"ip,ipx,assigned,other","2":"ip,ipx,assigned,other","3":"ip,ipx,assigned,other","4":"ip,ipx,assigned,other"},
    "port":{"0":"Switch","1":" Ethernet1\\/24","2":" Ethernet1\\/12","3":" Ethernet1\\/8","4":" Ethernet1\\/10"}})

# 2. 核心操作：使用 merge 函数整合数据
# 第一次合并：df1 (ipv4) -> df2 (Address, Addr)
merged_df_ip_mac = df1.merge(df2, how="inner", left_on="ipv4", right_on="Address")

# 第二次合并：merged_df_ip_mac (Addr) -> df3 (mac address, port)
maindf = merged_df_ip_mac.merge(df3, how="inner", left_on="Addr", right_on="mac address")

# 3. 结果输出：提取并格式化所需信息
result_df = maindf[["ipv4", "Addr", "port"]]

print("最终匹配结果:")
for index, row in result_df.iterrows():
    print(f"ip {row['ipv4']} addr {row['Addr']} port {row['port']}")

注意事项

文件读取参数：
- pd.read_csv() 是读取 CSV 文件的常用函数，但它也可以处理其他分隔符的文件。对于空格或不规则分隔符的文件，可以使用 sep='\s+' 或 delim_whitespace=True。
- 如果文件没有表头，需要设置 header=None，并可以通过 names 参数手动指定列名。
- 如果文件

到这里，我们也就讲完了《Pandas快速合并多文件提取关键数据》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于的知识点！