当前位置：首页 > 文章列表 > 文章 > python教程 > PyMongo导入CSV：类型转换技巧详解

PyMongo导入CSV：类型转换技巧详解

2025-12-02 23:09:39 0浏览收藏

在文章实战开发的过程中，我们经常会遇到一些这样那样的问题，然后要卡好半天，等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《PyMongo导入CSV：精准类型转换教程》，聊聊，希望可以帮助到正在努力赚钱的你。

PyMongo导入CSV数据：高效且精确的类型转换教程

当使用PyMongo从CSV文件导入数据到MongoDB时，`csv.DictReader`默认会将所有字段读取为字符串。本教程将指导您如何通过Python代码显式地将CSV中的数值字段（如整数和浮点数）转换为正确的BSON类型，确保数据以预期格式存储在MongoDB中，从而避免数据类型不匹配的问题，并提供一个完整的实现示例。

在数据处理和分析的场景中，将CSV（逗号分隔值）文件中的结构化数据导入到MongoDB是一个常见的需求。然而，直接使用Python的csv模块读取CSV文件，特别是csv.DictReader，会发现所有字段的值都被解析为字符串。这意味着即使CSV文件中包含的是数字（如20.67或2），当这些数据被导入到MongoDB时，它们也将以BSON String类型存储，而非预期的BSON Double或Int32/Int64类型。这种类型不匹配可能导致后续的查询、聚合操作或数据分析出现问题。

本教程将详细介绍如何利用PyMongo和Python的类型转换功能，确保CSV数据在导入MongoDB时，能够正确地映射到其对应的BSON数据类型。

理解 csv.DictReader 的默认行为

csv.DictReader 是Python csv 模块中一个非常实用的类，它将CSV文件的每一行读取为一个字典，其中键是CSV的标题行。然而，它的核心设计理念是通用性，因此它不进行任何自动的类型推断或转换，所有读取到的字段值都默认为字符串。

考虑以下 country.csv 文件内容：

country_id,country_name,zone_id,minLat,maxLat,minLong,maxLong
2,Bangladesh,1,20.6708832870000,26.4465255803000,88.0844222351000,92.6727209818000
3,"Sri Lanka",1,5.9683698592300,9.8240776636100,79.6951668639000,81.7879590189000

如果直接使用 csv.DictReader 读取并插入到MongoDB，country_id、zone_id、minLat 等字段都会被存储为字符串，而不是数字。

PyMongo 数据类型转换实战

要解决这个问题，我们需要在将数据插入MongoDB之前，对每个字段进行显式的类型转换。Python提供了 int() 和 float() 等内置函数，可以方便地将字符串转换为对应的数值类型。

以下是一个完整的Python脚本，演示了如何连接MongoDB、读取CSV文件并进行类型转换，最终将数据批量插入到MongoDB中。

示例代码

from pymongo import MongoClient
import csv

# 1. 连接MongoDB数据库
# 请根据您的实际MongoDB连接字符串进行修改
MONGO_URI = "mongodb://localhost:27017/"
DATABASE_NAME = "mydbname"
COLLECTION_NAME = "country"
CSV_FILE_PATH = "country.csv"

myclient = MongoClient(MONGO_URI)
mydb = myclient[DATABASE_NAME]
collection = mydb[COLLECTION_NAME]

def import_csv_with_type_conversion(csv_file: str, target_collection):
    """
    从CSV文件读取数据，进行类型转换后批量插入到MongoDB。

    Args:
        csv_file (str): CSV文件路径。
        target_collection: PyMongo集合对象。
    """
    print(f"正在从 '{csv_file}' 导入数据到集合 '{target_collection.name}'...")

    parsed_data = []
    with open(csv_file, 'r', encoding='utf-8') as file:
        reader = csv.DictReader(file, delimiter=",")

        for row in reader:
            # 创建一个新的字典来存储转换后的数据
            converted_row = {}

            # 显式进行类型转换
            try:
                converted_row['country_id'] = int(row['country_id'])
                converted_row['country_name'] = row['country_name']
                converted_row['zone_id'] = int(row['zone_id'])
                converted_row['minLat'] = float(row['minLat'])
                converted_row['maxLat'] = float(row['maxLat'])
                converted_row['minLong'] = float(row['minLong'])
                converted_row['maxLong'] = float(row['maxLong'])

                # 将转换后的行添加到列表中
                parsed_data.append(converted_row)
            except ValueError as e:
                print(f"数据转换错误：跳过行 '{row}' - {e}")
                continue # 跳过当前行，处理下一行

    if parsed_data:
        try:
            # 批量插入数据，提高效率
            result = target_collection.insert_many(parsed_data)
            print(f"成功插入 {len(result.inserted_ids)} 条数据。")
        except Exception as e:
            print(f"数据插入MongoDB失败: {e}")
    else:
        print("没有可插入的数据。")

# 执行导入函数
if __name__ == "__main__":
    # 清空集合（可选，用于测试）
    # collection.delete_many({}) 
    import_csv_with_type_conversion(CSV_FILE_PATH, collection)

    # 验证数据类型（可选）
    print("\n验证MongoDB中数据的类型：")
    sample_doc = collection.find_one()
    if sample_doc:
        print(f"country_id 类型: {type(sample_doc.get('country_id'))}")
        print(f"zone_id 类型: {type(sample_doc.get('zone_id'))}")
        print(f"minLat 类型: {type(sample_doc.get('minLat'))}")
        print(f"country_name 类型: {type(sample_doc.get('country_name'))}")
    else:
        print("集合中没有数据可供验证。")

代码解析

导入必要的库: pymongo 用于与MongoDB交互，csv 用于读取CSV文件。
MongoDB连接配置: 设置MongoDB的连接URI、数据库名和集合名。
import_csv_with_type_conversion 函数:
- 使用 with open(...) 语句打开CSV文件，确保文件在使用完毕后自动关闭。encoding='utf-8' 是一个良好的实践，以避免字符编码问题。
- csv.DictReader(file, delimiter=",") 创建一个字典读取器，指定逗号为分隔符。
- 循环遍历每一行: 对于 reader 中的每一行（字典），我们创建一个新的 converted_row 字典。
- 显式类型转换: 这是核心步骤。我们根据CSV文件中字段的预期类型，使用 int() 将字符串转换为整数，使用 float() 将字符串转换为浮点数。例如，int(row['country_id']) 会将 country_id 字段的字符串值转换为整数。对于 country_name 这样的字符串字段，可以直接赋值。
- 错误处理: 使用 try-except ValueError 块来捕获因数据格式不正确（例如，期望数字的字段包含非数字字符）导致的转换错误。这可以防止脚本因单个错误行而崩溃，并允许您记录或跳过问题数据。
- 批量插入: 将所有转换后的行收集到一个列表 parsed_data 中，然后使用 target_collection.insert_many(parsed_data) 进行批量插入。相较于 insert_one() 逐条插入，insert_many() 能够显著提高导入大量数据时的性能。
验证: 在脚本的最后，添加了一个可选的验证步骤，通过 collection.find_one() 获取一条文档并打印其字段的Python类型，以确认数据已成功转换为期望的BSON类型。

注意事项与最佳实践

错误处理: 在实际应用中，CSV文件可能包含格式不规范的数据。为 int() 和 float() 转换添加 try-except 块至关重要，以优雅地处理这些异常，防止程序崩溃。您可以选择记录错误、跳过问题行，或者将问题数据存储在单独的集合中进行后续处理。
性能优化: 对于非常大的CSV文件，insert_many() 是首选的插入方法。如果文件过大导致内存不足以一次性存储所有 parsed_data，可以考虑分批次（例如，每1000或10000条记录）调用 insert_many()。
数据模型设计: 在导入数据之前，最好对MongoDB中的数据模型有一个清晰的规划，包括每个字段的预期类型。这有助于在编写转换逻辑时做出正确的决策。
mongoimport 工具: 虽然本教程侧重于PyMongo，但MongoDB官方也提供了 mongoimport 命令行工具，它能够直接从CSV、JSON等文件导入数据。mongoimport 具有 --type 和 --fields 等选项，可以帮助推断或指定字段类型。然而，对于更复杂的转换逻辑、数据清洗或与其他Python程序的集成，使用PyMongo脚本提供了更大的灵活性和编程控制力。对于本教程中提到的 fatal error: unrecognized DWARF version 这类错误，通常与 mongoimport 工具本身的编译环境或运行时库有关，而非数据格式问题，通常需要重新安装或更新工具。
编码: 确保 open() 函数使用正确的 encoding 参数，特别是当CSV文件包含非ASCII字符时，通常推荐使用 utf-8。

总结

通过本教程，您应该已经掌握了如何使用PyMongo和Python的类型转换功能，将CSV文件中的数据以正确的BSON类型导入到MongoDB中。关键在于理解 csv.DictReader 的默认字符串行为，并在插入MongoDB之前，对需要数值类型的字段进行显式的 int() 或 float() 转换。这种方法不仅保证了数据的准确性，还为后续在MongoDB中的数据操作奠定了坚实的基础。

今天关于《PyMongo导入CSV：类型转换技巧详解》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！