当前位置：首页 > 文章列表 > 文章 > python教程 > Python pathlib 批量整理文件实战：按扩展名归档和冲突重命名

Python pathlib 批量整理文件实战：按扩展名归档和冲突重命名

来源：17golang原创 2026-06-13 02:56:38 0浏览收藏

下载目录、导出报表目录、截图目录，用久了以后很容易堆成一片：PDF、图片、压缩包、Excel、临时文件混在一起。手动整理不难，但重复做就很烦，而且容易误拖文件。

Python 的 pathlib 很适合写这类小工具。它把路径当成对象来处理，比拼字符串更清晰。本文用一个“按扩展名整理下载目录”的场景，演示如何扫描文件、创建目录、处理同名冲突、移动文件并记录日志。

摘要

本文会从混乱目录的整理问题讲起，用 pathlib.Path 获取文件列表，根据后缀映射到分类目录，再用安全重命名避免覆盖已有文件，最后把每次移动记录到日志中，方便回查。

适合人群

想用 Python 写本地文件整理脚本的初中级开发者。
经常处理下载目录、报表目录、截图目录的办公自动化用户。
已经掌握基础 Python 语法，希望熟悉 pathlib 的读者。

一、先明确整理规则

脚本动文件之前，先把规则写清楚。比如下载目录里常见的文件可以这样分类：

.png、.webp、.gif 放到 images。
.pdf、.docx、.xlsx 放到 documents。
.zip、.tar、.gz 放到 archives。
未知后缀放到 others。

如果不先定义规则，脚本很容易写成“看到什么处理什么”，后面维护起来会很乱。

下载目录文件混杂导致手动整理容易出错的逻辑图

二、用 pathlib 扫描目录

Path.iterdir() 可以列出目录下的直接子项。我们只处理文件，跳过目录。

from pathlib import Path

source_dir = Path.home() / "Downloads"

for item in source_dir.iterdir():
    if item.is_file():
        print(item.name, item.suffix.lower())

suffix 会返回文件后缀，例如 .pdf。这里统一转成小写，是为了让 .PNG 和 .png 使用同一套规则。

三、按扩展名映射目标目录

把分类规则写成字典，脚本会更容易改：

from pathlib import Path

CATEGORY_MAP = {
    ".png": "images",
    ".webp": "images",
    ".gif": "images",
    ".pdf": "documents",
    ".docx": "documents",
    ".xlsx": "documents",
    ".zip": "archives",
    ".tar": "archives",
    ".gz": "archives",
}

def target_folder(file_path: Path) -> str:
    suffix = file_path.suffix.lower()
    return CATEGORY_MAP.get(suffix, "others")

如果以后要新增 .csv、.pptx，只需要改字典，不需要改移动逻辑。

四、处理同名文件冲突

移动文件前必须处理同名冲突。比如 report.pdf 已经在目标目录里，新的 report.pdf 不能直接覆盖。

from pathlib import Path

def unique_path(target: Path) -> Path:
    if not target.exists():
        return target

    stem = target.stem
    suffix = target.suffix
    parent = target.parent

    index = 1
    while True:
        candidate = parent / f"{stem}-{index}{suffix}"
        if not candidate.exists():
            return candidate
        index += 1

这段函数会把冲突文件改成 report-1.pdf、report-2.pdf 这样的形式，避免覆盖历史文件。

Python pathlib 扫描文件、分类目录、冲突重命名和记录日志的流程图

五、移动文件并写入日志

下面把扫描、分类、重命名和日志串起来：

from pathlib import Path
import shutil
from datetime import datetime

def organize_files(source_dir: Path) -> None:
    log_path = source_dir / "organize.log"

    with log_path.open("a", encoding="utf-8") as log:
        for item in source_dir.iterdir():
            if not item.is_file():
                continue
            if item.name == log_path.name:
                continue

            folder_name = target_folder(item)
            target_dir = source_dir / folder_name
            target_dir.mkdir(exist_ok=True)

            target = unique_path(target_dir / item.name)
            shutil.move(str(item), str(target))

            now = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            log.write(f"{now} | {item.name} -> {target.relative_to(source_dir)}\n")

if __name__ == "__main__":
    organize_files(Path.home() / "Downloads")

日志大致会长这样：

2026-06-13 10:20:01 | report.pdf -> documents/report.pdf
2026-06-13 10:20:01 | report.pdf -> documents/report-1.pdf
2026-06-13 10:20:02 | demo.png -> images/demo.png

有了日志，后续发现移动结果不符合预期时，至少能快速知道每个文件去了哪里。

六、常见坑和总结

1. 先在测试目录跑

批量移动文件前，建议复制一小份样例目录测试规则，确认分类、重命名和日志都符合预期后，再对真实目录运行。

2. 不要处理脚本自己的日志文件

日志文件通常放在源目录里，如果不跳过它，脚本可能把日志移动到 others，后续记录就乱了。

3. 后缀不是文件类型的绝对保证

本文按后缀归类，适合普通整理场景。如果涉及安全校验，还需要结合文件头、MIME 或业务规则进一步判断。

4. 移动前保留可回查信息

批量整理不是一次性动作，日志和冲突重命名都很重要。它们能降低误覆盖和误移动带来的损失。

总结一下，pathlib 能让本地路径处理更清楚：扫描用 iterdir，后缀用 suffix，目录创建用 mkdir，路径拼接用 /。再加上冲突重命名和日志记录，一个实用的批量文件整理脚本就比较稳了。

Python 日志 shutil pathlib 文件归档批量整理文件文件处理 Python教程 pathlib 自动化脚本

版本声明

本文转载于：17golang原创如有侵犯，请联系study_golang@163.com删除

Go JSON 配置解析实战：结构体标签、默认值和未知字段检查

上一篇: Go JSON 配置解析实战：结构体标签、默认值和未知字段检查

下一篇: Redis 热 Key 治理实战：发现访问倾斜、拆分缓存和本地兜底

查看更多

最新文章

文章 · python教程 | 1小时前 | 配置管理 · 工程实践 · Python教程 · dataclass · Python 环境变量配置管理 dataclass 启动校验

Python dataclass 配置管理实战：默认值、环境变量覆盖和启动校验

131浏览收藏
文章 · python教程 | 2小时前 | 文件处理 · Python教程 · 生成器 · 数据清洗 · Python 生成器内存优化逐行读取大文件处理批量写入

Python 生成器处理大文件实战：逐行读取、过滤和分批写入

311浏览收藏
文章 · python教程 | 7小时前 | 日志 · 链路追踪 · Python教程 · contextvars · Python logging contextvars 日志追踪 trace_id 异步上下文

Python 日志链路追踪实战：用 contextvars 自动带上 trace_id

370浏览收藏
文章 · python教程 | 8小时前 | 异步编程 · Python教程 · asyncio · 超时治理 · Python 异步编程超时控制 asyncio TaskGroup 取消传播

Python asyncio 超时与取消实战：用 timeout 和 TaskGroup 管住慢任务

457浏览收藏
文章 · python教程 | 10小时前 | 性能优化 · python · 后端开发 · 接口调用 · Python 连接池重试机制 Requests 超时设置

Python requests 超时与重试实战：Session 连接池这样配置更稳

105浏览收藏
文章 · python教程 | 4天前 | 异步编程 · 生产实践 · 后端工程 · Python教程 · Celery · 任务队列 · Python 故障排查任务队列异步任务幂等生产实践 Celery 5.4 retry_backoff acks_late

Python Celery 5.4 实战：任务重试前先把幂等做好

340浏览收藏
文章 · python教程 | 4天前 | 工程化 · 性能优化 · 内存分析 · 故障排查 · 生产实践 · Python教程 · Python 故障排查内存泄漏 rss 性能优化 GC tracemalloc 生产实践 snapshot diff

Python 内存泄漏排查实战：用 tracemalloc 找到失控引用

230浏览收藏
文章 · python教程 | 4天前 | 日志 · 工程化 · 异步编程 · 故障排查 · 可观测性 · Python教程 · Python 异步任务可观测性 logging contextvars 生产实践 QueueHandler QueueListener request_id JSON日志

Python logging 实战：用 contextvars 把 request_id 串到底

427浏览收藏
文章 · python教程 | 1星期前 | 日志 · 工程化 · 异步编程 · 故障排查 · 可观测性 · Python教程 · Python 异步任务可观测性 logging contextvars 生产实践 QueueHandler QueueListener request_id JSON日志

Python 日志实战：别让 request_id 在异步任务里丢了

189浏览收藏
文章 · python教程 | 1星期前 | 依赖管理 · 工程化 · CI · 生产实践 · Python教程 · 打包发布 · Python build 依赖管理 twine wheel 打包发布 pyproject.toml dependency-groups pylock.toml sdist

Python 打包发布实战：别把运行依赖和开发依赖混在一起

479浏览收藏
文章 · python教程 | 1星期前 | WEB开发 · 工程化 · 配置管理 · flask · 生产实践 · Python教程 · Python Flask G 配置管理请求上下文应用上下文生产实践 current_app teardown app factory

Python Flask 实战：别把请求上下文当全局变量用

257浏览收藏
文章 · python教程 | 1星期前 | ORM · Django · 异步编程 · 生产实践 · Python教程 · 后端开发 · Python Django 性能优化 orm 事务 ASGI 生产实践 async view sync_to_async

Python Django 实战：async view 里别直接摸同步 ORM

310浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

7992次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

8408次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

8229次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

10141次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

9010次使用

查看更多