当前位置：首页 > 文章列表 > 文章 > python教程 > Python协程怎么用？全面教程详解

Python协程怎么用？全面教程详解

2025-09-03 10:16:02 0浏览收藏

Python协程是一种高效的并发编程模型，尤其擅长处理I/O密集型任务。本文将深入解析Python协程的实现原理，包括async/await语法和asyncio库的使用。通过事件循环调度，协程允许单线程内高效并发处理I/O操作，避免了传统多线程或多进程的开销。我们将探讨如何使用async def定义协程函数，以及await关键字如何暂停执行并让出控制权。此外，还将介绍常见实践，如使用aiohttp等异步库、asyncio.gather并发执行任务、asyncio.create_task管理后台任务，并着重强调异常处理和共享状态同步的重要性。通过本文，你将全面了解Python协程的底层机制，掌握编写高效异步应用的技巧。

Python中实现协程依赖async/await语法和asyncio库，通过事件循环调度，实现单线程内高效并发处理I/O密集型任务。使用async def定义协程函数，await暂停执行并让出控制权，避免阻塞。相比多线程和多进程，协程开销小、调度由程序控制，适合高并发I/O场景，但需避免阻塞调用。常见实践包括使用aiohttp等异步库、asyncio.gather并发执行、asyncio.create_task管理后台任务，并注意异常处理与共享状态同步。底层基于生成器和事件循环机制，通过await/Future实现非阻塞I/O操作。

Python中协程如何实现 Python中协程编程教程

Python中实现协程，核心在于利用async/await语法和asyncio库，这提供了一种高效的、单线程的并发编程模型，尤其擅长处理大量I/O密集型任务，避免了传统线程或进程切换的开销。它允许程序在等待某个操作（如网络请求、文件读写）完成时，将CPU时间让给其他任务，从而提高资源利用率和响应速度。

解决方案

在Python中实现协程编程，我们主要依赖于内置的asyncio库。这个库是Python标准库中用于编写并发代码的基础，它使用事件循环（event loop）来管理和调度协程。

首先，你需要使用async def关键字来定义一个协程函数。这告诉Python，这个函数是一个协程，它可以在执行过程中暂停并恢复。

import asyncio

async def my_first_coroutine():
    print("协程开始了...")
    # 模拟一个耗时的I/O操作，例如网络请求或数据库查询
    # 注意这里使用的是 asyncio.sleep，而不是 time.sleep
    # time.sleep 会阻塞整个事件循环，而 asyncio.sleep 会让出控制权
    await asyncio.sleep(1) # 暂停1秒，期间事件循环可以运行其他任务
    print("协程执行完毕！")

async def another_coroutine():
    print("这是另一个协程，它在等待时也能运行。")
    await asyncio.sleep(0.5)
    print("另一个协程也完成了。")

async def main():
    # 使用 await 关键字来等待一个协程的完成
    await my_first_coroutine()
    await another_coroutine()

    # 如果你想并发运行多个协程，可以使用 asyncio.gather
    print("\n--- 并发运行多个协程 ---")
    await asyncio.gather(
        my_first_coroutine(),
        another_coroutine()
    )
    print("所有并发协程都已完成。")

if __name__ == "__main__":
    # 运行主协程，这会启动事件循环并执行所有排队的协程
    asyncio.run(main())

这段代码展示了协程的基本结构。asyncio.run(main())会启动一个事件循环，然后执行main协程。当main协程内部遇到await时，它会暂停执行，将控制权交还给事件循环。事件循环会检查是否有其他准备好运行的协程，或者等待中的I/O操作是否已完成。一旦await等待的操作完成，事件循环就会恢复之前暂停的协程。asyncio.gather是一个非常实用的工具，它允许你同时调度多个协程，并在所有协程都完成后才继续执行。这对于需要并行处理多个独立任务的场景非常有效。

Python协程与多线程、多进程有何不同？

谈到并发，很多人首先想到的是多线程或多进程。但协程提供了一种截然不同的并发模型，理解它们之间的差异对于选择合适的工具至关重要。

对我来说，最大的区别在于调度方式和资源开销。

多进程（Multiprocessing）：

独立性强：每个进程都有自己独立的内存空间，互不干扰，安全性高。
真正的并行：在多核CPU上，不同进程可以同时运行，实现真正的并行计算，适合CPU密集型任务。
开销大：创建和销毁进程的开销非常大，进程间通信（IPC）也比较复杂。
调度：由操作系统内核进行抢占式调度。

多线程（Multithreading）：

共享内存：线程在同一个进程内共享内存空间，通信相对容易，但可能导致数据竞争和死锁问题。
Python的GIL：在CPython解释器中，全局解释器锁（GIL）的存在意味着在任何给定时刻，只有一个线程能执行Python字节码。这使得Python多线程在CPU密集型任务上无法实现真正的并行，更多是并发（轮流执行）。但对于I/O密集型任务，当一个线程等待I/O时，GIL会被释放，允许其他线程执行。
开销适中：创建和销毁线程的开销比进程小，但比协程大。
调度：由操作系统内核进行抢占式调度。

协程（Coroutines）：

协作式多任务：与线程和进程的抢占式调度不同，协程是协作式调度。一个协程只有在遇到await时才会主动让出控制权，这意味着它不会被操作系统强制中断。
单线程：协程运行在单个线程内，没有GIL的限制，因此在I/O密集型任务上表现出色。
开销极小：协程的上下文切换（即暂停和恢复）仅仅是函数栈的切换，开销远小于线程和进程。
适用场景：非常适合高并发的I/O密集型任务，如网络爬虫、Web服务器、数据库连接池等，因为它们大部分时间都在等待外部资源的响应。
缺点：如果一个协程中存在长时间运行的CPU密集型操作（即没有await的阻塞操作），它会阻塞整个事件循环，导致其他协程无法执行。

简单来说，如果你的任务是计算密集型的，需要充分利用多核CPU，那么多进程是首选。如果你的任务是I/O密集型，并且需要轻量级的并发，那么协程无疑是更优雅、更高效的选择。多线程在Python中介于两者之间，在I/O密集型任务中也有一定作用，但往往伴随着更复杂的同步问题。

编写Python协程时常见的陷阱与最佳实践？

即便协程编程强大而优雅，它也有自己的“脾气”。我在实践中遇到过一些坑，也总结了一些经验，分享给你。

常见陷阱：

阻塞了事件循环：这是最致命的错误。在协程中，你绝对不能使用任何会阻塞当前线程的同步调用，比如time.sleep()、requests.get()、或者同步的数据库操作。这些操作会暂停整个事件循环，导致所有其他协程都无法运行，异步的优势荡然无存。
- 解决方案：始终使用asyncio提供的异步版本（如asyncio.sleep），或者使用专门为asyncio设计的异步库（如aiohttp代替requests，aiosqlite代替sqlite3）。如果必须调用同步代码，考虑使用run_in_executor将它放到一个单独的线程或进程池中执行。
忘记await：定义了一个async def函数，但调用时忘记了await。这时，你得到的是一个协程对象（coroutine object），而不是执行结果。这个协程对象如果没有被await或asyncio.create_task调度，它永远不会执行。
- 解决方案：每当调用一个async def函数时，几乎总是需要await它。例外情况是你明确想创建一个后台任务并稍后管理它（使用asyncio.create_task）。
不当的异常处理：在异步任务中，如果一个任务抛出异常但没有被捕获，它可能会默默地导致整个程序崩溃，或者只是让那个任务失败而你却不知道。
- 解决方案：像同步代码一样，使用try...except块来捕获协程中的异常。对于asyncio.gather或asyncio.create_task创建的任务，可以设置return_exceptions=True来让异常作为结果返回，或者在创建任务后使用task.add_done_callback来处理完成后的状态，包括异常。
共享状态的竞态条件：虽然协程是单线程的，但如果你有多个并发运行的协程修改同一个共享变量，仍然可能出现竞态条件。例如，两个协程同时尝试递增一个计数器，由于await的存在，它们可能会交错执行，导致最终结果不正确。
- 解决方案：使用asyncio.Lock、asyncio.Semaphore等同步原语来保护共享资源。

最佳实践：

始终使用异步I/O库：这是基石。任何涉及网络、文件、数据库的操作，都应该使用其异步版本。
模块化协程：将大的任务分解成小的、职责单一的协程函数，提高代码的可读性和可维护性。
利用asyncio.gather进行并发：当有多个独立的I/O密集型任务需要同时启动时，asyncio.gather是你的好朋友。
使用asyncio.create_task处理后台任务：如果你需要启动一个协程，但不想立即等待它的结果，或者希望它在后台持续运行，create_task是正确的选择。但请记住，要保留对任务对象的引用，否则它可能会被垃圾回收。
明确取消策略：异步任务是可以被取消的。在设计协程时，要考虑任务被取消时如何清理资源。可以使用asyncio.CancelledError来捕获取消信号。
日志记录：在异步代码中，良好的日志记录尤为重要，可以帮助你追踪任务的生命周期和调试问题。

Python异步编程如何处理并发IO操作？

Python异步编程在处理并发I/O操作方面简直是如鱼得水，这正是它的设计初衷和最大优势所在。理解其工作机制，能让你更高效地构建高性能网络应用。

核心思想是非阻塞I/O和事件循环。

当一个协程发起一个I/O操作（比如向服务器发送一个HTTP请求）时，它不会傻傻地原地等待响应。相反，它会立即将这个I/O请求提交给操作系统，然后await这个操作。这个await关键字的魔力在于，它告诉事件循环：“嘿，我现在没什么事可干了，这个I/O操作需要时间，你先去忙别的吧，等这个I/O有结果了再来找我。”

此时，事件循环会接收到控制权，它会检查是否有其他已经准备好运行的协程，或者是否有之前发起的I/O操作已经完成。它会不断地轮询或被操作系统通知（通过像epoll、kqueue这样的机制），哪个I/O操作已经有了结果。

一旦之前那个协程所等待的I/O操作（比如HTTP响应已经回来了）完成，事件循环就会将控制权交还给那个协程，让它从await的地方继续执行。

这个过程是如此的轻量和高效，因为它避免了线程或进程切换带来的巨大开销。所有这些“并发”都发生在一个线程内，通过巧妙地调度和切换任务上下文来实现。

举个例子：并发下载网页

假设你需要从多个网站下载内容，传统的同步方式是一个接一个地下载，效率低下。使用异步编程，你可以同时发起所有下载请求，然后等待它们全部完成。

import asyncio
import aiohttp # 这是一个异步HTTP客户端库

async def fetch_url(session, url):
    print(f"开始下载: {url}")
    try:
        async with session.get(url) as response:
            # await response.text() 也是一个I/O操作，会暂停当前协程
            content = await response.text()
            print(f"完成下载: {url}, 内容长度: {len(content)} 字符")
            return f"URL: {url}, Status: {response.status}, Length: {len(content)}"
    except aiohttp.ClientError as e:
        print(f"下载失败: {url}, 错误: {e}")
        return f"URL: {url}, Error: {e}"

async def main_downloader():
    urls = [
        "http://example.com",
        "http://python.org",
        "http://www.google.com",
        "http://nonexistent-domain-12345.com" # 故意放一个会失败的
    ]

    async with aiohttp.ClientSession() as session: # 创建一个HTTP会话
        # 使用 asyncio.gather 来并发运行所有 fetch_url 协程
        # gather 会等待所有协程都完成后才返回
        results = await asyncio.gather(*[fetch_url(session, url) for url in urls])

    print("\n--- 所有下载任务完成 ---")
    for result in results:
        print(result)

if __name__ == "__main__":
    asyncio.run(main_downloader())

在这个例子中：

main_downloader协程创建了一个aiohttp.ClientSession。
它遍历urls列表，为每个URL创建一个fetch_url协程对象。
asyncio.gather(*[...])是关键。它将所有这些fetch_url协程“打包”在一起，并启动它们。
当任何一个fetch_url协程内部遇到await session.get(url)或await response.text()时，它会暂停，将控制权交还给事件循环。
事件循环会立即检查是否有其他fetch_url协程准备好运行（或者之前发起的I/O操作是否有结果），从而实现多个下载任务几乎同时进行。
只有当所有fetch_url协程都完成后，asyncio.gather才会返回，main_downloader协程才会继续执行。

这种模式极大地提高了I/O密集型应用的吞吐量和响应速度，因为程序不再需要为每个I/O操作分配一个独立的线程或进程，也避免了因等待I/O而导致的CPU空闲。

协程的底层实现机制是什么？

要深入理解协程，我们得稍微触及一下它的底层机制。这其实并非魔法，而是Python在语言层面和库层面做出的巧妙设计。

早期的Python协程（在async/await出现之前）是基于生成器（generators）和yield from实现的。一个生成器函数通过yield关键字可以暂停执行并返回一个值，然后可以在后续调用next()时从暂停的地方继续。yield from则允许生成器委托给另一个生成器或可迭代对象，这为构建协程链提供了基础。asyncio最初就是利用yield from来构建其事件循环和任务调度的。

随着Python 3.5引入async/await语法，协程的实现变得更加清晰和直观。尽管语法变了，但其底层原理依然与生成器有千丝万缕的联系。async def函数在编译时会被转换成一个特殊的生成器，或者说是一个状态机。

具体来说：

async def函数：当你定义一个async def函数时，Python解释器会将其编译成一个可等待对象（awaitable object），而不是一个普通的函数。当你调用这个async def函数时，它并不会立即执行，而是返回一个协程对象。这个协程对象本质上是一个封装了函数执行状态的迭代器。
await关键字：这是协程的核心。当协程遇到await some_awaitable时，它会暂停自身的执行，并将控制权交还给调用它的地方（通常是事件循环）。await表达式会等待some_awaitable对象完成并返回结果。这个some_awaitable可以是一个协程对象、一个Future对象，或者其他实现了特定协议的对象。
事件循环（Event Loop）：asyncio库的核心就是事件循环。它是一个无限循环，负责：
- 调度协程：当协程通过await让出控制权时，事件循环会将这个协程标记为“暂停”，并记录它正在等待什么（例如，一个网络请求的完成）。
- 监控I/O事件：事件循环会使用操作系统提供的I/O多路复用机制（如Linux上的epoll，macOS上的kqueue，Windows上的IOCP）来高效地监控大量的I/O操作。它不会阻塞地等待某个I/O完成，而是等待任何一个I/O操作完成的通知。
- 恢复协程：一旦某个I/O操作完成，事件循环就会收到通知。它会找到之前等待这个I/O操作的协程，并将其标记为“可运行”。在下一个循环迭代中，事件循环会恢复这个协程的执行，从它上次await的地方继续。
Future对象：在asyncio内部，很多异步操作的结果都由Future对象表示。一个Future对象代表了一个异步操作的最终结果。当一个操作完成时，它的结果会被设置到对应的Future上，然后所有await这个Future的协程都会被唤醒。