Python发送HTTP请求:urllib实用技巧详解
从现在开始,我们要努力学习啦!今天我给大家带来《Python发送HTTP请求技巧:urllib实用教程》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!
urllib是Python标准库中的HTTP请求工具,无需安装即可使用。1.发送GET请求可用urllib.request.urlopen()函数直接实现;2.发送POST请求需构建Request对象并编码数据;3.异常处理依赖urllib.error模块区分不同错误类型;4.超时设置可通过timeout参数避免程序卡死;5.urllib作为标准库适用于受限环境、最小化依赖、学习底层机制及特定协议处理;6.处理HTTPS时可配置ssl上下文忽略证书验证(不推荐生产环境);7.代理配置需使用ProxyHandler和build_opener实现;8.重定向默认自动处理,也可自定义控制;9.Cookie管理通过http.cookiejar与HTTPCookieProcessor结合实现会话保持。
用Python发送HTTP请求,urllib
库是标准库的一部分,这意味着你无需安装任何第三方包就能直接使用它。它提供了多种模块来处理URL,包括请求、解析和错误处理。最核心的部分是urllib.request
,它负责打开URL并处理HTTP请求。

要发送一个HTTP请求,最直接的方式就是使用urllib.request.urlopen()
函数。它能处理GET请求,并返回一个文件状对象,你可以从中读取响应数据。如果需要发送POST请求或添加自定义头部,就需要构建一个urllib.request.Request
对象,然后将其传递给urlopen()
。

解决方案
发送GET请求相对简单:
import urllib.request import urllib.parse # 用于处理URL编码 url = 'http://httpbin.org/get' # 一个测试用的URL try: with urllib.request.urlopen(url) as response: html = response.read().decode('utf-8') print("GET 请求成功!") print(f"状态码: {response.status}") # print(html) # 打印响应内容 except urllib.error.URLError as e: print(f"GET 请求失败: {e.reason}") except urllib.error.HTTPError as e: print(f"GET 请求失败,HTTP 错误: {e.code} - {e.reason}")
发送POST请求则需要多一步,把数据编码后放入Request
对象:

import urllib.request import urllib.parse post_url = 'http://httpbin.org/post' data = {'name': 'Python', 'version': '3.9'} # 数据需要编码为字节串 encoded_data = urllib.parse.urlencode(data).encode('utf-8') req = urllib.request.Request(post_url, data=encoded_data, method='POST') # 可以添加自定义头部 req.add_header('Content-Type', 'application/x-www-form-urlencoded') req.add_header('User-Agent', 'MyCustomPythonApp/1.0') try: with urllib.request.urlopen(req) as response: response_data = response.read().decode('utf-8') print("\nPOST 请求成功!") print(f"状态码: {response.status}") # print(response_data) # 打印响应内容 except urllib.error.URLError as e: print(f"POST 请求失败: {e.reason}") except urllib.error.HTTPError as e: print(f"POST 请求失败,HTTP 错误: {e.code} - {e.reason}")
这里有个细节,urlopen()
默认会处理一些常见错误,但更细致的错误捕获,比如网络不通、域名解析失败,或者HTTP 4xx/5xx错误,就需要用到urllib.error
模块里的URLError
和HTTPError
。这能让你更优雅地处理各种异常情况。另外,超时设置也是个关键点,避免程序因为网络问题卡死:
# 设置超时 try: with urllib.request.urlopen('http://httpbin.org/delay/5', timeout=2) as response: # 尝试访问一个会延迟5秒的URL,但设置2秒超时 print("这行代码可能不会被执行,因为会超时。") except urllib.error.URLError as e: print(f"\n请求超时或网络问题: {e.reason}")
urllib.request 和 requests 库有什么区别?为什么还要用 urllib?
谈到Python的HTTP请求,很多人首先想到的是requests
库。没错,requests
确实是目前最流行、API最友好的HTTP客户端库,它的设计哲学就是“HTTP for Humans”,用起来非常直观简洁。比如,一个GET请求只需要requests.get(url)
。而urllib
呢,它的API相对来说就显得有些“原始”和繁琐了,需要你手动处理数据编码、请求对象构建等。
那么,既然requests
这么好用,为什么我们还要了解甚至在某些场景下使用urllib
呢?原因很简单,urllib
是Python标准库的一部分,这意味着它开箱即用,无需任何额外安装。这在一些特定的环境中就显得尤为重要,比如:
- 受限环境: 在一些没有网络连接、或者权限受限、无法安装第三方库的服务器或嵌入式设备上,
urllib
就是你唯一的选择。 - 最小化依赖: 如果你的项目追求极致的轻量化,不希望引入任何不必要的第三方依赖,那么
urllib
是理想的选择。 - 学习和理解底层: 学习
urllib
能让你更深入地理解HTTP协议的底层工作原理,比如请求头、数据编码、错误处理等,这对于理解requests
这类高级库的内部机制也很有帮助。 - 特定需求: 偶尔,
urllib
在某些非常底层或特殊的功能上(例如处理FTP、Gopher等非HTTP协议,或者需要精细控制某些连接细节时)可能会提供比requests
更直接的接口。虽然这些场景不多见,但存在即合理。
所以,虽然requests
是日常开发的首选,但urllib
作为标准库的“老兵”,依然有它存在的价值和适用场景。了解它,就像了解一台汽车的发动机原理,虽然日常驾驶不需要,但关键时刻能救命。
urllib 在处理 HTTPS 和代理时有哪些注意事项?
在实际的网络请求中,遇到HTTPS加密连接和需要通过代理服务器访问是家常便饭。urllib
在这方面也提供了相应的支持,不过在使用时确实有些细节需要注意。
对于 HTTPS,urllib.request.urlopen()
默认会尝试验证SSL证书,以确保连接的安全性。这是个好事,因为它能防止中间人攻击。但有时候,你可能会遇到一些自签名证书或者企业内部的特殊证书,导致默认验证失败,抛出ssl.SSLError
。在这种情况下,如果你确定风险可控,可以选择忽略证书验证。这可以通过ssl
模块来配置一个不验证证书的上下文,然后传递给urlopen
:
import ssl import urllib.request # 创建一个不验证SSL证书的上下文 (不推荐用于生产环境,除非你明确知道自己在做什么) # context = ssl._create_unverified_context() # 旧版本用法,新版本推荐如下 context = ssl.create_default_context() context.check_hostname = False context.verify_mode = ssl.CERT_NONE try: # 尝试访问一个可能存在证书问题的HTTPS网站,或者只是为了演示 with urllib.request.urlopen('https://expired.badssl.com/', context=context) as response: print("\nHTTPS 请求(忽略证书验证)成功!") print(f"状态码: {response.status}") except urllib.error.URLError as e: print(f"HTTPS 请求失败: {e.reason}")
代理设置则需要用到urllib.request.ProxyHandler
和urllib.request.build_opener
。urllib
的请求处理是通过一系列“处理器”(handlers)组成的“opener”来完成的。默认的urlopen
函数用的是一个简单的opener,如果你需要更高级的功能,比如代理,就需要构建一个自定义的opener。
import urllib.request # 假设你的代理服务器地址和端口 proxy_url = 'http://your_proxy_ip:your_proxy_port' # 如果代理需要认证,可以这样写:'http://username:password@your_proxy_ip:your_proxy_port' # 构建一个代理处理器 proxy_handler = urllib.request.ProxyHandler({'http': proxy_url, 'https': proxy_url}) # 构建一个自定义的opener,将代理处理器添加到其中 opener = urllib.request.build_opener(proxy_handler) # 安装这个opener,使其成为全局默认的urlopen行为 urllib.request.install_opener(opener) # 现在,所有的urllib.request.urlopen()调用都会通过代理 try: with urllib.request.urlopen('http://httpbin.org/ip') as response: print("\n通过代理访问成功!") print(f"状态码: {response.status}") print(response.read().decode('utf-8')) # 应该显示代理服务器的IP地址 except urllib.error.URLError as e: print(f"通过代理请求失败: {e.reason}") except urllib.error.HTTPError as e: print(f"通过代理请求失败,HTTP 错误: {e.code} - {e.reason}") # 如果你只想对某个特定的请求使用代理,而不是全局安装,可以这样做: # opener.open(url) 代替 urllib.request.urlopen(url)
需要注意的是,install_opener
会改变全局的urlopen
行为,这在多线程或大型应用中可能会引起意想不到的副作用。更推荐的做法是创建opener
实例后,直接调用opener.open(url)
来发送请求,而不是全局安装。
如何处理 urllib 请求中的重定向和 Cookie?
在Web交互中,重定向(Redirects)和Cookie管理是两个非常常见的场景,它们直接影响到用户会话和请求的正确性。urllib
也提供了相应的处理器来应对这些需求。
重定向:HTTP协议中,服务器可以通过返回3xx状态码(如301 Moved Permanently, 302 Found, 307 Temporary Redirect)来指示客户端访问一个新的URL。urllib.request
默认情况下会自动处理HTTP 3xx重定向。这意味着你不需要额外编写代码来追踪重定向链。当你使用urlopen()
时,如果遇到重定向,它会自动跟随到最终的目的地并返回最终响应。
如果你想禁用自动重定向,或者想获取重定向链中的所有URL,你需要更细粒度地控制。这可以通过构建一个自定义的opener,并移除或修改HTTPRedirectHandler
来实现。不过,通常情况下,默认的自动跟随行为已经足够满足大部分需求。如果你确实需要查看重定向的历史,可以检查响应对象的geturl()
方法,它会返回最终的URL,而原始请求的URL则需要在请求对象中保留。
import urllib.request # 访问一个会重定向的URL,例如 httpbin.org/redirect/1 # 默认情况下,urllib会跟随重定向 try: with urllib.request.urlopen('http://httpbin.org/redirect/1') as response: print("\n重定向请求成功!") print(f"最终访问的URL: {response.geturl()}") print(f"状态码: {response.status}") except urllib.error.URLError as e: print(f"重定向请求失败: {e.reason}")
Cookie管理:Cookie是Web会话管理的核心机制,服务器通过它来识别用户、保持登录状态等。urllib
处理Cookie需要用到http.cookiejar
模块和urllib.request.HTTPCookieProcessor
。http.cookiejar
提供了存储和管理Cookie的类,比如CookieJar
(内存存储)和FileCookieJar
(文件存储)。HTTPCookieProcessor
则负责将这些Cookie添加到请求中,并将响应中的新Cookie保存起来。
以下是一个简单的示例,演示如何使用CookieJar
来管理会话中的Cookie:
import urllib.request import http.cookiejar # 创建一个CookieJar对象,用于存储和管理Cookie cookie_jar = http.cookiejar.CookieJar() # 创建一个HTTPCookieProcessor,并将CookieJar传递给它 cookie_processor = urllib.request.HTTPCookieProcessor(cookie_jar) # 构建一个自定义的opener,加入Cookie处理器 opener = urllib.request.build_opener(cookie_processor) # 安装这个opener,使其成为全局默认的urlopen行为 urllib.request.install_opener(opener) # 第一次请求:服务器可能会设置Cookie print("\n--- 第一次请求 (获取Cookie) ---") try: with urllib.request.urlopen('http://httpbin.org/cookies/set?name=value') as response: print(f"状态码: {response.status}") print(f"响应内容: {response.read().decode('utf-8')}") print("当前CookieJar中的Cookie:") for cookie in cookie_jar: print(f" {cookie.name}={cookie.value}") except urllib.error.URLError as e: print(f"第一次请求失败: {e.reason}") # 第二次请求:Cookie会被自动发送 print("\n--- 第二次请求 (发送Cookie) ---") try: with urllib.request.urlopen('http://httpbin.org/cookies') as response: print(f"状态码: {response.status}") print(f"响应内容: {response.read().decode('utf-8')}") # 应该能看到之前设置的Cookie except urllib.error.URLError as e: print(f"第二次请求失败: {e.reason}")
通过这种方式,urllib
就能像浏览器一样,在请求之间保持会话状态。如果你需要将Cookie持久化到文件,可以将CookieJar
替换为MozillaCookieJar
或LWPCookieJar
,它们提供了save()
和load()
方法来读写Cookie文件。这对于需要长期保持登录状态的爬虫或自动化脚本非常有用。不过,记住处理Cookie时要遵守网站的规定和隐私政策。
今天关于《Python发送HTTP请求:urllib实用技巧详解》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- Chrome崩溃AwSnap错误怎么解决

- 下一篇
- Spring事件监听实战案例分享
-
- 文章 · python教程 | 5分钟前 |
- Python自动化办公实用技巧大全
- 419浏览 收藏
-
- 文章 · python教程 | 8分钟前 |
- Python连接FTP服务器及文件传输教程
- 361浏览 收藏
-
- 文章 · python教程 | 34分钟前 | Python 数据过滤 迭代器 Lambda表达式 filter()函数
- Pythonfilter函数详解与使用教程
- 299浏览 收藏
-
- 文章 · python教程 | 40分钟前 |
- Python图像分割:UNet模型全解析
- 121浏览 收藏
-
- 文章 · python教程 | 44分钟前 |
- Python自动化报表:JupyterLab高效教程
- 383浏览 收藏
-
- 文章 · python教程 | 46分钟前 |
- Python中-=表示减法赋值操作符,用于将变量的当前值减去一个数,并将结果重新赋给该变量。例如,x-=5等价于x=x-5。
- 290浏览 收藏
-
- 文章 · python教程 | 57分钟前 |
- 正则表达式中,使用`\b`来匹配单词边界。例如:`\bhello\b`会匹配独立的"hello"单词,避免匹配到"helloworld"中的部分。
- 179浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python知识图谱构建全攻略
- 277浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- PyCharm优缺点对比分析与评测
- 301浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python图片处理教程:Pillow库使用详解
- 492浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python机器学习流程及sklearn实战教程
- 341浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python异常处理技巧:try-except实用指南
- 441浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 509次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 边界AI平台
- 探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
- 17次使用
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 43次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 166次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 243次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 185次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览