当前位置：首页 > 文章列表 > 文章 > python教程 > Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现

Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现

2026-05-04 23:55:10 0浏览收藏

怎么入门文章编程？需要学习哪些知识点？这是新手们刚接触编程时常见的问题；下面golang学习网就来给大家整理分享一些知识点，希望能够给初学者一些帮助。本篇文章就来介绍《Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现》，涉及到，有需要的可以收藏一下

re.search(r'.pdf$', url) 更可靠，因它可配合先清理 URL 的 # 和 ? 后内容，再精准匹配路径后缀，而 str.endswith() 会因查询参数或锚点返回 False；且正则支持忽略大小写和多格式扩展名。

正则匹配 URL 后缀时，为什么 `re.search(r'\.pdf$', url)` 比 `url.endswith('.pdf')` 更可靠？

因为真实网页中的链接常带查询参数或锚点，比如 https://example.com/report.pdf?version=2#page1。用 str.endswith() 会返回 False，而正则 r'\.pdf$' 能正确锚定在“以 .pdf 结尾”（不考虑 fragment 和 query），前提是先去除 # 和 ? 后的内容。实际处理中建议先用 urllib.parse.urlparse() 提取 path 字段再匹配。

常见错误是直接对原始 url 字符串做后缀判断，漏掉参数干扰；更隐蔽的问题是忽略大小写——.PDF、.Pdf 都应被接受，所以正则推荐写成 r'\.(pdf|docx|xlsx)$' 并加 re.IGNORECASE 标志。

用 `requests` 下载前，如何安全判断响应体是否真为文档内容？

仅靠 URL 后缀不可信：服务端可能返回 200 状态但实际是 HTML 登录页、404 重定向页，或 Content-Type 声明为 text/html 却强行塞了 PDF 二进制流。必须检查三件事：

response.status_code == 200（且非重定向状态码如 302）
response.headers.get('Content-Type', '').lower().startswith(('application/pdf', 'application/vnd.openxmlformats-officedocument'))
len(response.content) > 1024（排除极小的错误响应体）

特别注意：有些站点会把 PDF 放在 iframe 或 JS 动态加载，此时 URL 看似合法，但 requests 直接 GET 返回的是外层 HTML。这种得结合 BeautifulSoup 解析页面，找 </code> 或 <code>fetch(...pdf)</code> 调用。</p> <h3>批量下载时，文件名怎么从 URL 安全提取并保留原始后缀？</h3> <p>别直接用 <code>os.path.basename(url)</code>——URL 可能不含路径，或含多层编码（如 <code>%2F</code>）、参数（<code>?t=123</code>）、锚点（<code>#section</code>）。正确流程是：</p> <ul><li>用 <code>urllib.parse.urlparse(url)</code> 解析出 <code>path</code></li> <li>用 <code>urllib.parse.unquote()</code> 对 <code>path</code> 解码</li> <li>用 <code>os.path.basename()</code> 取最后一段，再用正则 <code>r'[^/\\?#]+\.([a-zA-Z0-9]{2,})$'</code> 提取带后缀的文件名（若没匹配到， fallback 到 <code>hashlib.md5(url.encode()).hexdigest()[:8] + '.pdf'</code>）</li> </ul><p>Windows 下还要过滤非法字符（<code><>:"/\|?*</code>），建议统一替换成下划线；Mac/Linux 用户需注意文件名长度限制，超长名建议截断但保留后缀和哈希前缀。</p> <h3>遇到反爬时，<code>requests</code> 抓不到文档，但浏览器能打开，怎么办？</h3> <p>这类情况大概率是服务端校验了 <code>User-Agent</code>、<code>Referer</code> 或要求执行 JS 渲染。先用浏览器开发者工具看 Network 面板里 PDF 请求的完整 headers 和请求方式（GET/POST？带不带 cookies？）。</p> <p>简单修复可加基础头：</p> <pre class="brush:php;toolbar:false">headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36', 'Accept': 'application/pdf,*/*;q=0.8', 'Referer': 'https://example.com/list/' }</pre> <p>如果仍失败，说明该文档由前端 JS 拼接 URL 或动态生成 token（如 <code>/download?id=123&token=abc</code>），这时必须用 <code>playwright</code> 或 <code>selenium</code> 启动真实浏览器，等 JS 执行完再提取最终 URL——否则正则白过滤，<code>requests</code> 白发请求。</p> <p>真正难啃的是文档藏在登录态后、或需滑动验证的场景，这时候正则过滤后缀只是第一步，后续链路完全依赖身份维持和行为模拟，不能只盯着 URL 规则。</p><p>好了，本文到此结束，带大家了解了《Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！</p> </div> <div class="labsList"> </div> <div class="cateBox"> <div class="cateItem"> <a href="/article/588580.html" title="HTML怎么做抽签工具_HTML随机抽签抽奖工具实现【收藏】" class="img_box"> <img loading="lazy" src="/uploads/20260504/177791009169f8c14b23d1b.png" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="HTML怎么做抽签工具_HTML随机抽签抽奖工具实现【收藏】">HTML怎么做抽签工具_HTML随机抽签抽奖工具实现【收藏】 </a> <dl> <dt class="lineOverflow"><a href="/article/588580.html" title="HTML怎么做抽签工具_HTML随机抽签抽奖工具实现【收藏】" class="aBlack">上一篇<i></i></a></dt> <dd class="lineTwoOverflow">HTML怎么做抽签工具_HTML随机抽签抽奖工具实现【收藏】</dd> </dl> </div> <div class="cateItem"> <a href="/article/588582.html" title="途虎养车怎么设置收货地址_途虎商品配送地址管理" class="img_box"> <img loading="lazy" src="/uploads/20260504/177791022569f8c1d157d68.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="途虎养车怎么设置收货地址_途虎商品配送地址管理"> </a> <dl> <dt class="lineOverflow"><a href="/article/588582.html" class="aBlack" title="途虎养车怎么设置收货地址_途虎商品配送地址管理">下一篇<i></i></a></dt> <dd class="lineTwoOverflow">途虎养车怎么设置收货地址_途虎商品配送地址管理</dd> </dl> </div> </div> </div> </div> <div class="leftContBox pt0"> <div class="pdl20"> <div class="contTit"> <a href="/articlelist.html" class="more" title="查看更多">查看更多<i class="iconfont"></i></a> <div class="tit">最新文章</div> </div> </div> <ul class="newArticleList"> <li> <div class="contBox"> <a href="/article/588581.html" class="img_box" title="Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现"> <img loading="lazy" src="/uploads/20260504/177791011069f8c15e5cd0c.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  4小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588581.html" class="aBlack" target="_blank" title="Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现">Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现</a> </dt> <dd class="cont2"> <span><i class="view"></i>436浏览</span> <span class="collectBtn user_collection" data-id="588581" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588568.html" class="img_box" title="Python Flask如何进行单元测试_使用pytest模拟请求与断言测试"> <img loading="lazy" src="/uploads/20260504/177790954769f8bf2b1ddd2.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Python Flask如何进行单元测试_使用pytest模拟请求与断言测试"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  4小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588568.html" class="aBlack" target="_blank" title="Python Flask如何进行单元测试_使用pytest模拟请求与断言测试">Python Flask如何进行单元测试_使用pytest模拟请求与断言测试</a> </dt> <dd class="cont2"> <span><i class="view"></i>252浏览</span> <span class="collectBtn user_collection" data-id="588568" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588566.html" class="img_box" title="如何在 Django 登录页中安全验证用户是否存在 "> <img loading="lazy" src="/uploads/20260504/177790936269f8be72d2037.jpg" onerror="this.src='/assets/images/moren/morentu.png'" alt="如何在 Django 登录页中安全验证用户是否存在 "> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  5小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588566.html" class="aBlack" target="_blank" title="如何在 Django 登录页中安全验证用户是否存在 ">如何在 Django 登录页中安全验证用户是否存在 </a> </dt> <dd class="cont2"> <span><i class="view"></i>389浏览</span> <span class="collectBtn user_collection" data-id="588566" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588558.html" class="img_box" title="怎样在Python Flask中实现静态文件缓存_配置SEND_FILE_MAX_AGE"> <img loading="lazy" src="/uploads/20260504/177790900669f8bd0e9153b.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="怎样在Python Flask中实现静态文件缓存_配置SEND_FILE_MAX_AGE"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  5小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588558.html" class="aBlack" target="_blank" title="怎样在Python Flask中实现静态文件缓存_配置SEND_FILE_MAX_AGE">怎样在Python Flask中实现静态文件缓存_配置SEND_FILE_MAX_AGE</a> </dt> <dd class="cont2"> <span><i class="view"></i>247浏览</span> <span class="collectBtn user_collection" data-id="588558" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588528.html" class="img_box" title="如何使用Python构建自动批量转换脚本_格式转换逻辑解析【教程】"> <img loading="lazy" src="/uploads/20260504/177790767369f8b7d91ed4a.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="如何使用Python构建自动批量转换脚本_格式转换逻辑解析【教程】"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  5小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588528.html" class="aBlack" target="_blank" title="如何使用Python构建自动批量转换脚本_格式转换逻辑解析【教程】">如何使用Python构建自动批量转换脚本_格式转换逻辑解析【教程】</a> </dt> <dd class="cont2"> <span><i class="view"></i>367浏览</span> <span class="collectBtn user_collection" data-id="588528" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588511.html" class="img_box" title="Django怎么执行复杂SQL_Python调用RawQuery与原生游标"> <img loading="lazy" src="/uploads/20260504/177790685969f8b4ab59dd1.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Django怎么执行复杂SQL_Python调用RawQuery与原生游标"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  5小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588511.html" class="aBlack" target="_blank" title="Django怎么执行复杂SQL_Python调用RawQuery与原生游标">Django怎么执行复杂SQL_Python调用RawQuery与原生游标</a> </dt> <dd class="cont2"> <span><i class="view"></i>448浏览</span> <span class="collectBtn user_collection" data-id="588511" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588465.html" class="img_box" title="Python导入sklearn报DLL缺失怎么解决_VC++运行库与whl重新安装指南"> <img loading="lazy" src="/uploads/20260504/177790473769f8ac611f219.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Python导入sklearn报DLL缺失怎么解决_VC++运行库与whl重新安装指南"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  6小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588465.html" class="aBlack" target="_blank" title="Python导入sklearn报DLL缺失怎么解决_VC++运行库与whl重新安装指南">Python导入sklearn报DLL缺失怎么解决_VC++运行库与whl重新安装指南</a> </dt> <dd class="cont2"> <span><i class="view"></i>182浏览</span> <span class="collectBtn user_collection" data-id="588465" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588453.html" class="img_box" title="如何将一个字典中非 None 值合并到另一个同结构字典中 "> <img loading="lazy" src="/uploads/5885/6e062b0e970dc009b6974dbb44fb5506.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="如何将一个字典中非 None 值合并到另一个同结构字典中 "> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  6小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588453.html" class="aBlack" target="_blank" title="如何将一个字典中非 None 值合并到另一个同结构字典中 ">如何将一个字典中非 None 值合并到另一个同结构字典中 </a> </dt> <dd class="cont2"> <span><i class="view"></i>357浏览</span> <span class="collectBtn user_collection" data-id="588453" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588447.html" class="img_box" title="如何用Python开发网络监控？socket编程"> <img loading="lazy" src="/uploads/20260504/177790385269f8a8ec617a3.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="如何用Python开发网络监控？socket编程"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  6小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588447.html" class="aBlack" target="_blank" title="如何用Python开发网络监控？socket编程">如何用Python开发网络监控？socket编程</a> </dt> <dd class="cont2"> <span><i class="view"></i>118浏览</span> <span class="collectBtn user_collection" data-id="588447" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588422.html" class="img_box" title="Python数据可视化仪表盘项目教程_DashPlotly实时展示"> <img loading="lazy" src="/uploads/20260504/177790275969f8a4a710b40.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Python数据可视化仪表盘项目教程_DashPlotly实时展示"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  6小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588422.html" class="aBlack" target="_blank" title="Python数据可视化仪表盘项目教程_DashPlotly实时展示">Python数据可视化仪表盘项目教程_DashPlotly实时展示</a> </dt> <dd class="cont2"> <span><i class="view"></i>376浏览</span> <span class="collectBtn user_collection" data-id="588422" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588412.html" class="img_box" title="Python 3.10新语法在旧版环境中如何适配_使用future库实现后向兼容"> <img loading="lazy" src="/uploads/20260504/177790234169f8a305f301b.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Python 3.10新语法在旧版环境中如何适配_使用future库实现后向兼容"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  6小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588412.html" class="aBlack" target="_blank" title="Python 3.10新语法在旧版环境中如何适配_使用future库实现后向兼容">Python 3.10新语法在旧版环境中如何适配_使用future库实现后向兼容</a> </dt> <dd class="cont2"> <span><i class="view"></i>280浏览</span> <span class="collectBtn user_collection" data-id="588412" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> <li> <div class="contBox"> <a href="/article/588371.html" class="img_box" title="Django怎么按周或按天分组查询_Python利用TruncDate函数截断时间"> <img loading="lazy" src="/uploads/20260504/177790025269f89adcdc51d.png" onerror="this.src='/assets/images/moren/morentu.png'" alt="Django怎么按周或按天分组查询_Python利用TruncDate函数截断时间"> </a> <dl> <dd class="cont1"> <span> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  7小时前  |   </span> </dd> <dt class="lineOverflow"> <a href="/article/588371.html" class="aBlack" target="_blank" title="Django怎么按周或按天分组查询_Python利用TruncDate函数截断时间">Django怎么按周或按天分组查询_Python利用TruncDate函数截断时间</a> </dt> <dd class="cont2"> <span><i class="view"></i>112浏览</span> <span class="collectBtn user_collection" data-id="588371" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </dd> </dl> </div> </li> </ul> </div> </div> <div class="mainRight"> <div class="rightContBox" style="margin-top: 0px;background: linear-gradient(135deg,#fdf6ec,#fff7e6);"> <div class="rightTit" style="margin-bottom: 10px;"> <div class="tit lineOverflow" style="font-weight: 700;font-size: 16px;color: #ff7e29;">资料下载</div> </div> <ul class="lessonRecomRList"> <li> <div style="display: flex;align-items: stretch;"> <a href="https://pan.quark.cn/s/ba8ef670cabd" rel="nofollow" class="img_box" target="_blank" rel="nofollow" title="编程学习资料下载" style="min-height: 80px;border-radius: 5px;overflow: hidden;background: #ffffff;box-shadow: 0 4px 10px rgba(0,0,0,0.06);margin-right: 14px;display: flex;align-items: center;justify-content: center;"> <img loading="lazy" src="/assets/images/xuexiziliao.jpeg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="编程学习资料下载" style="width: 100%;height: 100%;object-fit: cover;"> </a> <dl style="flex: 1;margin: 0;display: flex;flex-direction: column;justify-content: center;"> <dt class="lineTwoOverflow" style="height: auto;"> <a href="https://pan.quark.cn/s/ba8ef670cabd" rel="nofollow" target="_blank" class="aBlack" title="编程学习资料下载" style="font-size: 15px;font-weight: 600;color: #262626;">编程学习资料下载</a> </dt> <dd class="cont1 lineTwoOverflow" style="font-size: 13px;line-height: 1.6;color: #666666;margin-bottom: 8px; height: auto;"> 精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。 </dd> <dd class="cont2" style="margin: 0;"> <a href="https://pan.quark.cn/s/ba8ef670cabd" rel="nofollow" target="_blank" style="display: inline-block;padding: 6px 16px;border-radius: 999px;background: linear-gradient(135deg,#ff7e29,#ff9f43);color: #ffffff;font-size: 13px;"> 立即下载 </a> </dd> </dl> </div> </li> </ul> </div>  <div class="rightContBox"> <div class="rightTit"> <a href="/courselist.html" class="more" title="查看更多">查看更多<i class="iconfont"></i></a> <div class="tit lineOverflow">课程推荐</div> </div> <ul class="lessonRecomRList"> <li> <a href="/course/9.html" class="img_box" target="_blank" title="前端进阶之JavaScript设计模式"> <img loading="lazy" src="/uploads/20221222/52fd0f23a454c71029c2c72d206ed815.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="前端进阶之JavaScript设计模式"> </a> <dl> <dt class="lineTwoOverflow"><a href="/course/9.html" target="_blank" class="aBlack" title="前端进阶之JavaScript设计模式">前端进阶之JavaScript设计模式</a></dt> <dd class="cont1 lineTwoOverflow"> 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。 </dd> <dd class="cont2">543次学习</dd> </dl> </li> <li> <a href="/course/2.html" class="img_box" target="_blank" title="GO语言核心编程课程"> <img loading="lazy" src="/uploads/20221221/634ad7404159bfefc6a54a564d437b5f.png" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="GO语言核心编程课程"> </a> <dl> <dt class="lineTwoOverflow"><a href="/course/2.html" target="_blank" class="aBlack" title="GO语言核心编程课程">GO语言核心编程课程</a></dt> <dd class="cont1 lineTwoOverflow"> 本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。 </dd> <dd class="cont2">516次学习</dd> </dl> </li> <li> <a href="/course/74.html" class="img_box" target="_blank" title="简单聊聊mysql8与网络通信"> <img loading="lazy" src="/uploads/20240103/bad35fe14edbd214bee16f88343ac57c.png" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="简单聊聊mysql8与网络通信"> </a> <dl> <dt class="lineTwoOverflow"><a href="/course/74.html" target="_blank" class="aBlack" title="简单聊聊mysql8与网络通信">简单聊聊mysql8与网络通信</a></dt> <dd class="cont1 lineTwoOverflow"> 如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让 </dd> <dd class="cont2">500次学习</dd> </dl> </li> <li> <a href="/course/57.html" class="img_box" target="_blank" title="JavaScript正则表达式基础与实战"> <img loading="lazy" src="/uploads/20221226/bbe4083bb3cb0dd135fb02c31c3785fb.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="JavaScript正则表达式基础与实战"> </a> <dl> <dt class="lineTwoOverflow"><a href="/course/57.html" target="_blank" class="aBlack" title="JavaScript正则表达式基础与实战">JavaScript正则表达式基础与实战</a></dt> <dd class="cont1 lineTwoOverflow"> 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。 </dd> <dd class="cont2">487次学习</dd> </dl> </li> <li> <a href="/course/28.html" class="img_box" target="_blank" title="从零制作响应式网站—Grid布局"> <img loading="lazy" src="/uploads/20221223/ac110f88206daeab6c0cf38ebf5fe9ed.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="从零制作响应式网站—Grid布局"> </a> <dl> <dt class="lineTwoOverflow"><a href="/course/28.html" target="_blank" class="aBlack" title="从零制作响应式网站—Grid布局">从零制作响应式网站—Grid布局</a></dt> <dd class="cont1 lineTwoOverflow"> 本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。 </dd> <dd class="cont2">485次学习</dd> </dl> </li> </ul> </div> <div class="rightContBox"> <div class="rightTit"> <a href="/ai.html" class="more" title="查看更多">查看更多<i class="iconfont"></i></a> <div class="tit lineOverflow">AI推荐</div> </div> <ul class="lessonRecomRList"> <li> <a href="/ai/13100.html" target="_blank" title="ChatExcel酷表：告别Excel难题，北大团队AI助手助您轻松处理数据" class="img_box"> <img loading="lazy" src="/uploads/20251027/176155320368ff2b3345c06.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="ChatExcel酷表：告别Excel难题，北大团队AI助手助您轻松处理数据" style="object-fit:cover;width:100%;height:100%;"> </a> <dl> <dt class="lineTwoOverflow"><a href="/ai/13100.html" class="aBlack" target="_blank" title="ChatExcel酷表">ChatExcel酷表</a></dt> <dd class="cont1 lineTwoOverflow"> ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。 </dd> <dd class="cont2">4464次使用</dd> </dl> </li> <li> <a href="/ai/13099.html" target="_blank" title="Any绘本：开源免费AI绘本创作工具深度解析" class="img_box"> <img loading="lazy" src="/uploads/20251023/176120760368f9e5333da5f.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="Any绘本：开源免费AI绘本创作工具深度解析" style="object-fit:cover;width:100%;height:100%;"> </a> <dl> <dt class="lineTwoOverflow"><a href="/ai/13099.html" class="aBlack" target="_blank" title="Any绘本">Any绘本</a></dt> <dd class="cont1 lineTwoOverflow"> 探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。 </dd> <dd class="cont2">4810次使用</dd> </dl> </li> <li> <a href="/ai/13098.html" target="_blank" title="可赞AI：AI驱动办公可视化智能工具，一键高效生成文档图表脑图" class="img_box"> <img loading="lazy" src="/uploads/20251021/176103600268f746e238bb8.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="可赞AI：AI驱动办公可视化智能工具，一键高效生成文档图表脑图" style="object-fit:cover;width:100%;height:100%;"> </a> <dl> <dt class="lineTwoOverflow"><a href="/ai/13098.html" class="aBlack" target="_blank" title="可赞AI">可赞AI</a></dt> <dd class="cont1 lineTwoOverflow"> 可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。 </dd> <dd class="cont2">4690次使用</dd> </dl> </li> <li> <a href="/ai/13097.html" target="_blank" title="星月写作：AI网文创作神器，助力爆款小说速成" class="img_box"> <img loading="lazy" src="/uploads/20251014/176043000368ee07b3159d6.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="星月写作：AI网文创作神器，助力爆款小说速成" style="object-fit:cover;width:100%;height:100%;"> </a> <dl> <dt class="lineTwoOverflow"><a href="/ai/13097.html" class="aBlack" target="_blank" title="星月写作">星月写作</a></dt> <dd class="cont1 lineTwoOverflow"> 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。 </dd> <dd class="cont2">6485次使用</dd> </dl> </li> <li> <a href="/ai/13096.html" target="_blank" title="MagicLight.ai：叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画" class="img_box"> <img loading="lazy" src="/uploads/20251014/176040000268ed9282edf80.jpg" onerror="this.onerror='',this.src='/assets/images/moren/morentu.png'" alt="MagicLight.ai：叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画" style="object-fit:cover;width:100%;height:100%;"> </a> <dl> <dt class="lineTwoOverflow"><a href="/ai/13096.html" class="aBlack" target="_blank" title="MagicLight">MagicLight</a></dt> <dd class="cont1 lineTwoOverflow"> MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。 </dd> <dd class="cont2">5061次使用</dd> </dl> </li> </ul> </div>  <div class="rightContBox"> <div class="rightTit"> <a href="/articlelist.html" class="more" title="查看更多">查看更多<i class="iconfont"></i></a> <div class="tit lineOverflow">相关文章</div> </div> <ul class="aboutArticleRList"> <li> <dl> <dt class="lineTwoOverflow"><a href="/article/80964.html" class="aBlack" title="Flask框架安装技巧：让你的开发更高效">Flask框架安装技巧：让你的开发更高效</a></dt> <dd> <span class="left">2024-01-03</span> <span class="right">501浏览</span> </dd> </dl> </li> <li> <dl> <dt class="lineTwoOverflow"><a href="/article/90241.html" class="aBlack" title="Django框架中的并发处理技巧">Django框架中的并发处理技巧</a></dt> <dd> <span class="left">2024-01-22</span> <span class="right">501浏览</span> </dd> </dl> </li> <li> <dl> <dt class="lineTwoOverflow"><a href="/article/88174.html" class="aBlack" title="提升Python包下载速度的方法——正确配置pip的国内源">提升Python包下载速度的方法——正确配置pip的国内源</a></dt> <dd> <span class="left">2024-01-17</span> <span class="right">501浏览</span> </dd> </dl> </li> <li> <dl> <dt class="lineTwoOverflow"><a href="/article/113474.html" class="aBlack" title="Python与C++：哪个编程语言更适合初学者？">Python与C++：哪个编程语言更适合初学者？</a></dt> <dd> <span class="left">2024-03-25</span> <span class="right">501浏览</span> </dd> </dl> </li> <li> <dl> <dt class="lineTwoOverflow"><a href="/article/120624.html" class="aBlack" title="品牌建设技巧">品牌建设技巧</a></dt> <dd> <span class="left">2024-04-06</span> <span class="right">501浏览</span> </dd> </dl> </li> </ul> </div> </div> </div> <div class="footer"> <div class="footerIn"> <div class="footLeft"> <div class="linkBox"> <a href="/about/1.html" target="_blank" class="aBlack" title="关于我们">关于我们</a> <a href="/about/5.html" target="_blank" class="aBlack" title="免责声明">免责声明</a> <a href="#" class="aBlack" title="意见反馈">意见反馈</a> <a href="/about/2.html" class="aBlack" target="_blank" title="联系我们">联系我们</a> <a href="/send.html" class="aBlack" title="广告合作">内容提交</a> </div> <div class="footTip">Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！</div> <div class="shareBox"> <span><i class="qq"></i>技术交流群</span> </div> <div class="copyRight"> Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜ <a href="https://beian.miit.gov.cn/" target="_blank" title="备案">苏ICP备2023003363号-1</a> </div> </div> <div class="footRight"> <ul class="encodeList"> <li> <div class="encodeImg"> <img src="/assets/examples/qrcode_for_gh.jpg" alt="Golang学习网"> </div> <div class="tit">关注公众号</div> <div class="tip">Golang学习网</div> </li> <div class="clear"></div> </ul> </div> <div class="clear"></div> </div> </div>  <style> .popupBg .n-error{ color: red; } </style> <div class="popupBg"> <div class="loginBoxBox"> <div class="imgbg"> <img src="/assets/images/leftlogo.jpg" alt=""> </div>  <div class="loginInfo encodeLogin" style="display: none;"> <div class="closeIcon" onclick="$('.popupBg').hide();"></div> <div class="changeLoginType cursorPointer create_wxqrcode" onclick="$('.loginInfo').hide();$('.passwordLogin').show();"> <div class="tip">密码登录在这里</div> </div> <div class="encodeInfo"> <div class="tit"><i></i> 微信扫码登录或注册</div> <div class="encodeImg"> <span id="wx_login_qrcode"><img src="/assets/examples/code.png" alt="二维码"></span>  </div> <div class="tip">打开微信扫一扫，快速登录/注册</div> </div> <div class="beforeLoginTip">登录即同意 <a href="#" class="aBlue" title="用户协议">用户协议</a> 和 <a href="#" class="aBlue" title="隐私政策">隐私政策</a></div> </div>  <div class="loginInfo passwordLogin"> <div class="closeIcon" onclick="$('.popupBg').hide();"></div> <div class="changeLoginType cursorPointer create_wxqrcode" onclick="$('.loginInfo').hide();$('.encodeLogin').show();"> <div class="tip">微信登录更方便</div> </div> <div class="passwordInfo"> <ul class="logintabs selfTabMenu"> <li class="selfTabItem loginFormLi curr">密码登录</li> <li class="selfTabItem registerFormBox ">注册账号</li> </ul> <div class="selfTabContBox"> <div class="selfTabCont loginFormBox" style="display: block;"> <form name="form" id="login-form" class="form-vertical form" method="POST" action="/index/user/login"> <input type="hidden" name="url" value="//www.17golang.com/article/588581.html"/> <input type="hidden" name="__token__" value="4de630f1c8ac8e0d6b2d2433d9218336" /> <div class="form-group" style="height:70px;"> <input class="form-control" id="account" type="text" name="account" value="" data-rule="required" placeholder="邮箱/用户名" autocomplete="off"> </div> <div class="form-group" style="height:70px;"> <input class="form-control" id="password" type="password" name="password" data-rule="required;password" placeholder="密码" autocomplete="off"> </div> <div class="codeBox" style="height:70px;"> <div class="form-group" style="height:70px; width:205px; float: left;"> <input type="text" name="captcha" class="form-control" placeholder="验证码" data-rule="required;length(4)" /> </div> <span class="input-group-btn" style="padding:0;border:none;"> <img src="/captcha.html" width="100" height="45" onclick="this.src = '/captcha.html?r=' + Math.random();"/> </span> </div> <div class="other"> <a href="#" class="forgetPwd aGray" onclick="$('.loginInfo').hide();$('.passwordForget').show();" title="忘记密码">忘记密码</a> </div> <div class="loginBtn mt25"> <button type="submit">登录</button> </div> </form> </div> <div class="selfTabCont registerFormBox" style="display: none;"> <form name="form1" id="register-form" class="form-vertical form" method="POST" action="/index/user/register"> <input type="hidden" name="invite_user_id" value="0"/> <input type="hidden" name="url" value="//www.17golang.com/article/588581.html"/> <input type="hidden" name="__token__" value="4de630f1c8ac8e0d6b2d2433d9218336" /> <div class="form-group" style="height:70px;"> <input type="text" name="email" id="email2" data-rule="required;email" class="form-control" placeholder="邮箱"> </div> <div class="form-group" style="height:70px;"> <input type="text" id="username" name="username" data-rule="required;username" class="form-control" placeholder="用户名必须3-30个字符"> </div> <div class="form-group" style="height:70px;"> <input type="password" id="password2" name="password" data-rule="required;password" class="form-control" placeholder="密码必须6-30个字符"> </div> <div class="codeBox" style="height:70px;"> <div class="form-group" style="height:70px; width:205px; float: left;"> <input type="text" name="captcha" class="form-control" placeholder="验证码" data-rule="required;length(4)" /> </div> <span class="input-group-btn" style="padding:0;border:none;"> <img src="/captcha.html" width="100" height="45" onclick="this.src = '/captcha.html?r=' + Math.random();"/> </span> </div> <div class="loginBtn"> <button type="submit">注册</button> </div> </form> </div> </div> </div> <div class="beforeLoginTip">登录即同意 <a href="https://www.17golang.com/about/3.html" target="_blank" class="aBlue" title="用户协议">用户协议</a> 和 <a href="https://www.17golang.com/about/4.html" target="_blank" class="aBlue" title="隐私政策">隐私政策</a></div> </div>  <div class="loginInfo passwordForget"> <div class="closeIcon" onclick="$('.popupBg').hide();"></div> <div class="returnLogin cursorPointer" onclick="$('.passwordForget').hide();$('.passwordLogin').show();">返回登录</div> <div class="passwordInfo"> <ul class="logintabs selfTabMenu"> <li class="selfTabItem">重置密码</li> </ul> <div class="selfTabContBox"> <div class="selfTabCont"> <form id="resetpwd-form" class="form-horizontal form-layer nice-validator n-default n-bootstrap form" method="POST" action="/api/user/resetpwd.html" novalidate="novalidate"> <div style="height:70px;"> <input type="text" class="form-control" id="email" name="email" value="" placeholder="输入邮箱" aria-invalid="true"> </div> <div class="codeBox" style="height:70px;"> <div class="form-group" style="height:70px; width:205px; float: left;"> <input type="text" name="captcha" class="form-control" placeholder="验证码" /> </div> <span class="input-group-btn" style="padding:0;border:none;"> <a href="javascript:;" class="btn btn-primary btn-captcha cursorPointer" style="background: #2080F8; border-radius: 4px; color: #fff; padding: 12px; position: absolute;" data-url="/api/ems/send.html" data-type="email" data-event="resetpwd">发送验证码</a> </span> </div> <input type="password" class="form-control" id="newpassword" name="newpassword" value="" placeholder="请输入6-18位密码"> <div class="loginBtn mt25"> <button type="submit">重置密码</button> </div> </form> </div> </div> </div> </div> </div> </div> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?3dc5666f6478c7bf39cd5c91e597423d"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script src="/assets/js/SyntaxHighlighter/shCore.js?3.1.1"></script> <script> document.addEventListener('DOMContentLoaded', function () { if (document.querySelector('.cont pre')) { SyntaxHighlighter.all(); } }); </script> <script src="/assets/js/require.js" data-main="/assets/js/require-frontend.js?v=1671101972"></script> </body> </html>

Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现

正则匹配 URL 后缀时，为什么 re.search(r'\.pdf$', url) 比 url.endswith('.pdf') 更可靠？

用 requests 下载前，如何安全判断响应体是否真为文档内容？

正则匹配 URL 后缀时，为什么 `re.search(r'\.pdf$', url)` 比 `url.endswith('.pdf')` 更可靠？

用 `requests` 下载前，如何安全判断响应体是否真为文档内容？