当前位置:首页 > 文章列表 > 文章 > python教程 > Selenium动态下拉菜单处理教程

Selenium动态下拉菜单处理教程

2025-11-19 09:55:25 0浏览 收藏

今天golang学习网给大家带来了《Selenium处理动态下拉菜单与数据提取教程》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

使用Selenium自动化处理动态下拉菜单与数据提取教程

本教程详细介绍了如何使用Selenium WebDriver处理网页中动态展开的下拉菜单,并从中提取嵌套的子分类链接。我们将通过识别并迭代点击展开图标,实现所有子菜单的可见化,随后筛选并收集目标href属性。内容涵盖Selenium环境配置、元素定位技巧、动态DOM交互策略,并提供完整的Python代码示例,旨在帮助开发者高效地从复杂网页结构中抓取所需数据。

在进行网页数据抓取时,经常会遇到动态加载或折叠的元素,特别是多级下拉菜单。这些菜单通常需要用户交互(如点击)才能展开,进而暴露其内部的子项链接。本教程将以一个具体的案例为例,演示如何使用Python和Selenium WebDriver有效处理这类场景,最终目标是获取所有子分类的链接。

1. 环境准备与项目初始化

首先,确保你已安装Python和Selenium库,并且配置了WebDriver(如Chrome WebDriver)。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time # 用于演示,实际项目中建议使用显式等待

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
driver = webdriver.Chrome()
# 设置隐式等待,在查找元素时,如果元素未立即可用,WebDriver会等待指定的时间
driver.implicitly_wait(5) # 建议设置一个合理的等待时间
driver.get(URL)

# 初始化ActionChains,用于执行复杂的鼠标操作,本例中暂未使用,但可保留备用
# action = webdriver.ActionChains(driver)

在初始化阶段,我们加载了必要的库,设置了目标URL,并启动了Chrome浏览器实例。driver.implicitly_wait()是一个全局设置,它会指示WebDriver在查找任何元素时等待指定的时间,直到元素出现或超时。

2. 识别并展开所有动态下拉菜单

目标网页中的子分类项隐藏在可折叠的菜单中,通过点击一个“加号”图标 (ion-plus-round) 可以展开。为了获取所有子分类链接,我们需要迭代地点击这些展开图标,直到所有菜单都处于展开状态。

关键挑战: 当点击一个展开图标后,页面的DOM结构可能会发生变化,导致之前定位到的元素引用失效。因此,在每次点击之前,我们需要重新定位所有可展开的图标。

# 查找所有带有“展开”图标的元素
# 这些图标通常有一个特定的CSS类,例如 'icon expand-icon ion-plus-round'
# 使用CSS选择器定位这些元素
expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

# 循环点击所有展开图标
# 注意:由于点击操作可能改变DOM,导致元素列表失效,
# 我们需要在每次点击前重新查找元素。
while True:
    # 重新查找所有展开图标
    current_expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

    # 如果没有找到任何展开图标,说明所有菜单都已展开,跳出循环
    if not current_expand_icons:
        break

    try:
        # 点击第一个找到的展开图标
        # 注意:这里我们总是点击列表中的第一个,因为每次循环都会重新查找
        # 这样可以确保我们总是在处理当前页面上可见的、未展开的菜单
        current_expand_icons[0].click()
        # 每次点击后短暂等待,确保DOM更新完成
        time.sleep(0.5) 
    except Exception as e:
        # 捕获可能的异常,例如元素变得不可点击
        print(f"点击展开图标时发生错误: {e}")
        break # 发生错误时退出循环

这段代码的核心在于 while True 循环。每次循环开始时,我们都会重新查找所有带有 ion-plus-round 类的 元素。如果找到了,就点击列表中的第一个,然后短暂等待,让页面有时间更新。如果没有找到任何这样的元素,就意味着所有可展开的菜单都已展开,此时循环终止。

3. 提取子分类链接

在所有下拉菜单都展开之后,我们可以开始提取所需的子分类链接。这些链接通常包含特定的标识符,例如在 href 属性中包含 "subcat" 字符串。

# 定位包含所有分类链接的父容器
# 假设所有分类(包括主分类和子分类)都在第一个 'list-group' 元素内
item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]

# 查找容器内所有的 'a' 标签(链接)
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')

# 过滤出子分类链接
subcat_links = []
for link_element in all_links:
    href = link_element.get_attribute('href')
    if href and 'subcat' in href: # 检查href是否存在且包含 'subcat' 字符串
        subcat_links.append(href)

# 打印或处理收集到的子分类链接
print("已收集到的子分类链接数量:", len(subcat_links))
for link in subcat_links:
    print(link)

# 关闭浏览器
driver.quit()

这段代码首先定位到包含所有分类链接的父容器。然后,它查找该容器内的所有 标签,并遍历这些标签。对于每个链接,它提取 href 属性,并通过检查 href 中是否包含 "subcat" 字符串来判断其是否为目标子分类链接。最终,所有符合条件的链接都会被收集到 subcat_links 列表中。

4. 完整代码示例

将上述所有步骤整合,形成一个完整的自动化脚本:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
driver = webdriver.Chrome()
driver.implicitly_wait(5) # 设置隐式等待
driver.get(URL)

print("页面加载完成,开始展开下拉菜单...")

# 循环点击所有展开图标
while True:
    # 重新查找所有展开图标,确保处理动态DOM变化
    current_expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

    # 如果没有找到任何展开图标,说明所有菜单都已展开,跳出循环
    if not current_expand_icons:
        print("所有下拉菜单已展开。")
        break

    try:
        # 点击第一个找到的展开图标
        current_expand_icons[0].click()
        # 每次点击后短暂等待,确保DOM更新完成
        time.sleep(0.5) 
    except Exception as e:
        print(f"点击展开图标时发生错误: {e}")
        break # 发生错误时退出循环

print("开始提取子分类链接...")

# 定位包含所有分类链接的父容器
# 使用WebDriverWait进行显式等待,确保元素可见
try:
    item_categories_container = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CLASS_NAME, 'list-group'))
    )
    # 由于页面可能有多个list-group,我们取第一个作为主分类容器
    item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]
except Exception as e:
    print(f"无法找到主分类容器: {e}")
    driver.quit()
    exit()

# 查找容器内所有的 'a' 标签(链接)
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')

# 过滤出子分类链接
subcat_links = []
for link_element in all_links:
    href = link_element.get_attribute('href')
    if href and 'subcat' in href: # 检查href是否存在且包含 'subcat' 字符串
        subcat_links.append(href)

print("\n--- 收集到的子分类链接 ---")
print(f"总共收集到 {len(subcat_links)} 个子分类链接。")
for link in subcat_links:
    print(link)

# 关闭浏览器
driver.quit()
print("\n浏览器已关闭。")

5. 注意事项与最佳实践

总结

通过本教程,我们学习了如何使用Selenium WebDriver有效地处理动态网页中的下拉菜单。核心策略包括迭代地重新定位并点击展开图标以揭示所有隐藏内容,然后精确地提取目标链接。理解并正确应用隐式/显式等待以及动态元素处理是成功实现这类自动化任务的关键。掌握这些技术将大大提高从复杂Web应用中抓取数据的能力。

文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Selenium动态下拉菜单处理教程》文章吧,也可关注golang学习网公众号了解相关技术文章。

Win11剪贴板历史怎么查看管理Win11剪贴板历史怎么查看管理
上一篇
Win11剪贴板历史怎么查看管理
BenQBS5627B投影机使用指南
下一篇
BenQBS5627B投影机使用指南
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3178次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3389次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3418次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4523次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3797次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码