当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > UniPixel：腾讯联研像素级多模态模型

UniPixel：腾讯联研像素级多模态模型

2025-10-22 17:09:39 0浏览收藏

**UniPixel：腾讯联研像素级多模态大模型，引领视觉理解新突破** 香港理工大学和腾讯ARC Lab联合推出UniPixel，首个统一像素级多模态大模型，专注于图像/视频的精细理解与交互。UniPixel基于Qwen2.5-VL框架，创新性地融合了对象指代、像素级分割和区域推理三大任务，通过独特设计的“对象记忆机制”和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。该模型支持点、框、掩码等多种交互方式，并在多项视觉任务基准测试中超越了72B参数的传统模型。UniPixel的核心优势在于将视觉分割与语言推理深度融合，有效解决了传统模型在处理复杂指代和动态区域理解方面的局限性。目前，UniPixel已开源代码和在线Demo，为相关研究和应用提供了强大的技术支持。

UniPixel是什么

UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型，专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务，通过创新设计的”对象记忆机制”和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。模型基于Qwen2.5-VL框架，支持点、框、掩码三种交互方式，在9项视觉任务基准测试中超越72B参数的传统模型，开源了代码和在线Demo。核心突破在于将视觉分割与语言推理深度融合，解决了传统模型无法处理复杂指代和动态区域理解的问题。

UniPixel的主要功能

像素级视觉语言理解：专注于像素级视觉语言理解，能实现视觉信号与语言语义之间的像素级对齐，支持多种细粒度任务，包括图像/视频分割、区域理解以及PixelQA任务。
统一对象指代与分割：模型将对象指代和分割能力无缝集成，能根据视觉提示输入生成相关的掩码，并在推理过程中基于这些中间指针进行后续推理，实现细粒度的像素级推理。
多任务支持：在多个基准测试中表现出色，包括ReVOS推理分割基准、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等数据集，设计了新的PixelQA任务，要求模型联合进行对象指代、分割和问答。
灵活的视觉提示处理：能灵活处理视觉提示输入，生成掩码并进行推理，支持单帧和多帧的视频区域理解，以及基于掩码的问答任务。

UniPixel的技术原理

统一框架设计：UniPixel采用统一框架，将对象指代和分割能力整合到一个模型中，实现从粗粒度场景理解到细粒度像素推理的跨越，为复杂视觉推理提供基础。
对象记忆库：模型包含对象记忆库，存储从指代任务中提取的对象特征，为后续的分割和推理任务提供上下文信息，增强模型在像素级任务上的性能。
多阶段训练策略：采用预训练、指代任务微调和分割任务微调的多阶段训练策略，逐步提升模型在像素级任务上的性能，适应不同任务需求。
端到端掩码生成：模型能根据语言描述直接生成像素级掩码，实现语言与视觉的深度融合，支持多种细粒度任务，如图像/视频分割和区域理解。
灵活的视觉提示处理：能灵活处理视觉提示输入，生成掩码并进行推理，支持单帧和多帧的视频区域理解，以及基于掩码的问答任务，适应不同场景需求。
强大的推理能力：在VideoRefer-Bench-Q问答任务中，UniPixel-7B模型取得了74.1%的准确率，超越了包括GPT-4o在内的多个强大基准模型，显示出其在复杂视觉推理任务中的强大能力。
模型权重与数据集提供：提供了UniPixel-3B和UniPixel-7B两个版本的模型权重，以及23个指代/分割/QA数据集的原始图像/视频和预处理注释，为研究和应用提供丰富资源。
训练与评估支持：代码库支持在23个数据集和基准测试上进行训练和评估，支持灵活的硬件设置、高效的训练技术、自定义基础LLM和对话模板，以及通过Tensorboard/Wandb监控训练过程，方便用户使用和优化。