当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > SmolVLA开源，轻量机器人模型发布

SmolVLA开源，轻量机器人模型发布

2025-06-29 15:12:11 0浏览收藏

Hugging Face开源了轻量级视觉-语言-行动模型SmolVLA，为资源受限的机器人平台带来福音。这款仅4.5亿参数的模型，可在CPU上运行，单GPU即可训练，甚至能部署在MacBook上。SmolVLA完全基于开源数据集训练，核心在于其多模态输入处理能力，支持图像、语言指令和机器人本体状态信息。通过视觉编码器、语言解码器和线性层，将不同信息整合，再由动作专家模块生成精准的动作序列。SmolVLA采用异步推理机制，提升响应速度，适用于物体抓取、家庭服务、仓储物流等多种场景，也为机器人教育科研提供了新选择。想要了解更多？访问HuggingFace模型页面或查阅arXiv技术文档。

SmolVLA 是 Hugging Face 推出的一款轻量级视觉-语言-行动（VLA）模型，专为资源受限的机器人平台设计。该模型参数规模约为4.5亿，具备较高的计算效率，可在CPU上运行，使用单个消费级GPU即可完成训练，并且能够部署在MacBook等设备上。SmolVLA 完全依赖于开源数据集进行训练，其训练数据集标签为“lerobot”。

SmolVLA的核心功能

多模态输入处理能力：SmolVLA 支持多种输入方式，包括图像、语言指令和机器人本体状态信息。图像通过视觉编码器提取特征，语言指令则被转换为标记输入解码器，机器人的传感运动状态通过线性层映射为与语言标记维度一致的表示。
动作序列生成机制：该模型内置一个动作专家模块，是一个轻量级 Transformer 结构，基于视觉-语言模型（VLM）输出的信息生成机器人未来的动作序列块。采用流匹配方法进行训练，通过引导噪声样本回归真实数据分布来实现高精度动作预测。
高效推理与异步执行架构：SmolVLA 引入了异步推理机制，将动作执行与感知和预测过程分离，从而提升响应速度和任务处理效率，使机器人在动态环境中具备更强的适应能力。

SmolVLA的技术细节

视觉-语言模型（VLM）结构：SmolVLA 基于 SmolVLM2 构建核心视觉-语言处理模块，经过优化后可支持多图输入。其结构包含 SigLIP 视觉编码器和 SmolLM2 语言解码器。图像特征由视觉编码器提取，语言指令经分词处理后送入解码器，而机器人状态信息则通过线性层转化为统一维度标记。解码器整合这些信息后，将结果传递给动作专家模块。
动作专家模块：该模块是一个小型 Transformer 网络（约1亿参数），负责根据 VLM 的输出生成机器人动作序列。同样采用流匹配方式进行训练，以实现精准的动作控制。
视觉 Token 数量优化：为了提升计算效率，SmolVLA 将每帧图像的视觉 Token 数量限制为64，显著降低了计算开销。
层跳跃策略：SmolVLA 在推理过程中跳过了 VLM 中的一半网络层，使得计算成本降低一半，同时保持了良好的性能表现。
交错注意力机制：不同于传统 VLA 架构，SmolVLA 在注意力机制中交替使用交叉注意力（CA）和自注意力（SA）层，提升了多模态信息融合效率并加快推理速度。
异步推理机制：SmolVLA 实现了异步推理流程，使得机器人可以一边执行当前动作，一边开始处理新的观察信息并预测下一步动作，从而消除延迟，提高控制频率。

SmolVLA的项目资源

HuggingFace模型页面：http://huggingface.co/lerobot/smolvla\_base
arXiv技术文档：http://arxiv.org/pdf/2506.01844

SmolVLA的实际应用

物体抓取与定位操作：SmolVLA 能够驱动机械臂完成复杂的抓取和放置任务。例如，在制造业场景中，机器人可根据图像和语言指令准确识别零件并完成定位操作。
家庭服务任务：SmolVLA 可用于开发家用服务机器人，协助完成日常家务。例如，根据语音指令识别房间内的物品并进行整理或清洁。
仓储物流搬运：在仓库环境中，SmolVLA 可指导机器人完成货物搬运任务。机器人可通过视觉识别货物位置和形态，结合语言指令生成最优搬运路径和动作序列，提升作业效率。
教育科研用途：SmolVLA 还可用于机器人教学与研究，帮助学生和研究人员深入理解智能机器人系统的工作原理与开发流程。

今天关于《SmolVLA开源，轻量机器人模型发布》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！