李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型
目前golang学习网上已经有很多关于科技周边的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型》,也希望能帮助到大家,如果阅读完后真的对你学习科技周边有帮助,欢迎动动手指,评论留言并分享~
在不久之前的 2024 TED 演讲中,李飞飞详细解读了 空间智能(Spatial Intelligence)概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱,并为此正在创建初创公司
在此演讲中,曾提到斯坦福团队的一个研究成果BEHAVIOR,这是他们“创建”的一个用来训练计算机和机器人如何在三维世界中行动的行为和动作数据集。 BEHAVIOR是一个庞大的数据集,包含了各种不同场景下的人类行为和动作。这个数据集的目的是为了让计算机和机器人更好地理解和模仿人类的行为。 通过分析BEHAVIOR中的大量数据,研究人员可以获取
如今,吴佳俊带领团队发表了后续研究——「BEHAVIOR Vision Suite(BVS)」。论文也获得 CVPR 2024 Highlight。
在计算机视觉领域,系统评估和理解模型在不同条件下的表现需要量化数据和全面、定制的标签。然而,现实世界中的视觉数据集往往难以满足这些需求。尽管前景的替代方案,如AI任务提供了有前景的替代案,但在资源和渲染质量、数据多样性及物理属性性的真实性方面,仍存在诸多不足。
为了解决这些问题,研究团队推出了 「BEHAVIOR Vision Suite(BVS)」。
BVS是一套专为系统评估计算机视觉模型设计的工具和资源集。基于新开发的具有AI基准BEHAVIOR-1K,BVS能够调参量可调参数,涵盖场景级别别(如光照、物体摆放)和物体级别别(如关节配置、属性)和相机级别别(如视野、焦距)。 研究(员可以在数据搜集过程中调整这些参数,以进一步精确的控制实验。
此模型还展现了 BVS 在不同模型评估和训练应用中的优势。包括参数可控地评估视觉模型在环境参数连续变化时的鲁棒性,系统评估场景理解模型(丰富的视觉标注)以及对新视觉任务的模型训练。
- 项目链接:https://behavior-vision-suite.github.io/
- 论文链接:https://arxiv.org/pdf/2405.09546
- 代码链接:https://github.com/behavior-vision-suite/behavior-vision-suite.github.io
BEHAVIOR Vision Suite
BVS 包括两⼤部分:数据部分和基于此的可定制数据⽣成器。
数据部分
BVS 的数据部分基于 BEHAVIOR-1K 的资产拓展⽽成,共包括 8841个 3D 物体模型和由 51 位艺术家设计的室内场景,扩充为 1000 个场景实例。这些模型和场景均具备逼真的外观,并涵盖了丰富的语义类别。研究团队同时提供了一个脚本,让用户可以自动生成更多的增强场景实例。
BEHAVIOR-1K的资产拓展
可定制数据⽣成器
可定制数据⽣成器可以让⽤户⽅便地利⽤ BVS 的数据部分来⽣成满⾜他们需求的图⽚数据集,例如暗光下的室内场景。
BVS 可以让⽣成的数据集在满⾜需求的同时,具备较⾼的语义多样性,同时确保其逼真性和物理合理性。具体来说,⽤户可以控制以下五个⽅⾯:相机位置、光照、物体属性(如⼤⼩)、物体状态(如开、关)和物体之间的空间关系。
应⽤场景
研究者展⽰了在三个应⽤场景下 BVS 所⽣成数据的作⽤,包括:
- 参数可控地评估视觉模型在环境参数连续变化时的鲁棒性:探究模型在不同环境参数(遮挡程度,环境亮度,拍摄角度,物体关节移动,视野)连续变化情况下的表现,例如评估物体检测模型在冰箱门从完全关闭到完全打开过程中,模型能正确检测出存在冰箱的准确率,确保模型在实际应⽤中能够应对各种环境变化。还可以探究模型在不同极限参数条件的能力边界。
- 评估场景理解模型:使⽤拥有全⾯标注的图像,系统评估各种场景理解模型的性能。
- 训练新视觉任务模型:在合成数据上训练对象状态和关系预测的新视觉任务模型,并评估其从模拟到真实应⽤的转移能⼒,确保模型在真实环境中的有效性。
参数可控地评估视觉模型在环境参数连续变化时的鲁棒性
通过⽣成在某⼀维度上连续变化的数据,研究⼈员系统评估视觉模型在此变化下的鲁棒性。例如,⽣成同⼀场景中物体遮挡程度逐渐增加的数据,以评估视觉模型在部分遮挡物件下的表现。
通过评估不同 SOTA 模型,研究者发现,现有模型在常见分布之外的数据上的表现仍有不⾜。由于这些数据在现实世界中难以获得或标注,这些结论很难直接从真实图⽚数据集中得出。因此,BVS 可以帮助研究者评估模型在他们感兴趣的条件下的鲁棒性,从⽽更好地开发和提升模型。
现有SOTA模型在条件变化下(例如相机仰⾓)仍有鲁棒性上的提升空间
不同检测模型在五种环境参数连续变化时的表现
评估场景理解模型
BVS 所⽣成的数据集的另⼀⼤特征是其包含多模态的真实标签,如深度、语义分割、⽬标边界框等。这使得研究者可以利⽤ BVS ⽣成的数据在同⼀图像上评估不同任务的预测模型。
研究团队评估了开放词汇检测和分割、深度估计和点云重建四个任务的 SOTA 模型,并发现模型在 BVS 数据集上的表现顺序与在对应任务真实数据基准上的表现⼀致。这表明 BVS 生成的高质量数据真实地反映和代表了现实数据,研究者希望这样的数据集可以促进多任务预测模型的发展。
在开源的代码中,研究团队也提供了一个脚本,方便用户在场景中采样轨迹。
研究者收集了许多场景浏览视频⽤于评估场景理解模型
整体场景理解数据集。研究者在具有代表性的场景中生成了大量遍历视频,每个场景包含10多个摄像机轨迹。对于每个图像,BVS生成了各种标签(例如,场景图、分割掩码、深度图)
SOTA模型在BVS数据上的相对表现顺序与真实任务基准相符
训练新视觉任务模型
BVS 的数据⽣成不仅限于模型评估,对于难以在现实场景中收集或标注数据的任务, BVS 数据也可⽤于模型训练。
作者利⽤ BVS ⽣成了 12.5k 张图⽚,仅⽤其训练了⼀个物体空间关系和状态预测模型。该模型在未使⽤真实数据训练的情况下,仍在真实场景下达到了 0.839 的 F1 得分,体现了优秀的仿真到现实的转移能⼒(sim-to-real transfer)。
仿真⽣成训练数据集与真实测试数据集例图
使用BVS生成的数据训练的物体空间关系和状态预测模型
总结
BVS 提供了⼀套强⼤的⼯具和资源集,为计算机视觉研究者⽣成定制的合成数据集提供了新的⽅法。
通过系统地控制和调整数据⽣成过程中的各项参数,研究⼈员可以更全⾯地评估和改进计算机视觉模型的性能,为未来的研究和应⽤奠定坚实基础。
今天关于《李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于模型,训练的内容请关注golang学习网公众号!

- 上一篇
- 豆包大模型公布价格清单,支持国内最高并发标准

- 下一篇
- Win11没有远程桌面功能怎么办?最详细的解决方法介绍
-
- 科技周边 · 人工智能 | 2天前 |
- 豆包AI优化NumPy的3个实用技巧
- 253浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 小鹏海外销量18701辆领跑全球
- 147浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- AI剪辑入门指南:零基础也能轻松做视频
- 160浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- ChatGPTAPI接入与调试全攻略
- 273浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- ChatGPT短视频开头吸引技巧分享
- 479浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- DeepSeek教你3步制作黛玉梗图!
- 426浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- DeepSeek如何调用外部数据提升内容可信度
- 309浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- AI证件照怎么拍更自然?
- 154浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- Moonshot剧本实测:分镜对白表现如何?
- 153浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 145次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 139次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 154次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 147次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 155次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览