计算机视觉技术即将迎来重大转变
本篇文章向大家介绍《计算机视觉技术即将迎来重大转变》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
计算机视觉是否会再次自我改造?
匹兹堡大学眼科教授、CMU 机器人研究所兼职教授 Ryad Benosman 认为确实如此。作为基于事件的视觉技术的创始人之一,Benosman 预计神经形态视觉——基于基于事件的相机的计算机视觉——将成为计算机视觉的下一个方向。
“计算机视觉已经被重新发明了很多很多次,” Benosman 说。“我已经看到它至少重新发明了两次。”
Benosman 提到了 1990 年代从带有一点摄影测量的图像处理到基于几何的方法的转变,然后是今天机器学习的快速发展。尽管发生了这些变化,现代计算机视觉技术仍然主要基于图像传感器——产生类似于人眼所见图像的相机。
根据 Benosman 的说法,在图像传感范式不再有用之前,它会阻碍替代技术的创新。高性能处理器(例如 GPU)的发展推迟了寻找替代解决方案的需要,因此延长了这种影响。
“我们为什么将图像用于计算机视觉?这是一个价值百万美元的问题,”他说。“我们没有理由使用图像——这只是因为历史的动力。甚至在没有相机之前,图像就有动力。”
图像相机
自从公元前五世纪针孔相机出现以来,图像相机就一直存在到 1500 年代,艺术家们使用房间大小的设备将房间外的人或风景的图像追踪到画布上。多年来,这些画被替换为胶片来记录图像。数码摄影等创新最终使图像相机很容易成为现代计算机视觉技术的基础。
然而,Benosman 认为,基于图像相机的计算机视觉技术效率极低。他的比喻是中世纪城堡的防御系统:位于城墙周围的卫兵四处寻找接近的敌人。鼓手稳定地敲打,每一个鼓点,每个守卫都会大声喊出他们所看到的。在一片喧哗中,听到一个守卫在遥远的森林边缘发现敌人是多么容易?
21 世纪的鼓点硬件等价物是电子时钟信号,而守卫是像素。大量数据被创建并且必须在每个时钟周期进行检查,这会导致大量冗余信息,从而需要大量不必要的计算。
“人们正在燃烧如此多的能量,它占用了城堡的整个计算能力来保护自己,” Benosman 说。如果发现了一个有趣的事件——在这个类比中以敌人为代表——“你必须四处走动收集无用的信息,人们到处尖叫,所以带宽很大……现在想象你有一座复杂的城堡。所有这些人都必须被听到。”
进入神经形态视觉。基本思想受到生物系统工作方式的启发,即检测场景动态的变化,而不是连续分析整个场景。在我们的城堡类比中,这意味着让守卫保持安静,直到他们看到感兴趣的东西,然后喊出他们的位置以发出警报。在电子版中,这意味着让单个像素确定他们是否看到相关的东西。
“像素可以自行决定他们应该发送什么信息,” Benosman 说。
“他们可以寻找有意义的信息——特征,而不是获取系统信息。这就是与众不同的地方。”
Prophesee 与索尼合作开发的 DVS 传感器评估套件。Benosman 是 Prophesee 的联合创始人。
与固定频率的系统采集相比,这种基于事件的方法可以节省大量功率并减少延迟。
“你想要一些更具适应性的东西,这就是[基于事件的视觉]的相对变化给你的东西——适应性采集频率,”他说。“当你观察幅度变化时,如果某些东西移动得非常快,我们就会得到很多样本。如果某些东西没有改变,你会得到几乎为零,所以你正在根据场景的动态调整你的采集频率。这就是它带来的东西。这就是为什么它是一个好的设计。”
Benosman 于 2000 年进入神经形态视觉领域,他坚信先进的计算机视觉永远无法发挥作用,因为图像不是正确的方法。
“最大的转变是说我们可以在没有灰度和没有图像的情况下进行视觉,这在 2000 年底是异端——完全是异端,”他说。
Benosman 提出的技术——今天基于事件的传感的基础——是如此不同,以至于提交给当时最重要的 IEEE 计算机视觉期刊的论文在未经审查的情况下被拒绝。事实上,直到 2008 年动态视觉传感器 (DVS) 的开发,该技术才开始获得动力。
神经科学灵感
神经形态技术是受生物系统启发的技术,包括终极计算机:大脑及其神经元,或计算元素。问题是没有人完全理解神经元是如何工作的。虽然我们知道神经元对传入的称为尖峰的电信号起作用,但直到最近,研究人员仍将神经元描述为相当草率,认为只有尖峰的数量很重要。这个假设持续了几十年,但最近的工作证明,这些尖峰的时间是绝对关键的,并且大脑的结构会在这些尖峰中产生延迟来编码信息。
今天的尖峰神经网络模拟大脑中看到的尖峰信号,是真实事物的简化版本——通常是尖峰的二进制表示。“我收到一个 1,我醒来,我计算,我睡觉,”Benosman 解释说。现实要复杂得多。当尖峰到来时,神经元开始随着时间的推移对尖峰的值进行积分;神经元也有泄漏,这意味着结果是动态的。此外,大约有 50 种不同类型的神经元具有 50 种不同的集成配置文件。
当前的电子版本缺少集成的动态路径、神经元之间的连接性以及不同的权重和延迟。“问题在于,要制造出有效的产品,你不能[模仿]所有的复杂性,因为我们不理解它,”他说。“如果我们有好的大脑理论,我们就会解决它。问题是,我们只是不知道。”
Bensoman 经营着一个独特的实验室,致力于了解皮层计算背后的数学原理,旨在创建新的数学模型并将其复制为硅设备。这包括直接监测来自真实视网膜的尖峰。
目前, Bensoman反对忠实地复制生物神经元,称这种方法是过时的。
“在硅中复制神经元的想法的产生是因为人们观察了晶体管并看到了一个看起来像真正神经元的机制,所以一开始它背后有一些想法,”他说。“我们没有细胞;我们有硅。你需要适应你的计算基板,而不是相反……如果我知道我在计算什么并且我有芯片,我可以优化这个方程式并以最低的成本、最低的功耗、最低的延迟运行它。”
处理能力
无需精确复制神经元这一认识以及 DVS 相机的发展是当今视觉系统背后的驱动力。虽然系统已经上市,但在完全类似于人类的视觉可用于商业用途之前,还需要取得进展。
Benosman 说,最初的 DVS 相机具有“大而粗的像素”,因为光电二极管本身周围的组件大大降低了填充因子。虽然对开发这些摄像机的投资加速了这项技术,但贝诺斯曼明确表示,今天的事件摄像机只是对早在 2000 年开发的原始研究设备的改进。索尼最先进的 DVS 摄像机,三星和 Omnivision 拥有微小的像素,融合了 3D 堆叠等先进技术并降低了噪点。Benosman 担心的是今天使用的传感器类型能否成功扩大规模。
“问题是,一旦你增加像素数量,你就会得到大量数据,因为你的速度仍然非常快,”他说。“你可能仍然可以实时处理它,但是你会从太多的像素中得到太多的相对变化。这现在正在杀死所有人,因为他们看到了潜力,但他们没有合适的处理器来支持它。”
这个 Prophesee 客户应用示例显示了图像摄像头(每个框的左上角)和 DVS 传感器输出之间的差异。
通用神经形态处理器落后于 DVS 相机对应物。一些业内最大的参与者(IBM Truenorth、英特尔 Loihi)的努力仍在进行中。Benosman 表示,正确的处理器和正确的传感器将是无与伦比的组合。
“[今天的 DVS] 传感器速度极快,带宽超低,动态范围大,因此您可以在室内和室外看到,”Benosman 说。“这是未来。它会起飞吗?绝对地。”
“谁能把处理器放在那里并提供完整的堆栈,谁就赢了,因为它将是无与伦比的,”他补充道。
本篇关于《计算机视觉技术即将迎来重大转变》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 微软宣布了这个期待已久的 Word 网页版功能

- 下一篇
- 如何使用 Lock Launcher 将应用程序快捷方式添加到 Dynamic Island
-
- 科技周边 · 人工智能 | 11分钟前 |
- RSAC2024速览,20款网络安全新品发布
- 158浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 |
- 理想汽车7国招聘副总裁,加速出海战略
- 224浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦AI时间戳添加教程即梦AI日期水印设置攻略
- 489浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 三星电子 OdysseyOLEDG6 500Hz 量子点OLED Pantone认证
- 三星OdysseyG6OLED显示器500Hz东南亚首发
- 174浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 操作系统升级补丁秘籍:从入门到精通
- 147浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 小米YU7试生产曝光用于展车及测试
- 438浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 路虎揽胜星脉电动版2026年亮相800V平台三排座
- 139浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 4次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 5次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 41次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 35次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 35次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览