当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?

从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?

来源:机器之心 2023-10-10 13:09:00 0浏览 收藏

目前golang学习网上已经有很多关于科技周边的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?》,也希望能帮助到大家,如果阅读完后真的对你学习科技周边有帮助,欢迎动动手指,评论留言并分享~

如何在AI工具中权衡图像的美观和真实性是一个重要问题。许多AI工具在提升图像美观度时会导致图像失真,而在追求图像真实性时则可能缺乏美感。我们需要寻找一种平衡,使得图像既能看起来更好,又能保持一定的真实性。这需要深入研究和不断优化AI算法,以找到最佳的解决方案

从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?

在悬疑和科幻作品中,我们经常能看到这样的情节:计算机屏幕上显示着一张模糊的照片,然后调查人员要求增强图像,随后图像神奇地变得清晰,揭示出重要的线索

重写后的内容:这看起来很不错,但实际上几十年来这一直是完全虚构的情节。即使在AI生成能力开始增长的一段时间内也很难做到:“如果你只是简单地将图像放大,它会变得模糊。确实会有很多细节,但都是错误的。”英伟达应用深度学习研究副总裁Bryan Catanzaro说道

然而,近期研究人员开始将人工智能算法应用于图像增强工具,以使该过程更加简单和强大。尽管如此,从图像中检索的数据仍然存在一些限制。然而,随着研究人员不断推动增强算法的发展,他们正在寻找新的方法来应对这些限制,并且甚至已经找到了克服这些限制的方法

在过去的十年里,研究人员开始采用生成对抗网络(GAN)模型来提升图像质量。这种模型能够生成细致而令人印象深刻的图片

以色列特奥尼恩理工学院的电气工程师Tomer Michaeli表示:“图像突然变得好看多了。”然而,他同时惊讶地发现,由GAN生成的图像显示出很高的失真水平。失真水平衡量了增强图像与所显示的底层现实之间的接近程度。GAN生成的图像看起来漂亮自然,但实际上它们在“虚构”或“幻想”那些不准确的细节,这导致了高度的失真

Michaeli 观察到照片修复领域分为两大类:一种展示了漂亮的图片,其中许多是由 GAN 生成的。另一种展示了数据,但没有展示很多图片,因为看起来不好看。

2017 年,Michaeli 和他的研究生 Yochai Blau 更正式地探究了各种图像增强算法在失真与感知质量上的表现,使用了与人类主观判断相关的感知质量已知度量。正如 Michaeli 所预期的,一些算法的视觉质量非常高,而其他一些算法非常准确,失真很低。但是没有一个同时具备这两种优势,你必须选择其中之一。这被称为感知失真权衡。

Michaeli 还向其他研究人员发起挑战,要求他们提出能够在给定失真水平下产生最佳图像质量的算法,以便在漂亮图片算法和良好统计数据算法之间进行公平比较。从那时起,数百名 AI 研究人员提出了他们的算法的失真和感知质量,并引用了描述这种权衡的 Michaeli 和 Blau 的论文。

有时感知失真权衡的影响并不可怕。例如,英伟达发现高清屏幕不能很好地渲染一些低清视觉内容,因此在 2023 年 2 月份推出了一款使用深度学习来提升流媒体视频画质的工具。在这种情况下,英伟达的工程师选择了感知质量而不是准确性,他们接受了这样一个事实,即当算法提升视频分辨率时,它会生成一些原始视频中没有的视觉细节。

「模型是在进行幻想。这完全是猜测,」Catanzaro 说道。「超分辨率模型大部分时间猜错都没关系,只要是一致的就行。」

从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?                      小鼠大脑血流的视图(左)以及使用 AI 工具提高图像质量和准确性后得到的相同视图。图源:杜克大学 Junjie Yao、Xiaoyi Zhu 。

特别是,研究和医学领域的应用会要求更高的准确性。AI 技术在成像方面取得了重大进展,但杜克大学的生物医学工程师 Junjie Yao 表示:「它有时会带来不希望的副作用,比如过度拟合或添加虚假特征,因此需要极其谨慎地对待。」

他在去年的论文中详细描述了如何利用人工智能工具来改进现有的大脑血流和新陈代谢测量方法,并确保在权衡感知失真的准确性方面能够安全运行

绕过从图像中提取多少数据的限制的一种方法是简单地合并来自更多图像的数据。此前,通过卫星图像研究环境的研究人员已经在整合不同来源的视觉数据方面取得了一些进展:在 2021 年,中国和英国的研究人员将来自两种不同类型卫星的数据融合在一起,以更好地观察刚果盆地的森林砍伐情况。刚果盆地是世界上第二大热带雨林,也是生物多样性最丰富的地区之一。研究人员获取了两颗 Landsat 卫星的数据,这些卫星数十年来一直在测量森林砍伐情况,并使用深度学习技术将图像的分辨率从 30 米提高到 10 米。然后,他们将这组图像与两颗 Sentinel-2 卫星的数据融合在一起,这些卫星具有稍有不同的探测器阵列。他们的实验表明这种综合图像「使得比单独使用 Sentinel-2 或 Landsat-7/8 图像时能够检测到 11% 至 21% 更多的受干扰区域」。

如果无法直接突破,Michaeli提出了另一种硬性限制信息可获取性的方法。与其寻求确定的答案来增强低质量图像,不如让模型展示对原始图像的多种不同解释。在《可探索的超分辨率》论文中,他展示了图像增强工具如何向用户提供多个建议。一个模糊、低分辨率的穿着似乎是灰色衬衫的人的图像可以被重建成更高分辨率的图像,而在这个图像中,衬衫可以是黑白垂直条纹、水平条纹或格子,所有这些都同样合理

从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?

在另一个例子中,Michaeli 拍摄了一张低质量的车牌照片,并使用 AI 图像增强处理,结果显示车牌上的数字 1 最像是 0。但当图像经过 Michaeli 设计的不同的、更加开放式的算法处理时,这个数字看起来同样有可能是 0、1 或 8。这种方法可以帮助排除其他数字,而不会错误地得出这个数字是 0 的结论。

我们可以减轻这些幻觉,但是那个强大的、解决犯罪的「增强」按钮仍是一个梦想。

在各个领域中,不同学科以各自的方式探讨感知失真的权衡。核心问题是在人工智能图像中能够提取多少信息,以及对这些图像的可信度有多高

「我们应该牢记,为了输出这些漂亮的图像,算法只是编造了细节,」Michaeli 说道。

原文链接:https://www.quantamagazine.org/the-ai-tools-making-images-look-better-20230823/

以上就是《从马赛克到高清图,AI生图能力变强了,但如何取得美感与失真的平衡?》的详细内容,更多关于工程的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
iPhone 15 系列发货时间持续缩短,引发新机需求疲软的疑虑iPhone 15 系列发货时间持续缩短,引发新机需求疲软的疑虑
上一篇
iPhone 15 系列发货时间持续缩短,引发新机需求疲软的疑虑
华为运动健康 Beta 版更新,新增手机睡眠鼾声、梦话记录与分享功能
下一篇
华为运动健康 Beta 版更新,新增手机睡眠鼾声、梦话记录与分享功能
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    10次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    9次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    26次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    25次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    52次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码