微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure
积累知识,胜过积蓄金银!毕竟在##column_title##开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
2021年11月,微软发布了一个多模态视觉基础模型Florence(佛罗伦萨),横扫超过40个基准任务,轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。
时隔一年半,Florence正式开启商用阶段!
Florence能干什么?
最近,微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。
Florence模型经过数十亿文本-图像对的训练,目前已集成进Azure 认知视觉服务中,在「价格」和「性能」上都已到达「生产环境」的要求,目前处于免费试用阶段。
改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中,从图像和视频内容中获取更精确的信息,保护用户远离有害内容,增强安全性,并提升事件响应速度。
Florence的实际能力也很强大,用户可以在Vision Studio中进行「开箱即用」的体验。
体验网址:https://portal.vision.cognitive.azure.com/gallery/featured
具体包括:
Dense Captions(详细的描述):可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。
图像检索:使用自然语言查询,无缝地度量图像和文本之间的相似性,从而改进搜索推荐和广告。
背景去除:可以方便地从原始背景中分割出人物和物体,并替换为其他背景场景,从而改变图像的外观和感觉。
模型定制:降低交付定制模型的成本和时间,能够以更高精度来匹配独特的业务需求,即便只有少量的可用图像。
视频摘要:搜索和交互视频内容,与人类同样直观的方式进行思考和写作。可以帮助找到相关内容,并且不需要额外的元数据。
Reddit消费品产品经理Tiffany Ong表示,通过微软的Vision技术,可以使用户更容易发现和理解Reddit上的内容。
新创建的图片描述可以让用户更容易地访问Reddit,使用图像描述来帮助用户提高文章的搜索结果,让Reddit用户有更多机会来探索网站上的图片,参与对话,并最终建立联系和社区感知。
Florence能够为每张图片生成多达10000个标签,使得Reddit能够更好地控制图片中的物体数量,并帮助生成更好的图像描述。
Microsoft 365
除了微软数据中心之外,微软也正在提升Microsoft 365应用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中视觉服务的能力。
在图像分割能力的帮助下,Teams正在推动数字空间的创新型,把虚拟会议的体验提升到新高度。
PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。
Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。
Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。
LinkedIn的无障碍工程负责人Jennison Asuncon表示,LinkedIn上有超过40%的帖子中包含至少一张图片,对于盲人或是低视力的用户来说,视觉服务能够让所有用户都有平等的阅读机会,并使他们能够参与到在线对话中。
通过Azure视觉认知服务,LinkedIn可以提供自动图像描述来编辑和支持可选文本,这是一种全新的体验。
不仅我对此感到兴奋,我的同事刚刚分享了一个他们参加活动的照片,LinkedIn的首席执行官Ryan Roslansky也在照片里。
负责任地创新
回顾负责任的人工智能原则,可以了解到微软是如何致力于开发人工智能系统,以提升世界的可访问性。
微软致力于帮助各个组织充分利用人工智能,并正在大力投资于提供技术、资源和专业知识的项目,以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。
多模态是未来
包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致,认为「多模态模型」是提高人工智能系统能力的最佳途径,也就是单个模型可以同时理解语言、图像、视频和音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述等。
为什么不把几个「单模态」模型串在一起,以达到同样的目的,比如说用一个模型来理解图像,而另一个模型用来理解语言?
第一个原因是,由其他模态提供的背景信息,多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。
比如说,一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。
并且从计算的角度来看,多模态模型往往更有效率,可以提升数据处理的速度,降低后端的成本。
毫无疑问,所有商业公司都渴望降本增效。
Florence能够理解图像、视频和语言以及这些模态之间的关系,从而可以做到一些单模态无法完成的任务,比如测量图像和文本之间的相似度,分割照片中的对象,然后把它们粘贴到另一个背景上。
几乎所有AI模型的训练都面临数据版权问题,Azure AI的企业副总裁(CVP)John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息,只是说Florence使用的是「负责任地获取」的数据源,包括来自合作伙伴的数据;此外,Montgomery表示,训练数据中删除了可能存在问题的内容,也是公开训练数据集的常见特点。
Montgomery认为,当使用大型基础模型时,最重要的是要确保训练数据集的质量,为每个视觉任务的适应模型创建基础,微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试,并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。
在未来,消费者可以使用Florence做更多的事情,比如检测制造过程中的缺陷,以及在零售店实现自助结账。
不过Montgomery指出这些用例实际上并不需要多模态视觉模型,但他断言,多模态在这个过程中可以增加一些有价值的东西。
Florence是一个经过「完全重新思考」的视觉模型,一旦在图像和文本之间实现了简单且高质量的翻译过程,就会打开一个全新的、充满未知可能性的世界。
客户能够体验到显著改进的图像搜索,将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用,并轻松提高自定义模型的质量。
以上就是《微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure》的详细内容,更多关于微软的资料请关注golang学习网公众号!

- 上一篇
- 人工智能平台方案中的质量工程设计

- 下一篇
- 张勇:阿里将继续全力投入生成式AI大模型建设
-
- 科技周边 · 人工智能 | 24分钟前 |
- 即梦AI语音转文字教程及自动字幕生成指南
- 344浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 |
- 即梦ai多语言版导出教程字幕翻译功能详解
- 249浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 小鹏P7Ultra与G7谍照对比:风格大不同
- 114浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- AI证件照如何变得更真实?
- 392浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 | AI基础设施 a轮融资 1亿美元 TensorWave AMDGPU
- TensorWave获AMD领投1亿美元A轮融资
- 215浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 10次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 26次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 25次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 35次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 36次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览