AI合成数据是趋势,我们正在打造标注大模型|专访龙猫
今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《AI合成数据是趋势,我们正在打造标注大模型|专访龙猫》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!
通过收集现实世界的图像、视频、文字等信息,人工清洗和标注后,将数据转化为代码并输入给机器,最终使机器人能够具备智能意识,像人一样理解语言背后的深层含义
这项工作的从业者被称为数据标注员,他们的任务是为人工智能算法提供“燃料”
随着AIGC时代的到来,很多人对数据标注员的工作产生了好奇,他们在做什么工作?现状如何?行业存在哪些问题?未来有何发展前景?带着这些问题,娱乐资本论·视智未来专访了龙猫副总裁胡邱飞。
龙猫成立于2014年,是一家提供AI数据及平台服务的公司。我们已经为60多家主机厂和自动驾驶公司提供了服务,并为客户提供了全面的数据解决方案
以下是采访的实录:
关于公司业务
视智未来:你们何时开始转型为AI数据服务?
龙猫副总裁胡邱飞(下同):
2016年,我们见证了国内AI从计算机视觉、人脸识别检测、手势检测到应用场景的自动驾驶、NLP相关的发展历程。
公司的主要业务包括自动驾驶和AIGC两个领域。选择从事AIGC是因为未来它有更大的发展潜力,市场预计将达到万亿级别,而且模型和产品都需要大量的单模态和多模态数据
比如类3D的物体标注,以前是拿全景摄像机还原室内场景,现在是第一个人写指令,AI能看着场景找东西。
视智未来:以后是不是可以不用实拍了,直接AI标注AIGC内容了?
有可能。但与三维世界相比,Prompt生成的内容缺乏位置信息,摄像头无法测距。也有人在进行类似的工作,比如谷歌的李飞飞正在开发具身智能模拟器。这个技术适用于机器人领域,对于创业公司来说,这是一个很好的融资机会
视智未来:AIGC对你们的业务产生了什么影响?
今年AIGC爆火后,龙猫接到了很多图文标注、及图视频标注需求的订单,会有很多多模态应用场景,比如车内座舱的文娱软件等。
视智未来:在多模态手势和车机识别方面,交互方式是如何实现的?您在其中扮演了什么角色?
我们给他整体提供一套数据解决方案,了解他的应用场景,需要什么数据。有没有基础大模型,还是需要从零开始搭?多数应用层客户会先选一些基础大模型评测。
视智未来:他们评测还是委托你们?
有的会委托我们,比如他列一些API,我们给他研究竞品。
关于标注员
未来的数据行业会发展成为类似美团的三到四个不同阶梯,其中一些是交社保的,一些是交给服务站的,还有一些是采用众包的人力模式。你认为呢?
现在已经是这个模式了。我们线上众包是强管控,但最终交付结果是计件的。
视智未来:你们线上选人有什么标准呢?
员工加入工会后,有做用户运营的同学管理。我们更喜欢用没有全职工作的群体,他们有生活压力,更稳定。
视智未来:你们自己研发了数据标注平台吗?
是的,我们拥有我们自己完整的数据管理标注系统
未来的视智:加入人工智能技术后,与之前相比,你们能节省多少人力?
自动驾驶技术成功地实现了40%的节省。AIGC正在考虑引入GPT等大型语言模型来校准标注结果,以确保输出的质量。通过机器和人的交叉验证,可以减少人为因素的波动,使输出更加稳定且偏差较小
视智未来:你们现在众包官方采集公会有多少人?
我们有超过400万的线上注册用户,大约有1万名活跃用户。除了线上用户,我们还在西南地区设立了线下标注基地,该地区有很多高校,学生素质更高,我们有大约500名员工
视智未来:现在有AIGC后,对标注员的素质要求更高了吗?
会。大模型会考察几乎所有领域的通识类知识,AIGC要求标注人员有对大模型的应用和理解,标注内容要和客户的模型价值尽量贴近,我们找的标注人员学历多数本科以上。
对于特定领域,龙猫会配备专业人员,例如在数学相关的大型模型展会上,会招聘高等数学专业的人员。如果不是这个领域的人,你根本无法看出细节上的区别
我之前还接了一个互联网问诊的平台,要求三甲医生提供数据,但是这些数据的价格标注得很高
视智未来:你们是否正在探索如何利用人工智能生成训练素材?
对,有很多公司会用大模型生成的内容直接标注,但是中文语料库的理解方面一定是需要人工的。我们用GPT和人生生成的内容进行对比,发现答案的重合度只有60%左右。
视智未来:如果这个40%越大,是否意味着你们的工作做得越好呢?
可以,人工在标注这件事情上价值会更明显一些。
我们在尝试通过AI技术省去标注环节,直接进入到审核和质检环节。
智能技术的未来展望:我能够逆向思考,如果客户对你们的要求越高,就意味着这家公司的人工智能技术越先进
如果某家客户和其他人的需求差异很大,那么算法可能会变得不够强大
关于业务发展
未来展望:你们面临的技术障碍是什么?
需要被改写的内容是:首先,我们一直在积极积累经验,这可能导致所谓的垄断。公司的策略是进行系统集成,然后再由客户进行替换,这会带来很高的潜在成本。其次,公司的工作氛围非常好,以产品为驱动,不像其他公司依赖于管理和大量人力资源。我们在项目中要么盈利,要么积累知识。我们正在努力实现自动标注,而不是通过过度依赖人力来提升竞争力
未来的视智:你认为数据公司未来的竞争重点是什么?
数据公司要比客户更理解他们的算法要什么数据,会有不同垂类的巨头公司出现。
我们在做产品的数据集复售。数据集分公域和私域的数据集。公域数据集数量多,但私域更重要。
视智未来:不少人觉得数据标注门槛低,是乡村扶贫工作。
这是特例,不是行业现象。
视智未来:你们以后会做自己的大模型吗?
重写后的内容是:我们正在进行的工作主要有两个方面。第一是辅助标注大型模型,即在理解问题后提供答案供人选择。第二是进行全自动标注,由人工智能直接生成结果。为了保证实验的严谨性,我们会进行双盲实验,例如将一个答案使用三个标准进行重复标注,其中我们会将一个或两个人以这种方式进行拆分。这样就不需要再进行抽检和质检。在某些项目中,我们已经使用GPT进行交付,准确率已经达到了80%以上,接近于人工标注的水平
关于数据采集的内容需要进行改写
智能未来:你们在数据采集方面有新的举措吗?
一种在国外出现的趋势是用户主动售卖自己的数据,以便绕过数据公司对原始数据的垄断。我们也在思考,如何让那些有时间、素质又高的人参与数据输出和标注工作,例如通过做题的方式,在小程序上让他们通过答题来赚钱
产品设计上需要想想人性的问题,有人又想挣钱又想舒服,这样的人员画像和我们现在人员画像有一个冲突。我们现在的画像是宁可下沉,有全职时间,产品设计上需要想想人性的问题,有人又想挣钱又想舒服,这样的人员画像和我们现在人员画像有一个冲突。我们现在的画像是宁可下沉,有全职时间,要不然就是大学生,他们时间充沛,更好管理,也更稳定。宣传渠道上,龙猫基本靠口口相传,吸引的人群类似,很少做公域推广,否则群体不搭。产品要考虑怎么既保证质量,又有爽感。到宣传渠道,龙猫基本靠口口相传,吸引的人群类似,很少做公域推广,否则群体不搭。产品要考虑怎么既保证质量,又有爽感。
视智未来:于数据公司而言,以后用AI做数据合成是不是很重要?
对,这种高质量的数据集已经不太够了,怎么获取?一是直接找用户信息,但很少有用户愿意共享数据。但现在可以做数据的拟合,类似抄写数据,一样能达到可用的标准。AI 合成、改写部分可以洗掉它类似的标和专有信息,生成通用内容。
成本方面,最好是现有甲方需求给到我们,再去做原始数据的融合,第一次卖出就可以赚回成本钱。也有很多有数据的甲方在自己做数据集,比如百度、京东。
智能未来展望:对于自动化标注和数据集的使用,你们是否担心混合拟合问题以及质检的困难
在强化学习方面,你需要重新设计奖励模型来纠正错误。此外,还需要考虑整体比例的问题。GPT的整体数据集有几十个TB,而合成数据只占不到10%
做数据公司持续的壁垒,一个是的数据集合成能力,第二是给大模型做人的强化学习。我们也在想怎么通过小程序沉淀用户数据。
视智未来:版权能确定吗?
生成式AI上最新的管理意思是,你的5张照片是你的,但我拿来合成照片之后版权就是我的了。
文中关于AI合成数据,标注大模型,龙猫的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《AI合成数据是趋势,我们正在打造标注大模型|专访龙猫》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 大众ID.3 GTX:四驱电动车型的革命

- 下一篇
- 领导团队郎咸朋将进军自动驾驶卡车行业
-
- 科技周边 · 人工智能 | 10小时前 |
- LangGraph打造WhatsAppAI助手教程
- 174浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 | 辅助驾驶 理想L系列 征程6M ADPro ATL全天候激光雷达
- 理想L系列智能焕新版发布,地平线6M赋能!
- 295浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 蔚来ES6新车5月10日预订开启各地展车已到
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 小米SU7第24万台下线仅13个月,惊人速度!
- 463浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 32次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 30次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 28次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 31次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 46次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览