1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。
官方公布的数据显示,本届 ACL 共收到近 5000 篇论文投稿,其中 940 篇被主会录用,168 篇工作入选大会口头报告(Oral),录取率低于 3.4%,这当中,字节跳动共有 5 篇成果中选 Oral。
在 8 月 14 日下午的 Paper Awards 环节,字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and high-quality Instruction Data Selection for Machine Translation》被主办方官宣入选 Outstanding Paper(1/35)。
ACL 2024 现场照片
回溯 ACL 2021,字节跳动曾摘下唯一一篇最佳论文桂冠,是 ACL 成立 59 年以来,中国科学家团队第 2 次摘得最高奖项!
为深入探讨今年的前沿研究成果,我们特意邀请字节跳动论文的核心工作者解读分享。8 月 20 日下周二 19:00-21:00,「字节跳动 ACL 2024 前沿论文分享会」线上开播!
豆包大语言模型研究团队负责人王明轩,将携手字节跳动多位研究员黄志超、郑在翔、李朝伟、张欣勃、及 Outstanding Paper 神秘嘉宾,分享 ACL 部分精彩中选成果,研究方向涉及自然语言处理、语音处理、多模态学习、大模型推理等领域,欢迎预约!
活动议程
精选论文解读

RepCodec:一种用于语音离散化的语音表示编解码器 论文地址:https://arxiv.org/pdf/2309.00169
随着大型语言模型(LLMs)近期的快速发展,离散语音标记化在将语音注入 LLMs 中发挥重要作用。然而,这种离散化导致信息的丢失,从而损害整体性能。为提高这些离散语音标记的性能,我们提出了 RepCodec,这是一种用于语义语音离散化的新型语音表示编解码器。


DINOISER:通过噪声操纵增强的扩散条件序列生成模型 论文地址:https://arxiv.org/pdf/2302.10025
虽然扩散模型在生成诸如图像和音频等连续信号方面取得了巨大成功,但在学习像自然语言这样的离散序列数据仍然存在困难。尽管最近一系列文本扩散模型通过将离散状态嵌入为连续状态隐空间来规避离散性这一挑战,但它们的生成质量仍然不尽人意。
为了理解这一点,我们首先深入分析基于扩散模型的序列生成模型的训练过程,并确定了它们的三个严重问题:(1)学习失败;(2)缺乏可扩展性;(3)忽略条件信号。我们认为这些问题可以归结为嵌入空间中离散性未完全消除的缺陷,其中噪声的规模起决定性作用。
在该工作中,我们提出了 DINOISER,通过操纵噪声来增强用以序列生成的扩散模型。我们在训练阶段以一种受最优传输启发的方式,自适应地确定采样噪声规模的范围,并在推理阶段鼓励该模型通过放大噪声规模来更好地利用条件信号。实验表明,基于所提出的有效的训练和推理策略,DINOISER 在多个条件序列建模基准上优于先前扩散序列生成模型的基线,进一步的分析也验证了 DINOISER 可以更好地利用条件信号来控制其生成过程。

通过减少冗余加快视觉条件语言生成的训练 论文地址:https://arxiv.org/pdf/2310.03291

StreamVoice:用于实时零样本语音转换的可流式上下文感知语言建模
论文地址:https://arxiv.org/pdf/2401.11053

在该工作中,我们提出 StreamVoice,一个新的基于流式 LM 的零样本语音转换模型,实现针对任意说话人和输入语音的实时转换。具体来说,为了实现流式能力,StreamVoice 使用上下文感知的完全因果 LM 以及时序无关的声学预测器,同时自回归过程中交替处理语义和声学特征消除了对完整源语音的依赖。
为了解决流式场景下不完整上下文所导致的性能下降,通过两种策略来增强 LM 对于未来和历史的上下文感知能力:1)教师引导的上下文预知(teacher-guided context foresight),通过教师模型来总结当下和未来准确的语义来指导模型对缺失上下文的预测;2)语义掩蔽策略,鼓励模型从先前损坏的语义输入实现声学预测,增强对于历史上下文的学习能力。实验表明,StreamVoice 具有流式转换能力,同时实现了接近非流式 VC 系统的零样本性能。

G-DIG:致力于基于梯度的机器翻译多样化和高质量指令数据选择 论文地址:https://arxiv.org/pdf/2405.12915
Overview of G-DIG
具体来说,我们借助影响函数和一个小型高质量种子数据集,选择对模型产生有益影响的训练示例作为高质量示例。此外,为了增强训练数据的多样性,我们通过对它们的梯度进行聚类和重新采样,最大程度地增加它们对模型影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性,深入的分析进一步验证了其有效性和通用性。
GroundingGPT:语言增强的多模态 Grounding 模型 论文地址:https://arxiv.org/pdf/2401.06071
多模态大语言模型在不同模态的各种任务中都展示出了出色的性能。然而此前的模型主要强调捕获多模态输入的全局信息,因此这些模型缺乏有效理解输入数据中细节的能力,在需要对输入细致理解的任务中表现不佳,同时这些模型大多存在严重的幻觉问题,限制了其广泛使用。
为了解决这一问题,增强多模态大模型在更广泛任务中的通用性,我们提出了 GroundingGPT,一种能够实现对图片、视频、音频不同粒度理解的多模态模型。我们提出的模型除了捕获全局信息外,还擅长处理需要更精细理解的任务,例如模型能够精确定位图像中的特定区域或视频中的特定时刻。为了实现这一目标,我们设计了多样化的数据集构建流程,从而构造了一个多模态、多粒度的训练数据集。在多个公开 benchmark 上的实验证明了我们模型的通用性和有效性。
ReFT:基于强化微调的推理 论文地址:https://arxiv.org/pdf/2401.08967
一种常见的增强大型语言模型(LLMs)推理能力的方法是使用思维链(CoT)标注数据进行有监督微调(SFT)。然而,这种方法并没有表现出足够强的泛化能力,因为训练仅依赖于给定的 CoT 数据。具体地,在数学问题的相关数据集中,训练数据中每个问题通常只有一条标注的推理路径。对于算法来说,如果能针对一个问题学习到多种标注的推理路径,会有更强的泛化能力。
Comparison between SFT and ReFT on the presence of CoT alternatives
期待你的互动提问

以上就是《1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!》的详细内容,更多关于字节跳动,产业,豆包大模型,ACL 2024的资料请关注golang学习网公众号!

- 上一篇
- PHP 函数扩展对性能有何影响?

- 下一篇
- golang框架在高并发场景中的容错机制
-
- 科技周边 · 人工智能 | 1小时前 | 摩尔线程 招聘诈骗 @mthreads.com 官方客服 法律责任
- 摩尔线程重磅声明发布
- 406浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 玛莎拉蒂GT2Stradale国内首秀售414.5万
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 美股反弹艰难,三大指数涨跌不一,英伟达跌3%
- 301浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 本田烨品牌GT车型上海车展首发亮相
- 358浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 28次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 42次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 39次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 51次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 42次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览