重新表达的标题为:字节跳动与华东师大的合作:探索小模型的上下文学习能力
积累知识,胜过积蓄金银!毕竟在科技周边开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《重新表达的标题为:字节跳动与华东师大的合作:探索小模型的上下文学习能力》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
众所周知,大型语言模型(LLM)可以通过上下文学习的方式从少量示例中学习,无需进行模型微调。目前,这种上下文学习现象只能在大型模型中观察到。例如,像GPT-4、Llama等大型模型在许多领域中都表现出了卓越的性能,但由于资源限制或实时性要求较高,许多场景无法使用大型模型
那么,常规大小的模型是否具备这种能力呢?为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。
目前,在实际应用场景中,场景文本识别面临着多种挑战:不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等,因此很难训练一个能应对所有场景的统一的文本识别模型。
解决该问题的一个直接方法是收集相应的数据,并在具体场景中微调模型。然而,这个过程需要重新训练模型,计算量很大,并且需要保存多个模型权重以适应不同的场景。如果文本识别模型能够具备上下文学习能力,在面对新场景时,只需要少量标注数据作为提示,就能提升在新场景上的性能,从而解决上述问题。然而,场景文本识别是一个资源敏感型任务,将大模型作为文本识别器会消耗大量资源。通过初步的实验观察,研究人员发现传统的大模型训练方法并不适用于场景文本识别任务
为了解决这个问题,来自字节跳动和华东师大的研究团队提出了自进化文本识别器,E2STR(Ego-Evolving Scene Text Recognizer)。这是一个融合了上下文学习能力的常规大小的文本识别器,能够快速适应不同的文本识别场景,而无需微调
论文链接:https://arxiv.org/pdf/2311.13120.pdf
E2STR 配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了 SOTA 的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。E2STR 证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。
方法
在图1中,展示了E2STR的训练和推理过程
1. 基础文本识别训练
基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器,目的为了获取文本识别能力:
2. 上下文训练
上下文训练阶段 E2STR 将根据文中提出的上下文训练范式进行进一步训练。在这一阶段,E2STR 会学习理解不同样本之间的联系,从而从上下文提示中获取推理能力。
如图 2 所示,这篇文章提出 ST 策略,在场景文本数据中进行随机的分割和转换,从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练:
需要进行改写的内容是:3. 上下文推理 改写后的内容:3. 根据上下文进行推理
针对一个测试样本,该框架会从上下文提示池中选择 N 个样本,这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说,这篇文章通过对视觉 token 序列做平均池化,计算出图像 embedding I 。然后,从上下文池中选择图像嵌入与 I 的余弦相似度最高的前 N 个样本,从而形成上下文提示。
将上下文提示和测试样本拼接在一起送入模型后,E2STR会以无需训练的方式从上下文提示中学习新的知识,从而提高测试样本的识别准确率。需要注意的是,上下文提示池只保留视觉编码器输出的令牌,使得上下文提示的选择过程非常高效。此外,由于上下文提示池很小,并且E2STR无需训练即可进行推理,因此额外的计算开销也被降至最低
实验
实验主要从三个方面进行:分别是传统文本识别集、跨域场景识别和困难样本修正
1. 传统数据集
从训练集中随机抽取很少的样本(1000 个,训练集 0.025% 的样本数量)组成上下文提示池,在 12 个常见的场景文本识别测试集中进行的测试,结果如下:
可以发现 E2STR 在识别性能差不多已经饱和的传统数据集上依然有所提升,超越了 SOTA 模型的表现。
需要进行改写的内容是:2. 跨域场景
跨域场景下每个测试集仅提供 100 个域内训练样本,无训练和微调对比结果如下,E2STR 甚至超过了 SOTA 方法的微调结果。
需要进行改写的内容是:3. 修改困难样本
研究人员收集了一批困难样本,对这些样本提供了 10%~20% 的标注,对比 E2STR 的无需训练的上下文学习方法和 SOTA 方法的微调学习方法,结果如下:
相比微调方法,E2STR-ICL显著降低了困难样本的错误率
未来展望
E2STR 证明了使用合适的训练和推理策略,小模型也可以拥有和 LLM 类似的 In-context Learning 的能力。在一些实时性要求比较强的任务中,使用小模型也可以对新场景进行快速的适应。更重要的是,这种使用单一模型来实现对新场景快速适应的方法使得构建统一高效的小模型更近了一步。
今天关于《重新表达的标题为:字节跳动与华东师大的合作:探索小模型的上下文学习能力》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于训练,文本的内容请关注golang学习网公众号!

- 上一篇
- 中美登月任务照片对比,AI分析结果出炉,美国登月造假添实锤

- 下一篇
- 用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
-
- 科技周边 · 人工智能 | 5分钟前 |
- 豆包AI编程教学:轻松写程序指南
- 278浏览 收藏
-
- 科技周边 · 人工智能 | 5分钟前 |
- 用豆包AI实现CQRS,3步分离读写模型
- 142浏览 收藏
-
- 科技周边 · 人工智能 | 13分钟前 |
- 豆包AI解析CSV数据方法详解
- 126浏览 收藏
-
- 科技周边 · 人工智能 | 14分钟前 |
- 豆包AI生成代码教程:数据挖掘实战指南
- 363浏览 收藏
-
- 科技周边 · 人工智能 | 15分钟前 |
- 用豆包生成GraphQLSchema的完整教程
- 209浏览 收藏
-
- 科技周边 · 人工智能 | 16分钟前 |
- DeepSeek数据预测功能详解
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 18分钟前 |
- 豆包AI写说明书技巧全解析
- 449浏览 收藏
-
- 科技周边 · 人工智能 | 32分钟前 | 宁德时代
- 宁德时代新电池专利技术发布
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 37分钟前 | AI写作 风格定制
- 腾讯Effidit怎么自定义写作风格?
- 221浏览 收藏
-
- 科技周边 · 人工智能 | 41分钟前 |
- 鸿蒙智行轿车销量飙升,两款豪华车崛起
- 249浏览 收藏
-
- 科技周边 · 人工智能 | 44分钟前 |
- 小米汽车二期工厂卫星图曝光,能否破解雷军难题?
- 446浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 153次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 182次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 170次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 157次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 189次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览