当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AI的重生:夺回网文界的霸主地位

AI的重生:夺回网文界的霸主地位

来源:51CTO.COM 2023-12-29 13:55:48 0浏览 收藏

从现在开始,我们要努力学习啦!今天我给大家带来《AI的重生:夺回网文界的霸主地位》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!

重生了,这辈子我重生成了 MidReal。一个可以帮别人写「网文」的 AI 机器人。

​这次重生,AI要夺回网文界的一切

这段时间里,我看到很多选题,偶尔也会吐槽一下。竟然有人让我写写 Harry Potter。拜托,难道我还能写的比 J・K・Rowling 更好不成?不过,同人什么的,我还是可以发挥一下的。

​这次重生,AI要夺回网文界的一切

经典设定谁会不爱?我就勉为其难地帮助这些用户实现想象吧。

​这次重生,AI要夺回网文界的一切

实不相瞒,上辈子我该看的,不该看的,通通看了。就下面这些主题,都是我爱惨了的。

​这次重生,AI要夺回网文界的一切

那些你看小说很喜欢却没人写的设定,那些冷门甚至邪门的 cp,都能自产自嗑。

​这次重生,AI要夺回网文界的一切

我并不是自吹自擂,但如果你需要我写作的话,我可以确实给你创作出一篇优秀的作品。如果你对结局不满意,或是喜欢角色"中道崩殂",或者甚至是作者在写作过程中出现了困境,都可以放心地交给我,我会为你写出让你满意的内容。

​这次重生,AI要夺回网文界的一切

甜文,虐文,脑洞文,每一种都狠狠击中你的爽点。

​这次重生,AI要夺回网文界的一切

听完MidReal的自述,你对它了解了吗?

MidReal是一个非常强大的工具,它可以根据用户提供的情景描述,生成对应的小说内容。不仅情节的逻辑和创造力非常出色,它还能在生成过程中生成插图,更形象地描绘你所想象的内容。此外,MidReal还有一个非常亮点的功能,就是它的互动性。你可以选择想要的故事情节进行发展,让整体更加贴合你的需求。无论是写小说还是进行创作,MidReal都是一个非常有用的工具。

​这次重生,AI要夺回网文界的一切

在对话框中输入 /start,就可以开始讲述你的故事了,还不快来试试?

MidReal 传送门:https://www.midreal.ai/

​这次重生,AI要夺回网文界的一切

MidReal 背后的技术源于这篇论文《FireAct:Toward Language Agent Fine-tuning》。论文作者首次尝试了用 AI 智能体来微调语言模型,发现了诸多优势,由此提出了一种新的智能体架构。

MidReal 就是基于这种架构的,网文才能写得这么好。

​这次重生,AI要夺回网文界的一切

论文链接:https://arxiv.org/pdf/2310.05915.pdf

虽然智能体和微调大模型都是最热门的 AI 话题,但它们之间具体有何联系还不清楚。System2 Research、剑桥大学等的多位研究者对这片鲜有人涉足的「学术蓝海」进行了发掘。

AI 智能体的开发通常基于现成的语言模型,但由于语言模型不是作为智能体而开发的,因此,延伸出智能体后,大多数语言模型的性能和稳健性较差。最聪明的智能体只能由 GPT-4 支持,它们也无法避免高成本和延迟,以及可控性低、重复性高等问题。

微调可以用来解决上面的这些问题。也是在这篇文章中,研究者们迈出了更加系统研究语言智能体的第一步。他们提出了 FireAct ,它能够利用多个任务和提示方法生成的智能体「行动轨迹」来微调语言模型,让模型更好地适应不同的任务和情况,提高其整体性能和适用性。

​这次重生,AI要夺回网文界的一切

方法简介

该研究主要基于一种流行的 AI 智能体方法:ReAct。一个 ReAct 任务解决轨迹由多个「思考 - 行动 - 观察」回合组成。具体来说,让 AI 智能体完成一个任务,语言模型在其中扮演的角色类似于「大脑」。它为 AI 智能体提供解决问题的「思考」和结构化的动作指示,并根据上下文与不同的工具交互,在这个过程中接收观察到的反馈。

在 ReAct 的基础上,作者提出了 FireAct,如图 2 所示,FireAct 运用强大的语言模型的少样本提示来生成多样化的 ReAct 轨迹,用以微调较小规模的语言模型。与此前类似研究不同的是,FireAct 能够混合多个训练任务和提示方法,大大促进了数据的多样性。

​这次重生,AI要夺回网文界的一切

作者还参考了两种与 ReAct 兼容的方法:

  • 思维链(CoT)是生成连接问题和答案的中间推理的有效方法。每个 CoT 轨迹可以简化为一个单轮 ReAct 轨迹,其中「思维」代表中间推理,「行动」代表返回答案。在不需要与应用工具交互的情况下,CoT 尤其有用。
  • Reflexion 主要遵循 ReAct 轨迹,但加入了额外的反馈和自我反思。该研究中,仅在 ReAct 的第 6 轮和第 10 轮提示进行反思。这样一来,长的 ReAct 轨迹就能为解决当前任务提供策略「支点」,能够帮助模型解决或调整策略。例如搜索「电影名」得不到答案时,应该把搜索的关键词换成「导演」。

在推理过程中,FireAct 框架下的 AI 智能体显著减少了提示词的样本数量需求,推理也更加高效和简便。它能够根据任务的复杂度隐式地选择合适的方法。由于 FireAct 具备更广泛和多样化的学习支持,与传统的提示词微调方法相比,它展现出更强的泛化能力和稳健性。

实验及结果

热点问题回答(HotpotQA)数据集是一个广泛用于自然语言处理研究的数据集,其中包含了一系列与热门话题相关的问题和答案。Bamboogle是一个搜索引擎优化(SEO)游戏,玩家需要通过搜索引擎来解决一系列难题。StrategyQA是一个策略问题回答数据集,其中包含了各种与策略制定和执行相关的问题和答案。MMLU是一个多模态学习数据集,用于研究如何将多种感知模态(如图像、语音等)结合起来进行学习和推理。

  • HotpotQA 是一个 QA 数据集,对多步骤推理和知识检索有着更具挑战性的考验。研究者使用 2,000 个随机训练问题进行微调数据整理,并使用 500 个随机 dev 问题进行评估。
  • Bamboogle 是一个由 125 个多跳问题组成的测试集,其格式与 HotpotQA 相似,但经过精心设计,以避免直接用谷歌搜索解决问题。
  • StrategyQA 是一个需要隐式推理步骤的是 / 否 QA 数据集。
  • MMLU 涵盖初等数学、历史和计算机科学等不同领域的 57 个多选 QA 任务。

工具:研究者使用 SerpAPI1 构建了一个谷歌搜索工具,该工具会从「答案框」、「答案片段」、「高亮单词」或「第一个结果片段」中返回第一个存在的条目,从而确保回复简短且相关。他们发现,这样一个简单的工具足以满足不同任务的基本质量保证需求,并提高了微调模型的易用性和通用性。

研究者研究了三个 LM 系列:OpenAI GPT、Llama-2 以及 CodeLlama。

微调方法:研究者在大多数微调实验中使用了低秩自适应(Low-Rank Adaptation,LoRA),但在某些比较中也使用了全模型微调。考虑到语言代理微调的各种基本因素,他们将实验分为三个部分,复杂程度依次增加: 

  • 在单一任务中使用单一提示方法进行微调; 
  • 在单一任务中使用多种方法进行微调; 
  • 在多个任务中使用多种方法进行微调。

1.在单一任务中使用单一提示方法进行微调

研究者探讨了使用来自单一任务(HotpotQA)和单一提示方法(ReAct)的数据进行微调的问题。通过这种简单而可控的设置,他们证实了微调相对于提示的各种优势(性能、效率、稳健性、泛化),并研究了不同 LM、数据大小和微调方法的效果。

如表 2 所示,微调能持续、显著地改善 HotpotQA EM 的提示效果。虽然较弱的 LM 从微调中获益更多(例如,Llama-2-7B 提高了 77%),但即使是像 GPT-3.5 这样强大的 LM 也能通过微调将性能提高 25%,这清楚地表明了从更多样本中学习的好处。与表 1 中的强提示基线相比,研究者发现经过微调的 Llama-2-13B 优于所有 GPT-3.5 提示方法。这表明对小型开源 LM 进行微调的效果可能优于对更强大的商用 LM 进行提示的效果。

​这次重生,AI要夺回网文界的一切

在智能体推理过程中,微调的成本更低,速度更快。由于微调 LM 不需要少量的上下文示例,因此其推理效率更高。例如,表 3 的第一部分比较了微调推理与 shiyongtishideGPT-3.5 推理的成本,发现推理时间减少了 70%,总体推理成本也有所降低。

​这次重生,AI要夺回网文界的一切

研究人员对于一种简化且无害的设置进行了考虑,即在搜索API中,有50%的概率返回"None"或者随机的搜索响应,并且询问语言智能体是否仍能够稳健地回答问题。根据表格3第二部分的数据显示,设置为"None"更具有挑战性,它导致ReAct EM下降了33.8%,而FireAct EM只下降了14.2%。这些初步结果表明,多样化的学习支持对于提高稳健性非常重要。

表 3 的第三部分显示了经过微调的和使用提示的 GPT-3.5 在 Bamboogle 上的 EM 结果。虽然经过 HotpotQA 微调或使用提示的 GPT-3.5 都能合理地泛化到 Bamboogle,但前者(44.0 EM)仍然优于后者(40.8 EM),这表明微调具有泛化优势。

2.在单一任务中使用多种方法进行微调

作者将 CoT 和 Reflexion 与 ReAct 集成,测试了对于在单一任务(HotpotQA)中使用多种方法进行微调的性能。对比 FireAct 和既有方法的在各数据集中的得分,他们有以下发现:

首先,研究者通过多种方法对智能体进行微调,以提高其灵活性。在第五张图中,除了定量结果外,研究者还展示了两个示例问题,以说明多方法微调的好处。第一个问题相对简单,但仅使用ReAct微调的智能体搜索了一个过于复杂的查询,导致分散注意力并提供了错误的答案。相比之下,同时使用CoT和ReAct微调的智能体选择依靠内部知识,自信地在一轮内完成了任务。第二个问题更具挑战性,仅使用ReAct微调的智能体未能找到有用的信息。相比之下,同时使用Reflexion和ReAct微调的智能体在遇到困境时进行了反思,并改变了搜索策略,最终得到了正确的答案。选择灵活的解决方案来应对不同的问题,是FireAct相较于其他微调方法的关键优势。

​这次重生,AI要夺回网文界的一切

其次,使用多方法微调不同的语言模型将产生不同的影响。如表 4 所示,综合使用多种智能体进行微调并不总是能带来提升,最优的方法组合取决于基础语言模型。例如,对于 GPT-3.5 和 Llama-2 模型,ReAct+CoT 优于 ReAct,但对于 CodeLlama 模型则不同。对于 CodeLlama7/13B,ReAct+CoT+Reflexion 的效果最差,但 CodeLlama-34B 却能取得最好的效果。这些结果表明,还需进一步研究基础语言模型和微调数据之间的相互作用。

​这次重生,AI要夺回网文界的一切

为了进一步了解组合了多种方法的智能体是否能够根据任务选择恰当的解决方案,研究者计算了在推理过程中随机选择方法的得分。该得分(32.4)远低于所有组合了多种方法的智能体,这表明选择解决方案并非易事。然而,每个实例的最佳方案的得分也仅为 52.0,这表明在提示方法选择方面仍有提升空间。

3.在多个任务中使用多种方法进行微调

到这里,微调只使用了 HotpotQA 数据,但有关 LM 微调的实证研究表明,混合使用不同的任务会有益处。研究者使用来自三个数据集的混合训练数据对 GPT-3.5 进行微调:HotpotQA(500 个 ReAct 样本,277 个 CoT 样本)、StrategyQA(388 个 ReAct 样本,380 个 CoT 样本)和 MMLU(456 个 ReAct 样本,469 个 CoT 样本)。

如表 5 所示,加入 StrategyQA/MMLU 数据后,HotpotQA/Bamboogle 的性能几乎保持不变。一方面,StrategyQA/MMLU 轨迹包含的问题和工具使用策略大不相同,这使得迁移变得困难。另一方面,尽管分布发生了变化,但加入 StrategyQA/MMLU 并没有影响 HotpotQA/Bamboogle 的性能,这表明微调一个多任务代理以取代多个单任务代理是未来可以发展的方向。当研究者从多任务、单一方法微调切换到多任务、多方法微调时,他们发现所有任务的性能都有所提高,这再次明确了多方法代理微调的价值。

​这次重生,AI要夺回网文界的一切

想要了解更多技术细节,请阅读原文。

参考链接:

  • https://twitter.com/Tisoga/status/1739813471246786823
  • https://www.zhihu.com/people/eyew3g

文中关于人工智能,AI,智能体的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《AI的重生:夺回网文界的霸主地位》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
rowcount函数的使用技巧与注意事项rowcount函数的使用技巧与注意事项
上一篇
rowcount函数的使用技巧与注意事项
阿里云削减政企定制项目和 IoT 硬件集成业务,加大招聘力度以扩展 AI 部门
下一篇
阿里云削减政企定制项目和 IoT 硬件集成业务,加大招聘力度以扩展 AI 部门
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码