当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 港大推出RLMRec:大模型增强,准确提炼用户/商品画像

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

来源:51CTO.COM 2023-11-18 12:27:15 0浏览 收藏

在科技周边实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《港大推出RLMRec:大模型增强,准确提炼用户/商品画像》,聊聊,希望可以帮助到正在努力赚钱的你。

在深度学习和图神经网络的影响下,推荐系统已经取得了重大进展,特别是在捕捉复杂的用户-物品关系方面表现出色

然而,目前使用图神经网络(GNNs)的推荐算法通常仅依赖于ID数据构造的结构化拓扑信息,这导致推荐数据集中有大量与用户和物品相关的原始文本数据未被充分利用,因此,所学习到的表示不够信息丰富

在协同过滤中使用的隐式反馈数据存在潜在的噪声和偏差,这对深度模型在学习用户偏好方面提出了挑战

目前,如何将大语言模型(LLMs)与传统的基于ID数据的推荐算法相互结合,已经受到了学界以及工业界的广泛关注。但是,仍然存在有许多困难,例如算法的可扩展性,语言模型的输入限制(仅文本模态以及输入长度限制),使其大语言模型无法在实际运用的推荐系统中有效提供帮助。

为了应对这些限制,研究人员来自香港大学等机构提出了一种框架RLMRec,利用大语言模型促进现有的推荐算法表征学习。他们在实验中将该框架与现有的最先进的推荐算法结合,并在真实数据集中进一步提升了算法的推荐性能

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

请点击以下链接查看论文:https://arxiv.org/abs/2310.15950

代码地址:https://github.com/HKUDS/RLMRec

具体而言,该范式通过利用大语言模型从文本角度挖掘用户行为偏好以及商品语义特征,并且利用最大化互信息的方式将文本信号和来自于图神经网络的协同信号增强对齐,从而有效促进算法学习到的表征质量。

基于RLMRec,我们分别基于了对比式学习和生成式学习构建了RLMRec-Con和RLMRec-Gen两套范式。这两套范式在不同的测试场景下展现出了不同的优点,因此可以灵活的运用于不同的实际场景。

理论角度缓解协同信号中的噪声

在基于图神经网络的协同过滤推荐算法中,其基于协同信号,会为每一个用户/商品学习到一个表征。

重写后的内容为:我们所说的基于协同信号的表征,从用户的角度来看,反映了用户对商品的偏好;从商品的角度来看,反映了吸引的用户群体。然而,由于协同信号可能存在的噪声(如误点击、流行度偏差等),表征不可避免地受到了噪声的影响

我们不妨设在推荐的视角下,对推荐存粹有益的潜在信号为,那么表征则同时由与潜在噪声生成。考虑到协同数据中并不存在文本语义信息,因此在本文中,我们将其作为突破口,考虑利用文本语义信号(semantic information)来缓解这一现象。

我们不妨设对于每一个用户/商品,我们都拥有一个基于文本语义而产生的表征,其基于的原始文本本身能够准确地反应了用户喜好的商品类别,和商品所吸引的用户群体,因此中也包含了来自于潜在信号的信息,但是同时也包括了一些与推荐无关的信号(例如表征中可能体现的语法等语言属性)。因此我们可以构建如下的概率图模型。

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

为了改善协同过滤算法对表征e的学习质量,我们设立了以下学习目标

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

直观上将,我们希望能够最大化协同信号表征e与文本信号表征s以及潜在信号z直接的关联,从而使得表征e中包含更多有益的信息以增强推荐的性能。

通过理论推导,最大化上述目标等价于最大化表征e和表征s之间的互信息I(e, s),并且最终可以转换成优化如下目标

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

其中f是密度函数,体现了二者的相似程度。上述的表征学习过程可以形象化地体现为如下过程:

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

在优化的过程中,我们不断增加协同信号表征e与文本信号表征s中重叠的部分,从而不断的减少噪声在协同信号表征中的占比,从而获得高质量的特征学习结果,以促进推荐性能提高。

为了真正实现上述的理论推导后的优化目标,我们仍然面临两个挑战:

如何通过用户与商品之间真实有效的交互偏好来获取高质量的文本语义表征

2. 如何实现密度函数f从而高效地优化我们的学习目标。

在接下来的两节中,我们将分别探讨如何克服上述两点挑战

准确提炼用户/商品文本画像

为了获得文本信号的表征,我们首先需要准确描述用户和商品的特征。这些描述需要是无偏差的,能够真实反映用户和商品的偏好。我们希望用户的特征能够有效地展示他们对哪些商品类别感兴趣,而商品的特征则能够反映它们能吸引哪些类型的用户群体

在真实的推荐数据集中(例如Yelp、Amazon-book)存在有许多的对于原始文本数据,例如商品描述、用户评论等等,但是这些原始文本数据同样存在这大量的噪音,例如在Steam数据集中,玩家对于电子游戏的评论会存在有大量的非语义符号。

噪音的存在使得我们在以往难以利用上这些文本数据。幸运的是,随着大语言模型的发展,其高效的文本总结能力和自然语言处理能力是我们能够达成这一目标。

在本节中,我们基于大语言模型(LLMs)和思维链(Chain-of-Thought)的思想,提出了一种从商品到用户的文本画像构建路径。其能够保证在现有的数据下,准确无误无偏的反应出用户和商品的交互偏好,以便于我们获得高质量的文本语义表征。

简言之,我们可以通过用户的反馈或商品的自身描述来进行基于大型语言模型的知识总结,以获取商品的无偏文本画像。在此过程中,我们需要要求提供思考的过程

我们将用户对商品的反馈与商品文本画像相结合,并输入给大型语言模型,以总结用户画像。由于用户的反馈中包含了真实的喜好,因此语言模型能够准确把握用户的真实喜好,从而生成准确的文本画像

最后,我们利用先进的文本嵌入模型将文本画像转化为文本表征表征,上述过程的示意图如下(在论文的附录中,我们对生成过程进行了具体的案例描述)

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

对比式/生成式建模密度函数

密度函数的输出是一个实数,反应了输入的两个表征的之间的相似程度。对于该函数的建模越有效越精确,就可以更好的实现互信息最大化,从而实现协同信号表征和文本语义信号表征之间的对齐。

在本文中我们考虑两种不同的建模方法,从而实现了两种不同的对齐方式。

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

需要进行改写的内容是:第一种方法是对比式对齐(Contrastive Alignment,RLMRec-Con),其具体建模形式如下

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

简单来说,我们通过网络对文本语义表征进行缩放,使其与协同信号表征具有相同的维度,之后使用余弦相似度计算它们之间的相似度

基于之前的优化函数,实际上与对比学习的过程非常相似,因此我们称之为对比式对齐。形象化地说,在这个过程中,两个表征相互奔赴,不断互相对齐彼此

需要进行改写的内容是:第二种方法是生成式对齐(Generative Alignment,RLMRec-Gen),其具体形式如下

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

我们的方法基于生成式掩膜子编码器 (Generative Masked Auto-encoder) 的思想,简单来说,就是对一些节点的原始特征进行掩盖,然后缩放推荐算法编码出来的节点特征,以使其具有与文本语义表征相同的维度,最后进行对齐

形象化的来说,在该过程中,协同表征向文本语义表征单向逼近,生成式地重构对方,从而实现对齐。

在接下来的实验中,我们研究了RLMRec-Con和RLMRec-Gen这两种方法在不同场景下的优点

实验验证

我们在三个公开数据集(Yelp,Amazon-book,Steam)上,使用现有的先进协同过滤算法(GCCF、LightGCN、SGL、SimGCL、DCCF和AutoCF)作为基准模型,配合RLMRec进行了性能的验证。通过多次随机试验求均值,我们发现RLMRec可以有效且显著地进一步提升现有推荐算法的性能。

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

从结果中可以看出。对比式学习(RLMRec-Con)所带来的性能提升,相较于生成式学习(RLMRec-Gen)更加显著,但是对于自身就是生成式建模的推荐算法(AutoCF)而言,生成式学习带来的性能提升更多,由此可见使用两种方式需要应算法而制宜。

进一步的,为了探寻是否真的是文本信号的引入提高了推荐的性能(而非是框架的设计),我们将用户/商品的协同信号和文本信号之间的对应关系进行了打乱(Shuffle),从而造成错误的信号对应关系,并进行了性能试验如下

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

从结果中可以看出,在打乱了信号对应关系的情况下,错误的文本语义的引入会导致表征学习无法正常进行,即协同信号表征无法有效地向语义表征靠近(停留在原地),因此性能相对显著下降

为了增强RLMRec的能力,我们采用了多种语义嵌入模型(如Instructor、Contriever)来生成语义表征。经过实验证明,使用更优秀的语义嵌入模型生成的语义表征能够更好地提升RLMRec的性能

接下来,我们进行了噪声实验,通过随机添加不同程度的噪声来测试RLMRec对噪声的抵抗能力,以下是实验结果

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

从结果中可以看出,不论在什么程度的噪声下,在RLMRec框架下训练获得的表征能够相对于基线模型有更好的性能,同时对比式对齐能够抵御噪声的能力更强,我们认为这是因为生产式对齐由于存在有掩膜(Mask)的操作,在特征层面上已经引入了一部分噪声,因此应对结构化噪声的能力有所下降,不过相对于基线模型,都是有增益的。

此外,我们还研究了RLMRec的两种范式是否适用于预训练。基于此,我们使用了Yelp数据集中2012年至2017年的数据进行预训练,使用2018年至2019年的数据进行微调,并最终测试了其性能,测试结果如下

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

从结果中我们发现,在预训练的场景下,生成式对齐RLMRec-Gen一致的具有更优的性能,我们认为这是因为通过生成式建模中的掩膜(Mask)操作,能够有效防止过拟合,从而构成一种约束,因此所获的的参数能够有效迁移至新的数据上,这也与近年来通过生成式预训练语言模型的范式不谋而合。

最后,我们对案例进行了研究

港大推出RLMRec:大模型增强,准确提炼用户/商品画像

我们针对一个用户计算了与其距离较远(在Graph上大于3跳)的所有用户的特征相似度,并且基于此从高到低排序。

我们发现即使是两个用户拥有相同的偏好,但是传统的推荐算法获得的表征,无法有效的体现出他们之间的相似性,这是因为他们的距离大于图网络的层数,因此无法互相监督。

通过在RLMRec中引入了文本信号信息,具有相同偏好的用户表征被有效的拉近,从而他们的表征相似度也得到了提高,这从一定程度上说明通过引入文本信号来优化用户/商品表征学习,能够从全局的视角对具有相似偏好的用户/商品进行有益的对齐,从而提高表征学习的质量最终提高推荐性能。

结语

我们在这篇文章中提出了一种模型无关的基于大语言模型的推荐系统表征学习方法。通过合理的设计,我们利用大语言模型从大量的原始文本数据中提取纯净的文本语义信号,进而优化协同信号表征,以提高最先进的推荐算法的性能

我们已经在GitHub上对数据集和代码进行了开源,希望我们经过清洗并进行文本标注的推荐数据集以及我们提出的范式RLMRec能够推动大型语言模型和推荐系统更深入地融合

最后,其实RLMRec的思想不单单能运用在推荐算法中,我们也在别的场景下进行了实践,在百度的搜索算法框架下,我们将RLMRec中的对比式对齐的思想进行了测试,在搜索推荐的精度上也获得了有益的提升,实现了算法的有效落地。

好了,本文到此结束,带大家了解了《港大推出RLMRec:大模型增强,准确提炼用户/商品画像》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
提高网页可访问性的CSS属性使用指南提高网页可访问性的CSS属性使用指南
上一篇
提高网页可访问性的CSS属性使用指南
2023戈登贝尔奖揭晓:Frontier超算「量子级精度」材料模拟获奖
下一篇
2023戈登贝尔奖揭晓:Frontier超算「量子级精度」材料模拟获奖
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    13次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码