当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 公平性排序学习中的斯奇拉姆排序方法

公平性排序学习中的斯奇拉姆排序方法

来源:51CTO.COM 2024-02-14 17:54:06 0浏览 收藏

编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《公平性排序学习中的斯奇拉姆排序方法》,文章讲解的知识点主要包括,如果你对科技周边方面的知识点感兴趣,就不要错过golang学习网,在这可以对大家的知识积累有所帮助,助力开发能力的提升。

在 2023 年举行的国际学术会议 AIBT 2023 上,Ratidar Technologies LLC 发表了一篇基于公平性的排序学习算法,并荣获该会议的最佳论文报告奖。该算法名为斯奇拉姆排序 (Skellam Rank),充分利用了统计学原理,结合了Pairwise Ranking和矩阵分解技术,以解决推荐系统中的准确率和公平性问题。由于推荐系统中创新的排序学习算法很少,斯奇拉姆排序算法表现出色,因此在会议上获得了研究奖项。下面将介绍斯奇拉姆算法的基本原理:

我们首先回忆一下泊松分布:

斯奇拉姆排序 - 基于公平性的排序学习

泊松分布的参数  的计算公式如下:

斯奇拉姆排序 - 基于公平性的排序学习

两个泊松变量的差值是斯奇拉姆分布:

斯奇拉姆排序 - 基于公平性的排序学习

在公式中,我们有:

斯奇拉姆排序 - 基于公平性的排序学习

函数  叫做第一类贝塞尔函数。

有了这些最基本的统计学中的概念,下面让我们来构建一个 Pairwise Ranking 的排序学习推荐系统吧!

我们首先认为用户给物品的打分是个泊松分布的概念。也就是说,用户物品评分值服从以下概率分布:

斯奇拉姆排序 - 基于公平性的排序学习

之所以我们可以把用户给物品打分的过程描述为泊松过程,是因为用户物品评分存在马太效应,也就是说评分越高的用户,打分的人越多,以至于我们可以用某个物品的评分的人的数量来近似该物品的评分的分布。给某个物品打分的人数服从什么随机过程呢?自然而然的,我们就会想到泊松过程。因为用户给物品打分的概率和该物品有多少人打分的概率相近,我们自然也就可以用泊松过程来近似用户给物品打分的这一过程了。

我们下面把泊松过程的参数用样本数据的统计量替代,得到下面的公式:

斯奇拉姆排序 - 基于公平性的排序学习

我们下面定义 Pariwise Ranking 的最大似然函数公式。众所周知,所谓 Pairwise Ranking 指的是我们利用最大似然函数求解模型参数,使得模型能够最大程度保持数据样本中已知的排序对的关系:

斯奇拉姆排序 - 基于公平性的排序学习

因为公式中的 R 是泊松分布,所以它们的差值,就是斯奇拉姆分布,也就是说:

斯奇拉姆排序 - 基于公平性的排序学习

其中变量 E 是按照如下方式定义的:

斯奇拉姆排序 - 基于公平性的排序学习

我们把斯奇拉姆分布的公式带入最大似然函数的损失函数 L ,得到了如下公式:

斯奇拉姆排序 - 基于公平性的排序学习

在变量 E 中出现的用户评分值 R ,我们利用矩阵分解的方式进行求解。将矩阵分解中的参数用户特征向量 U 和物品特征向量 V 作为待求解变量:

斯奇拉姆排序 - 基于公平性的排序学习

这里我们先回顾一下矩阵分解的概念。矩阵分解的概念是在 2010 年左右的时候提出的推荐系统算法,该算法可以说是历史上最成功的推荐系统算法之一。时至今日,仍然有大量的推荐系统公司利用矩阵分解算法作为线上系统的 baseline,而时下大热的经典推荐算法 DeepFM 中的重要组件 Factorization Machine,也是推荐系统算法中的矩阵分解算法后续的改进版本,和矩阵分解有千丝万缕的联系。矩阵分解算法有个里程碑论文,是 2007 年的 Probabilistic Matrix Factorization,作者利用统计学习模型对矩阵分解这个线性代数中的概念重新建模,使得矩阵分解第一次有了扎实的数学理论基础。

矩阵分解的基本概念,是利用向量的点乘,在对用户评分矩阵进行降维的同时高效的预测未知的用户评分。矩阵分解的损失函数如下:

斯奇拉姆排序 - 基于公平性的排序学习

矩阵分解算法有许多的变种,比如上海交大提出的 SVDFeature,把向量 U 和 V 用线性组合的形式进行建模,使得矩阵分解的问题变成了特征工程的问题。SVDFeature 也是矩阵分解领域的里程碑论文。矩阵分解可以被应用在 Pairwise Ranking 中用以取代未知的用户评分,从而达到建模的目的,经典的应用案例包括 Bayesian Pairwise Ranking 中的 BPR-MF 算法,而斯奇拉姆排序算法就是借鉴了同样的思路。

我们用随机梯度下降对斯奇拉姆排序算法进行求解。因为随机梯度下降在求解过程中,可以对损失函数进行大量的简化从而达到求解的目的,我们的损失函数变成了下面的公式:

斯奇拉姆排序 - 基于公平性的排序学习

利用随机梯度下降对未知参数 U 和 V 进行求解,我们得到了迭代公式如下:

斯奇拉姆排序 - 基于公平性的排序学习

其中:

斯奇拉姆排序 - 基于公平性的排序学习

另外有:

斯奇拉姆排序 - 基于公平性的排序学习

其中:

斯奇拉姆排序 - 基于公平性的排序学习

对于未知参数变量 V 的求解类似,我们有如下公式:

斯奇拉姆排序 - 基于公平性的排序学习

其中:

斯奇拉姆排序 - 基于公平性的排序学习

另外有:

斯奇拉姆排序 - 基于公平性的排序学习

其中:

斯奇拉姆排序 - 基于公平性的排序学习

整个算法的流程,我们用如下的伪代码进行展示:

斯奇拉姆排序 - 基于公平性的排序学习

为了验证算法的有效性,论文作者在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上进行了测试。第一个数据集包含了 6040 个用户和 3706 部电影的评分,整个评分数据集大概有 100 万评分数据,是推荐系统领域最知名的评分数据集合之一。第二个数据集合来自斯洛文尼亚,是网上不多见的基于场景的推荐系统数据集合。该数据集合包含了 121 个用户和 1232 部电影的评分。作者将斯奇拉姆排序和另外 9 种推荐系统算法进行了对比,主要测评指标为 MAE (Mean Absolute Error,用来测试准确性)和 Degree of Matthew Effect (主要用来测试公平性):

斯奇拉姆排序 - 基于公平性的排序学习

图 1. MovieLens 1 Million Dataset (MAE 指标)

斯奇拉姆排序 - 基于公平性的排序学习

图 2. MovieLens 1 Million Dataset (Degree of Matthew Effect 指标)

通过图 1 和图 2 ,我们发现斯奇拉姆排序在 MAE 这一项指标上表现优异,但在 Grid Search 的整个实验过程中,无法一直保证性能优于其他算法。但是在图 2 中,我们发现斯奇拉姆排序在公平性指标上一骑绝尘,遥遥领先于另外 9 种推荐系统算法。

下面我们看一下该算法在 LDOS-CoMoDa 数据集合上的表现:

斯奇拉姆排序 - 基于公平性的排序学习

图 3. LDOS-CoMoDa Dataset (MAE 指标)

斯奇拉姆排序 - 基于公平性的排序学习

图 4. LDOS-CoMoDa Dataset (Degree of Matthew Effect 指标)

通过图3和图4,我们了解到斯奇拉姆排序在公平性指标上一骑绝尘,在准确性指标上表现优异。结论和上一个实验类似。

斯奇拉姆排序结合了泊松分布、矩阵分解和 Pairwise Ranking 等概念,是一个不可多得的推荐系统排序学习算法。在技术领域,掌握排序学习技术的人只占掌握深度学习的人的人数的1/6,因此排序学习属于稀缺技术。而能够在推荐系统领域发明原创性排序学习的人才更是少之又少。排序学习算法,把人们从评分预测的狭隘视角中解放了出来,让人们意识到最重要的事情是顺序,而不是分值。基于公平性的排序学习,目前在信息检索领域中大火,特别是 SIGIR 等顶会,非常欢迎基于公平性的推荐系统的论文,希望能够得到读者们的关注。

作者简介

汪昊,前 Funplus 人工智能实验室负责人。曾在 ThoughtWorks、豆瓣、百度、新浪等公司担任技术和技术高管职务。在互联网公司和金融科技、游戏等公司任职 12 年,对于人工智能、计算机图形学和区块链等领域有着深刻的见解和丰富的经验。在国际学术会议和期刊发表论文 42 篇,获得IEEE SMI 2008 最佳论文奖、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 最佳论文报告奖。

文中关于算法,推荐系统,BPR的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《公平性排序学习中的斯奇拉姆排序方法》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Cobra项目中类似Kubectl的输出格式Cobra项目中类似Kubectl的输出格式
上一篇
Cobra项目中类似Kubectl的输出格式
重复使用日志客户端在 Golang grpc 服务器方法的拦截器中
下一篇
重复使用日志客户端在 Golang grpc 服务器方法的拦截器中
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    20次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    16次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    16次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    19次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    21次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码