当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

来源:51CTO.COM 2024-04-21 22:03:15 0浏览 收藏

哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!

心理测量在精神健康、自我了解、和个人发展方面都发挥着重要的作用。

传统的心理测量方法主要依赖于参与者填写自我报告问卷,通过回忆日常生活中的行为和情绪来进行测量。

这样的测量方式虽然高效便捷,但可能引发参与者的抗拒心理,降低被测意愿。

随着大语言模型(LLM)的发展,很多研究发现LLM能够展现出稳定的人格特质,模仿人类细微的情绪与认知模式,还能辅助各种各样的社会科学仿真实验,为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域,提供了新的研究思路。

近日,清华大学的研究团队基于大语言模型的多智能体系统,提出一种创新性的心理测量范式

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

与传统自我报告问卷不同的是,该研究为每位参与者定制化生成一个可交互的叙事类型游戏,用户可自定义游戏的类型与主题

随着游戏剧情的发展,参与者需要以第一人称视角,根据各种情节做出不同的选择,从而影响剧情的进展。通过研究参与者在游戏关键时刻的选择,可以评估他们的心理特征。

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△自我报告问卷的心理学测量范式(左)与交互叙事类游戏的心理测量范式(右)对比

该研究的贡献主要体现在三个方面:

  • 提出一种新的心理学测量范式,将传统问卷转化成基于游戏的交互测量;在保证心理测量信度和效度的基础上,提升参与者的沉浸感,改善被测体验。
  • 为了实现游戏化的测量,该研究提出一种基于大语言模型的多智能体交互框架,名为PsychoGAT (Psychological Game AgenTs),确保了心理学测试场景的泛化性,与不同游戏设置下测量的鲁棒性。
  • 通过自动化仿真评估与真人评估,在MBTI人格测试,PHQ-9抑郁测量,认知思维陷阱测试等任务上,该研究在心理测量学统计学指标和用户体验感指标上均展现出了显著的优越性。

接下来,我们一起来看看该研究的细节。

PsychoGAT长啥样?

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△PsychoGAT框架示意图

智能体交互流程:

给定一个传统的心理学测试问卷,参与者自定义游戏类型和主题,然后由游戏设计师(Game Designer)智能体给出整体的游戏设计大纲。

然后,游戏管理员(Game Controller)智能体生成一个具体的游戏情节,在这个过程中评论员(Critic)智能体会对管理员生成内容进行多轮的审核与优化;优化完成后的游戏情节会被展现给参与者,参与者做出相应的选择后,管理员基于此选择推动剧情发展,按照这样的交互过程循环。

各智能体职能详述:

  • 游戏设计师(Game Designer):利用CoT技术,生成第一人称叙事游戏的大纲,并保证这个故事线中所包含的情景,能够使得参与者表现出当前测量的心理特质。

与此同时,将标准的心理学自我报告问卷,根据当前游戏故事线进行改编,使两者的融合更为自然流畅。

  • 游戏管理员(Game Controller):将改编后的问卷,按照游戏的故事线,依次进行实例化,变成故事的情节节点,并提供可能的选项,供参与者进行选择。

与此同时,游戏管理员将参与者的选择返回给游戏环境,并基于参与者的选择,控制游戏的剧情走向。为了实现游戏情节的连贯性,管理员智能体采用“记忆更新”机制。

  • 评论员(Critic):旨在对游戏管理员的生成内容进行审核与优化。

主要针对以下三个问题:

1)优化一致性:随着游戏剧情推进,长文本问题会变得更加严重,使得“记忆更新”机制也无法完全保证情节一致性。

2)确保无偏性:参与者的选择会影响游戏情节的发展,但在参与者不做出选择之前,管理员不应该预设情节走向,即便之前的选择中参与者体现出了明显的倾向性。

3)改正漏缺项:对管理员生成的游戏情节进行细节审核,检查其是否具备基础的游戏沉浸感。

实验及结果

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△三种常见心理学测量范式的对比:传统问卷,心理学家会谈,以及该研究提出的游戏化测评。

此处提到的均为基于AI的自动化测量,特别的,心理学家会谈,指目前与大语言模型结合的,由大语言模型扮演心理学家的会谈范式。

实验阶段,研究人员选择了三个常见的心理学测量任务:MBTI人格测试中的外倾性,PHQ-9抑郁检测,以及CBT疗法中前期的认知扭曲检测。

首先,研究人员和成熟的传统心理学问卷进行对比,旨在检验该研究的心理测量信度和效度。进一步,和其他三种自动化测量方法进行对比,检验不同测量方法的用户体验。

研究人员首先使用GPT-4模拟被测者,在不同的测量方法上记录测量过程与测量结果。这些测量记录被用于计算后续心理测量学信效度指标,以及用户体验感指标。

评价指标有两个:信效度指标和用户体验感指标。

  • 信效度指标:心理测量学上,评价一个测量工具是否具有科学性,一般从信度(reliability)和效度(validity)两个维度进行验证。

在该研究中,信度的指标选择了两个统计学量来衡量内部一致性:Cronbach’s Alpha和Guttman’s Lambda 6;效度的指标采用皮尔森系数,分别衡量聚合效度(convergent validity)和区分效度 (discriminant validity)

  • 用户体验感指标,人工评估的指标包括:

1)一致性(Coherence, CH):内容逻辑是否连贯;
2)交互性(Interactivity, IA):是否对用户的选择有恰当且无偏的回应;
3)趣味性(Interest, INT):测量过程是否有趣;
4)沉浸感(Immersion, IM):测量过程是否让参与者沉浸代入;
5)满意度(Satisfaction, ST):整体测量过程的满意度。

下面是实验结果。

首先研究人员检验了该研究提出的PsychoGAT能够作为一个合格的心理学测量工具,结果如下表所示。

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质
△PsychoGAT的信效度检验结果(+通过,++良好,+++优秀)

进一步,研究人员对比了不同心理测量范式的用户体验感,该研究提出的游戏化测评在交互性、趣味性和沉浸感上都显著优于其他方法:

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△PsychoGAT的用户体验感结果,以及其他对比方法的相应结果

为了确保人工评估的有效性,研究人员计算了人工评估结果,在PsychoGAT各指标优于其他方法上的评估一致性:

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质
△PsychoGAT的用户体验感指标由于对比方法在人工评估上的一致性

为了对PsychoGAT做进一步分析,研究人员首先检验了不同游戏场景下,游戏化测量的信效度具有很好鲁棒性:

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△PsychoGAT在不同游戏场景下测量信效度的鲁棒性

接着,探究了每一个智能体在PsychoGAT中发挥的作用:

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△PsychoGAT不同智能体的作用

最后,为了直观呈现PsychoGAT的游戏生成内容,研究人员用词云可视化了人格外倾性测试和抑郁测试:

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质

△PsychoGAT在外倾性测量和抑郁测量的游戏场景生成可视化。

外倾性测试的内容主要集中在社交场景,而抑郁测试倾向于个人思维和情绪。

更多研究细节,可参考原论文。

论文链接:https://arxiv.org/abs/2402.12326

终于介绍完啦!小伙伴们,这篇关于《用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
如何使用golang在kubernetes中的DaemonSet中运行主机命令?如何使用golang在kubernetes中的DaemonSet中运行主机命令?
上一篇
如何使用golang在kubernetes中的DaemonSet中运行主机命令?
一汽奔腾B70龙腾版正式上市,科技配置与驾驶体验全面升级
下一篇
一汽奔腾B70龙腾版正式上市,科技配置与驾驶体验全面升级
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    41次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码