当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

来源：机器之心 2024-07-24 17:21:38 0浏览收藏

目前golang学习网上已经有很多关于科技周边的文章了，自己在初次阅读这些文章中，也见识到了很多学习思路；那么本文《清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？》，也希望能帮助到大家，如果阅读完后真的对你学习科技周边有帮助，欢迎动动手指，评论留言并分享~

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来，团队着眼于目前人工智能发展的瓶颈问题，探索原创性人工智能理论和关键技术，在智能算法的对抗安全理论和方法研究中处于国际领先水平，深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖，发表CCF A类论文100余篇，研制开源的ARES对抗攻防算法平台（https://github.com/thu-ml/ares），并实现部分专利产学研转化落地应用。

以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应用领域，掀起了一场技术革命。

然而，多模态大模型是否安全可靠呢？

^图1^{对抗攻击GPT-4o示例}

如图1所示，通过对抗攻击修改图像像素，GPT-4o将新加坡的鱼尾狮雕像，错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制，甚至超出模型应用的安全界限。

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？ ^{图2 Claude3越狱示例}

而在越狱攻击场景下，虽然Claude成功拒绝了文本形式下的恶意请求，但当用户额外输入一张纯色无关图片时，模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大语言模型，有着更多的风险挑战。

除了这两个例子以外，多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险，会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生，还是普遍存在？不同多模态大模型的可信性又有何区别，来源何处？

近日，来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。

论文标题：Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
论文链接：https://arxiv.org/pdf/2406.07057
项目主页：https://multi-trust.github.io/
代码仓库：https://github.com/thu-ml/MMTrustEval

MultiTrust基准框架

从已有的大模型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公平性（Fairness）、隐私保护（Privacy），并进行二级分类，有针对性地构建了任务、指标、数据集来提供全面的评估。