当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 陶哲轩对LLM自动证明定理能够用于拿到顶级会议的杰出论文感到赞叹，全面的上下文证明能够取得更好的效果

陶哲轩对LLM自动证明定理能够用于拿到顶级会议的杰出论文感到赞叹，全面的上下文证明能够取得更好的效果

来源：51CTO.COM 2024-02-04 17:54:39 0浏览收藏

你在学习科技周边相关的知识吗？本文《陶哲轩对LLM自动证明定理能够用于拿到顶级会议的杰出论文感到赞叹，全面的上下文证明能够取得更好的效果》，主要介绍的内容就涉及到，如果你想提升自己的开发能力，就不要错过这篇文章，大家要知道编程理论基础和实战操作都是不可或缺的哦！

Transformer的技能树是越来越厉害了。

来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校（UIUC）的研究人员，最近发表了一篇论文，他们通过使用大型语言模型，成功地实现了自动生成完整定理证明的目标。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

论文地址：https://arxiv.org/pdf/2303.04910.pdf

这篇工作以Baldur（北欧神话中雷神Thor的兄弟）命名，首次证明了Transformer可以生成全证明，还表明在为模型提供额外上下文时，可以改进模型先前的证明。

该论文在2023年12月的ESEC/FSE（ACM欧洲软件工程联合会议和软件工程基础研讨会）上发表，并荣获杰出论文奖。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

众所周知，软件中不可避免地存在着bug，这对一般应用程序或网站来说可能不会带来太大问题。然而，对于关键系统背后的软件，如加密协议、医疗设备和航天飞机，我们必须确保没有任何错误。

——一般的代码审查和测试并不能给出这个保证，这需要形式验证（formal verification）。

对于formal verification，ScienceDirect给出的解释为：

the process of mathematically checking that the behavior of a system, described using a formal model, satisfies a given property, also described using a formal model

指的是从数学上检查，使用形式模型描述的系统行为，是否满足给定属性的过程。

简单来说就是，利用数学分析的方法，通过算法引擎建立模型，对待测设计的状态空间进行穷尽分析的验证。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

形式化软件验证，对于软件工程师来说是最具挑战性的任务之一。例如CompCert，使用Coq交互式定理证明器验证的C编译器，是无处不在的GCC和LLVM等使用的唯一编译器。

然而，手动形式验证（编写证明）的成本却相当巨大，——C编译器的证明是编译器代码本身的三倍以上。

所以，形式验证本身是一项“劳动密集型”的任务，研究人员也在探索自动化的方法。

比如Coq和Isabelle等证明助手，通过训练一个模型来一次预测一个证明步骤，并使用模型搜索可能的证明空间。

而本文的Baldur首次在这个领域引入了大语言模型的能力，在自然语言文本和代码上训练，并在证明上进行微调，

Baldur可以一次就生成定理的完整证明，而不是一次一个步骤。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

如上图所示，仅使用定理语句作为证明生成模型的输入，然后从模型中抽取证明尝试，并使用Isabelle执行证明检查。

如果Isabelle接受了证明尝试而没有错误，就说明证明成功；否则从证明生成模型中抽取另一个证明尝试。

Baldur在6336个Isabelle/HOL定理及其证明的基准上进行评估，从经验上证明了完整证明生成、修复和添加上下文的有效性。

另外，这个工具之所以叫Baldur，可能是因为当前最好的自动证明生成工具叫做Thor。

Thor的证明率更高（57%），它使用较小的语言模型结合搜索可能证明空间的方法预测证明的下一步，而Baldur的优势在于它能够生成完整的证明。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

不过Thor和Baldur两兄弟也可以一起工作，这样可能把证明率提升到接近66%。

自动生成完整证明

Baldur由Google的大语言模型Minerva提供支持，Minerva在科学论文和包含数学表达式的网页上进行训练，并对有关证明和定理的数据进行了微调。

Baldur可以与定理证明助手Isabelle合作，Isabelle对证明结果进行检查。当给定一个定理陈述时，Baldur几乎在41%的时间内能够生成一个完整的证明。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

为了进一步提高Baldur的性能，研究人员向模型提供了额外的上下文信息（比如其他定义、或理论文件中的定理陈述），这使证明率提高到47.5%。

这意味着Baldur能够获取上下文，并使用它来预测新的正确证明，——类似于程序员，当了解了相关方法和代码之后，他们更有可能修复程序中的错误。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

下面举个例子（fun_sum_commute定理）：

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

这个定理来自形式证明档案中一个名为多项式的项目。

当人工编写证明的时候，会区分两种情况：集合是有限的或者不是有限的：

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

所以，对于模型来说，输入是定理陈述，而目标输出是这个人工编写的证明。

Baldur认识到这里需要归纳，并应用了一种特殊的归纳法则，称为infinite_finite_induct，遵循与人类书面证明相同的总体方法，但更简洁。

而因为需要归纳，Isabelle使用的Sledgehammer默认无法证明这个定理。

训练

为了训练证明生成模型，研究人员构建了一个新的证明生成数据集。

现有数据集包含单个证明步骤的示例，每个训练示例包括证明状态（输入）和要应用的下一个证明步骤（目标）。

给定一个包含单个证明步骤的数据集，这里需要创建一个新数据集，以便训练模型一次预测整个证明。

研究人员从数据集中提取每个定理的证明步骤，并将它们连接起来以重建原始证明。

证明修复

还是以上面的fun_sum_commute为例，

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

Baldur首次生成的证明尝试，在证明检查器中失败。

Baldur试图应用归纳法，但未能首先将证明分解为两种情况（有限集与无限集）。Isabelle返回以下错误消息：

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

为了从这些字符串中派生出一个证明修复训练示例，这里将定理陈述、失败的证明尝试和错误消息连接起来作为输入，并使用正确的人工编写的证明作为目标。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

上图详细介绍了训练数据的创建过程。

使用证明生成模型，针对原始训练集中的每个问题，对温度为0的证明进行采样。

使用校对助手，记录所有失败的校样及其错误消息，然后，继续构建新的证明修复训练集。

对于每个原始训练示例，将定理语句、证明生成模型生成的（不正确的）候选证明以及相应的错误消息连接起来，以获得新训练示例的输入序列。

添加上下文

在定理陈述之前添加理论文件的行，作为额外的上下文。比如下图这样：

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

Baldur中带有上下文的证明生成模型，可以利用这些附加信息。出现在fun_sum_commute定理语句中的字符串，在这个上下文中再次出现，因此围绕它们的附加信息可以帮助模型做出更好的预测。

上下文可以是陈述（定理、定义、证明），还可以是自然语言注释。

为了利用LLM的可用输入长度，研究人员首先从同一个理论文件中添加多达50个语句。

在训练过程中，首先对所有这些语句进行标记化，然后截断序列的左侧以适应输入长度。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

上图展示了有上下文和无上下文的生成模型的证明成功率与证明尝试次数的关系图。我们可以看出，具有上下文的证明生成模型始终优于普通生成模型。

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

上图展示了不同尺寸和温度模型的已验证定理与推理成本之比。

我们可以看到生成模型的证明成功率，以及8B模型和62B模型的上下文与证明尝试次数的关系。

具有上下文的62B证明生成模型优于具有上下文的8B模型。

不过，作者在这里强调，由于这些实验的成本较高，他们也无法调整超参数，62B模型如果经过优化可能会表现得更好。

以上就是《陶哲轩对LLM自动证明定理能够用于拿到顶级会议的杰出论文感到赞叹，全面的上下文证明能够取得更好的效果》的详细内容，更多关于软件,AI的资料请关注golang学习网公众号！

软件 AI

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

学习借鉴批评，LLaMA2在1317条评语的帮助下，胜率猛增30倍

学习借鉴批评，LLaMA2在1317条评语的帮助下，胜率猛增30倍

上一篇: 学习借鉴批评，LLaMA2在1317条评语的帮助下，胜率猛增30倍

公开代码/权重/数据集/训练过程，创造史上首个完全开源的大模型

下一篇: 公开代码/权重/数据集/训练过程，创造史上首个完全开源的大模型

查看更多

最新文章

科技周边 · 人工智能 | 54分钟前 |

豆包AI设计技巧：快速构建交互流程方法

420浏览收藏
科技周边 · 人工智能 | 58分钟前 | AI工具学习方法效率提升实践应用新手入门

新手必看！AI工具使用入门指南

143浏览收藏
科技周边 · 人工智能 | 1小时前 | 数据获取 360智图阶梯分佣规则定义外部计算

360智图阶梯分佣设置教程详解

304浏览收藏
科技周边 · 人工智能 | 1小时前 | 效率自定义表单大师 AI模板推荐 AI生成表单

表单大师AI模板推荐及使用教程

114浏览收藏
科技周边 · 人工智能 | 1小时前 | 备忘录实用技巧自然语言理解 Kimi 智能提醒

Kimi智能提醒怎么用？备忘录使用教程

405浏览收藏
科技周边 · 人工智能 | 1小时前 | 转化率绘蛙AI修图课程海报教育变现设计痛点

绘蛙AI修图课程海报设计技巧，提升教育变现效果

338浏览收藏
科技周边 · 人工智能 | 1小时前 |

ChatGPT联动DALL·E教程图文攻略

274浏览收藏
科技周边 · 人工智能 | 1小时前 |

Keras神经网络教程：快速建模入门指南

449浏览收藏
科技周边 · 人工智能 | 2小时前 |

AIOverviews怎么开启？各平台教程详解

181浏览收藏
科技周边 · 人工智能 | 2小时前 |

即梦AI动态背景添加教程场景切换全攻略

238浏览收藏
科技周边 · 人工智能 | 2小时前 | AI工具文本生成音频处理图像生成代码生成

2025年必用AI工具全面推荐

464浏览收藏
科技周边 · 人工智能 | 2小时前 |

豆包AI编程教程代码实战指南

190浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

511次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

498次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

484次学习

查看更多

AI推荐

千音漫语

千音漫语，北京熠声科技倾力打造的智能声音创作助手，提供AI配音、音视频翻译、语音识别、声音克隆等强大功能，助力有声书制作、视频创作、教育培训等领域，官网：https://qianyin123.com

202次使用
MiniWork

MiniWork是一款智能高效的AI工具平台，专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具，提供精准智能解决方案，让复杂工作简单高效。

205次使用
NoCode

NoCode (nocode.cn)是领先的无代码开发平台，通过拖放、AI对话等简单操作，助您快速创建各类应用、网站与管理系统。无需编程知识，轻松实现个人生活、商业经营、企业管理多场景需求，大幅降低开发门槛，高效低成本。

202次使用
达医智影

达医智影，阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”，仅一次CT扫描即可高效识别多种癌症、急症及慢病，为疾病早期发现提供智能、精准的AI影像早筛解决方案。

208次使用
智慧芽Eureka

智慧芽Eureka，专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景，通过专家级AI Agent精准执行任务，智能化工作流解放70%生产力，让您专注核心创新。

225次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码