当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

来源：51CTO.COM 2023-06-08 07:24:12 0浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习科技周边的朋友们，也希望在阅读本文《算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新科技周边相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

大规模语言模型虽然在各大自然语言处理任务上都展现了优越的性能，不过算术类题目仍然是一大难关，即便是当下最强的GPT-4也很难处理基础运算的问题。

最近，来自新加坡国立大学的研究人员提出了一个专供算术的模型山羊Goat，在LLaMA模型基础上微调后，实现了显著优于GPT-4的算术能力。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

论文链接：https://arxiv.org/pdf/2305.14201.pdf

通过对合成的算术数据集进行微调，Goat在BIG-bench算术子任务上实现了最先进的性能，

Goat仅通过监督微调就可以在大数加减运算上实现近乎完美的准确率，超越了之前所有的预训练语言模型，如Bloom、OPT、GPT-NeoX等，其中零样本的Goat-7B所达到的精度甚至超过了少样本学习后的PaLM-540

研究人员将Goat的卓越性能归功于LLaMA对数字的一致性分词技术。

为了解决更有挑战性的任务，如大数乘法和除法，研究人员还提出了一种方法，根据算术的可学习性对任务进行分类，然后利用基本的算术原理将不可学习的任务（如多位数乘法和除法）分解为一系列可学习的任务。

通过全面的实验验证后，文中提出的分解步骤可以有效地提升算术性能。

并且Goat-7 B可以在24 GB VRAM GPU上使用LoRA高效训练，其他研究人员可以非常容易地重复该实验，模型、数据集和生成数据集的python脚本即将开源。

会算数的语言模型

语言模型

LLaMA是一组开源的预训练语言模型，使用公开可用的数据集在数万亿个token上进行训练后得到，并在多个基准测试上实现了最先进的性能。

先前的研究结果表明，分词（tokenization）对LLM的算术能力很重要，不过常用的分词技术无法很好地表示数字，比如位数过多的数字可能会被切分。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

LLaMA选择将数字切分为多个token，确保数字表示的一致性，研究人员认为，实验结果中表现出的非凡算术能力主要归功于LLaMA对数字的一致性分词。

在实验中，其他微调后的语言模型，如Bloom、OPT、GPT-NeoX和Pythia，无法与LLaMA的算术能力相匹配。

算术任务的可学习性（Learnability of Arithmetic Tasks）

之前有研究人员对使用中间监督解决复合任务（composite task）进行了理论分析，结果表明这种任务是不可学习的，但可以分解为多项式数量的简单子任务。

也就是说，不可学习的复合问题可以通过使用中间监督或逐步思维链（CoT）来学习。

在此分析基础上，研究人员首先对可学习和不可学习任务进行实验分类。

在算术计算的背景下，可学习任务通常是指那些可以成功训练模型以直接生成答案的任务，从而在预定义数量的训练epochs内实现足够高的精度。

不可学习的任务是那些即使经过广泛训练，模型也难以正确学习和生成直接答案的任务。

虽然任务可学习性变化背后的确切原因尚不完全清楚，但可以假设这与基本模式的复杂性和完成任务所需的工作记忆大小有关。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

研究人员通过在简化的合成环境中专门针对每个任务微调模型来实验检查这些任务的可学习性。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

可学习的和不可学习的任务

任务分类的结果也与人类的感知相同，通过实践，人类可以在脑海中计算两个大数字的加法和减法，无需手算的情况下，可以直接从左（最高有效数字）到右（最低有效数字）写下最终的数字答案。

不过心算解决大数乘法和除法是一项具有挑战性的任务。

还可以观察到，上述对任务的分类结果与GPT-4的性能也一致，特别是GPT-4擅长为大数加法和减法生成直接答案，当涉及到多位乘法和除法任务时，准确性会显著下降。

像GPT-4这样强大的模型无法直接解决不可学习的任务，也可能表明，即使经过广泛的训练，为这些任务生成直接答案也是极具挑战性的。

值得注意的是，对于LLaMA来说是可学习的任务可能不一定对于其他LLM来说是可学的。

此外，并非所有被归类为不可学习的任务对模型来说都是完全不可能学习到的。

例如，两位数乘两位数被认为是一项不可学习的任务，但如果训练集中包含所有可能的2位数乘法枚举数据的话，模型仍然可以通过过拟合训练集来直接生成答案。

不过整个过程需要近10个epoch才能达到90%左右的准确率。

而通过在最终答案之前插入文中提出的CoT，该模型可以在1个epoch的训练后就可以在两位数乘法中实现相当不错的精度，也与之前的研究结论一致，即中间监督的存在有助于学习过程。

加法与减法

这两个算术操作是可学习的，仅通过有监督微调，模型就表现出了准确生成直接数字答案的非凡能力。

尽管模型只是在非常有限的加法数据子集上进行了训练，但从模型在未见过的测试集上实现了近乎完美的准确率上可以看出来，模型成功地捕获了算术运算的基本模式，并且无需使用CoT

乘法

研究人员通过实验验证了n位数乘1位数的乘法是可学习的，而多位数乘法则无法学习。

为了克服这个问题，研究人员选择在生成答案之前对LLM进行微调以生成CoT，将多位数乘法分解为5个可学习的子任务：

1. 抽取（extraction），从自然语言指令中抽取算术表达式

2. 拆分（split），将两者中较小的数拆分为place值

3. 展开（expansion），基于分配性展开求和

4. 乘积（product），同时计算每个乘积

5. 逐项相加（adding term by term），将前两项相加，复制其余项，得到最终和

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

其中每个任务都是可学习的。

除法

类似地，可以通过实验观察到n位数除以1位数是可以学习的，而多位数除法是不可学习的。

研究人员利用改进慢除法的递推方程，设计了一个全新的思维链提示。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

主要思想是从被除数中减去除数的倍数，直到余数小于除数。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

数据集

文章中设计的实验为两个正整数的加法和减法，每个正整数最多包含16位数字，并且减法运算的结果可能是负数。

为了限制生成的最大序列长度，乘法的结果为12位以内的正整数；两个正整数的除法中，被除数小于12位，商值6位数以内。

研究人员使用Python脚本合成了一个数据集，生成了大约100万个问答对，答案包含提出的CoT以及最终的数字输出，所有数字都是随机生成的，可以保证重复实例的概率非常低，不过小数字可能会被多次采样。

微调

为了使该模型能够基于指令解决算术问题，并促进自然语言问答，研究人员使用ChatGPT生成了数百个指令模板。

在指令调整过程中，从训练集中为每个算术输入随机选择一个模板，并微调LLaMA-7B，类似于Alpaca中使用的方法。

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

Goat-7B可以在24GB VRAM GPU上使用LoRA进行微调，在A100 GPU上仅花费大约1.5小时即可完成10万样本的微调，并实现近乎完美的精度。

实验结果

比较Goat和GPT-4在大量乘法和除法方面的性能似乎不公平，因为GPT-4会直接生成答案，而Goat则依赖于设计的思维链，所以在GPT-4评估时还在每个提示的结尾加入「Solve it step by step」

算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

不过可以观察到，虽然GPT-4在某些情况下，长乘法和除法的中间步骤错了，但最终答案仍然是正确的，也就意味着GPT-4并没有利用思维链的中间监督来提高最终输出。

最终从GPT-4的解决方案中确定了以下3个常见错误：

1. 对应数字的对齐

2. 重复数字

3. n位数乘以1位数的中间结果错误

从实验结果中可以看插到，GPT-4在8D+8D和16D+16D任务上表现相当好，但在大多数16D+8D任务上的计算结果都是错误的，尽管直观上来看，16D+8D应该比16D+16D相对容易。

虽然造成这种情况的确切原因尚不清楚，但一个可能的因素可能是GPT-4不一致的数字分词过程，使得两个数字之间很难对齐.

今天关于《算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于模型,语言的内容请关注golang学习网公众号！

模型语言

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

3499美元，苹果发布VR/MR头显Vision Pro，2024年开卖

3499美元，苹果发布VR/MR头显Vision Pro，2024年开卖

上一篇: 3499美元，苹果发布VR/MR头显Vision Pro，2024年开卖

《街头霸王 6》PC 版 VR Mod 上线，让你身临其境观看激烈格斗

下一篇: 《街头霸王 6》PC 版 VR Mod 上线，让你身临其境观看激烈格斗

查看更多

最新文章

科技周边 · 人工智能 | 4天前 | 人工智能 · rag · AI应用 · 知识库 · 向量检索 · 故障复盘 · 人工智能检索增强生成 RAG 向量检索证据门禁评测样本 AI应用复盘

RAG 应用答错怎么复盘：检索命中、证据门禁和评测样本怎么补

468浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · ai agent · AI应用 · 工具调用 · 权限边界 · 审计链路 · 人工智能权限控制 AI Agent 工具调用审批链路审计回放上线指标

AI Agent 工具调用怎么落地：权限闸门、审批链路和上线观察指标

343浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427浏览收藏
科技周边 · 人工智能 | 1星期前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 3星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

4491次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

4175次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

4137次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

4365次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

4313次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码