当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

来源：51CTO.COM 2023-08-01 20:23:02 0浏览收藏

科技周边不知道大家是否熟悉？今天我将给大家介绍《AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI》，这篇文章主要会讲到等等知识点，如果你在看完本篇文章后，有更好的建议或者发现哪里有问题，希望大家都能积极评论指出，谢谢！希望我们能一起加油进步！

几天前，DeepMind推出了AlphaDev，直接把排序算法提速70%。

这一全新AI系统，便是基于下棋高手AlphaGo打造。

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

而这项研究恰恰激起了前谷歌研究人员Justine Tunney的兴趣。

她表示，作为一名C语言库的作者，我一直在寻找机会来策划最好的东西。

一起看看Justine如何详解DeepMind排序算法。

DeepMind排序算法

DeepMind的这一发现赢得了当之无愧的关注，但不幸的是，他们本可以更好地解释AlphaDev。

接下来，从DeepMind发布的汇编代码开始，该代码将一个有三个项目的数组进行排序，从伪汇编翻译成汇编：

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

我将这个函数命名为 move37() ，是因为DeepMind的博客文章，将其与AlphaGo下的令人震惊的「第37步」进行了比较。

在2016那场人机大战中，AlphaGo下了一颗违反人类直觉的棋，一个简单的肩冲，击败了传奇围棋选手李世石。

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

所以如果运行DeepMind代码：

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

但是，在我看来这是一个错误。

我们给它的数组是{3,1,2}，但 move37() 将其排序为{2,1,3}。

DeepMind一定在欺骗我们，因为我不相信2在1之前。再来看看他们对LLVM libcxx所做的开源贡献，这有望澄清一些事情：

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

所以 move37() 实际上不是一个排序函数，而是一个排序内核，旨在用作 sort3() 函数的构建块。

如果论文和博客文章能提到这一点就好了，因为它让我在最短的时间内感到非常困惑。下面是更好的代码版本，其中包括缺失的交换（swap）操作。

为了解释为什么他们的代码很重要，让我们考虑一下这个算法在高层次上是如何工作的。当我第一次尝试自己解决 sort3() 问题时，我想到了这个：

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

然后我查看了libcxx，发现它们也在做同样的事情。上述代码的问题是，编译器并不善于优化它。

如果你尝试编译上面的代码，就会注意到你的编译器插入了大量的分支指令。这就是DeepMind试图通过LLVM贡献来改进的地方。

然而，这些技术往往不太容易理解。

我实际上喜欢天真无邪的代码，因为如果我们眯起眼睛，可以看到一种模式，与DeepMind最先进的汇编代码有相同的基本想法。

这个想法是这个问题本质上归结为3个比较和交换操作：

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

上面的代码是之前排序网络的最先进技术。现在，这就是DeepMind的新发现发挥作用的地方。他们发现有时上面的 mov 指令是不必要的。

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

如果你试着运行上面的代码，你会发现不管有没有被删除的行，它都是100%正确的。

这行代码看起来像是在做什么，但实际上什么也没做。所以我并不惊讶这样的事情会被计算机科学忽视几十年。

现在也应该更清楚AlphaDev是如何工作的。

DeepMind基本上构建了一个人工智能，它可以摆弄汇编代码，随机删除一些东西，看看它是否损坏。

我这么说并不是要否定AlphaDev的智能，因为如果我说我没有做同样的事情，那就是在撒谎。

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

上面的代码中还有两个 mov 指令，我们有可能将其删除。通过使用ARM64指令集来做到这一点，它可以为类似的问题提供更小的代码。

在这里，我们不需要任何指令来创建临时变量：

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

Arm公司最近风头正劲，我想上面的例子可以作为他们赢得名声的证据。

Arm也是目前开源领域最好的公司之一。比如，他们的MbedTLS库是我迄今为止见过的最被低估的瑰宝之一。

当我开始使用它时，我原本有这样的计划，即修改Arm的代码，使之在x86硬件上更好地工作。

我编写了所有这些精心设计的汇编优化，使其与x86上的OpenSSL达到相同的性能。

MbedTLS是简单、可移植、可破除的C代码，因此对于任何想要一个不是Perl生成的汇编的加密库的人来说，是个好消息。

我告诉了Arm公司的人我在做什么，他们并没有觉得这是颠覆性的。

我希望有一天能找到时间做DeepMind做的事情，并在上游进行修改。Arm公司的优化程序库也是多产的，它在质量上与双转换无懈可击。

它对C库对此特别感兴趣，因为几十年来，开源社区一直依靠Sun Microsystems在90年代初编写的数学函数来维持生计。

Arm找到了一种改进其中几个函数的方法，例如 pow(x,y) 。考虑到这是数学中最基本的运算之一，这是一件非常有影响力的事情。

比如，如果你在纯软件中使用Arm的解决方案在x86机器上实现 pow(x,y) ，那么它将比英特尔的原生x87指令快5倍。

很幸运，DeepMind也加入了这个游戏，所以我冒昧地把他们的libcxx diff翻译成可读的C代码。

这是我希望在论文和博客文章中看到的另一件事，因为在这段代码中，你会发现专家们用来让编译器生成无分支 MOVcc 指令的规范技巧。

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

当我看到 Sort5() 函数，我觉得自己对DeepMind研究的动机有了更好的理解。

如果你在ARM64上编译 Sort5() 函数，那么编译器将产生一个处理11个寄存器的函数。如果你在推理一个数学方程，那么你能一次在你的工作记忆中保存11个变量吗？

可能不会。这就是为什么有一个像 PartialSort3 这样优秀的内核函数如此有用的原因。

值得一提的是， Sort3() 和 Sort5() 本身就是内核，因为它们旨在成为传统排序功能的构建块。

博客文章涵盖了这个主题，但我认为分享一些实际上可移植和可执行的东西会很有用。

AlphaDev将排序算法提速70%！C语言库作者一文详解DeepMind最新AI

The above algorithm shows what the new and improved libcxx is doing. It's basically quicksort except it switches to the sorting kernels and insertion sort when recursing into smaller slices. With libcxx I think they even took the added step of schlepping in heapsort, which is kind of slow, but prevents adversaries from smashing your stack. 上面的算法显示了新的和改进的libcxx正在做什么。它基本上是快速排序，除了在递归到更小的切片时切换到排序内核和插入排序。对于libcxx，我认为他们甚至采取了在堆排序中移动的额外步骤，这有点慢，但可以防止对手破坏您的堆栈。

The main thing you may be wondering at this point is, can I use this? Do these sorting network kernels actually make sorting go faster? I would say yes and no. When all you want is to sort ascending longs, the code above will go 2x faster than the standard qsort() function provided by your C library. Except you don't need the kernels to do that. What I've determined so far is that, on my personal computer (which has an Intel Core i9-12900KS) the above function sorts longs at 255 megabytes per second. However if I comment out the sorting kernels: 在这一点上，你可能想知道的主要事情是，我可以使用这个吗？这些排序网络内核真的能让排序变得更快吗？我会说是和不是。上述代码在只对升序长排序时，比C库的标准qsort()函数快2倍。只是你不需要内核来做到这一点。到目前为止，我已经确定，在我的个人电脑上（它有一个英特尔酷睿i9-12900KS），上面的函数以每秒255兆字节的速度排序。但是如果我注释掉排序内核：

然后我的 longsort() 函数以每秒275兆字节的速度运行，通过简化算法实现了7%的性能提升。

long 的好处是它足够长，可以存储 int 键值对，能够快速对地图条目进行排序是一个有用的技巧。

上面的函数编译后只有181字节的x86-64机器代码。

由于DeepMind的 sort3() 只有42字节，我希望可以交换一些大小以获得性能优势。

因为到目前为止，我发现的下一个最佳算法是改用基数排序，速度为400 MB/s，但除了依赖于 malloc() 之外，还需要高达763字节的二进制占用空间。因此，如果能看到这些内核做得更好就好了。

这并不是说DeepMind的想法没有价值。

我认为值得注意的是，DeepMind非常慷慨，去年给了我们他们的矢量化快速排序库（当时他们被称为Google Brain），并通过这样做实现了永远无法挑战的排序优势。

Vqsor在我的电脑上以1155 MB/s的速度对长时间进行排序。

它甚至略微优于djbsor，后者是开源社区中最受欢迎的库之一，尽管它从未推广到比 int 更多的数据类型。

这两种实现实现的方式都是通过矢量化排序网络。我认为这就是排序网络技术真正闪耀的地方。

我想，如果就智能实体而言，AlphaDev不是一个蹒跚学步的孩子，它就会这样做。

当你从基本原则开始时，仅基线指令集就非常难以支持。如果我们等待，那么我认为我们可以期待在未来看到AlphaDev的伟大成就，因为它正在努力应对更强大的挑战。

我也很喜欢DeepMind让算法变得更小的事实，因为这是我不常看到的。

大小编码是我最喜欢的爱好之一。在这个博客上，我发布了一个383字节的lambda演算虚拟机和一个436字节的带有垃圾回收机制的lisp机。

我还在博客上介绍了我在cosmpolitan c库中使用的大小优化技巧。

我也喜欢DeepMind的母公司，因为几周前Google给我颁发了开源同行奖金，很高兴看到他们分享我使软件变小的热情。

很高兴看到他们用它来改进矢量化快速排序。

最后，我喜欢人工智能公司用机器语言编写代码的机器的想法。他们为什么不呢？机器的本质就是机器。

作为一个建设者，我发现这比OpenAI正在创造的未来要少得多。

他们已经建立了一个巨大的家长式机器，在零和经济中与地球上的每个建设者竞争，然后诱使世界上的寻租者通过政府监管来控制这台机器。

我不认为OpenAI承诺将所有我最喜欢做的任务（如编码）自动化是一种进步。我想要的是能够控制一台机器，这台机器能够完成我自己无法完成的事情，比如发现排序内核。这才是真正的进步。

我认为，我们能够砍掉的每一条装配线都是朝着这个梦想的积极方向迈出的一步。

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

模型研究

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

全新Horizon Worlds 114更新修复BUG并加入World Chat功能

全新Horizon Worlds 114更新修复BUG并加入World Chat功能

上一篇: 全新Horizon Worlds 114更新修复BUG并加入World Chat功能

人工智能、边缘计算、物联网和云计算如何重塑车队管理

下一篇: 人工智能、边缘计算、物联网和云计算如何重塑车队管理

查看更多

最新文章

科技周边 · 人工智能 | 4小时前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 1天前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

3161次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

2919次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2874次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

3079次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

3035次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码