DeepSeek R1不编程就能生成GPU内核,比熟练工程师好,惊到了英伟达
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《DeepSeek R1不编程就能生成GPU内核,比熟练工程师好,惊到了英伟达》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
英伟达利用DeepSeek-R1自动生成优化GPU内核,引发AI社区热议。这项研究利用推理时扩展技术,让DeepSeek-R1模型在推理过程中分配额外计算资源,自动生成数值正确且针对不同注意力变体的优化GPU注意力内核,无需任何显式编程。
部分评论认为此举可能“自拆护城河”,也有人担忧工作岗位被AI取代。
随着AI大模型规模扩大和能力提升,测试时扩展(TTS)或推理时扩展(ITS)技术日益重要。该技术通过在推理过程中增加计算资源,评估多种结果并选择最佳方案,从而提升模型性能。 这使得AI初步具备了类似人类分析复杂问题的能力,能够逐步解决问题并得出最终答案。
英伟达的实验中,DeepSeek-R1模型通过推理时扩展技术,解决了自动生成优化GPU注意力内核的难题。在某些情况下,其生成的结果甚至超越了经验丰富的工程师。
优化注意力内核的需求与挑战
注意力机制是LLM的关键,但其计算复杂度与输入序列长度的平方成正比。因此,需要优化GPU内核以提高效率并避免错误。 此外,注意力机制有多种变体,工程师需要针对特定任务组合使用这些变体。多模态模型则带来了更多挑战,例如需要专门的注意力机制来处理时空信息。
即使对于经验丰富的工程师,创建优化GPU内核也需要大量时间和技能。虽然DeepSeek-R1等大模型在代码生成方面潜力巨大,但其初始尝试效果并不理想,因此需要在推理时采用其他策略。
示例Prompt如下:
<code>Please write a GPU attention kernel to support relative position encodings. Implement the relative positional encoding on the fly within the kernel. The complete code should be returned, including the necessary modifications. Use the following function to compute the relative positional encoding: def relative_positional(score, b, h, q_idx, kv_idx): return score + (q_idx - kv_idx) When implementing the kernel, keep in mind that a constant scaling factor 1.44269504 should be applied to the relative positional encoding due to qk_scale = sm_scale * 1.44269504. The PyTorch reference does not need to scale the relative positional encoding, but in the GPU kernel, use: qk = qk * qk_scale + rel_pos * 1.44269504 Please provide the complete updated kernel code that incorporates these changes, ensuring that the relative positional encoding is applied efficiently within the kernel operations.</code>
大模型有时会产生错误或低效的代码。计算最佳GPU线程映射也极具挑战性。
推理时扩展生成优化GPU内核
英伟达工程师创建了一个新的工作流程,包括一个验证器和一个闭环推理的DeepSeek-R1模型。
该流程首先由手动提示初始化,DeepSeek-R1生成GPU代码,验证器进行分析并生成新的提示,如此循环迭代。 英伟达发现,15分钟内即可得到改进的注意力内核。
根据斯坦福的KernelBench基准测试,该流程可以为大部分问题生成数值正确的内核。 推理时间预算对解决率有显著影响,分配更多时间可以获得更好的结果。
这些结果表明,增加推理阶段的计算资源可以显著提升DeepSeek-R1生成优化GPU内核的性能。
今天关于《DeepSeek R1不编程就能生成GPU内核,比熟练工程师好,惊到了英伟达》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- 智新电子:预计上半年越南智新实现生产经营

- 下一篇
- Win10 22H2 可选更新KB5050081发布:附预览版19045.5440更新内容汇总
-
- 科技周边 · 人工智能 | 2分钟前 |
- 雅思口语Part1这样答!笔尖AI模拟考官教学
- 443浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 | 高合汽车 华人运通 重整 EVElectra JihadMohammad
- EVElectra大佬确认加盟高合,上月已考察上海总部!
- 143浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek大模型教程:手把手教你用百度网盘智能管理
- 211浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 办公党必看!DeepSeek+Foxmail邮件自动处理超详细教程
- 276浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 雷军:小米汽车为啥非要做大量路测?内幕曝光!
- 223浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦ai如何开启自动保存?防丢失功能详细设置教程
- 158浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 36次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 58次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 67次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 63次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 67次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览