为何 Rust 的 --release 构建速度比 Go 慢?
有志者,事竟成!如果你在学习Golang,那么本文《为何 Rust 的 --release 构建速度比 Go 慢?》,就很适合你!文章讲解的知识点主要包括,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
我正在尝试了解 rust 的并发性和并行计算,并编写了一个小脚本,该脚本迭代向量的向量,就像它是图像的像素一样。因为一开始我试图看看 iter
与 par_iter
相比要快多少,所以我加入了一个基本计时器 - 这可能不是非常准确。然而,我得到了疯狂的高数字。因此,我想我应该在 go 上编写一段类似的代码,以实现轻松并发,并且性能快约 585%!
rust 已使用 --release 进行测试
我也尝试过使用本机线程池,但结果是相同的。看看我使用了多少线程,我也搞了一下,但没有成功。
我做错了什么? (不要介意创建随机值填充向量向量的绝对不高效的方法)
rust 代码(~140ms)
use rand::rng; use std::time::instant; use rayon::prelude::*; fn normalise(value: u16, min: u16, max: u16) -> f32 { (value - min) as f32 / (max - min) as f32 } fn main() { let pixel_size = 9_000_000; let fake_image: vec> = (0..pixel_size).map(|_| { (0..4).map(|_| { rand::thread_rng().gen_range(0..=u16::max) }).collect() }).collect(); // time starts now. let now = instant::now(); let chunk_size = 300_000; let _normalised_image: vec >> = fake_image.par_chunks(chunk_size).map(|chunk| { let normalised_chunk: vec > = chunk.iter().map(|i| { let r = normalise(i[0], 0, u16::max); let g = normalise(i[1], 0, u16::max); let b = normalise(i[2], 0, u16::max); let a = normalise(i[3], 0, u16::max); vec![r, g, b, a] }).collect(); normalised_chunk }).collect(); // timer ends. let elapsed = now.elapsed(); println!("time elapsed: {:.2?}", elapsed); }
执行代码(~24ms)
package main import ( "fmt" "math/rand" "sync" "time" ) func normalise(value uint16, min uint16, max uint16) float32 { return float32(value-min) / float32(max-min) } func main() { const pixelSize = 9000000 var fakeImage [][]uint16 // Create a new random number generator src := rand.NewSource(time.Now().UnixNano()) rng := rand.New(src) for i := 0; i < pixelSize; i++ { var pixel []uint16 for j := 0; j < 4; j++ { pixel = append(pixel, uint16(rng.Intn(1<<16))) } fakeImage = append(fakeImage, pixel) } normalised_image := make([][4]float32, pixelSize) var wg sync.WaitGroup // Time starts now now := time.Now() chunkSize := 300_000 numChunks := pixelSize / chunkSize if pixelSize%chunkSize != 0 { numChunks++ } for i := 0; i < numChunks; i++ { wg.Add(1) go func(i int) { // Loop through the pixels in the chunk for j := i * chunkSize; j < (i+1)*chunkSize && j < pixelSize; j++ { // Normalise the pixel values _r := normalise(fakeImage[j][0], 0, ^uint16(0)) _g := normalise(fakeImage[j][1], 0, ^uint16(0)) _b := normalise(fakeImage[j][2], 0, ^uint16(0)) _a := normalise(fakeImage[j][3], 0, ^uint16(0)) // Set the pixel values normalised_image[j][0] = _r normalised_image[j][1] = _g normalised_image[j][2] = _b normalised_image[j][3] = _a } wg.Done() }(i) } wg.Wait() elapsed := time.Since(now) fmt.Println("Time taken:", elapsed) }
正确答案
加快 rust 代码速度最重要的初始更改是使用正确的类型。在 go 中,您使用 [4]float32
来表示 rbga 四元组,而在 rust 中,您使用 vec
。用于性能的正确类型是 [f32; 4]
,这是一个已知恰好包含 4 个浮点数的数组。已知大小的数组不需要进行堆分配,而 vec
始终进行堆分配。这会极大地提高您的性能 - 在我的机器上,这是 8 倍的差异。
原始片段:
let fake_image: vec> = (0..pixel_size).map(|_| { (0..4).map(|_| { rand::thread_rng().gen_range(0..=u16::max) }).collect() }).collect(); ... let _normalised_image: vec >> = fake_image.par_chunks(chunk_size).map(|chunk| { let normalised_chunk: vec > = chunk.iter().map(|i| { let r = normalise(i[0], 0, u16::max); let g = normalise(i[1], 0, u16::max); let b = normalise(i[2], 0, u16::max); let a = normalise(i[3], 0, u16::max); vec![r, g, b, a] }).collect(); normalised_chunk }).collect();
新片段:
let fake_image: vec<[u16; 4]> = (0..pixel_size).map(|_| { let mut result: [u16; 4] = default::default(); result.fill_with(|| rand::thread_rng().gen_range(0..=u16::max)); result }).collect(); ... let _normalised_image: vec> = fake_image.par_chunks(chunk_size).map(|chunk| { let normalised_chunk: vec<[f32; 4]> = chunk.iter().map(|i| { let r = normalise(i[0], 0, u16::max); let g = normalise(i[1], 0, u16::max); let b = normalise(i[2], 0, u16::max); let a = normalise(i[3], 0, u16::max); [r, g, b, a] }).collect(); normalised_chunk }).collect();
在我的机器上,这导致大约 7.7 倍的加速,使 rust 和 go 大致持平。为每个四元组进行堆分配的开销极大地减慢了 rust 的速度,并淹没了其他所有内容;消除这一点可以让 rust 和 go 处于更平衡的地位。
其次,您的 go 代码中有一个小错误。在 rust 代码中,您计算归一化的 r
、g
、b
和 a
,而在 go 代码中,您仅计算 _r
、_g
和 _bzqbendczq b.我的机器上没有安装 go,但我想这让 go 比 rust 具有轻微的不公平优势,因为你所做的工作更少。
第三,你在 rust 和 go 中仍然没有做同样的事情。在 rust 中,您将原始图像分割成块,并为每个块生成一个 vec<[f32; 4]>
。这意味着内存中仍然有一堆块,稍后您必须将它们组合成单个最终图像。在 go 中,您可以分割原始块,并将每个块写入一个公共数组中。我们可以进一步重写您的 rust 代码以完美模仿 go 代码。这是 rust 中的样子:
let _normalized_image: vec<[f32; 4]> = { let mut destination = vec![[0 as f32; 4]; pixel_size]; fake_image .par_chunks(chunk_size) // the "zip" function allows us to iterate over a chunk of the input // array together with a chunk of the destination array. .zip(destination.par_chunks_mut(chunk_size)) .for_each(|(i_chunk, d_chunk)| { // sanity check: the chunks should be of equal length. assert!(i_chunk.len() == d_chunk.len()); for (i, d) in i_chunk.iter().zip(d_chunk) { let r = normalise(i[0], 0, u16::max); let g = normalise(i[1], 0, u16::max); let b = normalise(i[2], 0, u16::max); let a = normalise(i[3], 0, u16::max); *d = [r, g, b, a]; // alternately, we could do the following loop: // for j in 0..4 { // d[j] = normalise(i[j], 0, u16::max); // } } }); destination };
现在,您的 rust 代码和 go 代码确实在做同样的事情。我怀疑您会发现 rust 代码稍微快一些。
最后,如果您在现实生活中这样做,您应该尝试的第一件事是使用 map
,如下所示:
let _normalized_image = fake_image.par_iter().map(|&[r, b, g, a]| { [ normalise(r, 0, u16::max), normalise(b, 0, u16::max), normalise(g, 0, u16::max), normalise(a, 0, u16::max), ] }).collect::>();
这与在我的机器上手动分块一样快。
use rand::Rng; use std::time::Instant; use rayon::prelude::*; fn normalise(value: u16, min: u16, max: u16) -> f32 { (value - min) as f32 / (max - min) as f32 } type PixelU16 = (u16, u16, u16, u16); type PixelF32 = (f32, f32, f32, f32); fn main() { let pixel_size = 9_000_000; let fake_image: Vec= (0..pixel_size).map(|_| { let mut rng = rand::thread_rng(); (rng.gen_range(0..=u16::MAX), rng.gen_range(0..=u16::MAX), rng.gen_range(0..=u16::MAX), rng.gen_range(0..=u16::MAX)) }).collect(); // Time starts now. let now = Instant::now(); let chunk_size = 300_000; let _normalised_image: Vec > = fake_image.par_chunks(chunk_size).map(|chunk| { let normalised_chunk: Vec = chunk.iter().map(|i| { let r = normalise(i.0, 0, u16::MAX); let g = normalise(i.1, 0, u16::MAX); let b = normalise(i.2, 0, u16::MAX); let a = normalise(i.3, 0, u16::MAX); (r, g, b, a) }).collect:: >(); normalised_chunk }).collect(); // Timer ends. let elapsed = now.elapsed(); println!("Time elapsed: {:.2?}", elapsed); }
我已将使用数组切换为元组,并且该解决方案已经比您在我的计算机上提供的解决方案快了 10 倍。通过削减 vec
并使用 arc
或某些 mpsc
通道(通过减少堆分配量)甚至可以提高速度。
到这里,我们也就讲完了《为何 Rust 的 --release 构建速度比 Go 慢?》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于的知识点!

- 上一篇
- 提高 Go 1.20 中编译时的严格一致性

- 下一篇
- 实现用户身份验证的 GoLang SSH 服务器
-
- Golang · Go问答 | 1年前 |
- 在读取缓冲通道中的内容之前退出
- 139浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 戈兰岛的全球 GOPRIVATE 设置
- 204浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何将结构作为参数传递给 xml-rpc
- 325浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何用golang获得小数点以下两位长度?
- 477浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何通过 client-go 和 golang 检索 Kubernetes 指标
- 486浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 将多个“参数”映射到单个可变参数的习惯用法
- 439浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 将 HTTP 响应正文写入文件后出现 EOF 错误
- 357浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 结构中映射的匿名列表的“复合文字中缺少类型”
- 352浏览 收藏
-
- Golang · Go问答 | 1年前 |
- NATS Jetstream 的性能
- 101浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何将复杂的字符串输入转换为mapstring?
- 440浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 相当于GoLang中Java将Object作为方法参数传递
- 212浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何确保所有 goroutine 在没有 time.Sleep 的情况下终止?
- 143浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 11次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 11次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 41次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 38次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 35次使用
-
- GoLand调式动态执行代码
- 2023-01-13 502浏览
-
- 用Nginx反向代理部署go写的网站。
- 2023-01-17 502浏览
-
- Golang取得代码运行时间的问题
- 2023-02-24 501浏览
-
- 请问 go 代码如何实现在代码改动后不需要Ctrl+c,然后重新 go run *.go 文件?
- 2023-01-08 501浏览
-
- 如何从同一个 io.Reader 读取多次
- 2023-04-11 501浏览