当前位置:首页 > 文章列表 > Golang > Go问答 > 为何 Rust 的 --release 构建速度比 Go 慢?

为何 Rust 的 --release 构建速度比 Go 慢?

来源:stackoverflow 2024-02-06 17:36:22 0浏览 收藏

有志者,事竟成!如果你在学习Golang,那么本文《为何 Rust 的 --release 构建速度比 Go 慢?》,就很适合你!文章讲解的知识点主要包括,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~

问题内容

我正在尝试了解 rust 的并发性和并行计算,并编写了一个小脚本,该脚本迭代向量的向量,就像它是图像的像素一样。因为一开始我试图看看 iterpar_iter 相比要快多少,所以我加入了一个基本计时器 - 这可能不是非常准确。然而,我得到了疯狂的高数字。因此,我想我应该在 go 上编写一段类似的代码,以实现轻松并发,并且性能快约 585%

rust 已使用 --release 进行测试

我也尝试过使用本机线程池,但结果是相同的。看看我使用了多少线程,我也搞了一下,但没有成功。

我做错了什么? (不要介意创建随机值填充向量向量的绝对不高效的方法)

rust 代码(~140ms)

use rand::rng;
use std::time::instant;
use rayon::prelude::*;

fn normalise(value: u16, min: u16, max: u16) -> f32 {
    (value - min) as f32 / (max - min) as f32
}

fn main() {
    let pixel_size = 9_000_000;
    let fake_image: vec> = (0..pixel_size).map(|_| {
        (0..4).map(|_| {
            rand::thread_rng().gen_range(0..=u16::max)
        }).collect()
    }).collect();

    // time starts now.
    let now = instant::now();

    let chunk_size = 300_000;

    let _normalised_image: vec>> = fake_image.par_chunks(chunk_size).map(|chunk| {
        let normalised_chunk: vec> = chunk.iter().map(|i| {
            let r = normalise(i[0], 0, u16::max);
            let g = normalise(i[1], 0, u16::max);
            let b = normalise(i[2], 0, u16::max);
            let a = normalise(i[3], 0, u16::max);
            
            vec![r, g, b, a]
        }).collect();

        normalised_chunk
    }).collect();

    // timer ends.
    let elapsed = now.elapsed();
    println!("time elapsed: {:.2?}", elapsed);
}

执行代码(~24ms)

package main

import (
    "fmt"
    "math/rand"
    "sync"
    "time"
)

func normalise(value uint16, min uint16, max uint16) float32 {
    return float32(value-min) / float32(max-min)
}

func main() {
    const pixelSize = 9000000
    var fakeImage [][]uint16

    // Create a new random number generator
    src := rand.NewSource(time.Now().UnixNano())
    rng := rand.New(src)

    for i := 0; i < pixelSize; i++ {
        var pixel []uint16
        for j := 0; j < 4; j++ {
            pixel = append(pixel, uint16(rng.Intn(1<<16)))
        }
        fakeImage = append(fakeImage, pixel)
    }

    normalised_image := make([][4]float32, pixelSize)
    var wg sync.WaitGroup

    // Time starts now
    now := time.Now()
    chunkSize := 300_000
    numChunks := pixelSize / chunkSize
    if pixelSize%chunkSize != 0 {
        numChunks++
    }

    for i := 0; i < numChunks; i++ {
        wg.Add(1)

        go func(i int) {
            // Loop through the pixels in the chunk
            for j := i * chunkSize; j < (i+1)*chunkSize && j < pixelSize; j++ {
                // Normalise the pixel values
                _r := normalise(fakeImage[j][0], 0, ^uint16(0))
                _g := normalise(fakeImage[j][1], 0, ^uint16(0))
                _b := normalise(fakeImage[j][2], 0, ^uint16(0))
                _a := normalise(fakeImage[j][3], 0, ^uint16(0))

                // Set the pixel values
                normalised_image[j][0] = _r
                normalised_image[j][1] = _g
                normalised_image[j][2] = _b
                normalised_image[j][3] = _a
            }

            wg.Done()
        }(i)
    }

    wg.Wait()

    elapsed := time.Since(now)
    fmt.Println("Time taken:", elapsed)
}

正确答案


加快 rust 代码速度最重要的初始更改是使用正确的类型。在 go 中,您使用 [4]float32 来表示 rbga 四元组,而在 rust 中,您使用 vec。用于性能的正确类型是 [f32; 4],这是一个已知恰好包含 4 个浮点数的数组。已知大小的数组不需要进行堆分配,而 vec 始终进行堆分配。这会极大地提高您的性能 - 在我的机器上,这是 8 倍的差异。

原始片段:

    let fake_image: vec> = (0..pixel_size).map(|_| {
        (0..4).map(|_| {
            rand::thread_rng().gen_range(0..=u16::max)
        }).collect()
    }).collect();

... 

    let _normalised_image: vec>> = fake_image.par_chunks(chunk_size).map(|chunk| {
        let normalised_chunk: vec> = chunk.iter().map(|i| {
            let r = normalise(i[0], 0, u16::max);
            let g = normalise(i[1], 0, u16::max);
            let b = normalise(i[2], 0, u16::max);
            let a = normalise(i[3], 0, u16::max);
            
            vec![r, g, b, a]
        }).collect();

        normalised_chunk
    }).collect();

新片段:

    let fake_image: vec<[u16; 4]> = (0..pixel_size).map(|_| {
    let mut result: [u16; 4] = default::default();
    result.fill_with(|| rand::thread_rng().gen_range(0..=u16::max));
    result
    }).collect();

...

    let _normalised_image: vec> = fake_image.par_chunks(chunk_size).map(|chunk| {
        let normalised_chunk: vec<[f32; 4]> = chunk.iter().map(|i| {
            let r = normalise(i[0], 0, u16::max);
            let g = normalise(i[1], 0, u16::max);
            let b = normalise(i[2], 0, u16::max);
            let a = normalise(i[3], 0, u16::max);
            
            [r, g, b, a]
        }).collect();

        normalised_chunk
    }).collect();

在我的机器上,这导致大约 7.7 倍的加速,使 rust 和 go 大致持平。为每个四元组进行堆分配的开销极大地减慢了 rust 的速度,并淹没了其他所有内容;消除这一点可以让 rust 和 go 处于更平衡的地位。

其次,您的 go 代码中有一个小错误。在 rust 代码中,您计算​​归一化的 rgba,而在 go 代码中,您仅计算 _r_g_bzqbendczq b.我的机器上没有安装 go,但我想这让 go 比 rust 具有轻微的不公平优势,因为你所做的工作更少。

第三,你在 rust 和 go 中仍然没有做同样的事情。在 rust 中,您将原始图像分割成块,并为每个块生成一个 vec<[f32; 4]>。这意味着内存中仍然有一堆块,稍后您必须将它们组合成单个最终图像。在 go 中,您可以分割原始块,并将每个块写入一个公共数组中。我们可以进一步重写您的 rust 代码以完美模仿 go 代码。这是 rust 中的样子:

let _normalized_image: vec<[f32; 4]> = {
    let mut destination = vec![[0 as f32; 4]; pixel_size];
    
    fake_image
        .par_chunks(chunk_size)
        // the "zip" function allows us to iterate over a chunk of the input 
        // array together with a chunk of the destination array.
        .zip(destination.par_chunks_mut(chunk_size))
        .for_each(|(i_chunk, d_chunk)| {
        // sanity check: the chunks should be of equal length.
        assert!(i_chunk.len() == d_chunk.len());
        for (i, d) in i_chunk.iter().zip(d_chunk) {
            let r = normalise(i[0], 0, u16::max);
            let g = normalise(i[1], 0, u16::max);
            let b = normalise(i[2], 0, u16::max);
            let a = normalise(i[3], 0, u16::max);
            
            *d = [r, g, b, a];

            // alternately, we could do the following loop:
            // for j in 0..4 {
            //  d[j] = normalise(i[j], 0, u16::max);
            // }
        }
    });
    destination
};

现在,您的 rust 代码和 go 代码确实在做同样的事情。我怀疑您会发现 rust 代码稍微快一些。

最后,如果您在现实生活中这样做,您应该尝试的第一件事是使用 map,如下所示:

    let _normalized_image = fake_image.par_iter().map(|&[r, b, g, a]| {
    [ normalise(r, 0, u16::max),
      normalise(b, 0, u16::max),
      normalise(g, 0, u16::max),
      normalise(a, 0, u16::max),
      ]
    }).collect::>();

这与在我的机器上手动分块一样快。

use rand::Rng;
use std::time::Instant;
use rayon::prelude::*;

fn normalise(value: u16, min: u16, max: u16) -> f32 {
    (value - min) as f32 / (max - min) as f32
}

type PixelU16 = (u16, u16, u16, u16);
type PixelF32 = (f32, f32, f32, f32);

fn main() {
    let pixel_size = 9_000_000;
    let fake_image: Vec = (0..pixel_size).map(|_| {
        let mut rng =
            rand::thread_rng();
        (rng.gen_range(0..=u16::MAX), rng.gen_range(0..=u16::MAX), rng.gen_range(0..=u16::MAX), rng.gen_range(0..=u16::MAX))
    }).collect();

    // Time starts now.
    let now = Instant::now();

    let chunk_size = 300_000;

    let _normalised_image: Vec> = fake_image.par_chunks(chunk_size).map(|chunk| {
        let normalised_chunk: Vec = chunk.iter().map(|i| {
            let r = normalise(i.0, 0, u16::MAX);
            let g = normalise(i.1, 0, u16::MAX);
            let b = normalise(i.2, 0, u16::MAX);
            let a = normalise(i.3, 0, u16::MAX);

            (r, g, b, a)
        }).collect::>();

        normalised_chunk
    }).collect();

    // Timer ends.
    let elapsed = now.elapsed();
    println!("Time elapsed: {:.2?}", elapsed);
}

我已将使用数组切换为元组,并且该解决方案已经比您在我的计算机上提供的解决方案快了 10 倍。通过削减 vec 并使用 arc>> 或某些 mpsc 通道(通过减少堆分配量)甚至可以提高速度。

到这里,我们也就讲完了《为何 Rust 的 --release 构建速度比 Go 慢?》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于的知识点!

版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
提高 Go 1.20 中编译时的严格一致性提高 Go 1.20 中编译时的严格一致性
上一篇
提高 Go 1.20 中编译时的严格一致性
实现用户身份验证的 GoLang SSH 服务器
下一篇
实现用户身份验证的 GoLang SSH 服务器
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    11次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    11次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    41次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    38次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    35次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码