逐行处理花费的时间太长
积累知识,胜过积蓄金银!毕竟在Golang开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《逐行处理花费的时间太长》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
我正在处理一些非常大的文件,而我的简单 go 程序执行此操作需要 2 分钟才能运行,而不是等效 c 程序所需的 15 秒 (https://gist.github.com/g2boojum /5729bf75a41f537b8251af25a816c2fc)。显然我错过了一些重要的事情。 (这也是我的第一个 go 程序,所以我确信代码也很糟糕。)
我正在处理的文件是 csv 文件,如下所示,唯一的问题是它们的大小为 gb。
board;channel;timetag;energy;energyshort;flags 0;0;179096000;316;105;0x0 0;0;682168000;449;146;0x0 0;0;905440000;92;35;0x0
我本来可以使用 csv 模块,但 scanf 将字段转换为对我来说正确的类型,这看起来更简单。代码所做的就是跳过标题行,然后逐行读取文件的其余部分以创建第四个字段的直方图,然后将直方图写入末尾。
import ( "bufio" "fmt" "os" "log" ) const num_channels int = 4096 func main () { if len(os.args) != 3 { fmt.printf("usage: %s infile outfile\n", os.args[0]) os.exit(1) } fin, err := os.open(os.args[1]) if err != nil { log.fatal(err) } scanner := bufio.newscanner(fin) scanner.scan() // skip the header line fout, err := os.create(os.args[2]) if err != nil { log.fatal(err) } fmt.fprintf(fout, "channel,total\n") var total[num_channels] uint64 var tmax int64 var board, channel, energy, energyshort, flags int var timetag int64 for scanner.scan() { fmt.sscanf(scanner.text(), "%d;%d;%d;%d;%d;%x", &board, &channel, &timetag, &energy, &energyshort, &flags) total[energy] += 1 tmax = timetag } tmax_s := float64(tmax)/1e12 fmt.println("tmax = ", tmax_s) for i, val := range total { fmt.fprintf(fout, "%v,%v\n", i, float64(val)/tmax_s) } }
帮忙?谢谢!
[更新、解决方案和一些奇怪的地方]
我简化了事情,这样我就可以更好地了解更简单的代码所发生的事情。我删除了用于测试所有内容的 csv 文件的标题行,并且还创建了一个可以共享的更短版本的 csv 文件,以防有人想要测试用例(https://grantgoodyear.org/files /sample60.csv)。
这是一个简化的 c 代码:
#includeint main(int argc, char* argv[]) { file* fp = fopen(argv[1], "r"); int board, channel, energy, energyshort, flags; long timetag; double tmax = 0; while ((fscanf(fp, "%d;%d;%ld;%d;%d;%x", &board, &channel, &timetag, &energy, &energyshort, &flags)) != eof) { tmax = timetag / 1.0e12; } printf("tmax: %f\n", tmax); fclose(fp); }
处理短文件和1.5gb文件分别需要0.16秒和15秒。
$ time cmaxt sample60.csv tmax: 59.999983 real 0m0.160s user 0m0.152s sys 0m0.008s $ time cmaxt long.csv tmax: 7200.265511 real 0m14.730s user 0m14.451s sys 0m0.255s
相比之下,这是一个几乎相同的 go 程序:
import ( "io" "fmt" "os" ) func main () { fin, _ := os.open(os.args[1]) var tmax float64 var board, channel, energy, energyshort, flags int var timetag int64 for { _, err := fmt.fscanf(fin,"%d;%d;%d;%d;%d;%x", &board, &channel, &timetag, &energy, &energyshort, &flags) if err == io.eof { break } tmax = float64(timetag)/1e12 } fmt.println("tmax = ", tmax) }
运行时间非常长:
$ time gomaxt sample60.csv tmax = 59.999983344 real 0m8.044s user 0m4.677s sys 0m3.555s $ time gomaxt long.csv tmax = 7200.265510652 real 18m37.472s user 10m58.221s sys 8m28.282s
我不知道这里发生了什么,但它花费的时间比 c 版本长 50-75 倍。特别奇怪的是sys时间这么长。
我更改了 go 版本,使其更像我原来的帖子,使用 bufio.newscanner 和 fmt.sscanf 进行分割:
import ( "bufio" "fmt" "os" ) func main () { fin, _ := os.open(os.args[1]) scanner := bufio.newscanner(fin) var tmax float64 var timetag int64 var board, channel, energy, energyshort, flags int for scanner.scan() { fmt.sscanf(scanner.text(), "%d;%d;%d;%d;%d;%x", &board, &channel, &timetag, &energy, &energyshort, &flags) tmax = float64(timetag)/1e12 } fmt.println("tmax = ", tmax) }
仅此版本(?!)需要比 c 版本长 6 倍的时间:
$ time gomaxtorig sample60.csv tmax = 59.999983344 real 0m0.895s user 0m0.905s sys 0m0.038s $ time gomaxtorig long.csv tmax = 7200.265510652 real 1m53.030s user 2m1.039s sys 0m3.021s
现在让我们用字符串分割替换 fmt.sscanf:
import ( "bufio" "fmt" "os" "strconv" "strings" ) func main () { fin, _ := os.open(os.args[1]) scanner := bufio.newscanner(fin) var tmax float64 var timetag int64 for scanner.scan() { ss := strings.split(scanner.text(), ";") timetag, _ = strconv.parseint(ss[2], 10, 64) tmax = float64(timetag)/1e12 } fmt.println("tmax = ", tmax) }
正如所建议的,大部分时间实际上都花在了 fmt.sscanf 上。该版本的时间比 c 版本稍长两倍:
$ time ../gammaprocess_go/maxtsplit sample60.csv tmax = 59.999983344 real 0m0.226s user 0m0.243s sys 0m0.022s $ time ../gammaprocess_go/maxtsplit long.csv tmax = 7200.265510652 real 0m26.434s user 0m28.834s sys 0m1.683s
我确实编写了一个稍微有点 hacky 的版本,强制对 csv 文件的每一行中的其他字段进行字符串转换,只是为了看看这是否有任何区别,并且时间与上述版本基本相同。
因为我使用的是 scanner.text(),所以创建了很多字符串然后被丢弃,并且建议我使用字节而不是字符串。在我看来,这就是 csv 包的作用,所以我只是使用它:
import ( "encoding/csv" "fmt" "os" "io" "strconv" ) func main () { fin, _ := os.open(os.args[1]) r := csv.newreader(fin) r.comma = ';' var tmax float64 var timetag int64 for { rec, err := r.read() if err == io.eof { break } timetag, _ = strconv.parseint(rec[2], 10, 64) tmax = float64(timetag)/1e12 } fmt.println("tmax = ", tmax) }
时间比 scanner.text*() 的字符串分割版本稍长:
$ time gomaxtcsv sample60.csv tmax = 59.999983344 real 0m0.281s user 0m0.300s sys 0m0.019s $ time gomaxtcsv long.csv tmax = 7200.265510652 real 0m32.736s user 0m35.619s sys 0m1.702s
但可能有更多的开销,因为 csv 包所做的事情比我的简单示例要多得多,所以我想说这是不确定的。
无论如何,我可以接受 2 倍的低效率,所以我不会尝试继续优化它。非常感谢回答这个问题的人。
[另一更新]
或者直接查看 2014 年的 https://groups.google.com/g/golang-nuts/c/w08rfbchkbc/m/oirdqcbxka4j。
正确答案
sscanf 占用了大部分时间。做:
ss := strings.Split(scanner.Text(), ";") board, _ = strconv.Atoi(ss[0]) channel, _ = strconv.Atoi(ss[1]) timetag, _ = strconv.Atoi(ss[2]) energy, _ = strconv.Atoi(ss[3]) flags, _ = strconv.ParseUint(ss[4], 16, 64)
省略检查错误。
文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《逐行处理花费的时间太长》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- Xdebug 的力量,PHP 调试的秘密武器:让你事半功倍

- 下一篇
- WIN10默认输入法设置教程
-
- Golang · Go问答 | 1年前 |
- 在读取缓冲通道中的内容之前退出
- 139浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 戈兰岛的全球 GOPRIVATE 设置
- 204浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何将结构作为参数传递给 xml-rpc
- 325浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何用golang获得小数点以下两位长度?
- 477浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何通过 client-go 和 golang 检索 Kubernetes 指标
- 486浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 将多个“参数”映射到单个可变参数的习惯用法
- 439浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 将 HTTP 响应正文写入文件后出现 EOF 错误
- 357浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 结构中映射的匿名列表的“复合文字中缺少类型”
- 352浏览 收藏
-
- Golang · Go问答 | 1年前 |
- NATS Jetstream 的性能
- 101浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何将复杂的字符串输入转换为mapstring?
- 440浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 相当于GoLang中Java将Object作为方法参数传递
- 212浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何确保所有 goroutine 在没有 time.Sleep 的情况下终止?
- 143浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 7次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 7次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 6次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 13次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 14次使用
-
- GoLand调式动态执行代码
- 2023-01-13 502浏览
-
- 用Nginx反向代理部署go写的网站。
- 2023-01-17 502浏览
-
- Golang取得代码运行时间的问题
- 2023-02-24 501浏览
-
- 请问 go 代码如何实现在代码改动后不需要Ctrl+c,然后重新 go run *.go 文件?
- 2023-01-08 501浏览
-
- 如何从同一个 io.Reader 读取多次
- 2023-04-11 501浏览