当前位置：首页 > 文章列表 > Golang > Go教程 > 使用 Go 处理大型 CSV

使用 Go 处理大型 CSV

来源：dev.to 2024-12-14 11:54:35 0浏览收藏

有志者，事竟成！如果你在学习Golang，那么本文《使用 Go 处理大型 CSV》，就很适合你！文章讲解的知识点主要包括，若是你对本文感兴趣，或者是想搞懂其中某个知识点，就请你继续往下看吧~

想法是：

给定一个大型虚拟 csv（100 万行）包含客户数据样本，并按照以下目标进行处理：

从 csv 中提取数据

计算有多少数据/行

对每个城市的客户数量进行分组

按客户数量从高到低对城市进行排序

计算处理时间

客户的 csv 示例可以在此处下载 https://github.com/datablist/sample-csv-files

加载和提取数据

显然 go 有用于 csv 处理的标准库。我们不再需要第三方依赖来解决我们的问题，这很好。所以解决方案非常简单：

  // open the file to a reader interface
  c, err := os.open("../data/customers-1000000.csv")
  if err != nil {
    log.fatal(err)
  }
  defer c.close()

  // load file reader into csv reader
  // need to set fieldsperrecord to -1 to skip fields checking
  r := csv.newreader(c)
  r.fieldsperrecord = -1
  r.reuserecord = true
  records, err := r.readall()
  if err != nil {
    log.fatal(err)
  }

从给定路径打开文件
将打开的文件加载到 csv 阅读器
将所有提取的 csv 记录/行值保存到记录切片中以供以后处理

fieldsperrecord 设置为 -1，因为我想跳过行上的字段检查，因为每种格式的字段或列数可能不同

在此状态下，我们已经能够从 csv 加载和提取所有数据，并准备好进入下一个处理状态。我们还可以使用函数 len(records) 知道 csv 中有多少行。

将总客户分组到每个城市

现在我们可以迭代记录并创建包含城市名称和总客户的地图，如下所示：

["jakarta": 10, "bandung": 200, ...]

csv 行中的城市数据位于第 7 个索引，代码如下所示

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

如果城市地图不存在，则创建新地图并将客户总数设置为1。否则只需增加给定城市的总数。

现在我们的地图 m 包含城市的集合以及其中有多少客户。至此我们已经解决了每个城市有多少客户的分组问题。

对总客户数进行排序

我试图找到标准库中是否有任何函数可以对地图进行排序，但不幸的是我找不到它。排序仅适用于切片，因为我们可以根据索引位置重新排列数据顺序。所以，是的，让我们从当前的地图中切出一个切片。

// convert to slice first for sorting purposes
dc := []citydistribution{}
for k, v := range m {
  dc = append(dc, citydistribution{city: k, customercount: v})
}

现在我们如何按 customercount 从最高到最低排序？最常见的算法是使用气泡空头。虽然它不是最快的，但它可以完成这项工作。

冒泡排序是最简单的排序算法，如果相邻元素的顺序错误，它的工作原理是重复交换相邻元素。该算法不适合大型数据集，因为其平均和最坏情况时间复杂度相当高。

参考：https://www.geeksforgeeks.org/bubble-sort-algorithm/

使用我们的切片，它将循环数据并检查索引的下一个值，如果当前数据小于下一个索引，则交换它。详细算法可以在参考网站查看。

现在我们的排序过程可能是这样的

// use bubble sort
dccount := len(dc)
for i := 0; i < dccount; i++ {
  swapped := false
  for j := 0; j < dccount-i-1; j++ {
    if dc[j].customercount < dc[j+1].customercount {
      temp := dc[j]
      dc[j] = dc[j+1]
      dc[j+1] = temp
      swapped = true
    }
  }

  if !swapped {
    break
  }
}

循环结束时，最后的切片将为我们提供排序后的数据。

计算处理时间

计算处理时间非常简单，我们获取执行程序主进程之前和之后的时间戳并计算差值。在 go 中，方法应该足够简单：

func main() {
    start := time.now() // start timing for processing time
    // the main process
    // ...
    duration := time.since(start)
    fmt.println("processing time (ms): ", duration.milliseconds())
}

结果

使用命令运行程序

go run main.go

打印出来的是行数、排序数据和处理时间。像下面这样：

使用 Go 处理大型 CSV

正如 go 性能所预期的那样，它在 1 秒内处理了 100 万行 csv！

所有已完成的代码已发布在我的 github 存储库上：

https://github.com/didikz/csv-processing/tree/main/golang

经验教训

go 中的 csv 处理已经在标准库中可用，无需使用第 3 方库
处理数据非常简单。面临的挑战是找出如何对数据进行排序，因为需要手动进行

想到什么？

我认为我当前的解决方案可能可以进一步优化，因为我循环提取了 csv 的所有记录来映射，如果我们检查 readall() 源，它还有循环来根据给定的文件读取器创建切片。这样，1 百万行可以为 1 百万数据生成 2 个循环，这不太好。

我想如果我可以直接从文件读取器读取数据，它只需要 1 个循环，因为我可以直接从中创建地图。除了记录切片将在其他地方使用，但在本例中不使用。

我还没有时间弄清楚，但我也认为如果我手动完成会有一些缺点：

可能需要处理更多解析过程中的错误
我不确定它会减少多少处理时间来考虑解决方法是否值得

编码快乐！

终于介绍完啦！小伙伴们，这篇关于《使用 Go 处理大型 CSV》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布Golang相关知识，快来关注吧！

版本声明

本文转载于：dev.to 如有侵犯，请联系study_golang@163.com删除

如何用JS简化HTML字符串中的table结构？

上一篇: 如何用JS简化HTML字符串中的table结构？

下一篇: 使用 Svelte 构建动态图像网格：实现翻转卡过渡

查看更多

最新文章

Golang · Go教程 | 1星期前 | goroutine · Context · 超时控制 · Go教程 · 后端开发 · Go Goroutine context 超时控制 WithTimeout Done QueryContext

Go context 超时控制实战：从接口入口到 goroutine 回收的完整流程

166浏览收藏
Golang · Go教程 | 1星期前 | WaitGroup · channel · 并发编程 · 优雅关闭 · Go教程 · WaitGroup Channel关闭 Go channel 并发收尾 done信号

Go channel 关闭时机完整工作流：生产者收口、消费者退出和 panic 防护

165浏览收藏
Golang · Go教程 | 1星期前 | 文件处理 · defer · 资源管理 · Go教程 · Go defer 文件句柄资源释放 close

Go defer 放在循环里为什么会打开失败：从句柄上涨到及时关闭

332浏览收藏
Golang · Go教程 | 1星期前 | Context · 超时控制 · Go教程 · HTTP客户端 · 问题排查 · Go context HTTP超时客户端超时请求排查

Go HTTP 请求一直卡住怎么办：从默认客户端到超时控制一步步排查

115浏览收藏
Golang · Go教程 | 1星期前 | errgroup · go · Context · 并发编程 · SetLimit · Go 并发任务 errgroup SetLimit context取消

Go errgroup 并发任务完整流程：错误取消、SetLimit 限流和结果收集

301浏览收藏
Golang · Go教程 | 1星期前 | map · 并发安全 · RWMutex · sync.Map · Go教程 · 并发安全 RWMutex sync.Map Go map并发读写 go test race

Go map 并发读写崩溃怎么办：从复现报错到 RWMutex 修复的完整流程

272浏览收藏
Golang · Go教程 | 1星期前 | singleflight · 并发控制 · Go教程 · 缓存治理 · 接口优化 · Go 并发请求缓存击穿 singleflight 缓存回填

Go singleflight 防缓存击穿实战：相同请求只查一次数据库

114浏览收藏
Golang · Go教程 | 1星期前 | golang · 配置管理 · 热更新 · Go教程 · Go 配置热更新 fsnotify atomic.Value 运行时配置服务稳定性

Go 配置热更新实战：监听文件变化并安全替换运行时配置

458浏览收藏
Golang · Go教程 | 2星期前 | 切片 · go · 泛型 · 后端开发 · 工具函数 · Go泛型 Comparable Go教程切片去重保序去重 UniqueBy

Go 泛型切片去重实战：comparable 约束和保序去重怎么写

501浏览收藏
Golang · Go教程 | 2星期前 | golang · 错误处理 · go · 后端开发 · 实战教程 · 错误处理错误链 errors.Is errors.As 业务错误码 Go教程

Go 错误链处理实战：用 errors.Is 和 errors.As 保留根因

413浏览收藏
Golang · Go教程 | 2星期前 | 限流 · HTTP · Go教程 · 工程实践 · Go 限流令牌桶 HTTP中间件 time.Ticker

Go 令牌桶限流实战：用 time.Ticker 保护高频接口

484浏览收藏
Golang · Go教程 | 2星期前 | HTTP · Go教程 · 服务治理 · 优雅停机 · shutdown Go HTTP服务优雅停机 signal

Go HTTP 服务优雅停机实战：信号处理、摘流和超时关闭

340浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

2383次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

2194次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2148次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

2356次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

2318次使用

查看更多

Java 性能优化上线清单：从定位、改造到灰度发布

2026-06-11 860浏览
Spring Boot 压测验证：Gatling、JMeter 与性能回归门禁

2026-06-11 843浏览
Java NMT 非堆内存排查：Direct Buffer、线程栈与 Metaspace 分析

2026-06-11 826浏览
Spring Boot 容器内存优化：JVM 堆、非堆与 MaxRAMPercentage

2026-06-11 809浏览
Tomcat 连接与线程参数调优：maxThreads、acceptCount 与 KeepAlive

2026-06-11 792浏览