当前位置:首页 > 文章列表 > Golang > Go问答 > 如何处理任意尺寸的文件?

如何处理任意尺寸的文件?

来源:stackoverflow 2024-03-15 16:55:26 0浏览 收藏

对于处理具有可变重复字段的文本文件,一种有效的解析方法是采用“分而治之”策略。首先,将文件建模为一组具有固定字段的记录,并确定这些字段的类型和名称。其次,设计一个解析函数的接口,考虑输入源、输出格式和处理约束。最后,逐步实现解析器,逐行读取输入并根据行的内容采取适当的操作,例如创建新记录、更新现有记录或发出已解析的记录。

问题内容

我有一个文本文件,我想用如下记录来解析它:

===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25

如您所见,此类文本文件中的 fields 是固定的,但其中一些重复任意次数。记录由固定长度 ==== 分隔符分隔。

我该如何编写这种问题的解析逻辑?我想使用 switch 因为它读取行的开头,但处理多个重复字段的逻辑让我感到困惑。


解决方案


解决此类问题的一个好方法是“分而治之”。也就是说,将整体问题划分为更易于管理的较小的子问题,然后单独解决每个子问题。如果您计划得当,那么当您完成每个子问题时,您应该已经解决了整个问题。

首先考虑建模。该文档似乎包含一个记录列表,这些记录应该被称为什么?记录应包含哪些命名字段以及它们应具有哪些类型?你会如何在 go 中惯用地表示它们?例如,您可能决定将每个记录称为 person,其字段如下:

type person struct {
    name        string
    credentials []string
    age         int
}

接下来,考虑解析函数的接口(签名)应该是什么样子。它应该散发出一群人吗?它是否应该使用访问者模式并在解析后立即发出一个人?应该有哪些约束来驱动答案?内存或计算时间限制重要吗?解析器的用户是否想要对解析工作进行任何控制,例如取消?他们是否需要元数据,例如文档中包含的记录总数?输入是否始终来自文件或字符串,也许来自 http 请求或网络套接字?这些选择将如何推动您的设计?

func parsepeople(string) ([]person, error) // ?
func parsepeople(io.reader) ([]person, error) // ?
func parsepeople(io.reader, func visitor(person) bool) error // ?

最后,您可以实现解析器来实现您决定的接口。这里一个简单的方法是逐行读取输入文件并根据该行的内容采取行动。例如(伪代码):

foreach line = inputfile.line
  if line is a separator
    emit or store the last parsed person, if present
    create a new person to store parsed fields
  else if line is a data field
    parse the data
    update the person with the parsed data
  end
end
return the parsed records or final record, if emitting

上面的每一行伪代码都代表一个子问题,它应该比整个问题更容易解决。

编辑:添加解释为什么我只是发布一个程序作为答案。

我提出了一个非常直接的实现来解析您在问题中给出的文本。您接受了 maerics 的答案,那就可以了。不过,我想在他的回答中添加一些反驳论点。基本上,该答案中的伪代码是我答案中代码的不可编译版本,因此我们同意此问题的解决方案。

我不同意的是过度工程的说法。我每天都必须处理由过度思考者编写的代码。我强烈建议您不要考虑模式、记忆和时间限制,或者将来谁可能想要从中得到什么。

访客模式?这几乎只在解析编程语言时有用,不要尝试为它构建一个用例来解决这个问题。访问者模式用于遍历其中包含不同类型事物的树。这里我们有一个列表,而不是一棵树,其中的内容都是相同的。

内存和时间限制?你用这个解析 5 gb 的文本吗?那么这可能是一个真正令人担忧的问题。但即使你这样做,也一定要先写最简单的东西。就足够了。在我的职业生涯中,我每年最多只需要使用简单数组以外的东西或应用复杂的算法。尽管如此,我仍然看到到处都是毫无理由地使用复杂数据结构和算法的代码。这使更改变得复杂,容易出错,有时最终会让事情变得更慢!不要使用可观察列表抽象,每当其内容发生变化时通知所有观察者 - 但是等等,让我们添加一个更新锁和解锁,以便我们可以控制何时不通知每个人......不!不要走那条路。使用一片。做你的逻辑。让所有内容从上到下都易于阅读。我不想从 a 跳到 b 再到 c,追逐接口,跟随 getter 最终找到的不是一个具体的数据类型,而是另一个接口。这不是要走的路。

这些就是我的代码不导出任何内容的原因,它是一个独立的、可运行的示例,是针对您的具体问题的具体解决方案。你可以阅读它,很容易理解。它没有被大量评论,因为不需要。这三个评论没有说明发生了什么,而是说明为什么会发生。其他一切从代码本身就显而易见。我故意在那里留下了有关潜在错误的注释。您知道自己拥有什么样的数据,其中没有任何一行会触发此错误。不要编写代码来处理不可能发生的事情。如果将来有人在冒号后添加一行没有文本的行(记住,没有人会这样做,不用担心),这会引发恐慌,将您指向这一行,您添加另一个 if 或其他内容,你完成了。这段代码比一个试图处理各种不同的、不存在的输入变体的程序更能证明未来。

我想强调的要点是:只写解决手头问题所必需的内容。除此之外的一切都会使您的程序难以阅读和更改,它将未经测试且不必要。

话虽如此,这是我原来的答案:

https://play.golang.org/p/T6c51jSM5nr

package main

import (
    "fmt"
    "strconv"
    "strings"
)

func main() {
    type item struct {
        name       string
        educations []string
        age        int
    }
    var items []item

    var current item
    finishItem := func() {
        if current.name != "" { // handle the first ever separator
            items = append(items, current)
        }
        current = item{}
    }

    lines := strings.Split(code, "\n")
    for _, line := range lines {
        if line == separator {
            finishItem()
        } else {
            colon := strings.Index(line, ":")
            if colon != -1 {
                id := line[:colon]
                value := line[colon+2:] // note potential bug if text has nothing after ':'
                switch id {
                case "name":
                    current.name = value
                case "Education":
                    current.educations = append(current.educations, value)
                case "Age":
                    age, err := strconv.Atoi(value)
                    if err == nil {
                        current.age = age
                    }
                }
            }
        }
    }
    finishItem() // in case there was no separator at the end

    for _, item := range items {
        fmt.Printf("%s, %d years old, has educations:\n", item.name, item.age)
        for _, e := range item.educations {
            fmt.Printf("\t%s\n", e)
        }
    }
}

const separator = "==================="

const code = `===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25`

今天关于《如何处理任意尺寸的文件?》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
C语言中的go是一个保留字吗?C语言中的go是一个保留字吗?
上一篇
C语言中的go是一个保留字吗?
在Go中如何迭代循环并打印每三个元素
下一篇
在Go中如何迭代循环并打印每三个元素
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    100次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    92次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    110次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    102次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    103次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码