当前位置:首页 > 文章列表 > Golang > Go问答 > 如何处理任意尺寸的文件?

如何处理任意尺寸的文件?

来源:stackoverflow 2024-03-15 16:55:26 0浏览 收藏

对于处理具有可变重复字段的文本文件,一种有效的解析方法是采用“分而治之”策略。首先,将文件建模为一组具有固定字段的记录,并确定这些字段的类型和名称。其次,设计一个解析函数的接口,考虑输入源、输出格式和处理约束。最后,逐步实现解析器,逐行读取输入并根据行的内容采取适当的操作,例如创建新记录、更新现有记录或发出已解析的记录。

问题内容

我有一个文本文件,我想用如下记录来解析它:

===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25

如您所见,此类文本文件中的 fields 是固定的,但其中一些重复任意次数。记录由固定长度 ==== 分隔符分隔。

我该如何编写这种问题的解析逻辑?我想使用 switch 因为它读取行的开头,但处理多个重复字段的逻辑让我感到困惑。


解决方案


解决此类问题的一个好方法是“分而治之”。也就是说,将整体问题划分为更易于管理的较小的子问题,然后单独解决每个子问题。如果您计划得当,那么当您完成每个子问题时,您应该已经解决了整个问题。

首先考虑建模。该文档似乎包含一个记录列表,这些记录应该被称为什么?记录应包含哪些命名字段以及它们应具有哪些类型?你会如何在 go 中惯用地表示它们?例如,您可能决定将每个记录称为 person,其字段如下:

type person struct {
    name        string
    credentials []string
    age         int
}

接下来,考虑解析函数的接口(签名)应该是什么样子。它应该散发出一群人吗?它是否应该使用访问者模式并在解析后立即发出一个人?应该有哪些约束来驱动答案?内存或计算时间限制重要吗?解析器的用户是否想要对解析工作进行任何控制,例如取消?他们是否需要元数据,例如文档中包含的记录总数?输入是否始终来自文件或字符串,也许来自 http 请求或网络套接字?这些选择将如何推动您的设计?

func parsepeople(string) ([]person, error) // ?
func parsepeople(io.reader) ([]person, error) // ?
func parsepeople(io.reader, func visitor(person) bool) error // ?

最后,您可以实现解析器来实现您决定的接口。这里一个简单的方法是逐行读取输入文件并根据该行的内容采取行动。例如(伪代码):

foreach line = inputfile.line
  if line is a separator
    emit or store the last parsed person, if present
    create a new person to store parsed fields
  else if line is a data field
    parse the data
    update the person with the parsed data
  end
end
return the parsed records or final record, if emitting

上面的每一行伪代码都代表一个子问题,它应该比整个问题更容易解决。

编辑:添加解释为什么我只是发布一个程序作为答案。

我提出了一个非常直接的实现来解析您在问题中给出的文本。您接受了 maerics 的答案,那就可以了。不过,我想在他的回答中添加一些反驳论点。基本上,该答案中的伪代码是我答案中代码的不可编译版本,因此我们同意此问题的解决方案。

我不同意的是过度工程的说法。我每天都必须处理由过度思考者编写的代码。我强烈建议您不要考虑模式、记忆和时间限制,或者将来谁可能想要从中得到什么。

访客模式?这几乎只在解析编程语言时有用,不要尝试为它构建一个用例来解决这个问题。访问者模式用于遍历其中包含不同类型事物的树。这里我们有一个列表,而不是一棵树,其中的内容都是相同的。

内存和时间限制?你用这个解析 5 gb 的文本吗?那么这可能是一个真正令人担忧的问题。但即使你这样做,也一定要先写最简单的东西。就足够了。在我的职业生涯中,我每年最多只需要使用简单数组以外的东西或应用复杂的算法。尽管如此,我仍然看到到处都是毫无理由地使用复杂数据结构和算法的代码。这使更改变得复杂,容易出错,有时最终会让事情变得更慢!不要使用可观察列表抽象,每当其内容发生变化时通知所有观察者 - 但是等等,让我们添加一个更新锁和解锁,以便我们可以控制何时不通知每个人......不!不要走那条路。使用一片。做你的逻辑。让所有内容从上到下都易于阅读。我不想从 a 跳到 b 再到 c,追逐接口,跟随 getter 最终找到的不是一个具体的数据类型,而是另一个接口。这不是要走的路。

这些就是我的代码不导出任何内容的原因,它是一个独立的、可运行的示例,是针对您的具体问题的具体解决方案。你可以阅读它,很容易理解。它没有被大量评论,因为不需要。这三个评论没有说明发生了什么,而是说明为什么会发生。其他一切从代码本身就显而易见。我故意在那里留下了有关潜在错误的注释。您知道自己拥有什么样的数据,其中没有任何一行会触发此错误。不要编写代码来处理不可能发生的事情。如果将来有人在冒号后添加一行没有文本的行(记住,没有人会这样做,不用担心),这会引发恐慌,将您指向这一行,您添加另一个 if 或其他内容,你完成了。这段代码比一个试图处理各种不同的、不存在的输入变体的程序更能证明未来。

我想强调的要点是:只写解决手头问题所必需的内容。除此之外的一切都会使您的程序难以阅读和更改,它将未经测试且不必要。

话虽如此,这是我原来的答案:

https://play.golang.org/p/T6c51jSM5nr

package main

import (
    "fmt"
    "strconv"
    "strings"
)

func main() {
    type item struct {
        name       string
        educations []string
        age        int
    }
    var items []item

    var current item
    finishItem := func() {
        if current.name != "" { // handle the first ever separator
            items = append(items, current)
        }
        current = item{}
    }

    lines := strings.Split(code, "\n")
    for _, line := range lines {
        if line == separator {
            finishItem()
        } else {
            colon := strings.Index(line, ":")
            if colon != -1 {
                id := line[:colon]
                value := line[colon+2:] // note potential bug if text has nothing after ':'
                switch id {
                case "name":
                    current.name = value
                case "Education":
                    current.educations = append(current.educations, value)
                case "Age":
                    age, err := strconv.Atoi(value)
                    if err == nil {
                        current.age = age
                    }
                }
            }
        }
    }
    finishItem() // in case there was no separator at the end

    for _, item := range items {
        fmt.Printf("%s, %d years old, has educations:\n", item.name, item.age)
        for _, e := range item.educations {
            fmt.Printf("\t%s\n", e)
        }
    }
}

const separator = "==================="

const code = `===================
name: John Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Sun Java Certified Programmer
Age: 29
===================
name: Bob Bear
Education: High School Diploma
Age: 18
===================
name: Jane Doe
Education: High School Diploma
Education: Bachelor's Degree
Education: Master's Degree
Education: AWS Certified Solution Architect Professional
Age: 25`

今天关于《如何处理任意尺寸的文件?》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
C语言中的go是一个保留字吗?C语言中的go是一个保留字吗?
上一篇
C语言中的go是一个保留字吗?
在Go中如何迭代循环并打印每三个元素
下一篇
在Go中如何迭代循环并打印每三个元素
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3180次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3391次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3420次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4526次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3800次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码