有效的方式使用Golang从文本文件的末尾读取特定内容
来源:stackoverflow
2024-03-13 08:42:27
0浏览
收藏
golang学习网今天将给大家带来《有效的方式使用Golang从文本文件的末尾读取特定内容》,感兴趣的朋友请继续看下去吧!以下内容将会涉及到等等知识点,如果你是正在学习Golang或者已经是大佬级别了,都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家!
问题内容
我有一个很大的文本日志文件,其中包含由一些特殊字符分隔的两个部分,就像
... this is the very large part, contains lots lines. #special chars start# ... this is the small part the the end, contain several lines, but we do not know how many lines this part contains
我的要求是获取#special chars start#
之后到最后的小部分文本内容,如何用golang有效获取它?
更新: 我当前的解决方案是从文件末尾逐行获取并记住光标,如果该行包含特殊字符,则中断循环并已经获取光标
func getBackwardLine(file *os.File, start int64) (string, int64) { line := "" cursor :=start stat, _ := file.Stat() filesize := stat.Size() for { cursor-- file.Seek(cursor, io.SeekEnd) char := make([]byte, 1) file.Read(char) if cursor != -1 && (char[0] == 10 || char[0] == 13) { break } line = fmt.Sprintf("%s%s", string(char), line) if cursor == -filesize { break } } return line, cursor } func main() { file, err := os.Open("some.log") if err != nil { os.Exit(1) } defer file.Close() var cursor int64 = 0 var line = "" for { line, cursor = getBackwardLine(file, cursor) fmt.Println(line) if(strings.Contains(line, "#SPECIAL CHARS START#")) { break } } fmt.Println(cursor) //now we get the cursor for the start of special characters }
解决方案
该解决方案实现了向后读取器。
它从 b.len
字节块的末尾开始读取文件,然后向前查找分隔符,当前为块内的 \n
,然后将起始偏移量前进 sepindex
(这是为了防止出现搜索字符串被分割为两个连续读取)。在继续读取下一个块之前,它会在读取的块中查找 search
字符串,如果找到,它将返回其在文件中的起始位置并停止。
否则,它将起始偏移量减少 b.len
,然后读取下一个块。
只要您的搜索字符串位于文件的最后 40%,您就应该获得更好的性能,但是这还需要经过实战测试。
如果您的搜索字符串在最后 10% 之内,我相信您会获胜。
main.go
package main import ( "bytes" "flag" "fmt" "io" "log" "os" "time" "github.com/mattetti/filebuffer" ) func main() { var search string var sep string var verbose bool flag.stringvar(&search, "search", "findme", "search word") flag.stringvar(&sep, "sep", "\n", "separator for the search detection") flag.boolvar(&verbose, "v", false, "verbosity") flag.parse() d := make(chan struct{}) b := &bytes.buffer{} go func() { io.copy(b, os.stdin) d <- struct{}{} }() <-time.after(time.millisecond) select { case <-d: default: os.stdin.close() } readsize := 1024 if b.len() < 1 { input := fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), readsize-5), search) input += input b.writestring(input) } bsearch := []byte(search) s, err := bytessearch(b.bytes()) if err != nil { log.fatal(err) } if verbose { s.logger = log.new(os.stderr, "", log.lstdflags) } s.buffer = make([]byte, readsize) s.sep = []byte(sep) got, err := s.index(bsearch) if err != nil { log.fatal(err) } fmt.println("index ", got) got, err = s.index2(bsearch) if err != nil { log.fatal(err) } fmt.println("index ", got) } type tailsearch struct { f io.readseeker buffer []byte sep []byte start int64 logger interface { println(...interface{}) } } func filesearch(f *os.file) (ret tailsearch, err error) { ret.f = f st, err := f.stat() if err != nil { return } ret.start = st.size() ret.sep = []byte("\n") return ret, nil } func bytessearch(b []byte) (ret tailsearch, err error) { ret.f = filebuffer.new(b) ret.start = int64(len(b)) ret.sep = []byte("\n") return } func (b tailsearch) index(search []byte) (int64, error) { if b.buffer == nil { b.buffer = make([]byte, 1024, 1024) } buf := b.buffer blen := len(b.buffer) hasended := false for !hasended { if b.logger != nil { b.logger.println("a start", b.start) } offset := b.start - int64(blen) if offset < 0 { offset = 0 hasended = true } _, err := b.f.seek(offset, 0) if err != nil { hasended = true } n, err := b.f.read(buf) if b.logger != nil { b.logger.println("f n", n, "err", err) } if err != nil { hasended = true } buf = buf[:n] b.start -= int64(n) if b.logger != nil { b.logger.println("g start", b.start) } if b.start > 0 { i := bytes.index(buf, b.sep) if b.logger != nil { b.logger.println("h sep", i) } if i > -1 { b.start += int64(i) buf = buf[i:] if b.logger != nil { b.logger.println("i start", b.start) } } } if e := bytes.lastindex(buf, search); e > -1 { return b.start + int64(e), nil } } return -1, nil } func (b tailsearch) index2(search []byte) (int64, error) { if b.buffer == nil { b.buffer = make([]byte, 1024, 1024) } buf := b.buffer blen := len(b.buffer) hasended := false for !hasended { if b.logger != nil { b.logger.println("a start", b.start) } offset := b.start - int64(blen) if offset < 0 { offset = 0 hasended = true } _, err := b.f.seek(offset, 0) if err != nil { hasended = true } n, err := b.f.read(buf) if b.logger != nil { b.logger.println("f n", n, "err", err) } if err != nil { hasended = true } buf = buf[:n] b.start -= int64(n) if b.logger != nil { b.logger.println("g start", b.start) } for i := 1; i < len(search); i++ { if bytes.hasprefix(buf, search[i:]) { e := i - len(search) b.start += int64(e) buf = buf[e:] } } if b.logger != nil { b.logger.println("g start", b.start) } if e := bytes.lastindex(buf, search); e > -1 { return b.start + int64(e), nil } } return -1, nil }
main_test.go
package main import ( "bytes" "fmt" "strings" "testing" ) func testone(t *testing.t) { type test struct { search []byte readlen int input string sep []byte want int64 } search := []byte("find me") blocklen := 1024 tests := []test{ test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf("%stail content", search), want: 0, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf(""), want: -1, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: strings.repeat("nop\n", 10000), want: -1, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), blocklen-5), search), want: 1019, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), blocklen), search), want: 1024, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), blocklen+10), search), want: 1034, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), (blocklen*2)+10), search), want: 2058, }, test{ search: search, sep: []byte("\n"), readlen: blocklen, input: fmt.sprintf("%s%s%stail content", bytes.repeat([]byte(" "), (blocklen*2)+10), search, search), want: 2065, }, } for i, test := range tests { s, err := bytessearch([]byte(test.input)) if err != nil { t.fatal(err) } s.buffer = make([]byte, test.readlen) s.sep = test.sep got, err := s.index(test.search) if err != nil { t.fatal(err) } if got != test.want { t.fatalf("invalid index at %v got %v wanted %v", i, got, test.want) } got, err = s.index2(test.search) if err != nil { t.fatal(err) } if got != test.want { t.fatalf("invalid index at %v got %v wanted %v", i, got, test.want) } } }
bench_test.go
package main import ( "bytes" "fmt" "testing" "github.com/mattetti/filebuffer" ) func benchmarkindex(b *testing.b) { search := []byte("find me") blocklen := 1024 input := fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), blocklen-5), search) input += input s := tailsearch{} s.f = filebuffer.new([]byte(input)) s.buffer = make([]byte, blocklen) for i := 0; i < b.n; i++ { s.start = int64(len(input)) _, err := s.index(search) if err != nil { b.fatal(err) } } } func benchmarkindex2(b *testing.b) { search := []byte("find me") blocklen := 1024 input := fmt.sprintf("%s%stail content", bytes.repeat([]byte(" "), blocklen-5), search) input += input s := tailsearch{} s.f = filebuffer.new([]byte(input)) s.buffer = make([]byte, blocklen) for i := 0; i < b.n; i++ { s.start = int64(len(input)) _, err := s.index2(search) if err != nil { b.fatal(err) } } }
测试
$ go test -v === RUN TestOne --- PASS: TestOne (0.00s) PASS ok test/backwardsearch 0.002s $ go test -bench=. -benchmem -v === RUN TestOne --- PASS: TestOne (0.00s) goos: linux goarch: amd64 pkg: test/backwardsearch BenchmarkIndex-4 20000000 108 ns/op 0 B/op 0 allocs/op BenchmarkIndex2-4 10000000 167 ns/op 0 B/op 0 allocs/op PASS ok test/backwardsearch 4.129s $ echo "rrrrfindme" | go run main.go -v 2019/10/17 12:17:04 a start 11 2019/10/17 12:17:04 f n 11 err2019/10/17 12:17:04 g start 0 Index 4 2019/10/17 12:17:04 a start 11 2019/10/17 12:17:04 f n 11 err 2019/10/17 12:17:04 g start 0 2019/10/17 12:17:04 g start 0 Index 4 $ cat bench_test.go | go run main.go -search main Index 8 Index 8 $ go run main.go Index 2056 Index 2056
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于Golang的相关知识,也可关注golang学习网公众号。
版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除

- 上一篇
- 比亚迪U8再次称雄百万级新能源SUV市场

- 下一篇
- 使用Go命令访问自行颁发的证书
查看更多
最新文章
-
- Golang · Go问答 | 12个月前 |
- 在读取缓冲通道中的内容之前退出
- 139浏览 收藏
-
- Golang · Go问答 | 12个月前 |
- 戈兰岛的全球 GOPRIVATE 设置
- 204浏览 收藏
-
- Golang · Go问答 | 12个月前 |
- 如何将结构作为参数传递给 xml-rpc
- 325浏览 收藏
-
- Golang · Go问答 | 12个月前 |
- 如何用golang获得小数点以下两位长度?
- 477浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何通过 client-go 和 golang 检索 Kubernetes 指标
- 486浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 将多个“参数”映射到单个可变参数的习惯用法
- 439浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 将 HTTP 响应正文写入文件后出现 EOF 错误
- 357浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 结构中映射的匿名列表的“复合文字中缺少类型”
- 352浏览 收藏
-
- Golang · Go问答 | 1年前 |
- NATS Jetstream 的性能
- 101浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何将复杂的字符串输入转换为mapstring?
- 440浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 相当于GoLang中Java将Object作为方法参数传递
- 212浏览 收藏
-
- Golang · Go问答 | 1年前 |
- 如何确保所有 goroutine 在没有 time.Sleep 的情况下终止?
- 143浏览 收藏
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
查看更多
AI推荐
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 23次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 36次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 37次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 47次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 40次使用
查看更多
相关文章
-
- GoLand调式动态执行代码
- 2023-01-13 502浏览
-
- 用Nginx反向代理部署go写的网站。
- 2023-01-17 502浏览
-
- Golang取得代码运行时间的问题
- 2023-02-24 501浏览
-
- 请问 go 代码如何实现在代码改动后不需要Ctrl+c,然后重新 go run *.go 文件?
- 2023-01-08 501浏览
-
- 如何从同一个 io.Reader 读取多次
- 2023-04-11 501浏览