如何处理带有 UTF-8 BOM 的 JSON 字符串?
在处理包含 UTF-8 字节顺序标记 (BOM) 的 JSON 字符串时,Go 中的 `json.unmarshal` 函数可能会遇到问题。BOM 由三个字节组成,即 0xEF、0xBB 和 0xBF,它表示文件已使用 UTF-8 编码。 为了解决此问题,建议在 Go 中编写代码来检测和删除传入 JSON 字符串中的 BOM,从而使 `json.unmarshal` 函数能够正确解码数据。此外,应避免在生成 JSON 字符串时使用 BOM,因为它们在 UTF-8 中不必要且可能会导致兼容性问题。
所以,我已经解决了我遇到的问题。这与我是否在 c# 客户端的 streamwriter 上使用编码有关,但我想知道如何处理这些额外的 3 个字节。
这是一个用 c# 编写的客户端和一个用 go 编写的服务器。 为什么选择 c#? 稍后会有用于云内容的 unity 应用程序。 为什么选择?我只是想使用它。而且我的服务器是 linux,go 很容易进行 x 编译。
问题是从我的 c# 客户端发送的数据在前面附加了 3 个额外字节,这与 go 的 json.unmarshal 函数在该数据到达服务器后直接将其输入相冲突。
这是离开 c# 客户端的 json 格式字符串
{"channel":0, "data": {"name":"仓鼠袋熊","uuid":"e91ccc23-7e80-4189-958e-9b778dce1146","type":"无人机"}}\n
这是在 c# 客户端中使用 utf8 配置的流编写器之前的字节数组。
_swriter = new streamwriter(_tstream, system.text.encoding.utf8, 8192);
长度:108
123 34 99 104 97 110 110 101 108 34 58 48 44 32 34 100 97 116 97 34 58 32 123 34 110 97 109 101 34 58 34 72 97 115 116 121 32 87 111 109 98 97 116 34 44 34 117 117 105 100 34 58 34 101 57 49 99 99 99 50 51 45 55 101 56 48 45 52 49 56 57 45 57 53 56 101 45 57 98 55 55 56 100 99 101 49 49 52 54 34 44 34 116 121 112 101 34 58 34 68 114 111 110 101 34 125 125 10
当它到达我的 go 服务器时,它看起来像这样:
长度:111
[239 187 191 123 34 99 104 97 110 110 101 108 34 58 48 44 32 34 100 97 116 97 34 58 32 123 34 110 97 109 101 34 58 34 72 97 115 116 121 32 87 111 109 98 97 116 34 44 34 117 117 105 100 34 58 34 50 99 57 49 48 97 99 98 45 53 101 101 102 45 52 98 56 101 45 56 52 50 54 45 54 49 102 100 100 99 99 51 101 51 55 100 34 44 34 116 121 112 101 34 58 34 68 114 111 110 101 34 125 125 10]
根据我的快速研究,前面添加的这 3 个额外字节与 utf8 的字节顺序有关。这很好,但它会干扰我将此 json 字节数组解组到映射中的能力。
func handlerequest (conn net.conn) {
for {
data, err := bufio.newreader(conn).readbytes('\n');
if err != nil {
fmt.println("client disconnect")
conn.close()
return
}
var mappeddata map[string]interface{}
err = json.unmarshal(data, &mappeddata)
if err != nil {
fmt.println("err:", err)
continue
}
// ...
}
}
err: invalid character 'ï' looking for beginning of value
go 中的 json.unmarshal 函数不喜欢该字节数组。起初我的解决方法是只切掉前 3 个字节。但是,当我开始添加其 tcp 输出未添加这 3 个字节的 go 客户端时,这会导致问题。
明显的解决方法是在 c# 客户端上的 streamwriter 中不使用 utf8。
// networkmanager.cs
_tcpconn = new tcpconnection(_ipaddress, _port, onconnectionfailure);
if (_tcpconn.setupsocket()) {
var data = "{\"channel\":0, \"data\": {" +
"\"name\":" + "\"" + _clientname + "\"," +
"\"uuid\":" + "\"" + _uuid + "\"," +
"\"type\":" + "\"drone\"" +
"}}" + "\n";
_tcpconn.writesocket(data);
// TCPConnection.cs
public bool SetupSocket () {
try {
_socket = new TcpClient(_conHost, _conPort);
_tStream = _socket.GetStream();
// _sWriter = new StreamWriter(_tStream, System.Text.Encoding.UTF8, 8192);
_sWriter = new StreamWriter(_tStream); // Fixed my problem
_sReader = new StreamReader(_tStream);
}
catch (Exception e) {
throw new Exception("Socket error:" + e.Message);
return false;
}
_socketReady = true;
return true;
}
public void WriteSocket (string theLine) {
if (!_socketReady)
return;
try {
_sWriter.Write(theLine);
_sWriter.Flush();
}
catch {
_socketReady = false;
_onConnectionFailure();
}
}
现在我想知道 go 是否有可以正确解码 utf8 字节数组的东西,或者可以正确检测这些额外字节(或任何额外的编码字节)的东西,并为我提供 json.unmarshal 函数想要的原始 json。我试图让我的 stream writer 设置具有多功能性,但我还不确定是否需要 utf8 编码的内容或优点是什么。
解决方案
UTF-8 具有明确定义的字节顺序。没有大端 UTF-8 与小端 UTF-8 之类的东西;只有UTF-8。这意味着 UTF-8 中的 byte order marker 或 BOM 毫无意义。一些软件认为这是有意义的:它将数据文件标记为以 UTF-8 存储(与 UTF-16-LE 或 UTF-16-BE 相比,每个文件都以两个字节 0xFF 和 0xFE 开头,但顺序不同)如果该 UTF-16-xx 文件具有 BOM)。只要您同意此类软件是错误的,就不要使用它,或者以不符合此初始 BOM 的方式使用它。
如 Jim B noted 所示,生成 JSON 文本的系统不得在其输出的前面嵌入 UTF-8 化的 BOM(以三个字节 0xEF、0xBB、0xBF 形式出现)。但是,它 may accept 并忽略流开头的 BOM。要在 Go 中执行此操作,请检查传入的流数据并删除初始 BOM(如果存在),将其余数据作为 JSON 字节传递。但是,您可能最好让 C# 代码生成允许的输出,而不是花哨地设计 Go 代码以允许禁止的输入。
理论要掌握,实操不能落!以上关于《如何处理带有 UTF-8 BOM 的 JSON 字符串?》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
Golang 中的 Mongo DB 驱动程序进行查询
- 上一篇
- Golang 中的 Mongo DB 驱动程序进行查询
- 下一篇
- 避免问题的发生:正确设置PHP时区配置
-
- Golang · Go问答 | 3个月前 | go atomic原理 Go并发安全
- Go语言中atomic包如何保证并发安全?
- 109浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ljg-skills
- ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
- 696次使用
-
- MELO音乐
- MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
- 704次使用
-
- UniScribe
- UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
- 674次使用
-
- 剧云
- 剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
- 840次使用
-
- 万象有声
- 万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
- 824次使用
-
- GoLand调式动态执行代码
- 2023-01-13 502浏览
-
- 用Nginx反向代理部署go写的网站。
- 2023-01-17 502浏览
-
- Golang取得代码运行时间的问题
- 2023-02-24 501浏览
-
- 请问 go 代码如何实现在代码改动后不需要Ctrl+c,然后重新 go run *.go 文件?
- 2023-01-08 501浏览
-
- 如何从同一个 io.Reader 读取多次
- 2023-04-11 501浏览

