当前位置:首页 > 文章列表 > Golang > Go问答 > 如何处理带有 UTF-8 BOM 的 JSON 字符串?

如何处理带有 UTF-8 BOM 的 JSON 字符串?

来源:stackoverflow 2024-03-20 21:00:36 0浏览 收藏

在处理包含 UTF-8 字节顺序标记 (BOM) 的 JSON 字符串时,Go 中的 `json.unmarshal` 函数可能会遇到问题。BOM 由三个字节组成,即 0xEF、0xBB 和 0xBF,它表示文件已使用 UTF-8 编码。 为了解决此问题,建议在 Go 中编写代码来检测和删除传入 JSON 字符串中的 BOM,从而使 `json.unmarshal` 函数能够正确解码数据。此外,应避免在生成 JSON 字符串时使用 BOM,因为它们在 UTF-8 中不必要且可能会导致兼容性问题。

问题内容

所以,我已经解决了我遇到的问题。这与我是否在 c# 客户端的 streamwriter 上使用编码有关,但我想知道如何处理这些额外的 3 个字节。

这是一个用 c# 编写的客户端和一个用 go 编写的服务器。 为什么选择 c#? 稍后会有用于云内容的 unity 应用程序。 为什么选择?我只是想使用它。而且我的服务器是 linux,go 很容易进行 x 编译。

问题是从我的 c# 客户端发送的数据在前面附加了 3 个额外字节,这与 go 的 json.unmarshal 函数在该数据到达服务器后直接将其输入相冲突。

这是离开 c# 客户端的 json 格式字符串

{"channel":0, "data": {"name":"仓鼠袋熊","uuid":"e91ccc23-7e80-4189-958e-9b778dce1146","type":"无人机"}}\n

这是在 c# 客户端中使用 utf8 配置的流编写器之前的字节数组。

_swriter = new streamwriter(_tstream, system.text.encoding.utf8, 8192);

长度:108

123 34 99 104 97 110 110 101 108 34 58 48 44 32 34 100 97 116 97 34 58 32 123 34 110 97 109 101 34 58 34 72 97 115 116 121 32 87 111 109 98 97 116 34 44 34 117 117 105 100 34 58 34 101 57 49 99 99 99 50 51 45 55 101 56 48 45 52 49 56 57 45 57 53 56 101 45 57 98 55 55 56 100 99 101 49 49 52 54 34 44 34 116 121 112 101 34 58 34 68 114 111 110 101 34 125 125 10

当它到达我的 go 服务器时,它看起来像这样:

长度:111

[239 187 191 123 34 99 104 97 110 110 101 108 34 58 48 44 32 34 100 97 116 97 34 58 32 123 34 110 97 109 101 34 58 34 72 97 115 116 121 32 87 111 109 98 97 116 34 44 34 117 117 105 100 34 58 34 50 99 57 49 48 97 99 98 45 53 101 101 102 45 52 98 56 101 45 56 52 50 54 45 54 49 102 100 100 99 99 51 101 51 55 100 34 44 34 116 121 112 101 34 58 34 68 114 111 110 101 34 125 125 10]

根据我的快速研究,前面添加的这 3 个额外字节与 utf8 的字节顺序有关。这很好,但它会干扰我将此 json 字节数组解组到映射中的能力。

func handlerequest (conn net.conn) {

  for {
    data, err := bufio.newreader(conn).readbytes('\n');
    if err != nil {
      fmt.println("client disconnect")
      conn.close()
      return
    }

    var mappeddata map[string]interface{}
    err = json.unmarshal(data, &mappeddata)
    if err != nil {
      fmt.println("err:", err)
      continue
    }

  // ...
  }
}

err: invalid character 'ï' looking for beginning of value

go 中的 json.unmarshal 函数不喜欢该字节数组。起初我的解决方法是只切掉前 3 个字节。但是,当我开始添加其 tcp 输出未添加这 3 个字节的 go 客户端时,这会导致问题。

明显的解决方法是在 c# 客户端上的 streamwriter 中不使用 utf8。

// networkmanager.cs

_tcpconn = new tcpconnection(_ipaddress, _port, onconnectionfailure);

if (_tcpconn.setupsocket()) {

var data = "{\"channel\":0, \"data\": {" +
  "\"name\":" + "\"" + _clientname + "\"," +
  "\"uuid\":" + "\"" + _uuid + "\"," +
  "\"type\":" + "\"drone\"" +
"}}" + "\n";

_tcpconn.writesocket(data);
// TCPConnection.cs

public bool SetupSocket () {
  try {
    _socket = new TcpClient(_conHost, _conPort);

    _tStream = _socket.GetStream();
    // _sWriter = new StreamWriter(_tStream, System.Text.Encoding.UTF8, 8192);
    _sWriter = new StreamWriter(_tStream); // Fixed my problem
    _sReader = new StreamReader(_tStream);
  }
  catch (Exception e) {
    throw new Exception("Socket error:" + e.Message);
    return false;
  }
  _socketReady = true;
  return true;
}

public void WriteSocket (string theLine) {
  if (!_socketReady)
  return;

  try {
    _sWriter.Write(theLine);
    _sWriter.Flush();
  }
  catch {
    _socketReady = false;
    _onConnectionFailure();
  }
}

现在我想知道 go 是否有可以正确解码 utf8 字节数组的东西,或者可以正确检测这些额外字节(或任何额外的编码字节)的东西,并为我提供 json.unmarshal 函数想要的原始 json。我试图让我的 stream writer 设置具有多功能性,但我还不确定是否需要 utf8 编码的内容或优点是什么。


解决方案


UTF-8 具有明确定义的字节顺序。没有大端 UTF-8 与小端 UTF-8 之类的东西;只有UTF-8。这意味着 UTF-8 中的 byte order marker 或 BOM 毫无意义。一些软件认为这是有意义的:它将数据文件标记为以 UTF-8 存储(与 UTF-16-LE 或 UTF-16-BE 相比,每个文件都以两个字节 0xFF 和 0xFE 开头,但顺序不同)如果该 UTF-16-xx 文件具有 BOM)。只要您同意此类软件是错误的,就不要使用它,或者以不符合此初始 BOM 的方式使用它。

Jim B noted 所示,生成 JSON 文本的系统不得在其输出的前面嵌入 UTF-8 化的 BOM(以三个字节 0xEF、0xBB、0xBF 形式出现)。但是,它 may accept 并忽略流开头的 BOM。要在 Go 中执行此操作,请检查传入的流数据并删除初始 BOM(如果存在),将其余数据作为 JSON 字节传递。但是,您可能最好让 C# 代码生成允许的输出,而不是花哨地设计 Go 代码以允许禁止的输入。

理论要掌握,实操不能落!以上关于《如何处理带有 UTF-8 BOM 的 JSON 字符串?》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
Golang 中的 Mongo DB 驱动程序进行查询Golang 中的 Mongo DB 驱动程序进行查询
上一篇
Golang 中的 Mongo DB 驱动程序进行查询
避免问题的发生:正确设置PHP时区配置
下一篇
避免问题的发生:正确设置PHP时区配置
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    23次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    23次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    25次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码