当前位置:首页 > 文章列表 > Golang > Go问答 > 如何处理带有 UTF-8 BOM 的 JSON 字符串?

如何处理带有 UTF-8 BOM 的 JSON 字符串?

来源:stackoverflow 2024-03-20 21:00:36 0浏览 收藏

在处理包含 UTF-8 字节顺序标记 (BOM) 的 JSON 字符串时,Go 中的 `json.unmarshal` 函数可能会遇到问题。BOM 由三个字节组成,即 0xEF、0xBB 和 0xBF,它表示文件已使用 UTF-8 编码。 为了解决此问题,建议在 Go 中编写代码来检测和删除传入 JSON 字符串中的 BOM,从而使 `json.unmarshal` 函数能够正确解码数据。此外,应避免在生成 JSON 字符串时使用 BOM,因为它们在 UTF-8 中不必要且可能会导致兼容性问题。

问题内容

所以,我已经解决了我遇到的问题。这与我是否在 c# 客户端的 streamwriter 上使用编码有关,但我想知道如何处理这些额外的 3 个字节。

这是一个用 c# 编写的客户端和一个用 go 编写的服务器。 为什么选择 c#? 稍后会有用于云内容的 unity 应用程序。 为什么选择?我只是想使用它。而且我的服务器是 linux,go 很容易进行 x 编译。

问题是从我的 c# 客户端发送的数据在前面附加了 3 个额外字节,这与 go 的 json.unmarshal 函数在该数据到达服务器后直接将其输入相冲突。

这是离开 c# 客户端的 json 格式字符串

{"channel":0, "data": {"name":"仓鼠袋熊","uuid":"e91ccc23-7e80-4189-958e-9b778dce1146","type":"无人机"}}\n

这是在 c# 客户端中使用 utf8 配置的流编写器之前的字节数组。

_swriter = new streamwriter(_tstream, system.text.encoding.utf8, 8192);

长度:108

123 34 99 104 97 110 110 101 108 34 58 48 44 32 34 100 97 116 97 34 58 32 123 34 110 97 109 101 34 58 34 72 97 115 116 121 32 87 111 109 98 97 116 34 44 34 117 117 105 100 34 58 34 101 57 49 99 99 99 50 51 45 55 101 56 48 45 52 49 56 57 45 57 53 56 101 45 57 98 55 55 56 100 99 101 49 49 52 54 34 44 34 116 121 112 101 34 58 34 68 114 111 110 101 34 125 125 10

当它到达我的 go 服务器时,它看起来像这样:

长度:111

[239 187 191 123 34 99 104 97 110 110 101 108 34 58 48 44 32 34 100 97 116 97 34 58 32 123 34 110 97 109 101 34 58 34 72 97 115 116 121 32 87 111 109 98 97 116 34 44 34 117 117 105 100 34 58 34 50 99 57 49 48 97 99 98 45 53 101 101 102 45 52 98 56 101 45 56 52 50 54 45 54 49 102 100 100 99 99 51 101 51 55 100 34 44 34 116 121 112 101 34 58 34 68 114 111 110 101 34 125 125 10]

根据我的快速研究,前面添加的这 3 个额外字节与 utf8 的字节顺序有关。这很好,但它会干扰我将此 json 字节数组解组到映射中的能力。

func handlerequest (conn net.conn) {

  for {
    data, err := bufio.newreader(conn).readbytes('\n');
    if err != nil {
      fmt.println("client disconnect")
      conn.close()
      return
    }

    var mappeddata map[string]interface{}
    err = json.unmarshal(data, &mappeddata)
    if err != nil {
      fmt.println("err:", err)
      continue
    }

  // ...
  }
}

err: invalid character 'ï' looking for beginning of value

go 中的 json.unmarshal 函数不喜欢该字节数组。起初我的解决方法是只切掉前 3 个字节。但是,当我开始添加其 tcp 输出未添加这 3 个字节的 go 客户端时,这会导致问题。

明显的解决方法是在 c# 客户端上的 streamwriter 中不使用 utf8。

// networkmanager.cs

_tcpconn = new tcpconnection(_ipaddress, _port, onconnectionfailure);

if (_tcpconn.setupsocket()) {

var data = "{\"channel\":0, \"data\": {" +
  "\"name\":" + "\"" + _clientname + "\"," +
  "\"uuid\":" + "\"" + _uuid + "\"," +
  "\"type\":" + "\"drone\"" +
"}}" + "\n";

_tcpconn.writesocket(data);
// TCPConnection.cs

public bool SetupSocket () {
  try {
    _socket = new TcpClient(_conHost, _conPort);

    _tStream = _socket.GetStream();
    // _sWriter = new StreamWriter(_tStream, System.Text.Encoding.UTF8, 8192);
    _sWriter = new StreamWriter(_tStream); // Fixed my problem
    _sReader = new StreamReader(_tStream);
  }
  catch (Exception e) {
    throw new Exception("Socket error:" + e.Message);
    return false;
  }
  _socketReady = true;
  return true;
}

public void WriteSocket (string theLine) {
  if (!_socketReady)
  return;

  try {
    _sWriter.Write(theLine);
    _sWriter.Flush();
  }
  catch {
    _socketReady = false;
    _onConnectionFailure();
  }
}

现在我想知道 go 是否有可以正确解码 utf8 字节数组的东西,或者可以正确检测这些额外字节(或任何额外的编码字节)的东西,并为我提供 json.unmarshal 函数想要的原始 json。我试图让我的 stream writer 设置具有多功能性,但我还不确定是否需要 utf8 编码的内容或优点是什么。


解决方案


UTF-8 具有明确定义的字节顺序。没有大端 UTF-8 与小端 UTF-8 之类的东西;只有UTF-8。这意味着 UTF-8 中的 byte order marker 或 BOM 毫无意义。一些软件认为这是有意义的:它将数据文件标记为以 UTF-8 存储(与 UTF-16-LE 或 UTF-16-BE 相比,每个文件都以两个字节 0xFF 和 0xFE 开头,但顺序不同)如果该 UTF-16-xx 文件具有 BOM)。只要您同意此类软件是错误的,就不要使用它,或者以不符合此初始 BOM 的方式使用它。

Jim B noted 所示,生成 JSON 文本的系统不得在其输出的前面嵌入 UTF-8 化的 BOM(以三个字节 0xEF、0xBB、0xBF 形式出现)。但是,它 may accept 并忽略流开头的 BOM。要在 Go 中执行此操作,请检查传入的流数据并删除初始 BOM(如果存在),将其余数据作为 JSON 字节传递。但是,您可能最好让 C# 代码生成允许的输出,而不是花哨地设计 Go 代码以允许禁止的输入。

理论要掌握,实操不能落!以上关于《如何处理带有 UTF-8 BOM 的 JSON 字符串?》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
Golang 中的 Mongo DB 驱动程序进行查询Golang 中的 Mongo DB 驱动程序进行查询
上一篇
Golang 中的 Mongo DB 驱动程序进行查询
避免问题的发生:正确设置PHP时区配置
下一篇
避免问题的发生:正确设置PHP时区配置
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    94次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    100次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    105次使用
  • 稿定PPT:在线AI演示设计,高效PPT制作工具
    稿定PPT
    告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
    99次使用
  • Suno苏诺中文版:AI音乐创作平台,人人都是音乐家
    Suno苏诺中文版
    探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
    98次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码