当前位置:首页 > 文章列表 > 文章 > python教程 > Python提取JSON空格键值对技巧

Python提取JSON空格键值对技巧

2025-11-12 14:48:34 0浏览 收藏

哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《Python提取JSON空格键值对方法》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!

Python教程:从JSON字符串中提取含空格的键值对(保留完整值)

本教程旨在解决使用Python从JSON数据中提取键值对时,如何正确处理包含空格的属性名或值。通过分析`str.split()`方法的行为,我们将重点介绍如何利用其`maxsplit`参数来精确控制字符串分割,从而确保多词属性值能够完整保留,避免数据丢失,并提供优化后的简洁代码实现。

在处理从JSON数据中提取的文本行时,尤其当这些行包含非标准格式的键值对(例如,值和属性名之间有多个空格,且属性名本身也包含空格)时,常常会遇到数据解析的挑战。本教程将深入探讨如何使用Python有效地解析这类数据,确保所有信息,特别是包含空格的属性名,能够被完整地提取和保留。

问题分析:多词属性名的解析困境

假设我们从JSON数据的 payload.blob.rawLines 路径中获取到一系列字符串,这些字符串代表着数值和对应的属性名。原始数据可能存在不规则的空白字符,并且某些属性名由多个单词组成,例如 "Property1_word1 Property1_word2"。

以下是原始数据中提取出的两行示例:

"        C_1H_4   Methane                  "
"            5.00000        Property1_word1 Property1_word2                              "

在初步处理这些行时,通常会先移除首尾空白并规范化内部空白,得到如下形式的字符串列表:

trimmed = ['C_1H_4 Methane', '5.00000 Property1_word1 Property1_word2']

如果使用 e.split(' ')(不带任何参数的 split() 方法)来将这些字符串分割成键值对,会遇到以下问题:

for e in trimmed:
    print(e.split(' '))

输出结果:

['C_1H_4', 'Methane']
['5.00000', 'Property1_word1', 'Property1_word2']

可以看到,对于包含多词属性名(如 "Property1_word1 Property1_word2")的字符串,e.split(' ') 会将其分割成多个部分。例如,'5.00000 Property1_word1 Property1_word2' 被分割为 ['5.00000', 'Property1_word1', 'Property1_word2']。如果此时我们尝试通过 e.split(' ')[0] 获取值,并通过 e.split(' ')[1] 获取属性名,那么 Property1_word2 部分就会被错误地丢弃。

解决方案:利用 str.split() 的 maxsplit 参数

Python 的 str.split() 方法提供了一个 maxsplit 参数,它允许我们指定最大分割次数。通过设置 maxsplit=1,我们可以确保字符串只被分割成两部分:第一个分隔符之前的部分和第一个分隔符之后的所有剩余部分。

将 e.split(' ') 修改为 e.split(' ', 1):

for e in trimmed:
    print(e.split(' ', 1))

输出结果:

['C_1H_4', 'Methane']
['5.00000', 'Property1_word1 Property1_word2']

现在,每个字符串都被正确地分割成了两部分。第一部分是数值(或标识符),第二部分是完整的属性名,即使它包含空格。

因此,构建字典的代码可以修改为:

as_dict = {e.split(' ')[0]: e.split(' ', 1)[1] for e in trimmed}

这将确保字典中的键是数值,而值是完整的、包含空格的属性名。

优化代码实现

上述方法虽然解决了问题,但在处理 stripped 和 trimmed 列表时,存在一些冗余操作。我们可以进一步优化代码,使其更简洁高效。

str.split() 方法在不指定分隔符(即使用 split() 或 split(None))时,会根据任意空白字符进行分割,并自动处理多个连续空白,同时移除结果列表中的空字符串。结合 maxsplit=1,这成为一个强大的工具。

我们可以直接在原始的 rawLines 上进行迭代,并结合 strip() 和 split(None, 1) 来一步到位地完成数据提取和字典构建。

import json
import pandas as pd

# 模拟从文件加载JSON数据
# 实际应用中,您会从文件或网络请求中加载
json_data_str = """
{
    "payload": {
        "blob": {
            "rawLines": [
                "        C_1H_4   Methane                  ",
                "            5.00000        Property1_word1 Property1_word2                              ",
                "             20.00000        Property2                     ",
                "           500.66500        Property3                              ",
                "           100.00000        Property4_word1 Property4_word2                                           ",
                "         -4453.98887        Property5                                      ",
                "           100.48200        Property6                                   ",
                "            59.75258        Property7                                         ",
                "             5.33645        Property8_word1 Property8_word2                                         ",
                "             0.00000        Property9         ",
                "           645.07777        Property10                                       ",
                "             0.00000        Property11                           ",
                "             0.00000        Property12                           ",
                "             0.00000        Property13                             ",
                "             0.00000        Property14                             ",
                "             0.00000        Property15                             ",
                "             0.00000        Property16                             ",
                "             0.00000        Property17                   ",
                "             0.00000        Property18                            ",
                "             0.00000        Property19                   ",
                "             0.00000        Property20                             ",
                "             0.00000        Property21                   ",
                "             0.00000        Property22                             ",
                "             0.00000        Property23                   ",
                "             0.00000        Property24                    ",
                "             0.00000        Property25                    ",
                "             0.57876        Property26                                           ",
                "             4.00000        Property27                                               ",
                "             0.00000        Property28                    ",
                "             0.00000        Property29               ",
                "             0.00000        Property30                  ",
                "             0.00000        Property31            ",
                "             0.00000        Property32                  ",
                "             1.00000        Property33                         ",
                "             0.00000        Property34                       ",
                "            26.00000        Property35                             ",
                "             1.44571        Property36                               ",
                "             1.08756        Property37                            ",
                "             0.00000        Property38                          ",
                "             0.00000        Property39                        ",
                "             0.00000        Property40                        ",
                "             6.00000        Property41                       ",
                "             9.00000        Property42                                         ",
                "             0.00000        Property43                                         "
            ]
        }
    }
}
"""
data = json.loads(json_data_str)

# 获取需要提取的原始行数据
to_extract = data["payload"]["blob"]["rawLines"]

# 优化后的数据提取和字典构建
# 对于每一行:
# 1. 使用 .strip() 移除行首尾所有空白字符。
# 2. 使用 .split(None, 1) 进行分割:
#    - None 作为分隔符表示按任意空白字符分割。
#    - 1 表示最多分割一次,确保只将字符串分成两部分。
# 3. dict() 构造函数直接将这些两元素的列表转换为字典的键值对。
as_dict = dict(line.strip().split(None, 1) for line in to_extract)

# 将字典转换为Pandas DataFrame
# 字典的键将映射到 'Value' 列,值映射到 'Property' 列
df = pd.DataFrame(as_dict.items(), columns=['Value', 'Property'])

print("优化后的字典内容:")
print(as_dict)
print("\n生成的DataFrame:")
print(df)

输出示例 (部分):

优化后的字典内容:
{'C_1H_4': 'Methane', '5.00000': 'Property1_word1 Property1_word2', '20.00000': 'Property2', '500.66500': 'Property3', '100.00000': 'Property4_word1 Property4_word2', ...}

生成的DataFrame:
        Value                 Property
0      C_1H_4                  Methane
1     5.00000  Property1_word1 Property1_word2
2    20.00000                Property2
3   500.66500                Property3
4   100.00000  Property4_word1 Property4_word2
...

注意事项与总结

  1. str.split() 的灵活性:理解 split() 方法的 sep 和 maxsplit 参数至关重要。当 sep 为 None 时,它会智能地处理各种空白字符(空格、制表符、换行符等)并跳过空字符串,这对于清洗非结构化文本非常有用。
  2. 数据一致性:本教程的解决方案假定每行数据都至少包含一个值和一个属性名,并且值与属性名之间存在空白字符。如果原始数据格式更加复杂或不一致,可能需要更高级的正则表达式解析或定制的解析逻辑。
  3. 代码可读性与效率:优化后的单行代码 dict(line.strip().split(None, 1) for line in to_extract) 不仅简洁,而且避免了创建中间列表

今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

TikTok网页版入口及登录方法TikTok网页版入口及登录方法
上一篇
TikTok网页版入口及登录方法
Soul灵魂伴侣标识怎么隐藏?
下一篇
Soul灵魂伴侣标识怎么隐藏?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3176次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3388次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3417次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4522次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3796次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码