当前位置：首页 > 文章列表 > 文章 > python教程 > PySpark多层嵌套结构如何扁平化

PySpark多层嵌套结构如何扁平化

2025-09-30 20:03:40 0浏览收藏

在PySpark中处理复杂嵌套数据结构是大数据分析中的常见挑战。本文深入探讨了如何利用PySpark的强大功能，特别是`transform`高阶函数和`flatten`函数，来高效地将多层嵌套的`array(struct(array(struct)))`结构扁平化为`array(struct)`。传统的`explode`和`groupBy`方法在面对深层嵌套时显得复杂且低效。本文提出的解决方案通过`transform`函数优雅地提取内层结构字段，并与外层字段合并，避免了传统方法的局限性，提供了一种更具声明性和可扩展性的策略。本文将通过实例代码详细解析如何实现这一转换，并讨论了注意事项和最佳实践，为PySpark开发者提供了一种处理复杂半结构化数据的有效技巧。掌握这一技巧，能够显著提升数据处理效率，为后续的数据分析和挖掘奠定坚实基础。

PySpark中多层嵌套Array Struct的扁平化处理技巧

本文深入探讨了在PySpark中如何高效地将复杂的多层嵌套 array(struct(array(struct))) 结构扁平化为 array(struct)。通过结合使用Spark SQL的 transform 高阶函数和 flatten 函数，我们能够优雅地提取内层结构字段并与外层字段合并，最终实现目标模式的简化，避免了传统 explode 和 groupBy 组合的复杂性，提供了一种更具声明性和可扩展性的解决方案。

理解复杂嵌套结构与目标

在处理大数据时，我们经常会遇到包含复杂嵌套数据类型的DataFrame。一个常见的场景是列中包含 array(struct(array(struct))) 类型的结构，例如：

root
 |-- a: integer (nullable = true)
 |-- list: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- b: integer (nullable = true)
 |    |    |-- sub_list: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- c: integer (nullable = true)
 |    |    |    |    |-- foo: string (nullable = true)

我们的目标是将这种多层嵌套结构简化为 array(struct) 形式，即把 sub_list 中的 c 和 foo 字段提升到 list 内部的 struct 中，并消除 sub_list 的嵌套层级：

root
 |-- a: integer (nullable = true)
 |-- list: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- b: integer (nullable = true)
 |    |    |-- c: integer (nullable = true)
 |    |    |-- foo: string (nullable true)

这种扁平化处理对于后续的数据分析和处理至关重要。

挑战与传统方法局限性

传统的扁平化方法通常涉及 explode 函数，它会将数组中的每个元素扩展为单独的行。对于上述结构，如果直接使用 explode，可能需要多次 explode 操作，然后通过 groupBy 和 collect_list 来重新聚合，这在面对更深层次的嵌套时会变得异常复杂和低效。例如，以下方法虽然有效，但在复杂场景下维护成本高昂：

from pyspark.sql import SparkSession
from pyspark.sql.functions import inline, expr, collect_list, struct

# 假设df是您的DataFrame
# df.select("a", inline("list")) \
# .select(expr("*"), inline("sub_list")) \
# .drop("sub_list") \
# .groupBy("a") \
# .agg(collect_list(struct("b", "c", "foo")).alias("list"))

这种方法要求我们将所有嵌套层级“提升”到行级别，然后再进行聚合，这与我们期望的“自底向上”或“原地”转换理念相悖。我们更倾向于一种能够直接在数组内部进行操作，而无需改变DataFrame行数的解决方案。

PySpark解决方案：Transform与Flatten的组合运用

PySpark 3.x 引入了 transform 等高阶函数，极大地增强了对复杂数据类型（特别是数组）的处理能力。结合 transform 和 flatten，我们可以优雅地解决上述问题。

transform 函数允许我们对数组中的每个元素应用一个自定义的转换逻辑，并返回一个新的数组。当涉及到多层嵌套时，我们可以使用嵌套的 transform 来逐层处理。

核心逻辑：

内层转换：首先，对最内层的 sub_list 进行 transform 操作。对于 sub_list 中的每个元素（即包含 c 和 foo 的 struct），我们将其与外层 struct 中的 b 字段结合，创建一个新的扁平化 struct。
外层转换：这一步的 transform 会生成一个 array(array(struct)) 的结构。
扁平化：最后，使用 flatten 函数将 array(array(struct)) 结构合并成一个单一的 array(struct)。

示例代码：

首先，我们创建一个模拟的DataFrame来演示：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, transform, flatten, struct
from pyspark.sql.types import StructType, StructField, ArrayType, IntegerType, StringType

# 初始化SparkSession
spark = SparkSession.builder.appName("FlattenNestedArrayStruct").getOrCreate()

# 定义初始schema
inner_struct_schema = StructType([
    StructField("c", IntegerType(), True),
    StructField("foo", StringType(), True)
])
outer_struct_schema = StructType([
    StructField("b", IntegerType(), True),
    StructField("sub_list", ArrayType(inner_struct_schema), True)
])
df_schema = StructType([
    StructField("a", IntegerType(), True),
    StructField("list", ArrayType(outer_struct_schema), True)
])

# 创建示例数据
data = [
    (1, [
        {"b": 10, "sub_list": [{"c": 100, "foo": "x"}, {"c": 101, "foo": "y"}]},
        {"b": 20, "sub_list": [{"c": 200, "foo": "z"}]}
    ]),
    (2, [
        {"b": 30, "sub_list": [{"c": 300, "foo": "w"}]}
    ])
]

df = spark.createDataFrame(data, schema=df_schema)
df.printSchema()
df.show(truncate=False)

# 应用扁平化逻辑
df_flattened = df.withColumn(
    "list",
    flatten(
        transform(
            col("list"),  # 外层数组 (array of structs)
            lambda x: transform(  # 对外层数组的每个struct x 进行操作
                x.getField("sub_list"),  # 获取struct x 中的 sub_list (array of structs)
                lambda y: struct(x.getField("b").alias("b"), y.getField("c").alias("c"), y.getField("foo").alias("foo")),
            ),
        )
    ),
)

df_flattened.printSchema()
df_flattened.show(truncate=False)

# 停止SparkSession
spark.stop()

代码解析

df.withColumn("list", ...): 我们选择修改 list 列，使其包含扁平化后的结果。
transform(col("list"), lambda x: ...): 这是外层 transform。它遍历 list 列中的每一个 struct 元素，我们将其命名为 x。x 的类型是 struct(b: int, sub_list: array(struct(c: int, foo: string)))。
transform(x.getField("sub_list"), lambda y: ...): 这是内层 transform。它作用于 x 中的 sub_list 字段。sub_list 是一个数组，它的每个元素（一个 struct(c: int, foo: string)）被命名为 y。
struct(x.getField("b").alias("b"), y.getField("c").alias("c"), y.getField("foo").alias("foo")): 在内层 transform 内部，我们构建一个新的 struct。
- x.getField("b"): 从外层 struct x 中获取 b 字段。
- y.getField("c"): 从内层 struct y 中获取 c 字段。
- y.getField("foo"): 从内层 struct y 中获取 foo 字段。
- alias("b"), alias("c"), alias("foo") 用于确保新生成的 struct 字段名称正确。这个 struct 函数会为 sub_list 中的每个 y 元素生成一个扁平化的 struct。因此，内层 transform 的结果是一个 array(struct(b: int, c: int, foo: string))。
中间结果：外层 transform 会收集所有这些 array(struct)，因此它的最终输出是一个 array(array(struct(b: int, c: int, foo: string)))。
flatten(...): 最后，flatten 函数将这个 array(array(struct)) 结构扁平化为一个单一的 array(struct(b: int, c: int, foo: string))，这正是我们期望的目标 schema。

注意事项与最佳实践

字段名称：确保在 getField() 和 struct() 中使用的字段名称与实际 schema 中的名称完全匹配。
空值处理：transform 函数会自然地处理数组中的空元素。如果 sub_list 为空，内层 transform 会返回一个空数组；如果 list 为空，外层 transform 也会返回空数组。flatten 对空数组的处理也是安全的。
性能：transform 是Spark SQL的内置高阶函数，通常比自定义UDF（用户定义函数）具有更好的性能，因为它可以在Spark Catalyst优化器中进行优化。
可读性：虽然嵌套 transform 非常强大，但过度嵌套可能会降低代码的可读性。对于更复杂的场景，可以考虑将转换逻辑拆分成多个步骤或添加详细注释。
通用性：这种 transform 结合 flatten 的模式可以推广到更深层次的嵌套结构，只需增加 transform 的嵌套层级即可。

总结

通过巧妙地结合使用PySpark的 transform 和 flatten 函数，我们能够以一种声明式且高效的方式，将复杂的多层嵌套 array(struct(array(struct))) 结构扁平化为更易于处理的 array(struct) 结构。这种方法避免了传统 explode 和 groupBy 组合的复杂性，特别适用于需要对数组内部元素进行精细化转换的场景，是处理Spark中复杂半结构化数据时一个非常有用的技巧。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《PySpark多层嵌套结构如何扁平化》文章吧，也可关注golang学习网公众号了解相关技术文章。