RDD有哪几种创建方式

在 Apache Spark 中,RDD(弹性分布式数据集) 可以通过多种方式创建,主要分为 3 大类:

1. 从内存集合创建(Parallelizing)

适用于本地数据(Python List、Array 等) 转换为分布式 RDD。 方法: SparkContext.parallelize() 示例:

python

from pyspark import SparkContext

sc = SparkContext("local", "RDD Demo")

data = [1, 2, 3, 4, 5]

rdd = sc.parallelize(data) # 将 Python List 转为 RDD

print(rdd.collect()) # 输出:[1, 2, 3, 4, 5]

适用场景: 小规模数据测试、算法原型开发。

2. 从外部存储系统读取

适用于从文件(HDFS、本地文件、S3 等) 加载数据生成 RDD。 方法: SparkContext.textFile()、SparkContext.wholeTextFiles() 示例:

(1) 读取文本文件(逐行读取)

python

# 从 HDFS 读取

rdd = sc.textFile("hdfs://namenode:8020/path/to/file.txt")

Copyright © 2022 历届世界杯_世界杯篮球 - cnfznx.com All Rights Reserved.