RDD有哪几种创建方式-内马尔世界杯进球-历届世界杯_世界杯篮球

RDD有哪几种创建方式

2025-10-30 13:18:18

在 Apache Spark 中，RDD（弹性分布式数据集）可以通过多种方式创建，主要分为 3 大类：

1. 从内存集合创建（Parallelizing）

适用于本地数据（Python List、Array 等）转换为分布式 RDD。方法： SparkContext.parallelize() 示例：

python

from pyspark import SparkContext

sc = SparkContext("local", "RDD Demo")

data = [1, 2, 3, 4, 5]

rdd = sc.parallelize(data) # 将 Python List 转为 RDD

print(rdd.collect()) # 输出：[1, 2, 3, 4, 5]

适用场景：小规模数据测试、算法原型开发。

2. 从外部存储系统读取

适用于从文件（HDFS、本地文件、S3 等）加载数据生成 RDD。方法： SparkContext.textFile()、SparkContext.wholeTextFiles() 示例：

(1) 读取文本文件（逐行读取）

python

# 从 HDFS 读取

rdd = sc.textFile("hdfs://namenode:8020/path/to/file.txt")

历届世界杯_世界杯篮球 - cnfznx.com