美文网首页
pyspark空值处理

pyspark空值处理

作者: 米斯特芳 | 来源:发表于2021-08-13 14:55 被阅读0次

类似sklearn中的Inputer

from pyspark.ml.feature import Imputer
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("ImputerExample")\
    .getOrCreate()

df = spark.createDataFrame([
    (1.0, float("nan")),
    (2.0, float("nan")),
    (float("nan"), 3.0),
    (4.0, 4.0),
    (5.0, 5.0)
], ["a", "b"])
# strategy:缺失值填充策略,一般有mean,median等
# missingValue:数据中缺失值用什么表示的,默认float('nan'),也可自定义其他值为缺失值
imputer = Imputer(strategy='mean',missingValue=nan,inputCols=["a", "b"], outputCols=["out_a", "out_b"])
model = imputer.fit(df)

model.transform(df).show()
model.surrogateDF.show()# 显示在strategy策略下,具体使用什么数值填充

相关文章

网友评论

      本文标题:pyspark空值处理

      本文链接:https://www.haomeiwen.com/subject/nkodbltx.html