目录

PySpark - SparkConf( SparkConf)

要在本地/集群上运行Spark应用程序,您需要设置一些配置和参数,这是SparkConf帮助的。 它提供运行Spark应用程序的配置。 以下代码块包含PySpark的SparkConf类的详细信息。

class pyspark.SparkConf (
   loadDefaults = True, 
   _jvm = None, 
   _jconf = None
)

最初,我们将使用SparkConf()创建一个SparkConf对象,它将从spark.* Java系统属性加载值。 现在,您可以使用SparkConf对象设置不同的参数,它们的参数将优先于系统属性。

在SparkConf类中,有一些setter方法,它们支持链接。 例如,您可以编写conf.setAppName(“PySpark App”).setMaster(“local”) 。 一旦我们将SparkConf对象传递给Apache Spark,任何用户都无法修改它。

以下是SparkConf最常用的一些属性 -

  • set(key, value) - 设置配置属性。

  • setMaster(value) - 设置主URL。

  • setAppName(value) - 设置应用程序名称。

  • get(key, defaultValue=None) - 获取密钥的配置值。

  • setSparkHome(value) - 在工作节点上设置Spark安装路径。

让我们考虑以下在PySpark程序中使用SparkConf的示例。 在此示例中,我们将spark应用程序名称设置为PySpark App ,并将spark应用程序的主URL设置为→ spark://master:7077

以下代码块包含这些行,当它们添加到Python文件中时,它会设置运行PySpark应用程序的基本配置。

---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------
↑回到顶部↑
WIKI教程 @2018