使用PySpark提取功能(Extracting features with PySpark)

在本章中，我们将了解PySpark在敏捷数据科学中的提取功能的应用。

Spark概述

Apache Spark可以定义为快速实时处理框架。它进行计算以实时分析数据。 Apache Spark作为流处理系统实时引入，也可以处理批处理。 Apache Spark支持交互式查询和迭代算法。

Spark是用“Scala编程语言”编写的。

PySpark可以被认为是Python与Spark的结合。 PySpark提供PySpark shell，它将Python API链接到Spark核心并初始化Spark上下文。大多数数据科学家使用PySpark跟踪功能，如前一章所述。

在此示例中，我们将重点关注转换以构建名为counts的数据集并将其保存到特定文件。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用PySpark，用户可以使用python编程语言中的RDD。内置库涵盖了数据驱动文档和组件的基础知识，有助于实现这一目标。

<上一篇.预测的作用(Role of Predictions)

建立回归模型(Building a Regression Model).下一篇>

Agile Data Science - 教程

Agile Data Science - 介绍

方法论概念(Methodology Concepts)

敏捷数据科学 - 过程( Process)

Agile Tools & 安装

敏捷中的数据处理(Data Processing in Agile)

SQL与NoSQL(SQL versus NoSQL)

NoSQL和数据流编程(NoSQL & Dataflow programming)

收集和显示记录(Collecting & Displaying Records)

数据可视化(Data Visualization)

数据丰富(Data Enrichment)

使用报告(Working with Reports)

预测的作用(Role of Predictions)

使用PySpark提取功能(Extracting features with PySpark)

建立回归模型(Building a Regression Model)

部署预测系统(Deploying a predictive system)

敏捷数据科学 - SparkML( SparkML)

修复预测问题(Fixing Prediction Problem)

提高预测绩效(Improving Prediction Performance)

利用敏捷和数据科学创造更好的场景(Creating better scene with agile & data science)

实施敏捷(Implementation of Agile)

Agile Data Science - 快速指南

Agile Data Science - 资源

Agile Data Science - 讨论

UPSC IAS考试笔记(UPSC IAS Exams Notes)

开发人员的最佳实践(Developer's Best Practices)

问题和解答(Questions and Answers)

有效的简历写作(Effective Resume Writing)

人力资源面试问题(HR Interview Questions)

电脑词汇表(Computer Glossary)

Who is Who

使用PySpark提取功能(Extracting features with PySpark)

Spark概述