Agile Data Science - 介绍

敏捷数据科学是一种将数据科学与敏捷方法用于Web应用程序开发的方法。它侧重于适用于组织变革的数据科学过程的输出。数据科学包括构建描述研究过程的应用程序，包括分析，交互式可视化以及现在应用的机器学习。

敏捷数据科学的主要目标是 -

记录并指导解释性数据分析，以发现并遵循引人注目的产品的关键路径。

敏捷数据科学按以下原则组织 -

连续迭代

此过程涉及使用创建表，图表，报告和预测进行连续迭代。构建预测模型将需要多次迭代特征工程，并提取和生成洞察力。

中间产出

这是生成的输出的轨道列表。甚至有人说失败的实验也有输出。跟踪每次迭代的输出将有助于在下一次迭代中创建更好的输出。

原型实验

原型实验涉及根据实验分配任务和生成输出。在给定的任务中，我们必须迭代以获得洞察力，并且这些迭代可以最好地解释为实验。

整合数据

软件开发生命周期包括不同的阶段，数据必不可少 -

customers
developers, and
这生意

数据的整合为更好的前景和产出铺平了道路。

金字塔数据值

上述金字塔值描述了“敏捷数据科学”开发所需的层。它首先根据需求和管道单个记录收集记录。在清理和汇总数据之后创建图表。聚合数据可用于数据可视化。使用适当的结构，元数据和数据标签生成报告。顶部的第二层金字塔包括预测分析。预测层是创建更多价值的地方，但有助于创建专注于特征工程的良好预测。

最顶层涉及有效驱动数据值的操作。这种实现的最好例证是“人工智能”。

<上一篇.Agile Data Science - 教程

方法论概念(Methodology Concepts).下一篇>

Agile Data Science - 教程