目录

敏捷中的数据处理(Data Processing in Agile)

在本章中,我们将重点关注结构化,半结构化和非结构化数据之间的区别。

结构化数据

结构化数据涉及以行和列的形式存储在表格中的SQL格式的数据。 它包括一个关系密钥,它被映射到预先设计的字段中。 结构化数据用于更大规模。

结构化数据仅占所有信息学数据的5%到10%。

Semi-structured data

Sem结构数据包括不驻留在关系数据库中的数据。 它们包含一些可以更容易分析的组织属性。 它包括将它们存储在关系数据库中的相同过程。 半结构化数据库的示例是CSV文件,XML和JSON文档。 NoSQL数据库被认为是半结构化的。

非结构化数据

非结构化数据代表80%的数据。 它通常包括文本和多媒体内容。 非结构化数据的最佳示例包括音频文件,演示文稿和网页。 机器生成的非结构化数据的例子是卫星图像,科学数据,照片和视频,雷达和声纳数据。

卫星图像

上述金字塔结构特别关注数据量和分散的比率。

准结构化数据在非结构化数据和半结构化数据之间显示为类型。 在本教程中,我们将重点关注半结构化数据,这有助于敏捷方法论和数据科学研究。

半结构化数据没有正式的数据模型,但具有明显的自描述模式和结构,由其分析开发。

↑回到顶部↑
WIKI教程 @2018