Python Pandas

Pandas是一个开源Python库，用于使用其强大的数据结构进行高性能数据处理和数据分析。 Python与pandas一起用于各种学术和商业领域，包括金融，经济，统计，广告，网络分析等。使用Pandas，我们可以完成数据处理和分析中的五个典型步骤，无论数据来源如何 - 加载，组织，操作，建模和分析数据。

以下是Pandas的一些重要功能，专门用于数据处理和数据分析工作。

熊猫的主要特点

具有默认和自定义索引的快速高效的DataFrame对象。
用于将数据加载到来自不同文件格式的内存数据对象的工具。
数据对齐和缺失数据的集成处理。
日期集的重塑和旋转。
基于标签的切片，索引和大数据集的子集化。
可以删除或插入数据结构中的列。
按数据分组以进行聚合和转换。
高性能的合并和数据连接。
时间序列功能。

熊猫处理以下三种数据结构 -

Series
DataFrame

这些数据结构构建在Numpy阵列之上，使其快速高效。

尺寸和描述

考虑这些数据结构的最佳方式是较高维度的数据结构是其较低维度数据结构的容器。例如，DataFrame是Series的容器，Panel是DataFrame的容器。

数据结构	外形尺寸	描述
Series	1	1D标记的同构数组，大小不可变。
数据框架	2	一般2D标记的，尺寸可变的表格结构，具有潜在的异质类型柱。

DataFrame被广泛使用，它是最重要的数据结构。

系列

系列是具有同质数据的一维数组结构。例如，以下系列是整数10,23,56，...的集合。

系列要点

同质数据
Size Immutable
数据可变的值

DataFrame

DataFrame是具有异构数据的二维数组。例如，

名称	年龄	性别	评分
Steve	32	Male	3.45
Lia	28	Female	4.6
Vin	45	Male	3.9
Katie	38	Female	2.78

该表格表示组织销售团队的整体绩效评级数据。数据以行和列表示。每列代表一个属性，每行代表一个人。

列的数据类型

四列的数据类型如下 -

柱	类型
Name	String
Age	Integer
Gender	String
Rating	Float

数据框的要点

异构数据
大小可变
数据可变

在接下来的章节中，我们将看到许多关于在数据科学工作中使用python的pandas库的例子。

<上一篇.Python Data Science Environment Setup

Python Numpy.下一篇>

Python Data Science

Python Data Science 介绍

Python Data Science Environment Setup

Python Pandas

Python Numpy

Python SciPy

Python Matplotlib

Python Data Operations

Python Data cleansing

Python Processing CSV Data

Python Processing JSON Data

Python Processing XLS Data

Python Relational databases

Python NoSQL 数据库 Databases

Python Date and Time

Python Data Wrangling

Python Data Aggregation

Python Reading HTML Pages

Python Processing Unstructured Data

Python word tokenization

Python Stemming and Lemmatization

Python Chart Properties

Python Chart Styling

Python Box Plots

Python Heat Maps

Python Scatter Plots

Python Bubble Charts

Python 3D Charts

Python Time Series

Python Geographical Data

Python Graph Data

Python Measuring Central Tendency

Python Measuring Variance

Python Normal Distribution

Python Binomial Distribution

Python Poisson Distribution

Python Bernoulli Distribution

Python P-Value

Python Correlation

Python Chi-square Test

Python Linear Regression

Python Pandas

熊猫的主要特点

尺寸和描述

系列

系列要点

DataFrame

列的数据类型

数据框的要点