Python Processing XLS Data

Microsoft Excel是一种使用非常广泛的电子表格程序。其用户友好性和吸引人的功能使其成为数据科学中经常使用的工具。 Panadas库提供了一些功能，使用这些功能我们可以完整地读取Excel文件，也可以仅读取选定的一组数据。我们还可以读取包含多个工作表的Excel文件。我们使用read_excel函数从中读取数据。

输入为Excel文件

我们在Windows操作系统中创建一个包含多个工作表的Excel文件。不同表中的数据如下所示。

您可以使用Windows操作系统中的Excel程序创建此文件。将文件另存为input.xlsx 。

# Data in Sheet1
id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Tusar,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Rasmi,578,2013-05-21,IT
7,Pranab,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance
# Data in Sheet2
id	name	zipcode
1	Rick	301224
2	Dan	341255
3	Tusar	297704
4	Ryan	216650
5	Gary	438700
6	Rasmi	665100
7	Pranab	341211
8	Guru	347480

阅读Excel文件

使用pandas库的read_excel函数将Excel文件的内容作为pandas DataFrame读取到python环境中。该函数可以使用适当的文件路径从OS读取文件。默认情况下，该函数将读取Sheet1。

import pandas as pd
data = pd.read_excel('path/input.xlsx')
print (data)

当我们执行上面的代码时，它会产生以下结果。请注意该函数是如何创建以零开头的附加列作为索引。

   id    name  salary  start_date        dept
0   1    Rick  623.30  2012-01-01          IT
1   2     Dan  515.20  2013-09-23  Operations
2   3   Tusar  611.00  2014-11-15          IT
3   4    Ryan  729.00  2014-05-11          HR
4   5    Gary  843.25  2015-03-27     Finance
5   6   Rasmi  578.00  2013-05-21          IT
6   7  Pranab  632.80  2013-07-30  Operations
7   8    Guru  722.50  2014-06-17     Finance

阅读特定的列和行

与我们在前一章中已经看到的读取CSV文件read_excel ，pandas库的read_excel函数也可用于读取某些特定列和特定行。为此，我们使用名为.loc()的多轴索引方法。我们选择显示某些行的salary和name列。

import pandas as pd
data = pd.read_excel('path/input.xlsx')
# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])

当我们执行上面的代码时，它会产生以下结果。

   salary   name
1   515.2    Dan
3   729.0   Ryan
5   578.0  Rasmi

阅读多个Excel表格

在名为ExcelFile的包装类的帮助下，使用read_excel函数也可以读取具有不同数据格式的多个工作表。它只会将多张纸张读入内存一次。在下面的示例中，我们将sheet1和sheet2读入两个数据框并单独打印出来。

import pandas as pd
with pd.ExcelFile('C:/Users/Rasmi/Documents/pydatasci/input.xlsx') as xls:
    df1 = pd.read_excel(xls, 'Sheet1')
    df2 = pd.read_excel(xls, 'Sheet2')
print("****Result Sheet 1****")
print (df1[0:5]['salary'])
print("")
print("***Result Sheet 2****")
print (df2[0:5]['zipcode'])

当我们执行上面的代码时，它会产生以下结果。

****Result Sheet 1****
0    623.30
1    515.20
2    611.00
3    729.00
4    843.25
Name: salary, dtype: float64
***Result Sheet 2****
0    301224
1    341255
2    297704
3    216650
4    438700
Name: zipcode, dtype: int64

<上一篇.Python Processing JSON Data

Python Relational databases.下一篇>

Python Data Science

Python Data Science 介绍

Python Data Science Environment Setup

Python Pandas

Python Numpy

Python SciPy

Python Matplotlib

Python Data Operations

Python Data cleansing

Python Processing CSV Data

Python Processing JSON Data