利用Pandas函数熟悉数据表

获取需要分析的数据用pandas读取后,我们通常可以使用以下方法了解数据的概况,只有对数据充分熟悉后才能更好的进行分析。

1.利用shape获取数据表的大小

df.shape

shape方法会以元组的形式行、列数,比如返回(6,6)表示df表有6行6列数据。利用shape方法获取行列数时不会把行列索引计算在内。
当然我们也可以用shape获取表的行数或者列数,如:

df.shape[0]    #获取表的行数
df.shape[1]    #获取表的列数

2.利用info()函数获取数据表的整体信息

df.info()

返回如下信息,表示这个表有4622行、5列、每列的非空值、列名称、列的数据类型何表所占空间等信息:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
order_id              4622 non-null int64
quantity              4622 non-null int64
item_name             4622 non-null object
choice_description    3376 non-null object
item_price            4622 non-null object
dtypes: int64(2), object(3)
memory usage: 180.6+ KB

3.利用isnull()查看空值

df.isnull()

4.利用head()方法预览前N行数据
可以给head()指定参数,来显示指定行数,默认显示前5行。

df.head(10)

5.利用tail()方法预览后N行数据
tail与head相反,可以给tail()指定参数,来显示指定行数,默认显示后5行。

df.tail(10)

6.利用dtypes查看数据格式
如2中所述,可以利用info()获取数据格式,也可以单独利用dtypes一次查看数据表中所有数据的格式,也可以指定单独查看某列格式。

df.dtypes
df['item_name'].dtype

7.查看唯一值
效果类似于Excel中删除某列重复值的效果。

df['item_name'].unique()

8.利用describe获取表中数值统计特征
describe()方法可以获取所有数值型字段的分布值。

df.describe()

会得到如下表的数值分布情况:

        order_id	quantity
count	4622.000000	4622.000000
mean	927.254868	1.075725
std	528.890796	0.410186
min	1.000000	1.000000
25%	477.250000	1.000000
50%	926.000000	1.000000
75%	1393.000000	1.000000
max	1834.000000	15.000000

9.利用columns方法获取数据表的列索引

df.columns

10.利用index方法获取数据表的行索引

df.index

11.利用values方法查看数据表中的数据
查看结果以数组的形式返回,不包含表头信息。

df.values