CSVやexcelデータをPandasに読み込み後、データ確認に使うコマンド(備忘録)
目次
(動作環境)Windows 8.1 , python: 3.6.5 , pandas: 0.23.0, numpy: 1.14.3
1.ファイルをDataframeに読み込む
- まず、データ(csvファイル)の読み込み。 テストデータはここから入手。https://archive.ics.uci.edu/ml/datasets/iris
In [1]:
import pandas as pd
w_path = 'C:/Users/N/'
df = pd.read_csv(w_path + 'iris.csv', encoding='shift-jis', skiprows=0)
- Excelファイルの場合
In [2]:
df = pd.read_excel(w_path + 'iris.xlsx', encoding='utf8', sheet_name='Sheet1',skiprows=0,dtype='object')
2.Dataframeの概観確認
df Dataframeの表示
In [3]:
df
df.shape 行数と列数の表示
In [4]:
df.shape
Out[4]:
df.dtypes データ項目の型を表示
In [5]:
df.dtypes
Out[5]:
np.max(df) 各列の最大値を表示
In [6]:
import numpy as np
np.max(df)
Out[6]:
df.describe() 統計量を表示
In [7]:
df.describe()
Out[7]:
3.列の詳細確認
df.info() 各列ごとの件数(nullでない)、データ型など
In [8]:
df.info()
df.isnull().any() nullがあるかどうか
- 元データ「iris.csv」には欠損値はないので、列名「 SepalLength 」の内、2件を欠損値に変更してます。
In [9]:
df.isnull().any()
Out[9]:
df[‘列名’].count() null以外の件数
In [10]:
df['SepalLength'].count()
Out[10]:
df[‘列名’].value_counts(dropna=False) データ値ごとの件数
In [11]:
df['SepalLength'].value_counts(dropna=False)
Out[11]:
In [8]:
df.info()
- 元データ「iris.csv」には欠損値はないので、列名「 SepalLength 」の内、2件を欠損値に変更してます。
In [9]:
df.isnull().any()
Out[9]:
df[‘列名’].count() null以外の件数
In [10]:
df['SepalLength'].count()
Out[10]:
df[‘列名’].value_counts(dropna=False) データ値ごとの件数
In [11]:
df['SepalLength'].value_counts(dropna=False)
Out[11]:
In [10]:
df['SepalLength'].count()
Out[10]:
In [11]:
df['SepalLength'].value_counts(dropna=False)
Out[11]: