手軽に（コマンド一行で）pandasのDataFrameから、記述統計レベルのレポートを生成できるライブラリです。

1.インストール

（参考URL）https://github.com/pandas-profiling/pandas-profiling

pip install pandas_profiling --user

私のPC環境では「–user」を入れないとエラーになりました。

（動作環境）OS: Windows 8.1、 python: 3.6.5、pandas: 0.23.0、numpy: 1.17.3、 pandas-profiling: 2.3.0

2.プロファイル作成

「iris.csv」ファイルの読み込み

In [1]:

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
import pandas_profiling as pp

w_path  = 'C:/Users/N/'
df      = pd.read_csv(w_path + 'iris.csv', encoding='shift-jis', skiprows=0)

プロファイルの作成。このコマンドだけでレポート（後述）が作成されます。

In [2]:

profile = pp.ProfileReport(df)

プロファイルの出力

In [3]:

profile.to_file(output_file='output.html')

pandas-profiling2.3.0では「outputfile=」ではなく「output_file=」にしないエラーになりました。

3.プロファイル（レポート）を見てみる

●概要：変数数、レコード数、欠損値セル数、データ型 ●変数：各変数の記述統計、ヒストグラム ●相関：ピアソン、スピアマン、ケンドールなどが見れます。

概要:Overview

df.shape、df.dtypesあたりも包まれてます。

変数:Variables

df.describe()も可視化されてみえます。

各変数のデータ値ごとの件数など。df[‘列名’].value_counts(dropna=False)に近い。

pandas_profiling_Variables_ExtremeValues

相関:Correlations

手持ちデータを、手軽に概観できそうです。