相関ヒートマップ
テーブルに含まれる複数の変数間の相関関係を計算し、その結果をヒートマップとして可視化します。 相関ヒートマップは、どの変数が互いに強く関連しているか(または関連していないか)を一覧するのに役立ちます。
操作方法
- 処理タイプ>可視化、グラフタイプ>相関ヒートマップ を選択します。
- 相関を計算したい列を 「変数」 で選択します。
計算される相関指標について
選択された変数の組み合わせ(数値型かカテゴリ型か)によって、自動的に異なる相関指標が計算されます。
- 数値列 vs 数値列: 相関係数(ピアソン) または 順位相関係数(スピアマン)
- 相関係数(ピアソン) : 2つの変数の間にどれくらい直線的な関係があるかを示す指標で、-1から1の間の値をとります。
- +1に近い(赤色系): 強い正の相関 (一方が増えるともう一方も増える)
- -1に近い(青色系): 強い負の相関 (一方が増えるともう一方は減る)
- 0に近い(白色系): ほぼ相関なし
- 順位相関係数(スピアマン) : 2つの変数を順位に変換してから相関を計算する指標で、-1から1の間の値をとります。
- 特徴: 外れ値の影響を受けにくく、直線的な関係でなくても「一方が増えれば、もう一方も増える(または減る)」という単調な関係を捉えることができます。
- 相関係数(ピアソン) : 2つの変数の間にどれくらい直線的な関係があるかを示す指標で、-1から1の間の値をとります。
- 数値列 vs カテゴリ列: 相関比 (η) : カテゴリ(グループ)によって、数値の平均値がどれだけ異なるか(ばらついているか)を示す指標で、0から1の間の値をとります。
- 1に近い: カテゴリ間の平均値の差が大きい(カテゴリが数値の予測に役立つ)。
- 0に近い: カテゴリ間の平均値にほとんど差がない(関連が薄い)。
- カテゴリ列 vs カテゴリ列: クラメールのV (V) : 2つのカテゴリ変数の間にどれくらいの関連性があるかを示す指標で、0から1の間の値をとります。
- 1に近い: 2つのカテゴリ間に強い関連性がある(一方のカテゴリが分かれば、もう一方のカテゴリが強く予測できる)。
- 0に近い: 2つのカテゴリはほぼ独立しており、関連性が薄い。
- 数値列 vs 数値列: 相関係数(ピアソン) または 順位相関係数(スピアマン)
- 「プロットを更新」 をクリックします。
- 実行が完了すると、プロットエリア左に相関ヒートマップ・右に散布図がプロットされます。 ヒートマップ上のセルをクリックすると、その変数ペアの散布図に切り替わります。これにより、相関の強さと実際のデータ分布を同時に確認できます。
散布図確認の重要性
少数の外れ値によって、相関係数が実態よりも大きく/小さく計算されることがあります。 そのため、散布図の分布を確認することが重要です。
相関関係は因果関係を意味しない
相関ヒートマップは、あくまで「2つの変数が連動して動いている」ことを示すものであり、「一方がもう一方の原因である」ことを直接示すものではありません(疑似相関の可能性があります)。 解釈には注意が必要です。
オプション設定
グラフの層別
カテゴリ列(例: 「系列」 「銘柄」など)を指定すると、そのカテゴリのグループごとに個別の相関ヒートマップが作成されます。
ヒートマップの設定
- 数値列同士の相関係数計算方法を指定できます。
- 係数を表示 ボタンで相関ヒートマップ上に相関係数の値を表示するか選択できます。
相関係数と順位相関係数の使い分け
- 相関係数を選ぶ時:
- 関係性が直線的(散布図がまっすぐ)に見える場合。
- データに外れ値(異常値)がない、または少ない場合。
- データが正規分布に近い場合。
- 順位相関係数を選ぶ時:
- データに外れ値が含まれる場合。
- 関係性が単調(一貫して増加または減少)だが、曲線的な場合。
- データが正規分布に従わない場合。
散布図の設定
- 散布図のプロットカラー・サイズ・透明度を指定できます。
- プロット点を散らすボタンでジッターの設定ができます。ジッターとは、カテゴリカル変数のプロット点の重なりを防ぐために、プロット位置を意図的に散らして可視化する機能です。
ホバー設定
散布図にホバーした時に表示される項目の選択ができます。
デフォルトでは散布X、Y軸の2変数が指定されています。
相関係数テーブルのダウンロード
相関係数をまとめた相関行列をcsvでダウンロードすることができます。
散布図
テーブルに含まれる2つの変数(X軸とY軸)を選択し、各データポイントをプロットして散布図として可視化します。 プロットの色や層別の設定等をすることで、3つ以上の変数の情報を盛り込むこともできます。 散布図は、複数の変数間の関係性や傾向、データの分布、外れ値を視覚的に把握するのに役立ちます。
操作方法
- 処理タイプ>可視化、グラフタイプ>散布図 を選択します。
- X軸、Y1軸(左軸)の変数を選択します。複数変数選択可能です。Y2軸(右軸)は任意です。
logアイコン
logをONにすると、設定した軸が対数目盛になります。 データ範囲が広い変数を扱う時に効果的です。
- 「プロット」 をクリックします。
- 実行が完了すると、選択した変数の散布図がプロットされます。
散布図での確認ポイント
散布図を確認することで、以下の情報を視覚的に把握できます:
- 2つの変数間の相関関係(正の相関、負の相関、無相関)
- データの分布パターン
- 外れ値の存在
- 非線形な関係性
相関関係は因果関係を意味しない
散布図で相関関係が見られても、それは「2つの変数が連動して動いている」ことを示すものであり、「一方がもう一方の原因である」ことを直接示すものではありません(疑似相関の可能性があります)。 解釈には注意が必要です。
オプション設定
Y軸毎の設定
プロットの色や形状等の詳細な設定を行うことができます。
カテゴリ(グラフの層別)
カテゴリに設定した変数のラベルごとにプロットが分割されます。
カテゴリカル変数のみ選択可能です。
カラー基準
プロットの色を指定できます。
選択した変数がカテゴリカル変数の時は、ラベルごとに色を指定できます
選択した変数が数値変数の時は、カラースケールを指定できます
X軸・Y軸に説明変数、カラーに目的変数を設定することで、説明変数の組み合わせによって目的変数がどのように分布しているかが分かります。
シェイプ基準
プロットの形を指定できます。カテゴリカル変数のみ選択可能です。
サイズ基準
プロットの大きさを指定できます。数値変数のみ選択可能です。
全体的なサイズ変更をしたい場合は、マーカー基準サイズ を変更します。
ホバー時の表示項目
散布図にホバーした時に表示される項目の選択ができます。
線グラフの順序
プロットタイプが線モードの時に、線をつなぐ順番を指定できます。
デフォルトではX軸の変数になっています。
グラフスタイル・レイアウト設定
プロットの全体的な大きさ・透明度や軸・目盛ラベルの大きさ
軸名や凡例の表示有無
各オプション項目の選択内容によって、操作の有効/無効が切り替わります。
軸範囲
グラフカラー
グラフサイズ
オプション設定
近似直線
線形回帰(最小二乗法)で計算した近似直線を表示します。
プロット点を散らす
X軸またはY軸にカテゴリカル変数を選択しているとき、プロット点の重なりを防ぐためにプロット位置を意図的に散らします。
- プロット点を散らすがOFF
- プロット点を散らすがON
グラフをスタック
Y軸に複数の変数を選択しているとき、複数のプロットに分割して表示できます。
- グラフをスタックがOFF
- グラフをスタックがON
軸定数線
X軸、Y軸に任意の定数線を引けます。
軸定数線の活用例
定数線を使うことで、データを基準値と比較したり、領域を分けて解釈できます
箱ひげ図 (Box Plot)
カテゴリごとの数値データの分布、中央値、四分位範囲(ばらつき)、外れ値を視覚的に比較するためのグラフです。 データの偏りやグループ間の違いを簡単に把握できます。
操作方法
- 処理タイプ>可視化、グラフタイプ>箱ひげ図 を選択します。
- Y軸に数値変数を、X軸にカテゴリ変数(例: 日付、ロット、工程など)を選択します。
- 「プロットを更新」 をクリックします。
- プロットされた箱ひげ図で、各カテゴリのデータ分布(中央値、四分位範囲、外れ値)を確認します。
確認ポイント
- 中央値: 箱の中の線で、データの中心を比較します。
- ばらつき: 箱の長さ(四分位範囲)で、データの広がりを比較します。
- 外れ値: ひげの外側の点を確認し、異常なデータポイントを特定します。
オプション設定
グラフの層別
別のカテゴリ変数で層別することで、さらに詳細なグループ分けをして分布を比較できます。
スタイル・レイアウト設定
箱の幅、色の設定、軸ラベルの調整などが可能です。
回帰分析 (Regression Analysis)
目的変数(予測したい変数:Y)と、それに影響を与える説明変数(要因:X)との間の数学的な関係をモデル化します。 製品の品質予測や、歩留まりに影響を与える主要因の特定に役立ちます。
操作方法
- 処理タイプ>分析、グラフタイプ>回帰分析 を選択します。
- 「目的変数」 に予測したい数値変数(例: 製品の硬度、歩留まりなど)を選択します。
- 「説明変数」 に要因としたい変数(複数選択可)を選択します。
- モデルタイプ(線形回帰、ロジスティック回帰など)を選択します。
- 「実行」 をクリックします。
結果の解釈
- 決定係数 ($R^2$): モデルの当てはまりの良さを示します(1に近いほど良い)。
- 係数の符号と大きさ: 説明変数が目的変数に与える影響の方向(正または負)と強さを確認します。
- P値: 各説明変数が統計的に有意な要因であるかを確認します。
相関関係は因果関係を意味しない
回帰分析は強い相関関係を示すことがありますが、それだけで因果関係を断定することはできません。結果は現場の知見と組み合わせて解釈することが重要です。
オプション設定
モデルの選択
目的変数のタイプ(数値かカテゴリか)に応じて、線形回帰やロジスティック回帰などを選択できます。
変数選択法
統計的な基準に基づき、モデルに含める最適な説明変数の組み合わせを自動で選択できます。
予測結果の表示
モデルによる予測値と残差(誤差)のグラフやテーブルを確認できます。