ちびのはてな

「ちび(猫)」と「キノコ」から生まれた「ちびキノコ」。ドラゴンボール最強!純粋なサイヤ人のように生きたいと思っているモノ作りを楽しむ人です。IT技術で少しでも多くの人が笑顔になってくれたらいいなと。

【メモ】欠損値について

これは、G検定のための個人的なメモである.
内容はとても薄い.

急に 回帰補完 , リストワイズ法 といったワードが登場し、
わからなかったのでまとめることにした

参考記事*1

参考記事を見れば全部書いてあるわけだが、自分の言葉でまとめるのも大事。
ってことで、全く同じになりかねないが、まとめていく


欠損値が発生する理由

  1. MCAR*2 : 完全にランダムな欠損
  2. MAR*3 : 測定されている値に依存して欠損している (欠損データとは無関係)
  3. MNAR*4 : 欠損データに依存して欠損している

欠損値への対処の手法

手法 説明 メモ
リストワイズ法 欠損値のあるサンプルを除外する
ペアワイズ法(オールペア法ともいう) 相関係数や分散を算出し, 2変数のどちらかに欠損値のあるサンプルを除外する
平均値代入法 欠損値の箇所に、欠損値を含まないデータから計算した平均値を補完する
回帰代入法(コールドデック法ともいう) 欠損値の箇所に、別途作ったモデルを利用して算出した値を補完する 目的変数に影響しそうな変数を説明変数として回帰分析を行うモデルを作る
確率的回帰代入法 回帰代入法により推定した値に誤差をランダムに加えて補完する
完全情報最尤推定法: FIML*5 欠損値パターンに応じた個別の尤度関数を仮定した最尤推定法により補完
多重代入法: MIM*6 欠損値を代入したデータセットを複数作成し、その結果を統合することで欠損値データの統計的推測により補完

まとめ

いつ登場するんだ?欠損値。回帰分析とかかな?
あと、 ステップワイズ法 という似た言葉が出てきたが、これは回帰モデルを作る手法であって欠損値対処の手法ではなさそう?

*1:https://jojoshin.hatenablog.com/entry/2017/02/03/220118

*2:MCAR: Missing Completely at random

*3:MAR: Missing at random

*4:MNAR: Missing not at random

*5:FIML: Full Information Maximum Likelihood method

*6:MIM: Multiple Imputation Method