カルバック・ライブラー情報量についての解説もどき(2021/1/14時点での勉強結果)を記述します.
おすすめの参考書
いままでの統計本で一番わかりやすかった.
データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅
カルバック・ライブラー情報量
確率論と情報理論における2つの確率分布の差異を計る尺度である。情報ダイバージェンス(英: information divergence)、情報利得(英: information gain)、相対エントロピー(英: relative entropy)とも呼ばれる。 2つの確率分布の差異を表す事から、カルバック・ライブラー距離 と呼ばれる事もあるが、距離の公理を満たさないので、数学的な意味での距離ではない。
応用上は、「真の」確率分布 P とそれ以外の任意の確率分布 Q に対するカルバック・ライブラー情報量が計算される事が多い。 例えばP はデータ、観測値、正確に計算で求められた確率分布などを表し、Q は理論値、モデル値、P の予測値などを表す。
引用先:カルバック・ライブラー情報量 Wiki
数式
上記の解説を調べる中で,下記の疑問点が沸きました.
- 確率変数の期待値と確率分布の平均は一緒
- なんでlogを付けるのか・p * logPの意味は?
- 確率分布の差異がなぜ見れるのか?
- 物質の差を見るときと共通点はないのか?
- なぜ,下記の数式ではダメなのか?
- なぜ,下記の数式ではダメなのか?
確率変数の期待値と確率分布の平均は一緒
下記のサイトを参照ください. 「確率変数の期待値 = 確率分布の平均」について
なんでlogを付けるのか・p * logPの意味は?
期待値(加重平均)を求める際に,身長グループで言う身長のように数字尺度・価値を示す指標が確率変数であれば問題ありません.
しかし,「SSSランクのキャラが-%の確率で出る」という情報そのものの場合は,確率変数がストレートに数値で示せないので,工夫がいります.
そこで,下記の式を「情報量」と定義して,情報の価値を数値化します.-logで括れば確率P(i)が低いほど価値が増すことが表現できます.
情報の価値を数値化した「情報量」を定義したので,後は確率で重み付けして期待値(加重平均)が算出します.(p * logPの意味)
確率分布の差異がなぜ見れるのか?
2つの確率分布(ここでは,P(x),Q(x))でも,カルバック・ライブラー情報量で差異がみれるのか,数式から見る.
確率P(x)で重みつけしたP(x)情報量の平均とQ(x)情報量の平均の差を見ていることがわかります.
t検定でも分散が一致する前提のもとに平均の差を見ています.
それと,同様のことをしていると解釈しています.
物質の差を見るときと共通点はないのか?
学校のクラスごとのテスト成績を比べる時は,クラスごとの平均点で比べるとわかりやすい.
ただし,クラスの人数が極端に違うと,比較対象になりえないので注意が必要である.
極端な話だが,40人のクラスと10人のクラスでは10人のクラスの方が平均が高くなりがちです.
なぜ,下記の数式ではダメなのか?_1
上式の方で「違う分布なのに0となる」という支障パターンを考えました.
下図に示すように,分布の形が違うのに平均は一致してしまいます.
!(/image/gauss_diff.png)
t検定でも分散が違う場合は,上図のように分布は違うのに「一致している」という結果が返ってきます.
なので,t検定では事前にF検定で分散(分布の形)が一緒という確認をしています.
この事態を防ぐために,重みはP(x)で統一していると考えています.
なぜ,下記の数式ではダメなのか?_2
上式の方で支障パターンを考えました.
支障パターンとしては,「差が最小化になる分布を求めづらい」ことがあります.
真の確率(観測データ):P(x)と観測できた確率(推定データ):Q(x|θ)のカルバック・ライブラー情報量の場合は,差が埋まるようにθを調節します.上記のカルバック・ライブラー情報量を下式に示します. 文字は,xはデータ,θはパラメータとします.
上式を最小化する場合は,真の確率(観測データ):P(x)は固定値ですので,下のようになれは最小化します
しかし,
だと,最小化する数式が複雑になります.どうするかは面倒なのでやりません.
よって,最小化が容易な下式となります.
おまけ:尤度
カルバック・ライブラー情報量の一部である,下式の真の確率(観測データ):P(x)で重みつけしたQ(x|θ)の情報量を尤度と言います.
まとめ
ここまでで,カルバック・ライブラー情報量についての解説もどき(2021/1/14時点での勉強結果)を記述しました.
逐次更新します.