Skip to content

カルバック・ライブラー情報量についての解説もどき(2021/1/14時点での勉強結果)を記述します.

おすすめの参考書

いままでの統計本で一番わかりやすかった.

データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅

カルバック・ライブラー情報量

確率論と情報理論における2つの確率分布の差異を計る尺度である。情報ダイバージェンス(英: information divergence)、情報利得(英: information gain)、相対エントロピー(英: relative entropy)とも呼ばれる。 2つの確率分布の差異を表す事から、カルバック・ライブラー距離 と呼ばれる事もあるが、距離の公理を満たさないので、数学的な意味での距離ではない。
応用上は、「真の」確率分布 P とそれ以外の任意の確率分布 Q に対するカルバック・ライブラー情報量が計算される事が多い。 例えばP はデータ、観測値、正確に計算で求められた確率分布などを表し、Q は理論値、モデル値、P の予測値などを表す。
引用先:カルバック・ライブラー情報量 Wiki

数式

DKL(PQ)=iP(i)logP(i)Q(i)

上記の解説を調べる中で,下記の疑問点が沸きました.

  1. 確率変数の期待値と確率分布の平均は一緒
  2. なんでlogを付けるのか・p * logPの意味は?
  3. 確率分布の差異がなぜ見れるのか?
  4. 物質の差を見るときと共通点はないのか?
  5. なぜ,下記の数式ではダメなのか?
iQ(i)(logQ(x))iP(i)(logP(x))
  1. なぜ,下記の数式ではダメなのか?
iQ(i)logP(i)Q(i)

確率変数の期待値と確率分布の平均は一緒

下記のサイトを参照ください. 「確率変数の期待値 = 確率分布の平均」について

なんでlogを付けるのか・p * logPの意味は?

期待値(加重平均)を求める際に,身長グループで言う身長のように数字尺度・価値を示す指標が確率変数であれば問題ありません.

しかし,「SSSランクのキャラが-%の確率で出る」という情報そのものの場合は,確率変数がストレートに数値で示せないので,工夫がいります.

そこで,下記の式を「情報量」と定義して,情報の価値を数値化します.-logで括れば確率P(i)が低いほど価値が増すことが表現できます.

logP(i)SSS =log11000000=6B =log110=1

情報の価値を数値化した「情報量」を定義したので,後は確率で重み付けして期待値(加重平均)が算出します.(p * logPの意味)

iP(i)(logP(x))

確率分布の差異がなぜ見れるのか?

2つの確率分布(ここでは,P(x),Q(x))でも,カルバック・ライブラー情報量で差異がみれるのか,数式から見る.

DKL(PQ)=iP(i)logP(i)Q(i)=iP(i)(logQ(x))iP(i)(logP(x))

確率P(x)で重みつけしたP(x)情報量の平均とQ(x)情報量の平均の差を見ていることがわかります.

t検定でも分散が一致する前提のもとに平均の差を見ています.

それと,同様のことをしていると解釈しています.

物質の差を見るときと共通点はないのか?

学校のクラスごとのテスト成績を比べる時は,クラスごとの平均点で比べるとわかりやすい.

ただし,クラスの人数が極端に違うと,比較対象になりえないので注意が必要である.

極端な話だが,40人のクラスと10人のクラスでは10人のクラスの方が平均が高くなりがちです.

なぜ,下記の数式ではダメなのか?_1

iQ(i)(logQ(x))iP(i)(logP(x))

上式の方で「違う分布なのに0となる」という支障パターンを考えました.

下図に示すように,分布の形が違うのに平均は一致してしまいます.

!(/image/gauss_diff.png)

t検定でも分散が違う場合は,上図のように分布は違うのに「一致している」という結果が返ってきます.

なので,t検定では事前にF検定で分散(分布の形)が一緒という確認をしています.

この事態を防ぐために,重みはP(x)で統一していると考えています.

なぜ,下記の数式ではダメなのか?_2

iQ(i)logP(i)Q(i)=iQ(i)(logP(x))iQ(i)(logQ(x))

上式の方で支障パターンを考えました.

支障パターンとしては,「差が最小化になる分布を求めづらい」ことがあります.

真の確率(観測データ):P(x)と観測できた確率(推定データ):Q(x|θ)のカルバック・ライブラー情報量の場合は,差が埋まるようにθを調節します.上記のカルバック・ライブラー情報量を下式に示します. 文字は,xはデータ,θはパラメータとします.

DKL(P(x)Q(x|heta))=iP(xi)logP(xi)Q(xi|θ)

上式を最小化する場合は,真の確率(観測データ):P(x)は固定値ですので,下のようになれは最小化します

maxhetai=1nlogQ(xi|θ)

しかし,

DKL(P(x)Q(x|heta))=iQ(xi|θ)logP(xi)Q(xi|θ)=iQ(xi|heta)(logQ(xi|θ))iQ(xi|θ)(logP(xi))

だと,最小化する数式が複雑になります.どうするかは面倒なのでやりません.

よって,最小化が容易な下式となります.

DKL(P(x)Q(x|heta))=iP(xi)logP(xi)Q(xi|θ)

おまけ:尤度

カルバック・ライブラー情報量の一部である,下式の真の確率(観測データ):P(x)で重みつけしたQ(x|θ)の情報量を尤度と言います.

DKL(PQ)=iP(xi)logP(i)Q(xi|heta)=iP(xi)(logQ(xi|heta))iP(xi)(logP(xi))iP(i)(logQ(xi|heta))

まとめ

ここまでで,カルバック・ライブラー情報量についての解説もどき(2021/1/14時点での勉強結果)を記述しました.

逐次更新します.

参考サイト

カルバック・ライブラー情報量 Wiki

期待値 Wiki

KL情報量とモデル推定