第一回:統計学の限界

もっともらしい

★★★☆☆ 3.33(12)
★★★★☆ 4.0(3)

Amazonなど通販サイト、食べログなどレビューサイト、そういったところで頻繁に見かける「評価」について。たとえば上の2つ。どちらが率直に購買を決断(意思決定)すべきかは多くの人が悩むポイントだと思います。ここでユーザが直面している課題とは「回答数は多いものの相対的に低い評価」と「回答数は少ないものの相対的に高い評価」を単純には比較できないということです。結論から言うとこれは統計学の限界です。この課題を統計学がキチンと解決してはいません。

下記のような評価がなされている動画があったとします。
いいね(13) わるいね(0)
現在100%のユーザが好評価をしていますが、この事実をもって「この動画は100%の頻度で好かれる」という推定を出したとします。統計学にできるのはその推定に対して「最も尤もらしい推定だ」と応答することです。これは「尤度」「最尤推定」という概念のことです。

この「尤度」が便利な道具として正しく機能する命題を例示すると

  • フォーシーム25%、ツーシーム15%、常に一定の確率で投げるピッチャー(園田)
  • フォーシーム20%、ツーシーム20%、常に一定の確率で投げるピッチャー(烏丸)

フォーシーム 100球中20球
ツーシーム  100球中15球

この投球内容で、園田と烏丸のどちらが登板したと判断することが「もっともらしい」か応答することができます。だから監督が「烏丸が投げたデータだね?」と聞いてきいてきたとき「違います!」とは答えられないのですが「もっともっともらしいピッチャーがいます(園田です)」と答えることはできます。それは園田と烏丸の「もっともらしさの値(=尤度)」を比較してそのように判断することができます。

★★★☆☆ 3.33(12)
★★★★☆ 4.0(3)
しかし、ここで3.33(12)を3.33と評価することの「もっともらしさの値」と4.0(3)を4.0と評価することの「もっともらしさの値」を算出したとしても、そこから先がまったくわからないわけです。結局、「じゃあそれぞれ値が閾値を超えたら、そのときは評価として信頼しよう」などと「恣意的な手続き」が避けられないのです。※()内の数値、回答数に閾値を設けてn人以上が回答していたら信頼しようとする直感的な試みとの差分があるのかということです。

標本

人気アイドルの谷藤さんと椿さん。どちらが人気者か調べようと思ったら東京・渋谷あたりで手当たり次第質問していくのが早い話かもしれません。

質問A「谷藤さん知っていますか」
質問B「椿さん知っていますか」
※どちらを先に聞いて、どちらを後で聞くかは交互にやらないといけないと思われるがそうした議論はここでは避けます。

しかし現実に東京・渋谷民がこれくらいいた(母集団)としても・・・
人 人 人 人 人 人 人 人 人 人 人 人 人 人 人
人 人 人 人 人 人 人 人 人 人 人 人 人 人 人
人 人 人 人 人 人 人 人 人 人 人 人 人 人 人
人 人 人 人 人 人 人 人 人 人 人 人 人 人 人
人 人 人 人 人 人 人 人 人 人 人 人 人 人 人

 ↑ 母集団
 ↓ 標本

アンケートにご協力いただけるかた(標本)は必ず限定されます
   人   人        人 人   人 人
  人   人      人 人   人    人
人        人   人      人   人
  人   人      人    人
       人 人      人   人

アンケートに応じてくれた東京・渋谷民の回答集計結果(例:谷藤のほうが人気だった)は、あくまで標本のほうに対してなされる判断(谷藤人気/椿人気)ですから、ここで母集団のほうに対しても同様の判断(谷藤人気/椿人気)をするとは、標本のほうに対する判断を母集団のほうに対しては「谷藤のほうが人気というわけではない」という帰無仮説として立て、その仮説が「棄却される」とする手続きに他ならないのです。その手続きが統計学における仮説検定そのものです。つまり母集団に対しては「谷藤のほうが人気」という判断が「言えないとは言えない」とするにとどまるわけです。

独立の類似度

事象Z:Amazon会員である(全体6割)
事象R:楽天会員である(全体3割)
事象J:Joshin会員である(全体1割)

ここであるユーザがAmazon会員である確率をP(Z)とおき、データからP(Z)=0.6と推定します。
同様に、
P(Z)=0.6
P(R)=0.3
P(J)=0.1

ここで、
あるユーザーがAmazon会員かつ楽天会員である確率をP(Z ⋂ R)
あるユーザーがAmazon会員かつJoshin会員である確率をP(Z ⋂ J)
とすると

あるユーザがAmazon会員になったり、楽天会員になったり、Joshin会員になったりする事象が互いに独立であれば、
P(Z ⋂ R) = P(Z)P(R)= 0.18
P(Z ⋂ J) = P(Z)P(J)= 0.06

ここで、
Amazon会員かつ楽天会員というユーザが現に18%存在すれば、上述の推定ルールに従えば、P(Z ⋂ R)=0.18 (=0.18 独立を仮定した場合の確率と一致)
Amazon会員かつJoshin会員というユーザが現に6%存在すれば、上述の推定ルールに従えば、P(Z ⋂ R)=0.06 (=0.06 独立を仮定した場合の確率と一致)

そのさい、もしかして独立事象なのか?と考えることができるわけです。
つまり、それぞれ

  • Amazonに会員登録した人が特別、楽天に会員登録しやすいわけでもないよ
  • Amazonに会員登録した人が特別、Joshinに会員登録しやすいわけでもないよ

と考えることができるわけです。

ここで全体ユーザ100人だとして、

  • Amazon会員登録と楽天会員登録のコサイン類似度
  • Amazon会員登録とJoshin会員登録のコサイン類似度

を計算します。

イメージのための例ですが、
Amazon会員ユーザベクトル={0,1,1,0,1,…,0,1,1,1,0}
(Amazon登録ユーザなら1、そうでなければ0)

楽天会員ユーザベクトル={0,1,0,1,0,…,0,0,1,0,0}
(楽天登録ユーザなら1、そうでなければ0)

Joshin会員ユーザベクトル={1,0,0,0,0,…,0,0,0,0,0}
(Joshin登録ユーザなら1、そうでなければ0)

各ベクトルの大きさはどのように構成したとしても60,30,10ですし、2ベクトルの内積も18、6に必ずなりますから、
similar(Z,R) = 18/√1800
similar(Z,J) = 6/√600
となります。

ここでコサイン類似度は、ある二つの類似度を比較(AとBの類似度のほうが、CとDの類似度よりも高い、など)するさいの指標として普遍的ではないのではないかと考えることができます。任意の{i,j}の類似度で、iとjが独立だったときに常に同じ定数を返す類似度指標が、クラスタリングまで執り行うさいには必要条件になってくるのではないかという発展的な指摘もできるでしょう。しかしこの一連の考え方の最も攻撃できる箇所は「互いが独立事象であった場合の生起確率と同じ頻度で、現に互いが同時に観測される、の、であれば互いに独立事象である」というプロポジションの部分でしょう。または「同じ集団から同じように評価されるほど類似しているとして何か問題でもあるのか」と素直にリプライしても良いと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA