確率に対する感覚の不思議

人間の確率に対する感覚はけっこういいかげんで、時と場合によって行動基準が逆転するように見える場合もあります。仕事や勉強だけでなく、(無意識的なものも含めれば) 日常感覚でも確率を扱うことは決して少なくないと思います。簡潔さと正確さ、公平と公平感へのアプローチに関して考慮するための材料をシェアできればと思います。

人間のランダムに対する感覚はいいかげん

0〜99999 の数をランダムに 10個
とってくるとします。
以下のどちらが、よりちゃんとした
ランダムだと感じるでしょうか。

あまり考えず、直感ではいかがでしょう?

  1. 30838
  2. 23380
  3. 54924
  4. 86354
  5. 78900
  6. 93398
  7. 19027
  8. 78799
  9. 48105
  10. 52276
  1. 197
  2. 74322
  3. 12987
  4. 9897
  5. 65530
  6. 4601
  7. 32876
  8. 50014
  9. 84
  10. 20536

0〜99999 の範囲で言えば、
0〜9999 は全体の10%に当たります。
乱暴に言ってしまうと、後者の例では
出現確率 10%の範囲にある数字が
40% の出現確率で現れています。

後者にはこのような目立った偏りがありますが、
強烈な違和感とまでは感じないのではないかと思います。
そのため、一見しただけでは後者の方が
ちゃんとしたランダムだと感じるかもしれません。

人間の脳には数量的なものを扱う能力
(『感覚』という言葉になぞらえると
『数覚』) があるようなのですが、
掛け算をマスターするのは一苦労ですし、
サビタイジング (ぱっと見て瞬間的に
数量を捉える) のは 4つくらいまでで、
それ以上になると数えあげる必要性があります。

大きな数やランダムを直感的に扱うのは
困難を伴うと言えるのかもしれません。

例えば、100曲をシャッフル再生すると
人間の直感的なランダムに反する
ような選曲になることがあります。
抽選なら、自分が1度も当選していないのに、
別の人は 3回当選しているとなると、
直感的にランダムではないと感じるどころか、
不公平な偏りがあるとさえ感じるかもしれません。

確率と公平感の基準は意外と恣意的?

宝くじで高額当選が出た売場は
幸運な売場と見られる場合があり、
より積極的に選択されることがあります。

マークシートによる多枝式の試験では、
例えば回答に3番が多いなどは、
回答に迷った場合に 3以外の番号を
選択した方が良いと感じられることがあります。

天秤のバランスをとるならば、
すでに高額当選が出た売場よりも、
まだ一度も出ていない売場の方が
当たる可能性が高いと感じてもおかしくはない気もします。

マークシートで 3が解答としての
実績を持っているならば、
回答に迷った場合には、積極的に
3を選んでもおかしくはない気もします。

宝くじは殆どの場合で
ちゃんと公平に作られているため、
幸運な売場というものは存在しなはずですが、
宝くじで勝つ (何らかの必勝法が存在し得る) ためには、
幸運等の要素から影響を受ける形で
高額当選の確率が存在している方が都合が良いとも言え、
幸運な売場と感じるのかもしれません。

マークシートは人工的に作られたもので、
マークシートにおいては偏りを不公平で
是正されるべきよどみであるから、
実力を公平にはかるためにも
解答はあるていど均一に分布すべきだと
感じるのかもしれません。

こんな風に考えると、人が持つ
確率に関する感覚には
なんとも恣意的な面があるようにも思えます。

確率をきちんと考えることは難しい

次に病気Aの検査キットを例に考えてみます。

この検査キットを使用すると、
被験者が病気Aの場合には
99%の確率で陽性が出るとします。
被験者が病気Aでない場合には
1%の確率で偽陽性が出るとします。

この検査キットは99%の正確さで
病気Aを調べられるのであるから、
検査結果として陽性が出た場合、
その被験者は 99%の確率で病気Aだ…
と直感的に思えるかもしれませんが、
実はそうではありません。

病気Aに実際に罹患している確率を 1%
(100人に1人くらい割合) として
考えてみます。

10000人いれば、
病気Aの人は100人ほどで、
9900人は病気Aではありません。

それぞれに検査キットを使用すると
実際に病気Aに罹患している100人のうち、
99人が陽性、1人が偽陰性となります。
病気Aではない9900人のうち、
99人が偽陽性、9801人が陰性となります。

ですから、このような条件下で見ると、
陽性が出る人は198人ですが、その半分に
あたる 99人は偽陽性ということになります。
よって、99%の確実性を持って病気A
を特定できる検査キットで陽性が出た場合、
実際に病気Aである可能性は (99%ではなく!) 50%
です。

陰性の人は9802人ですが、その内の1人は
実際には病気Aということになります。
よって、陰性であっても病気Aである
可能性は (1%ではなく!) 0.01%です。

不特定多数の人について、
どれくらいの確率で実際に病気Aに
罹患しているかという点に関して、
もしかすると

  • 健康診断のようにそもそも病気ではない状態での検査なのか
  • 体調不良で病気Aが疑わしいという場面を想定するのか

など、状況によってこの確率を
場合分けする必要性があるのではという
疑問を持つ人もいるかもしれません。

それらを分ける必要性は無いと考えられます。
なぜならば、体調不良という情報に基づく
自己判断や、医師の診断などは、
それぞれが検査の役割を担います。

自己判断や医師の診断などを重ねれば、
実際に病気Aに罹患している可能性が十分に
高いグループに絞り込んだ上で、
検査キットを使用することとなります。
そうなると、確度が 99%の検査キットを
使用したことに対する成果ではなく、
複数種類で多重に検査を適用したことに対して、
その成果を考えることになってしまいます。

一応、医師による診断 (=1つ目の検査) と
検査キットによる検査 (=2つ目の検査) で
2重にチェックしている場合も計算してみます。

体調不良で医師にかかり、
医師が高い確度で診断を下した上で、
念のために検査をするような状況として
病気Aに実際に罹患している確率を
98% まで絞り込んだ後の計算をしてみます。

医師の診断を受けた10000人のうち、
病気Aの人は9800人ほどで、
200人は病気Aではありません。

それぞれに検査キットを使用すると
実際に病気Aを罹患の9800人のうち、
9604人が陽性、196人が偽陰性となります。
病気Aではない200人の内、
4人が偽陽性、196人が陰性となります。

このような (二重検査の) 前提では
陽性の出た人 9608人のうち
9604人は実際に罹患していますから、
陽性の出た人が実際に罹患している確率は
(99%ではなく!) 99.958% となります。

99%の確度を持つ検査キットで陽性が出ても
実際に罹患している確率は 50%でした。
※前提によっては 1%以下というケースもあるでしょう。

医師の診断をも含む、二重検査では
99.958% という 99%に近い数字がでました。
こちらは検査キットの確度が 99%であることと
数字的な親和性を感じてしまうかもしれませんが、
これらの間にはほとんど関係がありません。

簡潔さと正確さ、公平と公平感

コンサル、システム設計やアプリ制作など、
確率を扱うことは少なくありません。
以下は一例ですが、このようなことを
考慮するようにしています。

問題解決のためにはどのように
指標を提示するべきか。

例えば、先の例で言えば、
実際にユーザが知りたいのは
検査キットの性能ではなく、
最終的に自分がどのくらいの確率で
病気に罹患しているのかだと思います。

天気予報で言えば、
晴れの確率と予報の確度を掛け算して…
などとなっていてるよりは、
傘が不要なのか、洗濯物が干せるのかが
ズバリ分かる方が利便性が高いことが多いでしょう。
そのような時に、情報の正確さ・詳細さと
簡潔さとのトレードオフをどうするかなど。

音楽のランダム再生や、当選者の抽選などでは、
ちゃんと公平性を担保するとエンドユーザが
不公平に感じる場合があり、公平さと公平感が
両立しない場合にはどちらを優先すべきかなど。

人間の特性として直感的に扱うことが難しいものを、
もう一歩自然に扱えるように工夫を加えて行ければ良いなと考えています。

お問い合わせについて

業務として技術コンサルティングやシステム設計・開発を行っております。
気になることがありましたらご相談下さい。
ご相談のみで完結する場合、コンサルティング費用の目安は
内容によりますが1時間で5千円〜1万円ていどです。
コンサルティングや開発を検討されるその前に、
まずはお気軽にコメントやメールでご連絡下さい。
ご契約前のコメントやメールでのやりとりは無料です。

お問い合わせフォーム

お急ぎの場合など、ただちに業務対応が必要な場合は、こちらのお問い合わせフォームをご利用ください。かきしちカンパニーお客様窓口が直ちに対応いたします。
※窓口へのお問い合わせ、お見積もりは無料です。


お名前 (必須)

メールアドレス (必須)

題名

メッセージ本文 (必須)

Share

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*