片側検定についての疑問

    統計の仮説検定において、どのような場合に片側検定を用いて良いか、 というのは、なかなか理解の難しい問題である。 私が授業で用いている田中勝人先生の「統計学(第2版)」には、新薬と旧薬を比較する例が載っており、新薬(効果μ)が旧薬(効果μ0)よりも劣ることはないと事前に分かっている場合には、
      帰無仮説 H0: μ=μ0
      対立仮説 H1: μ>μ0
    と仮説を立てて片側検定を行うというように書いてある。
    しかしながら、このような、帰無仮説の否定の一部のみを対立仮説として採用できるケースは、現実にはほぼ存在しないのではないか、とも思われる。薬の例では、旧薬と新薬が異なる以上、普通は、新薬の効き目が旧薬に劣るような可能性もあると考えるのが自然だろう。
    「統計学(第2版)」には、片側検定を用いる別の例として、一日当たりの交通事故件数の16日間の平均λが与えられていて、一日当たりの事故件数が目標件数λ0を下回っているかどうかを検定するという事例がある。このときは、上の薬の例とは違い、目標件数を上回っている可能性もあるが、興味があるのは下回っているかどうかなので、
      帰無仮説 H0: λ=λ0
      対立仮説 H1: λ<λ0
    と仮説を立てて片側検定を行うと書いてある。しかしこれだと、λ>λ0の場合は考えなくてよいのか、という疑問が生じる。
    少し調べてみたところ、片側検定の考え方は本当に様々であり、本によっても色々と違ったことが書いてあるということがわかった。上の薬の例のように、帰無仮説の一部を最初から確実に否定できる場合のみ片側検定を用いるという立場もあれば、交通事故件数の例のように、上回っている(もしくは下回っている)かどうかだけに興味があれば片側検定を用いてよい、という立場もある。

個人的な解釈

    結局のところ、個人レベルで一貫していればいいのではないかとも思うので、私の解釈をここで確認しておく。
    個人的には、上の薬の例で言えば、たとえ新薬が旧薬に劣る可能性があろうとも、新薬が旧薬より優れているかどうかだけに興味があるならば、片側検定を用いてよいと考えている。その際、仮説については、不等号を用いて
      帰無仮説 H0: μ≦μ0
      対立仮説 H1: μ>μ0
    と設定すべきだと考えている。ただ、μ≦μ0よりもμ=μ0の方が条件が厳しく、棄却される確率が同じか高くなるので、より安全側で考えて、実際はμ=μ0の元での分布の棄却域を考える。つまり、実際に調べるのはμ=μ0の場合だが、帰無仮説はあくまで μ≦μ0であるという立場である。この場合、有意水準の意味が変わってくることにも注意が必要である。教科書的には普通は「有意水準=第一種の誤りの確率」であるが、上のように考えた場合には、有意水準は第一種の誤りの確率の上限値となる。
    以上のような、帰無仮説に不等号を用いる考え方は、おそらく少数派だと思う。ただ、実際に図書館で調べたところ、「帰無仮説はμ≦μ0である」と明記してある本は見つからなかったが、「μ=μ0を棄却できればμ<μ0の場合は全て棄却できるので、帰無仮説はμ=μ0とする」と書いてある本や、「本来は帰無仮説をμ≦μ0と設定すべきであるが、そうすると分布が一定しないので、一番厳しい条件として帰無仮説をμ=μ0とする」等と書いてある本は複数見つけることができた。また、「その場合は、第一種の誤りの確率は、高々有意水準となる」というように、有意水準の意味が変わることが書いてある本も、ごく少数だが見つけることができた。というわけで、私の解釈も大きく間違っているということは無さそうである。
    それにしても、何の説明もなく H0: μ=μ0となっていたり、μ<μ0となる場合を想定していないなら除外してよいとか、よく分からない説明で済ませている本も多い。そんな説明で、はたしてスッキリ理解できるのだろうか。ただ、私自身も授業では、教科書との兼ね合いで H0: μ=μ0と教えているので、なかなか悩ましい状態ではあるのだが。

片側検定と両側検定で結果が異なるケース

    微妙なケースでは、帰無仮説が、両側検定では棄却されないが、片側検定では棄却される、つまり、対立仮説が、両側検定では採択されず、片側検定では採択されることも考えられる。「新薬と旧薬の効果に違いがある」ことより「新薬の方が旧薬より優れている」ことの方が、条件がより限定的であるにも関わらず、後者の方が片側検定を用いることにより採択されやすくなるというのは、直感に反するかもしれない。つまり、両側検定と片側検定を両方用いると、新薬は旧薬と違いは無いのに旧薬より優れている、ということになってしまう。
    棄却や採択の基準が違うんだからそういうものだと言ってしまえばそれまでであるが、この一見、矛盾するような結果は、仮説検定とは、現に起きている現象が、帰無仮説の元でどの程度、稀な現象かを考えるものであり、何を稀な現象とみなすのか、という人間側の思惑が入ってきていることに注意すると理解し易い。
    例えば、サイコロを6回振った場合を考えてみよう。AさんとBさんがいるとして、Aさんは111111とか333333のような、6回とも同じ数字が出るような場合のみ、稀なことが起きたと認識するとしよう。一方でBさんは、123456とか、121212のような、何らかのパターン的な数字の並びが出れば、稀なことが起きたと認識するものとする。さて、実際に111111が出た場合を考えると、Aさんにとっては非常に稀なことが起きたということになるが、Bさんにとっては、数あるパターン的な数字の並びの一つが出ただけということで、Aさんほどには稀さを感じないかもしれない。
    薬の話に戻して考えると、両側検定では、新薬が旧薬より非常に優れている、という場合と、新薬が旧薬に比べて非常に劣っている、という場合の両方を稀なケースとみなしているため、上のBさんの例のように、稀と感じるパターンが多い分、稀な現象だと判断するためのハードルが上がることになる。何を稀であるとみなすか、という前提自体が異なるため、結果的に、片側検定では棄却できる帰無仮説が両側検定では棄却されないというケースがあっても不思議ではないということになる。
    何を稀な現象だとみなすか、というのは、検定を行う前の前提として決まっている、もしくは決めておかねばならないものであるので、片側検定と両側検定を両方実行するというのは、理屈としてはおかしい話である。ましてや、両方実行して都合の良い方を採用するなどということは、許されないと考えるべきだろう。また、検定を行う前の段階で、どちらを用いるか迷った場合には、より保守的な両側検定を用いるべきであろう。ただ実際には、両側検定に比べてより帰無仮説を棄却し易いという安易な理由で片側検定が用いられるケースも多いようである。