統計解析Q&A-差の検定-

 

 Q1:「…検定の有意水準は5%とした。…,結果はAとBの比較でp<0.05の有意差があり,AとCの比較でp<0.01の有意差があった。…」と記載したら,記載方法が悪いといわれた。なぜだろうか?

A1α〜0の範囲を棄却域αを有意水準または水準または有意点という。有意水準は点であり範囲ではない。有意水準を5%と記載したまではよいが,5%以下を棄却域としたなら1%は記載せず,p<0.05のみ記す。p<0.01も記載したいなら,さきに「有意水準は5%および1%とし…」と断わるべきである。最近,p=0.012とか,p=0.489といった形でp値をそのまま記載する論文も散見されるが,有意水準とp値は異なることを留意しなければならない。

 ところで棄却域を有意水準未満とするか,有意水準以下とするかについて議論されることがある。有意水準の5%はFisher RAがローザムステッド農地試験所に勤務したとき,20年のうちに1回偽の報告をし,これくらいのことは“まれ”であると考えたことに由来する。このことから正しくは「5%以下」である。ただし,確率論的にはp=0.05やp=0.01は起こり得ないゆえに「5%以下=5%未満」である。従って理論的にはどちらを用いても間違いではない。本邦では「5%未満」が使用され,各学術団体に統計学者の充足している米国や英国の学術誌では「5%以下」を使用する傾向にある。

Q2:2標本t検定を適用させる際に気をつけなければならない事項は?また解釈上の注意点は?

A2:平均値の差の検定を適用させる上で,気をつけなければならない要点は以下の3点である。1つ目は,「標本の大きさはほぼ等しいか」である。例えば,健常者10名と患者20名の血圧の平均値の差を検定する場合,健常者:患者=1:2の比率となる。この比率の違いが1:2より大きくなると検定結果の誤りが生じやすい。2つ目は,「標本どうしの分散値は等しいか」である。分散値はほぼ等しくなければならない。1:2程度でも正しい結果が得られないため,そのようなときはWelchの補正を行う必要がある。最後は,標本の大きさが大きいとき,検定で帰無仮説「H0:差はない」が採択されやすいということである。例えば,n=50の標本どうしの差を検定すると,p<0.0001といった具合にp値が極めて小さな値をとることがある。この場合,信頼区間を求めて提示し,実質的な差と認めてよいか専門的立場から判断する必要がある[→Q3]。実質的な差は統計学者が判断できるものではない。以上の事項は,2標本t検定に対応したノンパラメトリック検定でも同じことがいえる。

Q3:2標本t検定,対応のある検定を行って,差がない(=同等である)を積極的に支持したいときはどうすればよいだろうか?また,“統計的に”ではなくて“医学的に”実質的な差のあることを判定したいときはどうすればよいか?

A3:差の検定では,「差がない」は積極的に支持できず,「差があるとはいえない」と解釈しなければならない。しかし,デフォルトの仮説設定を操作して,差がないことを積極的に支持(しかし,差がないと断言はできない)したり,医学的に実質的な差があるかどうかの判定を行うことができる(図1)。 

例えば,パーキンソン病患者10名と健常者10名の握力平均値が,それぞれ20.0sと22.3sで有意な差を認めなかったとしようt=1.3,p=0.206)。通常は「握力に有意な差がなかった」で終了してしまう。例えば専門的な見地から,±2s以下の握力の差は「差とみなせない」と決めよう。上述の例では差の95%信頼区間が[-1.37s〜5.94s]であったので,健常群はパーキンソンよりも最大で5.94sの差を示す可能性が95%の確率で起こると考えれば,差がないことを積極的に支持できない。もし,信頼区間が±2s以下の範囲におさまるなら,積極的に差がないことを支持できる。逆に,信頼区間が[2.5〜8.4]といった具合に下限値(または上限値)が±2sより大きくなれば,実質的な差があると判断できる。

 上記を要約すれば,@通常の検定で有意でない場合は信頼区間が0を跨いでいることになり,このときの判定は「差があるとはいえない」である,Aさらに,差の信頼区間が専門的見地から差があると考える値の範囲内に収まれば「医学的に実質的な差はない」と記載できる,B一方,検定で有意である場合は信頼区間が0を跨いでいないことになり,このときの判定は「差がある」である,Cさらに,信頼区間の下限(または上限)が専門的見地から差があると認める値の範囲に入らなければ「実質的な差がある」と記載できる,ということである。

Q4:分散分析の後に多重比較法を行っているが,これは誤っているといった報告がある。しかし,統計学の適用に関する成書では分散分析の後に多重比較法を行うというものが多い。どの方法を信用したらよいのだろうか?また,多重比較法の使い分けは?

A4:3群(変数)以上の平均値の差の検定を行うときは分散分析または多重比較法を適用させる。多重比較法の開発されていなかった時代には,多重比較法としてFisherPLSDが適用された。PLSD法は事前に分散分析を必ず行う。以降,さまざまな多重比較法が開発されたが,このときの手順が習慣づけられて残ってるだけである。現実に分散分析と多重比較法の検定結果は異なるときがあり,その際は解釈不能となる。従って,多重比較法を適用させるときは分散分析を事前に行う必要はない。

 厳密には,多重比較法のみを行うだけでよいケースと,分散分析の後に多重比較法を適用させてもよいケースがある。A群,B群,C群のデータがあると仮定して話を進めよう。まず,A群,B群,C群のうち,どこかの群間に差があるかを知りさえすればよいときは,分散分析の適用のみで十分である。有意な結果を得たなら,ABC群間には差があると結論する。そのとき,ABC群は順序的に分類されていることが望ましい。例えば,股関節近位部骨折術後患者の術後1週,2週,3週における歩行速度のデータのようなときである。分散分析の後に多重比較法を行うのは特殊なときである。群数が非常に多いときや,いくつかの群をまとめて,群の集合どうしを比較するとき(線形対比という)である。A群,B群,C群の間のどれとどれに差があるかを詳細に知りたいときは,多重比較法のみを行うとよい。このことから,理学療法の研究で事前に分散分析を必要とするケースは非常に少ないはずである。

Q5:パソコン用統計ソフトでは様々な多重比較法がプログラムされているが,どのようなとき,どの手法を用いれば妥当か?

A5:あらゆる3群以上の差の比較で適用できる多重比較法は存在しない。従って,検定目的の状況によって使い分ける必要がある。

 健常群,脳梗塞群,脳出血群それぞれの血圧データを例に挙げよう。健常群,脳梗塞群,脳出血群の血圧平均値の関係を仮定できず,予備知識のない時はTukeyHSD法(またはTukey法)を適用させる。TukeyHSD法は母平均について群間ですべての対比較を同時に検定するための方法であり,応用範囲が広いために最も用いられる手法である。ここで,健常群と患者群(脳梗塞群+脳出血群)とした平均値どうしも比較したいときは線形対比という手順が必要なのでScheffe法を適用する。Scheffe法は,線形対比を行いたいときと分散分析が有意となった場合に適用した方がよい。健常群(対照群)と脳梗塞群,健常群と脳出血群の比較だけを行いたいなら,Dunnettが適する。つまり,一つの対照群と他の介在群との比較を行うときである。また,血圧値が患者群≧脳出血群≧脳梗塞群の順序性を持つと仮定するならばWilliamsが適用となる。理学療法の研究ではこれらの手法で十分対応できる。

 なお,上述の手法に対応したノンパラメトリック検定は,Tukey法ではSteel-DwassDunnett法ではSteel法またはDunnTukey法に対応したものもある),Williams法ではShirley-Williamsとなる。また,等分散を仮定できないときはTukey法の代わりとしてGames-Howellを用いるが,TamhaneT3,DunnettC法の方がよいという意見もある。しかし,これらは漸近的理論に従う手法であるため,適用の正誤については明確にいえない。

 最後に多重比較法として使用してはならないまたは認められていない手法としてNewman-Keuls法,Duncan法,Waller-Duncanが挙げられる。FisherPLSD法は4群以上の比較では適用できない。これらの手法を用いた報告では誤った判断を下している可能性が十分にある。

Q6:分散分析の前に等分散性の検定を行っているが,Bartlett検定,Levene検定,Hartley検定のいずれを用いればよいか?

A6:検定の後にその結果を見て,再度同一のデータに検定を行うのは検定の多重性の問題が生じる。結論からいえば,散分析の前に等分散性の検定を行うことは理論的に間違いである

 Bartlett検定,Levene検定,Hartley検定の特徴を実験で確認してみると,本来,分散値に差がない2つ以上の標本に対して,正確に「差なし」と判定する性質(1-α値)はBartlett検定>Levene検定>Hartley検定の順に正確である。標本の大きさが小さいほどこの開きは大きくなる。逆に,分散値に差がある2つ以上の標本に対して,正確に「差あり」と判定する性質(1-β値)はHartley検定>Levene検定>Bartlett検定の順になる。これは標本の大きさに左右され難い。等分散性を正しく判定するという面からは,Bartlett検定を推奨する。しかし,正規分布に従わない可能性のあるデータに対してはLevene検定の方が妥当な結果を得る。

 あらゆる検定にいえることであるが,差がない(または等しい)標本どうしを差があると誤って判定する確率(第T種の過誤)は有意水準以下に抑えることができる。しかし差がある標本どうしを差がないと誤って判定する確率(第U種の過誤)はコントロールできない。少なくとも,上述した等分散性の検定では第T種の過誤よりも第U種の過誤がかなり大きい。これを踏まえて,等分散性の検定を分散分析の前に行うことを考えてみる。分散が等しい複数の標本に対してBartlett検定を適用させると誤って判定するのはたかだか有意水準以下である。ところが,分散が異なる複数の標本に対してBartlett検定を適用させると「分散は等しい」と誤って判定する割合は非常に大きいのである。そのまま分散分析を適用させると,検定は不安定となってしまう。

 対策としては,@等分散性の検定はあまり当てにならないので標本分散の観察と経験的見地から判断する,A等分散性の検定の有意水準をp=0.1〜0.5の範囲に引き上げる,を考える。これらの方法は理論的に保証されていないが,質問の方法に比べれば妥当である。

Q7:二元配置以上の分散分析の場合,はじめから多重比較法を行うことはできないと思うのだが,どのように解析したらよいだろうか?

A7:二元配置以上の実験デザインでは交互作用の存在を考えるか無視するかで,はじめから多重比較法を適用するかしないかが決まる。交互作用については筆者の過去の報告を参考にされたい。

 説明を容易にするために例を挙げて考える。健常者を対象に階段昇降の膝関節可動域を測定した。階段の高さの条件(10p,15p,20pの高さ)と階段の昇り降りの条件の2条件に注目する。解析の目的は,階段の高さの違いと階段の昇る動作か降りる動作の違いで動作中の膝関節角度は異なるかである。ここで,膝関節の角度に対する階段の高さの影響は昇る動作か降りる動作かは関係ないまたは昇る・降りる動作に対して階段の高さは関係ないと仮定するのであれば,2条件それぞれに最初から多重比較法を適用させる。他方,例えば階段の高さが高くなるほど昇り降り動作時の膝関節角度の違いは大きくなっていくはずだと仮定するなら,交互作用の存在を考慮しているので二元配置分散分析を行ってから多重比較法を行う必要がある。交互作用が有意でなければ階段の高さ,昇り・降り動作の条件別に多重比較法を適用させる。交互作用が有意であった場合は以下の複雑な手順を踏まなければならない。

 @10pの高さにおける階段の昇り,降りデータを対象に一元配置分散分析を行う,A15pの高さにおける階段の昇り,降りデータを対象に一元配置分散分析を行う,B20pの高さにおける階段の昇り,降りデータを対象に一元配置分散分析を行う,C階段を昇る時の10・15・20pのデータを対象に一元配置分散分析を行う,D階段を降りる時の10・15・20pのデータを対象に一元配置分散分析を行う,E原則として交互作用の多重比較検定も細かく行う必要があるが,実際にはグラフ化して観察する判定で十分である,F@〜Dで有意差の見られた検定につき,多重比較法を適用させる。ここで用いる多重比較法はScheffe法に限定しなければならない。

メニューに戻る