第5章 用語解説
5.1 用語解説
帰無仮説(きむかせつ)
統計的検定において、「差がない」「関連がない」などの、検定によって否定したい仮説のことである。帰無仮説が棄却されたとき、対立仮説が採択される。医療機器の性能評価における統計的検定では、新規医療機器が既存品と同等以上であることを示すため、「新規機器が既存品より劣る」という帰無仮説を立て、これを統計的に否定することで有効性を証明する手法がとられる。
対立仮説(たいりつかせつ)
帰無仮説と対をなす仮説であり、研究者が本来主張したい仮説のことである。医療機器の性能評価においては、「新規機器が既存品と同等以上である」という主張が対立仮説となることが多い。統計的検定によって帰無仮説が棄却された場合に、この対立仮説が支持されることとなる。
第一種の過誤(だいいっしゅのかご)
実際には正しい帰無仮説を誤って棄却してしまう過誤のことである。医療機器の性能評価においては、実際には既存品より劣る新規機器を、誤って「同等以上」と判断してしまうことを指す。この過誤の確率は有意水準αで管理され、通常は0.05(5%)以下に設定される。これは消費者危険(Consumer Risk)とも呼ばれる。
第二種の過誤(だいにしゅのかご)
実際には誤りである帰無仮説を棄却できない過誤のことである。医療機器の性能評価では、実際には既存品と同等以上の性能を持つ新規機器を、誤って「劣る」と判断してしまうことを指す。この過誤の確率はβで表され、その補数である(1-β)は検出力と呼ばれる。これは生産者危険(Producer Risk)とも呼ばれる。
有意水準(ゆういすいじゅん)
第一種の過誤を犯す確率の許容限界値のことである。一般的には0.05(5%)が用いられる。医療機器の性能評価においては、新規機器が既存品より劣るにもかかわらず、誤って「同等以上」と判断してしまう確率の上限値として設定される。
検出力(けんしゅつりょく)
真の対立仮説のもとで帰無仮説を正しく棄却できる確率のことである。医療機器の性能評価では、実際に既存品と同等以上の性能を持つ新規機器を、正しく「同等以上」と判断できる確率を指す。一般的には0.8(80%)以上が要求される。検出力は第二種の過誤の確率βの補数(1-β)として定義される。
効果量(こうかりょう)
研究対象となる要因の影響の大きさを表す指標である。医療機器の性能評価においては、新規機器と既存品との性能差の大きさを示す。統計的有意差は標本サイズに依存するため、実用的な意味のある差の大きさを効果量として事前に設定することが重要である。
非劣性マージン(ひれつせいマージン)
非劣性試験において、新規医療機器が既存品と比較してどの程度まで劣ってよいかを規定する許容限界値である。臨床的に意味のある差に基づいて設定され、通常は既存品の効果の50%を超えない範囲で定められる。このマージンを超えて劣る場合には、新規機器は既存品に対して非劣性を示せなかったと判断される。
非劣性試験(ひれつせいしけん)
新規医療機器が既存品と比較して、臨床的に許容できる範囲内でのみ劣る可能性があることを統計的に確認する試験である。完全な同等性を示す必要がない場合に用いられ、非劣性マージンを用いて評価される。新規機器が他の面で利点(安全性、使用性、コストなど)を持つ場合に特に有用である。
同等性試験(どうとうせいしけん)
新規医療機器が既存品と臨床的に同等であることを証明するための試験である。両側の同等性マージンを設定し、新規機器の性能がその範囲内に収まることを統計的に確認する。完全な一致を求めるものではなく、臨床的に意味のある差の範囲内での同等性を評価する。
優越性試験(ゆうえつせいしけん)
新規医療機器が既存品より優れていることを証明するための試験である。単に統計的な有意差を示すだけでなく、臨床的に意味のある差を示すことが求められる。優越性マージンを設定し、その値を超える改善が見られることを統計的に確認する。
クロスオーバー試験(クロスオーバーしけん)
被験者が複数の治療法や医療機器を順番に使用する試験デザインである。各被験者が自身の対照となるため、被験者間のばらつきの影響を除外できる利点がある。ただし、持ち越し効果の影響や試験期間が長くなる欠点もあるため、適用には注意が必要である。
並行群間比較試験(へいこうぐんかんひかくしけん)
被験者を複数の群に無作為に割り付け、各群で異なる治療法や医療機器を使用する試験デザインである。クロスオーバー試験と比べて持ち越し効果の心配がない利点があるが、より多くの被験者数が必要となる。医療機器の性能評価では、特に長期的な効果を評価する場合に用いられる。
ランダム化(ランダムか)
被験者を各試験群に無作為に割り付けることである。既知および未知の交絡因子の影響を確率的に均等化し、比較の妥当性を高めるために不可欠な手法である。医療機器の性能評価においては、可能な限りランダム化を採用することが推奨される。
盲検化(もうけんか)
試験実施中に、被験者や評価者が割り付けられた治療法や使用する医療機器を知ることができないようにする手法である。主観的なバイアスを排除するために重要である。医療機器の性能評価では、機器の特性上、完全な盲検化が困難な場合もあるが、可能な範囲で実施することが望ましい。
中間解析(ちゅうかんかいせき)
試験の途中段階でデータを解析し、試験継続の是非や計画の修正を検討する手法である。早期中止による被験者保護や資源の有効活用が可能となる一方、多重性の問題が生じるため、適切な統計学的手法を用いた補正が必要である。医療機器の性能評価では、特に長期の試験で考慮される。
多重性(たじゅうせい)
複数の統計的検定を行うことにより、第一種の過誤が増大する問題である。医療機器の性能評価では、複数の評価項目や中間解析を設定する場合に考慮が必要となる。Bonferroni法やO’Brien-Fleming法などの多重性調整方法を用いて適切に制御する必要がある。
探索的解析(たんさくてきかいせき)
仮説検証のための主要な解析とは別に、データから新たな知見を得るために行う解析である。医療機器の性能評価では、予期せぬ効果や安全性の問題を発見するために重要である。ただし、得られた結果は仮説生成のためのものであり、新たな検証が必要となる。
信頼区間(しんらいくかん)
母数の真の値が存在する可能性が高い区間を確率的に示したものである。医療機器の性能評価では、新規機器と既存品との差の95%信頼区間が広く用いられる。点推定値だけでなく、推定の精度に関する情報も提供するため、有用性の判断に重要である。
5.2 検出力の特性1
標本サイズを大きくすればするほど、検出力は上昇する傾向にある。これは、より多くのデータを収集することで、真の差をより正確に検出できるようになるためである。しかし、必要以上に大きな標本サイズは、試験の効率性や倫理的な観点から望ましくない。そのため、目標とする検出力を達成するための最適な標本サイズを決定することが重要である。
5.3 検出力の特性2
効果量が大きければ大きいほど、検出力は上昇する傾向にある。これは、比較する群間の真の差が大きいほど、その差を統計的に検出しやすくなるためである。しかし、効果量の設定は臨床的な意義に基づいて行われるべきであり、検出力を上げるために恣意的に大きな効果量を設定することは適切ではない。医療機器の性能評価においては、臨床的に意味のある最小限の差を効果量として設定し、それを検出するために必要な検出力と標本サイズを決定することが重要である。