【データサイエンス】ROC曲線とAUCとは何か

前回は検査や予測の精度に関する様々な概念や指標について説明しました。前回の記事は以下を参照ください。

【データサイエンス】正解率・適合率・再現率・F値とは何か

一言で精度と言っても、精度の測り方にはいくつか種類があります。今回は正解率・適合率・再現率・F値などについて説明します。

ROC曲線とAUCも、検査や予測の精度に関する指標の1つです。今回は、前回紹介した内容をベースとして、縦軸に感度、横軸に偽陽性率を取るグラフであるROC曲線と、ROC曲線からAUCを求める方法を説明します。

感度と偽陽性率
1. 感度(真陽性率)
2. 偽陽性率
ROC曲線
AUC (Area Under Curve)

感度と偽陽性率

今回登場する感度と偽陽性率を、前回説明したPCR検査結果の混合配列を使って説明します。

感度(真陽性率)

感染者の中で、検査結果も陰性であった人の割合のことです。以下の赤枠の中の黄色部分に該当し、信用性率とも呼びます。ここが最も検出したい場所であり、そこをどのくらいの”感度”で検知できているか、という指標であると言えます。

偽陽性率

前回記事で特異度(真陰性率)という概念が、非感染者の中で検査結果も陰性であった人の割合のことだと説明しました。

偽陽性率は(1-特異度)で計算できる、非感染者の中で検査結果も陰性であった人の割合のことです。以下の赤枠の中の黄色部分に該当します。

ROC曲線

それでは上記の概念を用いて、ROCについて説明します。

ROC曲線(receiver operating characteristic curve)は元々レーダー工学の用語のためreceiverという単語が含まれています。以下が今日使用するROC曲線の例です。

TPFとFPF

グラフ上に出てくるTPFとFPFは、上で説明した感度と偽陽性率の英語表記です。感度(真陽性率)を英語にするとTPF(True Positive Fraction)、偽陽性率を英語にするとFPF(False Positive Fraction)です。以下ではグラフに合わせてTPF・FPFを使って説明します。

次にTPFとFPFを具体的にどのように計算するのかを説明します。以下のように、ある果物がリンゴかどうかを果物の大きさに従って予測するモデルがあるとします。

予測モデルを使って以下の9個の果物がそれぞれリンゴかどうかを判定します。以下の図では大きい順に並べています。

今回はリンゴとリンゴ以外の境目がわかりやすいので、境目より大きいものをリンゴ、小さいものをリンゴではないと判定すると、以下のように表記できます。

この状態で、TPFとFPFはそれぞれ以下のように計算されます。

TPF(感度)

計算式は以下の通りです。TP＝真陽性のりんごが6個、FN=偽陰性は０なので、TPFは6/6=1と計算できます。

FPF(感度)

計算式は以下の通りです。FP＝偽陽性が０個、TN=真陰性は3なので、FPFは0/3=0と計算できます。

閾値

次に問題になるのは、どこで線引きをするかということです。陽性と陰性をわける線を閾値と呼びます。今回の例では9個のデータ(果物)があるので、合計10通りの線の引き方があります。以下では、閾値を動かすことによってTPFとFPFがどのように動くかを図示します。閾値を右に動かしていくほど、TPFもFPFも値が小さくなっていくのがわかると思います。