本ブログはAI for Business: Understanding AI, Precision, and Recallの抄訳です。

大衆的なメディアや一部の有名コメンテーターは、人工知能(AI)は完璧だとか、目指す先はスーパーインテリジェンス(超知能)だという印象を与えることがあります。
一方で、ビジネス課題に応用される実践AIはスーパーインテリジェンスや完璧とはほど遠いものの、それでも多大な価値をもたらしています。

AIのアルゴリズムによる予測(何かの真偽を予測する場合を考えてみましょう)が、どの程度正確かを理解するには知っておくべきふたつの重要な指標が存在します。それは「適合率」と「再現率」です。

ウィキペディアの定義は以下の通りです。
 ・適合率(陽性的中率とも言う)は、取り出されたインスタンスのうち、関連するインスタンスの割合
 ・再現率(感度とも言う)は、取り出された関連するインスタンスのうちに占める割合

この定義は実際の例で理解するとずっと分かりやすくなります。では例を用いて、ビジネスの利用者や経営者にとって重要なこの概念を説明してみましょう。

AIで重複した請求書を見つける

仮に、請求書の重複を見つけたいとしましょう。つまり、AIアルゴリズムに、請求書が二重に発行される場合があるかもしれず、そして会社が二重に支払いをするリスクがあることを予測させます

1,000通の請求書があり、その中にちょうど10通、重複する請求書があることが分かっているとします。(新しいデータセットの場合は重複する本当の枚数は不明ですが、すでに重複の枚数が判別しているデータセットでアルゴリズムのトレーニングとテストを行います)
 

上図は1,000通の請求書です(全枚数を図示しているわけではありません)。10通の重複は黄色で表しています。現実には必ずしも隣り合っているわけではありません。

AIのアルゴリズムは重複と思われる請求書は5通と返答しますが、そのうち実際に重複しているものは4通のみです。この場合、5通のうち4通が正しかったので、適合率は80%です。これはこれで正しそうに聞こえますが、重複は10通と分かっているので、これで終わるわけにはいきません。そこで、再現率の出番です。今回の再現率は10通のうち4通しか見つかっていないので40%です。つまり、80%の適合率を、40%の再現率と天秤にかけることになります。再現率40%では、恐らく良い結果とは言えないでしょう。

アルゴリズムは重複する請求書は5通と予測しました。4通は正答で、1通は誤答でした。この適合率は80%ですが、再現率は40%でした。

ではAIのアルゴリズムに立ち戻り、調整を行います。次にアルゴリズムは18通が重複と予想しましたが、そのうち実際の重複は9通だったとします。本当に重複していたのは18通のうち9通だったので適合率は50%に落ちたわけですが、10通のうち9通を見つけたので再現率は90%に上昇しています。

このアルゴリズムは、重複請求書が18通と予測。9通は正答でしたが、9通は誤答でした。適合率は50%ですが、再現率は90%です。

こうしたトレードオフは、常に存在します。新しいアプローチや新しいデータを使えば、どちらの評価指標も改善は可能です。しかし、最高の適合率(再現率は最低)と最高の再現率(適合率は最低)の間でどちらを選ぶか、あるいは混在したものを選ぶか、常にトレードオフに直面することになります。

この例から、重要なふたつの洞察が得られます。

  1. あるAIアルゴリズムがどの程度正確かを理解するには、両方の指標が必要である。トレードオフが存在し、ひとつの指標ではアルゴリズムの正確性をとらえることはできない。
  2. 適合率、再現率のいずれを強調するかは、解決しようとする問題による。

適合率と再現率の間にあるトレードオフを理解する

Coupaの製品モジュールのひとつ、重複請求書を検索するSpend Guardの場合、適合率より再現率が重要であると我々は考えます。なぜならば、重複請求価格が150万ドルに及ぶという事実があり、我々は重複をできるだけ多くを抽出したいと考えるからです。(つまり高い再現率が望ましい)また、適合率がより低いという状況の方が、比較的対処しやすいだろうと考えます。つまり、たとえ重複していない請求書が相当数含まれていたとしても、50万ドル相当の重複請求書が1通でも見つかるのなら、人は喜んで確認作業をするだろうと想定しています。

Coupaの他のケースでは、適合率の方が重要になることもあります。サプライチェーン内で高額な機械を使っている場合、故障をあらかじめ予測して、予防的修理をしたいけれども、修理も高額になることが予想されます。ですから、必ず故障すると分かっている機械のみを修理したいと思うはずです。つまり、故障しない機械はわざわざ修理したくないわけです。 

トレードオフについて考えると、なぜ医療においてAIの取組みの失敗例を聞くのかがわかります。医療の世界では、適合率(実際は違うのに重症だと大人数に告知はできない)そして、再現率(実際重症なのに気付かないまま放置できない)の両方で、AIのアルゴリズムは良い結果を求められます。それでも、ふたつの指標の間でトレードオフを避けることは不可能です。たとえアルゴリズムが一方で良い結果が出だからと言って、それで十分良いとは言い切れません。医療で成功を収めるには、両方の指標で十分良いと見なされるように、適切な技術の開発や正しいデータの取得など必要な作業が非常に多いのです。

適合率と再現率、その両方を理解することが重要です。これを実際のビジネスの状況に当てはめてみると、適合率と再現率を比較したトレードオフで、どの立場を取るべきかが分かるはずです。