説明可能AIが社会から必要とされる理由、その研究動向・応用事例について

はじめに

こんにちは。2020年4月に新卒として入社した、データソリューション本部の森西です。新卒研修の技術調査課題で調査した結果についてブログを執筆します。 この課題では、設定された10個の技術的テーマからそれぞれ好きなテーマを選択し、4日間かけて調査した結果をまとめました 。私は、10のテーマの中で「Explainable AIに関する技術調査」を選択し、今回はそのまとめた内容について紹介します。

Explainable AIについて

まず初めに、Explainable AIについて説明します。Explainable AIとは、その言葉通り、予測結果や推定結果に至るプロセスが人間によって説明可能になっている機械学習モデル、あるいはそれに関する技術や研究分野のことを指します。(引用元:AI・機械学習の用語辞典 XAI(Explainable:説明可能なAI) /解釈可能性(interpretability)とは?[23])

昨今では、AI(機械学習)の技術発展に伴い、社会実装の期待が高まっています。 一方でそれらの技術に対して不安も増加しています。その背景として、AI(機械学習)の中身の技術が非常に複雑で「ブラックボックス」となっており、AI(機械学習)の予測結果や推定結果に対する説明が十分ではないことが理由として挙げられます。医療分野など、AI(機械学習)の予測結果や推定結果に理由を求める分野も存在し、説明可能なAI(機械学習)を求める社会的機運は高いと考えられます。

本ブログでは、Explainable AIについて社会的に求められるようになった背景、最近の研究動向、応用例、展望について述べていきます。

Explainable AIが必要になった社会背景

ここでは、Explainable AIが社会的に必要になった背景について述べていきます。

図1:現状のAI(機械学習)フロー(引用元:FUJITSU JOURNAL HP[19]より)

図1は現状のAI(機械学習)のフローを表しています。 現状のAI(機械学習)では、学習プロセスが非常に複雑で、高い精度で対象を予測・推定することは可能ですが、なぜそのような結果を出力したかを説明することはできません。根拠を示すことができなければ、 下記の図2のように今現在人間が従事している業務を委ねることができない分野も多く存在します。

図2:現状のAI(機械学習)では業務を委ねられない分野の事例

具体的には図2のように、今現在のAI(機械学習)では、 仮に銀行の貸付の判断をするAI(機械学習)モデルを構築したとしても、何を根拠に判断したか明示することはできません。 病院の場合を考えてみると、仮に健康診断の結果から健康状態を予測できるAI(機械学習)はあったとしても、何を根拠に予測したのか明らかにすることはできません。 現在のAI(機械学習)では、高い予測精度を求めると解釈性が低くなり、解釈性を求めると予測精度が低くなるという、予測精度と解釈性がトレードオフの関係にあり、図2のような高い予測精度と解釈性(根拠)が求められる分野では、AI(機械学習)の社会実装が難しい状況にあります。

Explainable AIは「国家単位の要請」でもあります。2017年に総務省が策定した「AI開発ガイドライン[17]」では、「透明性の原則」、「アカウンタビリティー(説明責任)の原則」が明記されています。また2018年にEUが提示した「General Data Protection Regulation(GDPR)[10]」では、データに基づく意思決定に対して、「ユーザーの権利の保証」、「サービス提供者の介入を保証する責任」が明記されています。この他にも DARPA(アメリカの 国防高等研究計画局 )が、XAI(Explainable Artificial Intelligence)プログラムとして、Explainable AIプログラムを開発する企業や大学に投資を行っています。このように「国家単位の要請」「国家単位で取り組まれている課題」としてExplainable AIが必要とされています。

具体的にExplainable AIが社会実装された場合はAI(機械学習)のフローは下記のようになると考えられます。

図3:AI(機械学習)のフロー変化(引用元:FUJITSU JOURNAL HP[19]より)


図3はExplainable AIの一例ですが、Explainable AIが社会実装されるとAI(機械学習)の予測・推定に至るプロセスが明確になり、人間は根拠を持ってAI(機械学習)の出力を扱うことができます。根拠が明確になれば、現状では、委ねることができない医療分野などでもAI(機械学習)に業務を委ねることができると考えられます。

図4: AI(機械学習)の解釈性と予測精度の展望(引用元:Explainable Artificial Intelligence[8])


図4はAI(機械学習)の解釈性と予測精度の展望を表しています。上記で述べたように、現状のAI(機械学習)モデルでは予測精度が高いものは解釈性が低く、解釈性が高いものは予測精度が低いというトレードオフの関係性を持っています。Explainable AIでは、その予測精度と解釈性の両立を目指し研究が行われています。具体的な研究動向や手法は、次の章で説明します。

Explainable AIの研究動向

ここでは、Explainable AIの研究動向について紹介します。

図5: Explainable AIに関する論文数の推移
(引用元:Adadi and Berrada(2018)[1])

説明可能なAI(機械学習)モデルに対する社会の期待もあり、図5のようにExplainable AIに関する論文は年々増加傾向にあります。2017年には、アメリカの国防研究を行っているDARPAからExplainable AIのアプローチがまとめられるなど国家・研究者単位での注目が集まっています。

ここでは、上記のDARPAの分類をもとに4つの手法について紹介します。DARPAはExplainable AIを大きく「特徴量の可視化」、「解釈可能なモデルを生成」、「解釈可能なモデルで近似」の3つに分類しています。

特徴量の可視化

ここではExplainable AIの3つのアプローチのうち「特徴量の可視化」に分類される「LIME」と「PDP」について紹介します。Explainable AIにおける「特徴量の可視化」では、AI(機械学習)の予測・推定に対して寄与した特徴量の関係性を可視化することを目的とします。

 LIME(Local Interpretable Model-Agnostic Explanation)

図6:LIMEの分析フロー(一部画像はRibeiro et al.(2016)[6]より引用))

LIMEはRibeiro et al.(2016)[6]で考案されたExplainable AIの手法で、1つの予測結果(画像データであれば1枚の画像の予測結果、テーブルデータであれば1レコードの予測結果)に対してのみ局所的に近似させた単純な分類器を使って、そこから予測に寄与した特徴量の可視化をするものです。

局所近似する分類器を求める目的関数

\xi(x) = \argmin L(f, g, \pi_x) + \Omega(g)
g\in G

損失関数L(f, g, \pi_x)

L(f, g, \pi_x) = \sum_{z,z^{\prime}\in Z}\pi_x(x)(f(z)-g(z^{\prime}))^2

Z:データxの周辺のデータの集合
z:データxの周辺からサンプリングしたデータ
テキストデータでは、乱数を発生させ使用データの単語をランダムに消去しサンプリング
*テーブルデータでは、乱数を発生させ使用データの一部を変更しサンプリング
画像データでは、乱数を発生させ、ランダムに使用データに加えてサンプリング
z^{\prime}: 非ゼロ要素を含む2値のスパースな点 、z^{\prime} \in {0,1}^d
z^{\prime} は、サンプリングしたデータzを人間が理解できるように要素の有無をバイナリーで表現したもの。

図7:LIMEの分析フロー(引用元:Local Interpretable Model-Agnostic Explanation: An Introduction[14])

図7のように特定の結果(この場合ではカエルの画像)に対して一部をサンプリングし、学習モデルで予測し、サンプリングデータと学習結果のペアを作成し、局所的なかつ単純な分類器(線形回帰など)で各々を学習します。そして単純な分類器の偏回帰係数から特徴量の寄与度を明らかにし、可視化を行う手法です。構築したAI(機械学習)モデルを利用するため、構築するAI(機械学習モデル)を選ばず、デバックなどに利用することが可能です。

PDP(Partial Dependence Plot)

PDPはFriedman(2001)[5]で紹介された、興味ある変数以外の影響を周辺化して消してしまうことで、特徴量と予測・推定の関係を単純化し可視化する手法です。事前に関数形の仮定を置かず特徴量と予測・推定の非線形な関係を柔軟に捉えることができます。

図8:PDPの分析フロー(一部画像はInterpretable Machine Leaning : Guide for Making Black Box Models Explainable[12]より引用)

Partial Dependence Function

\hat{f_s}(x_s) = E_c[x_s, x_c] = \int \hat{f_s}(x_s, x_c)p(x_c)dx_c

\hat{f_s}(x_s):学習済みモデル
x_s :興味のある特徴量
x_c :それ以外の特徴量
* 実装の場合、分析者がx_s を恣意的に範囲を決め分割する必要がある。

推定式

\hat{f_s}(x_s) = \cfrac{1}{n}\sum_{i}^n \hat{f_s}(x_s, x_c^{(i)})

図9:PDPによる特徴量と予測結果の関係性プロット例(引用元: Interpretable Machine Leaning : Guide for Making Black Box Models Explainable[12])

PDPでは、最初に目的に合わせてAI(機械学習)モデル(この場合では\hat{f_s}(x))を構築し、興味のある特徴量x_sとそれ以外の特徴量x_cに分割します。その後学習したモデル\hat{f_s}(x)を利用し、興味ある特徴量以外を周辺化(推定式を利用)予測結果の平均を算出し、可視化を行います。PDPも構築したAI(機械学習)モデルを利用するため、構築するAI(機械学習モデルを選ばず、特徴量と目的変数の関係性を見ることができます。

解釈可能なモデルを生成

ここではExplainable AIの3つのアプローチのうち「解釈可能なモデルを生成」に分類される「CORELS」について紹介します。Explainable AIにおける「解釈可能なモデルを生成」では、そもそも解釈性の高いモデルを作成することを目的とします。

CORELS(Certifiably Optimal Rule List)

CORELSは、Angelino et al.(2017) [2]で考案された、ルールリストという決定木の亜種を学習し、解釈性の高いモデルを生成する手法です。特徴量に関してIf-thenでルールリストを作っていきます。

図10:CORELSの分析フロー

目的関数(ルールリストd)

R(d,x,y) = L(d,x,y) + \lambda * length(d)

L:損失関数
d:ルールリスト
p:ルールリストdのprefix
x:特徴量
y:目的変数
\lambda :正則化パラメーター
length(d) :ルールリストdのおけるルールの数(number of prefix)

CORELSでは、扱うデータとしてカテゴリカルデータを想定し、カテゴリカルな特徴空間でルールリストを構築するために、組み合わせ最適問題を各種探索の枝刈りを用いて高速化を行い、最終的に解釈性の高いモデルを構築していきます。

解釈可能なモデルで近似

ここではExplainable AIの3つのアプローチのうち「解釈可能なモデルで近似」に分類される「Born Again Tree」について紹介します。Explainable AIにおける「解釈可能なモデルで近似」では、精度は高いが解釈性の低いAI(機械学習)を解釈性の高いモデルで表現することを目的とします。

Born Again Tree

Born Again Treeは、Breiman and Shang(1996)[3]で考案された、予測精度は良いが解釈性が低いAI(機械学習)モデルから解釈性の高い決定木によって近似し、予測用モデルと解釈用モデルで予測精度と解釈性を両立させる手法です。

図11:Born Again Treeの分析フロー

図12:Born Again Treeの分析イメージ
(引用元: アンサンブル木モデル解釈のためのモデルの簡略化[21])

Born Again Treeでは、図11のように、最初に予測精度の高いAI(機械学習)モデルを構築し、その後学習したモデルを使い擬似訓練データを生成します。この時入力データである特徴量からランダムにサンプリングを行い、学習モデルで予測させ、サンプリングデータと学習結果を疑似訓練データとします。その後生成した擬似訓練データを利用し、解釈性の高いAI(機械学習)モデルを構築します。そして予測精度の高いモデルと解釈性の高い2つのモデルから予測精度と解釈性を実現させます。

Explainable AIの研究動向では、Explainable AIの3つのアプローチである「特徴量の可視化」、「解釈可能なモデルを生成」、「解釈可能なモデルで近似」とそれに属する4つの手法について紹介しました。これ以外にもExplainable AIの手法は多く存在し、Explainable AIは近年のトレンドの1つになっていることから日々その手法は増加していると考えられます。

今回紹介した手法以外のExplainable AIの手法を知るには、Explainable AIのサーベイ論文であるGuidotti et al.(2018)[7]やAdadi and Berrada(2018)[1]やWebで無料公開されているExplainable AIの教科書的な存在である”Interpretable Machine Leaning : Guide for Making Black Box Models Explainable”[12]がおすすめです。

Explainable AIの応用例

ここでは、実社会でExplainable AIが実装されている応用例を3点ほど紹介します。

Google Explainable AI

「Google Explainable AI」はGoogleが提供する機械学習開発・運用サービスの1つで、これは同じくGoogleが提供している「Auto Tables」「Could AI Platform」上のAI(機械学習)モデルに対して利用できるものです。Explainable AIのアプローチとしては、「特徴量の可視化」に分類できます。

図13:Google Explainable AI
(引用元:Google Explainable AI HP[9])

これは構築した学習済みのモデルにおける各特徴量が予測結果に与える影響を可視化し、モデルのデバック、モデルの最適化を効率的に行えるといったものです。

simMachines(isid)

「simMachines」は、株式会社電通国際(isid)サービスが提供するWebベースのAI予測器生成・要因分析ツールです。Explainable AIのアプローチとしては、「特徴量の可視化」に分類できます。

図14: simMachines分析例(引用元:isid HP[20])

図14は、simMachinesの分析例ですが、AI(機械学習)モデルの予測と要因を同時に出力してくれます。内部のアルゴリズムとして、Similarity Searchの考え方を元にR-1という独自エンジンを採用しています。また特徴としてノンプログラミングでAI(機械学習)モデルを構築し、構築時点でAPI化し、業務に取り込むことができます。

網膜疾患の3次元画像診断(Deep Mind)

網膜疾患の3次元画像診断はGoogleの傘下で、Alpha Goで有名なDeep Mind社と生物医学研究機関NIHRの共同研究で、網膜疾患の診断を高い精度で根拠を持って実現することができます。Explainable AIのアプローチとしては、「特徴量の可視化」に分類できます。

図15: 網膜疾患の3次元画像診断の分析プロセス (引用元: Fauw et al.(2018)[4])

このAI(機械学習)モデルでは、眼科病院の患者由来の光干渉断層(optimal coherence tomography; OCT)スキャンの3次元画像を対象として、熟練した臨床医と同等以上の精度を実現しています。また予測精度と同時に、画像診断の根拠になった画像の特徴を提示することができます。これは、セグメンテーションの深層学習モデルとクラス分類の深層学習モデルの2段階アーキテクチャーを採用しています。

ここでは、実社会でExplainable AIが実装されている応用例を3点ほど紹介しました。今回紹介した応用例は全て、Explainable AIの3つのアプローチにおける「特徴量の可視化」のアプローチでした。つまり予測に寄与した特徴量の大きさを可視化することで説明性を獲得するといったものでした。また近年では、予測・推定した理由を明らかにできない通常のAI(機械学習)モデルの社会実装は進んできましたが、Explainable AIの社会実装はあまり進んでいない印象を受けました。

展望

これまでに「Explainable AI」をテーマとして、Explainable AIについて社会的に求められるようになった背景、最近の研究動向、応用例を紹介してきました。Explainable AIの社会的な背景としては、現状のAI(機械学習)ではクリティカルな業務(医療など)を任せることができず、世界中で解釈性の高いAI(機械学習)が求められていることがわかりました。Explainable AIの研究動向では、近年Explainable AIの論文は増加傾向にあり、特徴量の可視化、解釈可能なモデルを生成、解釈可能なモデルで近似など様々な方法がとられていました。Explainable AIの応用例では、Explainable AIの社会実装は始まったばかりでこれから増加すると考えられます。

AI(機械学習)モデルの開発者からの視点でExplainable AIを見ていくと、今現在のExplainable AIでは、完全にAI(機械学習)モデルを説明してくれるものではないと認識する必要性と構築したAI(機械学習)モデルのデバックに使うことができると考えられます。

図16:LIMEを利用した:狼とハスキーの分類問題と予測根拠(引用元: Ribeiro et al.(2016)[6])

図16はLIMEを利用し、判断の怪しいAI(機械学習)モデルの予測判断の根拠を明示しています。このAI(機械学習)モデルでは画像からハスキーと狼を判断することを目的としていますが、予測ではハスキーの画像を狼と間違えています。通常のAI(機械学習)モデルではただ間違えているということしか情報はありませんが、LIMEを利用することで背景画像の雪から狼として判断していることがわかります。結果として構築したAI(機械学習)モデルは、背景画像も予測判断の要素としていたことがわかり、修正することができます。 この場合ですと、学習データに偏り(ハスキーは雪ではない背景、狼は雪の背景)があると考えられるため、学習データの偏りをなくすもしくは学習データを増やす(ハスキーは雪の背景、狼は雪以外の背景)ことが修正として考えられます。

このようにExplainable AIは今までは予測の判断が「ブラックボックス」であったAI(機械学習)モデルの予測・推測の根拠を提示し、効率よくAI(機械学習)モデルを構築することが可能と考えられます。

現状のExplainable AIの課題として、Explainable AI はAI(機械学習)モデルの予測・推測の計算工程を完全に明らかにするものではありません。またAI(機械学習)モデルの予測・推測の根拠を完全に示すものでもありません。これは現状のExplainable AIが万能ではなく、「ブラックボックス」となっているAI(機械学習)モデルの仕組みを完全に把握し、説明している訳ではないからです。あくまで現状のExplainable AIは、「ブラックボックス」となっているAI(機械学習)の予測・推測の根拠の一部を説明または別の解釈性の代替手法で近似している方法と認識し利用する必要があると考えられます。ただし、これはExplainable AIの限界ではなくExplainable AIという研究領域が発展途上であり、今後のそのAI(機械学習)としての解釈性と精度が高まりその必要性はより高くなると考えられます。

最後に、冒頭で述べたように昨今ではAIの社会実装が1つのトレンドとなっており、社会のありとあらゆる場所で顕在的、潜在的にAIの社会実装が必要となっています。また内閣府が提示している”サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会課題の解決を両立する、人間中心の社会(Society)”である「Society5.0」(内閣府HP[22])という狩猟社会、農耕社会、工業社会、そして現在の情報社会の次の第5の社会が来ることが目前となっています。この社会ではありとあらゆるものがIoT(Internet of Things)で繋がりデータをビッグデータとして蓄積し、AI(人工知能)により必要な情報が必要な時に提供され、ロボットや自動走行車などによって社会課題を解決する社会と言われております。その社会の中で、AI(人工知能)は高い必要性と重要な役割を有していますが、現状のAI(機械学習)では中身が「ブラックボックス」となっており、高い精度で予測・推測ができるけれど、根拠を提示できないものでは社会に求められている役割を十分に果たすことは厳しいと考えられます。故に予測・推測の根拠を提示するExplainable AIは今後の社会に必要不可欠なものになると考えられます。

ビジネスの視点においても、今後の社会が「Society5.0」に遷移していくことを考慮すると、Explainable AIを取り入れることは競争優位の源泉となりこの不確実性の高い社会で価値を提供し続ける大きな要因となると考えられます。

今回は新卒研修の技術調査課題「Explainable AIに関する技術調査」でまとめた結果を紹介しました。Explainable AIに関しては、聞いたことはありましたが詳しくは知らなかったので、この機会にExplainable AIの社会のニーズ、研究動向、応用例などを知ることで、既存のAI(機械学習)に関する理解も深まり充実した時間となりました。このほかにも2ヶ月間の研修を通じてデータサイエンティストに必要な要素を深く学べた気がします。まだまだ社会人が始まったばかりで未熟者ですが、足りない要素を学びながら会社に貢献、広くは社会に貢献できるようチームで価値を創造していきたいと思っています。

ALBERTではともに最先端の課題に挑戦するメンバーを募集しています。興味をお持ちいただいた方は、こちらまでお問い合わせください。

Reference

  1.  Adadi, A., & Berrada, M. (2018). Peeking inside the black-box: A survey on Explainable Artificial Intelligence (XAI). IEEE Access6, 52138-52160.( https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8466590)
  2. Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2017). Learning certifiably optimal rule lists for categorical data. The Journal of Machine Learning Research18(1), 8753-8830.(http://www.jmlr.org/papers/volume18/17-716/17-716.pdf)
  3. Breiman, L., & Shang, N. (1996). Born again trees. University of California, Berkeley, Berkeley, CA, Technical Report1, 2. (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.367.9399&rep=rep1&type=pdf)
  4. De Fauw, J., Ledsam, J. R., Romera-Paredes, B., Nikolov, S., Tomasev, N., Blackwell, S., … & van den Driessche, G. (2018). Clinically applicable deep learning for diagnosis and referral in retinal disease. Nature medicine24(9), 1342-1350.(https://discovery.ucl.ac.uk/id/eprint/10056194/1/Diagnosis%20and%20referral%20in%20retinal%20disease%20-%20updated.pdf)
  5. Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 1189-1232.(https://projecteuclid.org/download/pdf_1/euclid.aos/1013203451)
  6. Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). ” Why should i trust you?” Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1135-1144). (https://dl.acm.org/doi/pdf/10.1145/2939672.2939778)
  7. Riccardo Guidotti, Anna Monreale, Salvatore Ruggieri, Franco Turini, and Dino Pedreschiz. (2018) A Survey Of Methods For Explaining Black Box Models Cornel University(https://arxiv.org/pdf/1802.01933.pdf)
  8. 『Explainable artificial intelligence (xai)』(https://www.darpa.mil/attachments/XAIProgramUpdate.pdf)
  9. 『Explainable AI ベータ版』(https://cloud.google.com/explainable-ai/)
  10. 『General Data Protection Regulation GDPR』(https://gdpr-info.eu/)
  11. 『ICML 2017 tutorial on interpretable machine learning』(http://people.csail.mit.edu/beenkim/icml_tutorial.html)
  12. 『Interpretable Machine Learning A Guide for Making Black Box Models Explainable.』(https://christophm.github.io/interpretable-ml-book/index.html)
  13. 『LIMEで機械学習の予測結果を解釈してみる』(https://qiita.com/fufufukakaka/items/d0081cd38251d22ffebf)
  14. 『Local Interpretable Model-Agnostic Explanations (LIME): An Introduction』(https://www.oreilly.com/content/introduction-to-local-interpretable-model-agnostic-explanations-lime/)
  15. 『On the Role of Trust and Explanation for AI adoption in Industry』(https://www.mobilit.ai/wp-content/uploads/2019/06/9.35-AM-Lecue-Thales-OnTheRoleOfTrustAndExplanationForAIAdoptionInIndustry-CRIAQ-MobilitAi1.pdf)
  16. 『機械学習の説明可能性への取り組み - DARPA XAI プロジェクトを中心に 』(https://www.jst.go.jp/crds/sympo/201906_JSAI/pdf/02.pdf)
  17. 『国際的な議論のためのAI開発ガイドライン案』(https://www.soumu.go.jp/main_content/000499625.pdf)
  18. 『説明可能なAIによる 「信頼できる診断と予測」の実現』(https://www.pwri.go.jp/caesar/lecture/pdf12/3_watanabe.pdf)
  19. 『AIはなぜその答えを導き出したのか ~根拠を見える化する「説明可能なAI」~』(https://blog.global.fujitsu.com/jp/2018-12-27/01/)
  20. 『WHYが分かるAIソリューション「simMachines」』(https://www.isid.co.jp/solution/simmachines.html)
  21. 『アンサンブル木モデル解釈のためのモデルの簡略化』(https://www.slideshare.net/SatoshiHara3/ss-92587923)
  22. 『内閣府:Society5.0』(https://www8.cao.go.jp/cstp/society5_0/)
  23. 『機械学習の用語辞典 XAI(Explainable:説明可能なAI) /解釈可能性(Interpretability)とは?』(https://www.atmarkit.co.jp/ait/articles/1908/19/news022.html)

森西

データソリューション本部プロジェクト推進部。 大学時代は、因果推論という分野の統計モデルの研究をしていました。