dataway

パーソナルデータ利活用の未来について考えるメディア

AIによる信用スコアリングが「バーチャルスラム」を生み出す危険性

AIプロファイリングによるバーチャルスラムの危険性

「バーチャルスラム」という言葉を聞いたことがあるだろうか?

バーチャルスラムは、「信用スコアなどで一度低い評価をされると、負のスパイラルに陥ってしまいそこから抜け出せなくなってしまう」ことを指して使われる言葉だ。

このバーチャルスラムという考え方は、これから複数の企業が信用スコアサービスのリリースを控えている今の日本において、きちんと認識しておく必要がある。

本記事では、『おそろしいビッグデータ 超類型化AI社会のリスク』という書籍をもとに、バーチャルスラムの概要、AIによるプロファイリングにおける危険性、そしてその危険を避ける難しさについてに解説していこう。

バーチャルスラムとは?

まず、「バーチャルスラム」とは何か、解説していこう。

冒頭でも説明したように、バーチャルスラムとは、一言でいうと「信用システムにおいて一度低い評価をされると、負のスパイラルに陥ってしまいそこから抜け出せなくなってしまう」ことを指す。

この「バーチャルスラム」の危険性について警鐘を鳴らしているのが、慶應義塾大学教授の山本龍彦氏だ。

同氏は、『おそろしいビッグデータ』の著者であり、総務省の研究会でも同内容について発表をしている1

おそろしいビッグデータ 超類型化AI社会のリスク (朝日新書)

おそろしいビッグデータ 超類型化AI社会のリスク (朝日新書)

山本氏は、J-WAVEのラジオ番組で、津田大介氏からバーチャルスラムについて質問され、以下のように答えている。

信用力や能力の評価がいったん低くついてしまうことにより、負のスパイラルに陥ってしまうことです。一度借金をすると信用力が落ち、信用力が落ちると就職も失敗するかもしれない。就職に失敗するとアルバイトとして低賃金の職で食いつないでいく。そうすると信用力が落ちるという負の連鎖に陥ってしまうんです。今は、「自分がこういうことをしてしまったから、お金が借りられないんだな」と予測と改善ができますが、AIによって様々な情報が使われた信用力になると、自分のどの行動が信用力のスコアを上げたり下げたりしているのか分からなくなるので、自己改善の仕様がない、そこも問題だと思います。

新たな貧困層「バーチャル・スラム」とは…AIの活用がアダとなる!?

今までは、お金が借りられなかったとしても、たとえばクレジットカードの支払いが遅延してしまったりといった分かりやすい過失が原因であると予測することができた。

ただ、現代においてそれが「おそろしい」のは、ビッグデータを用いたAIプロファイリングによりスコアリングが行われようとしているためだ。

そうなると、「なぜスコアが低いのか」の原因は特定しずらくなるし、さらに、そもそもスコアが間違って算出されてしまう可能性も否定できない。

AIプロファイリングによる可謬性(かびょうせい)

そのような、スコアリングにエラーやバイアスが紛れ込む可能性のことを「AIプロファイリングによる可謬性(かびょうせい)」という。

山本氏は、「AIプロファイリングによる可謬性」として、3つの点を指摘している。

  • うわべだけの相関関係
  • データへの過少・過剰代表
  • 既存バイアスの反映

の3点だ。それぞれ解説していこう。

うわべだけの相関関係

「うわべだけの相関関係」とは、「ビッグデータ解析の結果、考慮に値しないような相関関係が出現してしまうこと」である。

具体的には、「相関」はあるが「因果」はないような関係性、専門用語でいうと「擬相関」と呼ばれるものだ。

よく使われる例としては、スイミングプールで溺れた人の数と俳優のニコラス・ケイジさんの出演作品の数には、相関関係がある。

スイミングプールで溺れた人の数とニコラス・ケイジさんの出演作品の数には相関関係がある
スイミングプールで溺れた人の数とニコラス・ケイジさんの出演作品の数には相関関係がある

ただ、容易に推測できるように、これらの2つの事象には直接的な関係はない。つまり「うわべだけの相関関係」というわけだ。

このような「うわべだけの相関関係」による誤ったプロファイリングを防ぐためには、人による最終確認を入れるようにするか、あるいは利用するデータの種類を増やして双方に影響を与えている第三・第四の変数を見つけるしかない。

データへの過少・過剰代表

次に、「データへの過少・過剰代表」は、ある集団が過少あるいは過剰に代表されてしまうことを指す。

たとえば、ボストン市における道路状況調査において、スマホのGPS情報を利用したところ、スマホ保有率の高い高所得者の居住エリアに道路補修サービスが集中してしまったという話がある。

スマホ保有率の少ない低所得者エリアが過少に代表されてしまったというわけだ。

このように、データ収集手法によって、ある集団が過少あるいは過剰に代表されないように注意を払う必要がある。

既存バイアスの反映

さいごに、「既存バイアスの反映」は、現実世界におけるバイアスがアルゴリズムに組み込まれ、同様のバイアスを再生産してしまうことを指す。

たとえば、既存の従業員データを用いた「良い従業員を予測するアルゴリズム」において、この問題は起きやすい。

イギリス聖ジョージ病院では、人種的マイノリティと女性に対して不利のあった過去の入学試験データに基づき「良い医学部生」を抽出するプログラムを生成した結果、同様のバイアスの再生産につながってしまったという事例もある。

このように、既存の集団自体にバイアスが潜んでいないかにも、注意を払う必要がある。

誤りを指摘することは難しいのか?

では、このような「AIプロファイリングによる可謬性(かびょうせい)」を指摘して誤りを正すようなことは難しいのだろうか?

山本氏によると、以下の2点の理由で、現実的に誤りを指摘することは困難であるとしている。

  • 自動化バイアスの存在
  • 具体的に何が間違っているか指摘することの難しさ

それぞれ解説していこう。

自動化バイアスの存在

自動化バイアスの存在は、ダニエル・シトロン教授が提唱している事象で、「人間はコンピューターによる自動化された判断を過信してしまう傾向にある」というものだ。

あなたは、膨大なデータを分析して学習したAIが導き出した結論に対して、反論できるだろうか?

多くの人は、その結果をつい鵜呑みにしてしまう傾向にある。

具体的に何が間違っているか指摘することの難しさ

さらに、AIによる自律学習(deep learning)がはじまると、作った本人ですら何が寄与しているのかわからないといった事象が発生する。

常に判断のアルゴリズムはアップデートされていっているわけだ。

また、説明可能であったとしても、それを公表すべきかという問題もある。公表してしまった場合には、評価を「弄ぶ」ような行為につながる可能性があるからだ。

たとえば、高学歴の友だちが多ければ信用スコアが上がるとなれば、高学歴の人に対して一斉に友だち申請を送るようになってしまうかもしれない。

それならまだいいが、予測的警察活動(Predictive Policing)と呼ばれるテロ予測の場合には、深刻な問題だ。警察の監視から逃れるためには、犯罪リスクのスコアが上がる行動を回避するように行動をされてしまう可能性があるからだ。

米国においてもスコアリングの公平性は大きな課題に

米国においても、AIプロファイリングによる可謬性は大きな問題になっている。

米国では、米国では、雇用、住宅関連、ローンの3領域において、人種や性別などの差別的な取り扱いをすることは法律で禁じられている。

そして、そのような課題に対して、AIプロファイリング(スコアリング)においても、公平性を実現するようなサービスも出てきている。

以下の「ZAML Fair」はその一例だ。「ZAML Fair」では、公平性を実現する信用スコアリングモデルを提供している。

www.dappsway.com

まとめ

本記事では、AIプロファイリングが「バーチャルスラム」を生み出す危険性について、3つの「AIプロファイリングによる可謬性」と、それを防ぐことが難しい2つの理由について解説してきた。

今後、この領域はさらに高度化および普及が進んでいくだろう。そうしたときに、慶應義塾大学教授の山本龍彦氏が指摘するように、その危険性やリスクへの対策にも万全を期す必要がでてくる。

さらに詳しく知りたい方は、ぜひ以下の書籍を読んでみてほしい。200ページほどですぐに読めて理解が深まる良書となっている。

おそろしいビッグデータ 超類型化AI社会のリスク (朝日新書)

おそろしいビッグデータ 超類型化AI社会のリスク (朝日新書)