dataway

パーソナルデータ利活用の未来について考えるメディア

「動かないAI」を生む非構造データが97%、XMLによる構造データ化の必要性

f:id:show_motto:20190308083423p:plain

世の中のデータのうち、構造化されているデータはほんの一部で、97%のデータは非構造データである。

非構造データのままでは、機械はそれをうまく処理することができず、いわゆる「動かないAI」を生んでしまう恐れがある。

そこで、何らかの標準となるデータフォーマットが必要となる。

その標準データフォーマットとして最も適しているのが「XML」ではないか?

『データテック XMLルネサンスによる最強のデータ戦略』という書籍では、そのような趣旨の内容が書かれていた。

面白い内容だったので、以下では書籍の内容を簡単に解説していきたい。

データテック XMLルネサンスによる最強のデータ戦略

データテック XMLルネサンスによる最強のデータ戦略

世の中の97%のデータは非構造データ

f:id:show_motto:20190308085200p:plain

総務省「ICTコトづくり検討会議」報告書によると1、私たちを取り巻くデータ量は指数関数的に伸びており、その傾向は今後も続いていきそうだ。

しかし、そのデータのうち、約97%ものデータは「非構造データ」といって、機械がそのままではその意味を認識できないデータとなっている。

AI技術の進歩はめざましく、爆発的に増加するデータに対してAIで分析や予測に活かしていくことに対して、今後さらに期待が高まっている。

ただ、データが爆発的に増加しても「非構造データ」のままでは、AIはうまく機能しない、筆者の言葉を借りると「動かないAI」になってしまうわけだ。

たとえば、今ウェブブラウザで見ているこの記事も、HTMLとCSSによって描画されており人間は認識できるようになっているが、機械からするとその意味を即座に認識することは難しい。

そのような中で、筆者は、標準データフォーマットとして「XML」を推奨している。

では、なぜ「XML」がよいのだろうか?そして、「XML」とはそもそもどのような形式なのか?

XMLとは?

まず、XMLとは、「eXtensible Markup Language」の略で、1998年2月に、W3Cが勧告した言語である。

日本語では、「拡張可能なマークアップ言語」と略することもあるが、一般的には「XML」で通じるだろう。

XMLは、みなさんご存知の HTML と同様に、SGMLという言語から派生して生まれたもので、SGMLの拡張性とHTMLの軽さを取り入れ、発展させたものとなっている。

XML の特徴

XMLの特徴としては、以下のような点が挙げられる。

  • 入れ子構造を表現することができる
  • タグを自由に決めることができ、データに意味づけすることができる
  • データとレイアウト・デザインを分離している

たとえば、以下のようなコードになる。こちらのコードを見ながら、上記の特徴をみると分かりやすいだろう。

<?xml version="1.0" encoding="Shift_JIS"?>
<?xml-stylesheet type="text/xsl" href="testxsl.xsl"?>
<money>
 <expenses>
  <content>
   <date>1月20日</date>
   <transport>780</transport>
   <food>980</food>
   <luxurygoods>250</luxurygoods>
  </content>
 <content>
   <date>1月21日</date>
   <transport>950</transport>
   <food>1200</food>
   <luxurygoods>350</luxurygoods>
  </content>
 </expenses>
</money>

HTMLを見たことがある人は、比較してみると理解しやすい。

入れ子構造についてはHTMLと同様で、タグに自由に意味づけをできるところ、データ自身にはレイアウトの要素がないところがHTMLと異なる点である。

XML はどのような場所で利用されているのか?

XMLは、現在でもその派生系が金融や医療などの幅広い領域で利用されており、データ基盤の標準仕様に採用されている唯一無二の存在となっている。

たとえば、金融庁の財務諸表の作成には、XMLをベースにした規格である「XBRL( Extensible Business Reporting Language)」が導入されている。

また、日本の憲法や法律、法令は、総務省の法令データ提供システムを元に作成あれたファイルがウェブ上で提供されているが、このデータはHTMLに加えてXMLでも入手可能となっている2

さらに、医療業界でも、電子カルテ情報の交換に利用されるフォーマットとして、XMLベースの規格である「MML(Medical Markup Language)」が提案されていたりする。

このように、XMLでは、その誕生から20年間で、様々なファミリーが誕生し、世の中で利用がされ始めている。

なぜXMLなのか?

データの標準フォーマットの必要性は理解できたとして、「なぜXMLなのか?」と疑問に思う方も多いだろう。

そこについては、まずW3C(World Wide Web Consortium)が標準として定めたフォーマットであることが大きい。

f:id:show_motto:20190308200831j:plain

W3Cは、ウェブ技術の標準化などを行う非営利団体で、HTMLやCSS等のウェブサイトを描画するための技術も彼らによって定められ、今こうして利用がされている。

さらに、XMLは、その派生系を含め、金融や医療などの領域で実際に利用されていることも理由の1つだ。派生系となってしまっているのが玉に瑕ではあるが、標準フォーマットとしてXMLがふさわしい理由にはなる。

XMLの自動生成技術が鍵となる

ただ、筆者によると、XMLにも課題はあるという。

いくつかある中で、以下のような課題は普及に向けて特に重要な課題としてある。

  • XMLは、インターネット上で直接利用できるようにする
  • XMLのデザインを素早く準備できるようにする
  • XMLの文書を、簡単に書けるようにする

たしかに、XMLは、人間が直感的に書けるようなものでは現状ないし、デザインテンプレートがないため人間が読むには不便が生じてしまう。

これらの課題をクリアするために必要となってくるのが「XMLの自動生成技術」だ。

XMLの自動生成技術では、OSやブラウザに縛られず、ウェブブラウザ上で直接XMLデータの生成や受け渡しができ、その際に他ユーザーがブラウザで見るためのビュー情報も同時に生成することが求められる。

そうすることで、「機械が読み取りやすい形式」かつ「人間が見ても分かる」という、機械と人間の双方に優しい形式を作り出すことができるわけだ。

このようなXMLの自動生成技術を普及させることで、今後さらに増えていくデータは、AIが理解できない非構造データではなく、はじめから構造データとすることができる。

そうして、世の中の様々なデータがAIで処理できる環境を構築した上で、さらにGDPRに代表されるようなデータのオープン化の流れが来ることにより、データの利活用が飛躍的に進み、生活者も様々な利便を享受できるようになるのではないだろうか。

感想

ここまで、『データテック XMLルネサンスによる最強のデータ戦略』の概要について、簡単にまとめてみた。

所感としては、たしかになめらかなデータ流通が行われるためには、何らかの標準フォーマットが必要であると認識しており、このような標準フォーマットの普及は望ましいと感じた。

非構造データの構造データ化については、人的にアノテーションを付与したり、あるいは自然言語処理による構造化といった手法がとられている。

非構造データの構造データ化の正確性およびスピードがどうなっていくのかによっても、筆者のいうXMLの自動生成技術の社会的ニーズは異なってきそうだ。

XMLの自動生成技術について、現実的にどのように実現していくべきなのかについて、まだイメージが湧いていないところがあるのだが、共著者のうちのお一人は2019年に「データテック株式会社」を設立しているということで、具体的に動き始めているのかもしれない。

今後、どのような動きが出てくるのか、楽しみにしたい。

データテック XMLルネサンスによる最強のデータ戦略

データテック XMLルネサンスによる最強のデータ戦略