「データ駆動社会でデータを楽しむ」
中野 美由紀(事業担当理事)
ビッグデータ、深層学習と人口知能、データ駆動とこの数年、データを基にしたさまざまなキーワードが取り上げられている。情報に携わる技術者、研究者は当然のことながら、誰一人データと無縁とはいえないだろう。また、人を人とたらしめるものの1つに、記憶(メモリ)の蓄積とそれを伝えるための手法(音声、文字、画像等)が長時間に渡って構築されてきた。粘土板に楔形文字で刻まれた内容の多くが経済的な事柄や法に関する事柄であり、木簡には当時の地域社会を構成する人の情報が残されている。つまり、人類は記録できるようになって以来、社会に関する記録を残し、利用してきている。では、今さらのようにデータ駆動社会というとき、以前と何が違うのだろうか。
ビッグデータという言葉が示すように、WWWの広がりとともに、人が生み出すデータ量は爆発的に増えている。ビッグデータでは人の生み出すデータに加え、人が利用する電子機器、IoT等から生成されるデータも含まれる。疲れを知らないIoT機器のデータが今後、急速に増えると想定されている。一方で、2017年のIDCの調査結果によれば、2025年の段階でデータ量は165ゼッタバイトとなるが、IoTが生み出すデータより、遥かに人が生み出すデータの割合が多いと想定されている。これは大変興味深い結果である。社会活動から生み出されるデータは社会活動の中でさらに再生産され、新たなデータを生み出していく。この再生産の仕組みこそ、現在のデータ駆動社会が以前と異なり、今後の超スマート社会の核となると思われる。また、膨大なデータを利用することで画像認識の精度が上がったことはよく知られている。
データの利活用の観点からは、利用できるデータの多様性やデータ処理の時間的、経済的コストが大きく異なるだろう。世界的に見れば、データ利用と流通に関してはいまだ明確なルールが存在しているわけではない。これは、データそのものの多様性に加え、データを生み出される仕組みあるいは再生産の仕組みがデータごとに、あるいは、データを生み出す人または地域が異なることによる。これらの問題は我が国も含め、各国で実情に合わせて整備されつつある。一方で、情報通信の発達とインターネットの普及により、データは世界中で数秒の内に共有することが可能となっている。また、クラウドとその上で構築されたサービスを利用すれば、自らが計算資源を持たずにデータ処理が気軽にできる環境も整備されている。
非常に雑駁ではあるが、データ量は常に増大し続けており、また、データ利活用のための環境は計算機資源の利用や通信技術の進展は着実に進んでおり、ルール整備も進められているところである。では、データの質はどうであろうか。
データ駆動社会の入り口に立っている今、明らかにデータ量は増大し、それに対処するためにさまざまなデータ解析が試みられ、結果、多様なモデルやルールが多く提案されている。近年、着目されてきた深層学習を利用した機械翻訳は飛躍的に精度を上げ、自動運転などでもその成果が期待されている。一方で、これらの機械学習アルゴリズムで利用されるデータの質はどのように考えればいいのだろうか。精度の良いモデル(ルール)を作るためには、どのようなデータがあればよいのだろうか。精度が良いことを検定で示すことは可能であるが、運用に入った場合、実運用上の精度をどの程度の期間に調べ、それをフィードバックすべきなのであろうか。そもそも、モデルの構築に利用したデータがどのようなものか、モデルの利用者は知らなくてよいのだろうか。クラスタリング後に利用している特徴量が何かを明示することは、なんらかの意図的利用につながるのだろうか?
データの質については、ウェブデータの解析を始めた時点から議論されてきた。たとえば、ある人物の写真が直近のものと20年前のものがあったとき、選ぶべき写真はどれだろうか。これは、利用者の目的によって異なる正解があるだろう。一方で、ある人物の現在の所属先を知りたい場合には古い所属先は誤りとなる。新しい科学的発見や知見(たとえば、惑星の数の変更)により、過去に収集したデータ(たとえば、冥王星の説明)が使えなくなる可能性もある。これらは分かりやすい例である。
日々収集される時系列データの利用も、時間幅を変えることで、結果がまったく異なる可能性もあるだろう。半年分のデータを利用するのか、一年分のデータを利用するのか、途中でIoTの機種が入れ替わっていたとき、その値を連続的に利用可能なのだろうか。機器変更によるデータ補正はクレンジングの範疇かもしれないが、いずれにしろ、時間変化によるデータを扱う場合には、そのソースがどのような環境で測定されたのか、知らなくてはならないだろう。
データの質をどのように定量的に表すのか、データ利用者にデータの質の保証をするためのメタデータの仕組みはまだ発展途上である。基となるデータの由来(provenance,lineage)、関係性等を、データ駆動社会におけるモデル、ルールの生成、モデル、ルールを利用、運用する立場、サービスの提供を受ける立場の間で流通を促すための仕組みが今後期待される。
近い将来、自分の興味のあるデータを探し出し、自らでデータ解析をし、その結果を楽しむことができることを夢みて、この稿を終わりにしたい。