Research Contents
- データエコシステムのダイナミクス理解と制度設計
- テーラーメイド型データ設計支援による未観測事象のデータ化
- ヘテロジニアスデータ連携と解析モデルの創出
- クロスオーバー空間における情報消化と価値深化のセンシング
1. データエコシステムのダイナミクス理解と制度設計
データエコシステムとは、データによって創発された人やビジネスなどの自律的な要素が集積することで生じる複雑な生態系です。私たちは時々刻々と様々な情報を生み出しており、これらの行動の記録はデータとして蓄積されていきます。企業などのサービス提供者は、その中から必要なものを取り出してサービスに変え、私たちや第三者に提供しています。得られた知見や学習・分析結果は私たち自身にフィードバックされるだけではなく、他者の嗜好や行動にも影響を与えていくでしょう。
このようなデータの循環によって様々な人・物・技術・サービスが繋がるという動的な相互作用によって新たな機能や性質を生み出され、複雑ですが秩序だった体系を作り出されています。これがデータの生態系、すなわちデータエコシステムなのです。
しかし、データエコシステムにおいて扱われるデータの特徴や異なるデータ間・業種間の関係性のメカニズムは明らかになっていません。実社会における異分野データ連携による価値創造への関心や期待は高まっていますが、人・データ・環境、法制度等による複雑性から、エコシステム全体を包括的に捉えた議論と理解が必要です。
1-1. データスケープ:異種のメタデータネットワーク分析による俯瞰的理解
データエコシステムを理解するための適切な分析単位が確立されていない中で、データや市場のプレイヤーの関係を俯瞰的に見ることは共通理解を促進する有用な方法の一つです。この研究では、データエコシステムで扱われる個々のデータに着目し、メタデータを用いて異種のデータの関係性の解明を試みました。
その結果、データネットワークは人間関係に似た「局所的に密、大域的に疎」な構造をしており、データは個々の組織で全く無秩序に作られるにも関わらず、俯瞰的に見ると秩序だった特徴が現れることが分かりました。異種のデータネットワークが成長する過程を動的に捉えることで、データ流通を促進したいデータプラットフォーム事業者の戦略立案を支援する方法の検討も進んでいます。
1-2. ステークホルダーに着目したデータバリューチェーン分析
この研究では、データエコシステムにおける人(ステークホルダー)に着目し、事業横断的なステークホルダーの関係性から役割を考察し、データ漏えい時のボトルネックやビジネスモデルの頑健性評価を試みました。
ヒューマンファクタを取り込んだデータバリューチェーン記法(SVC: Stakeholder-sentric Value Chain)を開発し、事業者の関係の構造を解析しました。分析によってビジネスモデルを横断したステークホルダーの関係性に階層構造が出現することが分かり、エコシステム内で異なる機能を持つステークホルダー群による棲み分けの存在を示唆する結果を得ました。さらに、ネットワーク分析などから、ハブとなるステークホルダーの影響力とデータ漏洩リスクを算出するなど、データビジネスの健全性、エコシステムの頑健性評価する方法も研究が進んでいます。さらに、SVC記法はメソッド化し、ワークショップ技法として企業における異業種のデータ連携の現場に導入しています。
1-3. マルチエージェントシミュレーションによるデータ市場シミュレーター
市場で流通している多くの商品や資源などと比較して、データは固有の特徴を有しています。例えば、データは物理的な保管場所を必要としないため保管コストは極めて低く、複製が容易である上に流通コストはほぼゼロであるという特徴も持っています。そのため、分野を横断したデータ流通と取引には、既知の商材とは異なるモデルが必要です。
本研究では、複製と再販が可能なデータ流通市場におけるシミュレーションを行いました。実験の結果、合理的エージェントによる取引ではデータ価格が安定しやすく、粗利益設定がデータ流通に大きな影響を与えることが分かりました。
また、データ市場における交換データセットとバイヤーの相互作用をモデル化し、制度設計のためのマルチエージェントシミュレータ開発を行いました。異なる市場規模におけるデータ購入と人気データセットの出現に及ぼす影響を実験によって比較したところ、市場規模によって人気データセットの購入頻度分布が異なることから、市場規模によって異なるルールや制度の必要性を示唆する結果を得ました。
2. テーラーメイド型データ設計支援による未観測事象のデータ化
データには潜在的にデータ取得者の設計意図が反映されるため、設計意図やバイアスを考慮しない第三者データの分析には、誤った仮説検証のリスクが内在します。
そのため、動的世界を観察しデータ化する人間の認知モデルがもたらす差異と多様性を理解し、経験や勘だけに頼らないデータ設計を支援する仕組みが必要となります。
2-1. 未踏データ設計とデータオリジネーション
未踏データとは私たちのダイナミックに変化する認識や知識と直接結びついていない領域の潜在的なデータを意味します。例えば、分類すると左図のようになります。未踏データは特に、データがあるのに、どのような事象が観測できるのか分からない、またデータがなく、観測したい事象が未知・既知な領域の潜在的なデータを指します。
データオリジネーションは、このような未踏データに対してデータの起源である人間の観察行為に立ち返った未踏データ設計・取得・活用のアプローチです。変数クエストやTEEDAはこのような未踏データの設計とオリジネーションを支援するツールです。
2-2. 変数クエスト(VQ: VARIABLE QUEST)
未だデータ化されていない事象を如何に観測するのかという方法論については属人性が極めて高く、体系的な知識は存在していません。そのため、どのような目的でデータを集め、如何にして活用するのかという緻密なデータのデザイン及びその設計支援手法が重要となります。
本研究では、データの主たる構成要素である変数(データを構成する属性)に着目し、変数が未知のデータ概要から、変数群を推定するシステムVariable Quest (VQ)を実装しました。VQでは、「データ類似度」と「変数の共起性」という2つのモデルを考慮することで、あるデータでは欠けていた変数を他のデータ中に登場する変数によって補完することが可能となります。
2-3. データマッチングシステム: TEEDA
データカタログやポータルサイトの整備によって利用者がデータ保有者及び提供者のデータについて知る機会は増えてきています。しかし、データ利用者がどのような目的でどのようなデータを欲しているのかという情報(Call for Data)は十分に共有されているとは言えません。
TEEDAは欲しいデータ(データリクエスト)と提供可能データから提供者と利用者のマッチングを行うWebアプリケーションです。データ保有者の一方的な情報提供のみならず、利用者がどのようなデータを欲しているのかという情報を交換しつつ、データ提供者と利用者の邂逅を支援します。
なお、TEEDAは"Treasuring Every Encounter of Data Affairs"の頭文字を取った略称であり、「データを巡るすべての出会いを大切にする」という意味が込められています。
2-4. 人・モノ接触データ:未踏データ設計とオリジネーション事例
コロナ禍において顕在化した「未知の事象をどのように観測し、データ化すべきであるのか」という問題に対し、データ設計とオリジネーションを実践した事例の一つです。
人と物の接触(人が何かに触れる/触る)による感染対策については、有効な感染対策につながるデータが少なく、手洗いや薬剤による手の殺菌の奨励、物の消毒などの対策に留まっていました。TEEDAを用いたワークショップによって「接触する頻度が多い場所・物を調べ、消毒の設置場所、優先して消毒する物、場所や乗り物での接触行動の指針を考えたい」というニーズが高いことが分かりました。さらに、変数クエストを用いてコロナ禍における「人とモノの接触行動データ」を設計し、内閣官房「COVID-19 AI・シミュレーションプロジェクト」に協力し、実際にデータ取得と分析を行いました。その結果、消毒液の設置場所、優先して消毒する物、場所や乗り物での接触行動の指針を得ました。
3. ヘテロジニアスデータ連携と解析モデルの創出
Coming soon...