Research

Research Contents

データエコシステムのダイナミクス理解と制度設計
テーラーメイド型データ設計支援による未観測事象のデータ化
ヘテロジニアスデータ連携と解析モデルの創出
クロスオーバー空間における情報消化と価値深化のセンシング

1. データエコシステムのダイナミクス理解と制度設計

データエコシステムとは、データによって創発された人やビジネスなどの自律的な要素が集積することで生じる複雑な生態系です。私たちは時々刻々と様々な情報を生み出しており、これらの行動の記録はデータとして蓄積されていきます。企業などのサービス提供者は、その中から必要なものを取り出してサービスに変え、私たちや第三者に提供しています。得られた知見や学習・分析結果は私たち自身にフィードバックされるだけではなく、他者の嗜好や行動にも影響を与えていくでしょう。

このようなデータの循環によって様々な人・物・技術・サービスが繋がるという動的な相互作用によって新たな機能や性質を生み出され、複雑ですが秩序だった体系を作り出されています。これがデータの生態系、すなわちデータエコシステムなのです。

しかし、データエコシステムにおいて扱われるデータの特徴や異なるデータ間・業種間の関係性のメカニズムは明らかになっていません。実社会における異分野データ連携による価値創造への関心や期待は高まっていますが、人・データ・環境、法制度等による複雑性から、エコシステム全体を包括的に捉えた議論と理解が必要です。

1-1. データスケープ：異種のメタデータネットワーク分析による俯瞰的理解

データエコシステムを理解するための適切な分析単位が確立されていない中で、データや市場のプレイヤーの関係を俯瞰的に見ることは共通理解を促進する有用な方法の一つです。この研究では、データエコシステムで扱われる個々のデータに着目し、メタデータを用いて異種のデータの関係性の解明を試みました。

その結果、データネットワークは人間関係に似た「局所的に密、大域的に疎」な構造をしており、データは個々の組織で全く無秩序に作られるにも関わらず、俯瞰的に見ると秩序だった特徴が現れることが分かりました。異種のデータネットワークが成長する過程を動的に捉えることで、データ流通を促進したいデータプラットフォーム事業者の戦略立案を支援する方法の検討も進んでいます。

1-2. ステークホルダーに着目したデータバリューチェーン分析

この研究では、データエコシステムにおける人（ステークホルダー）に着目し、事業横断的なステークホルダーの関係性から役割を考察し、データ漏えい時のボトルネックやビジネスモデルの頑健性評価を試みました。

ヒューマンファクタを取り込んだデータバリューチェーン記法（SVC: Stakeholder-sentric Value Chain）を開発し、事業者の関係の構造を解析しました。分析によってビジネスモデルを横断したステークホルダーの関係性に階層構造が出現することが分かり、エコシステム内で異なる機能を持つステークホルダー群による棲み分けの存在を示唆する結果を得ました。さらに、ネットワーク分析などから、ハブとなるステークホルダーの影響力とデータ漏洩リスクを算出するなど、データビジネスの健全性、エコシステムの頑健性評価する方法も研究が進んでいます。さらに、SVC記法はメソッド化し、ワークショップ技法として企業における異業種のデータ連携の現場に導入しています。

1-3. マルチエージェントシミュレーションによるデータ市場シミュレーター

市場で流通している多くの商品や資源などと比較して、データは固有の特徴を有しています。例えば、データは物理的な保管場所を必要としないため保管コストは極めて低く、複製が容易である上に流通コストはほぼゼロであるという特徴も持っています。そのため、分野を横断したデータ流通と取引には、既知の商材とは異なるモデルが必要です。

本研究では、複製と再販が可能なデータ流通市場におけるシミュレーションを行いました。実験の結果、合理的エージェントによる取引ではデータ価格が安定しやすく、粗利益設定がデータ流通に大きな影響を与えることが分かりました。

また、データ市場における交換データセットとバイヤーの相互作用をモデル化し、制度設計のためのマルチエージェントシミュレータ開発を行いました。異なる市場規模におけるデータ購入と人気データセットの出現に及ぼす影響を実験によって比較したところ、市場規模によって人気データセットの購入頻度分布が異なることから、市場規模によって異なるルールや制度の必要性を示唆する結果を得ました。

2. テーラーメイド型データ設計支援による未観測事象のデータ化

データには潜在的にデータ取得者の設計意図が反映されるため、設計意図やバイアスを考慮しない第三者データの分析には、誤った仮説検証のリスクが内在します。

そのため、動的世界を観察しデータ化する人間の認知モデルがもたらす差異と多様性を理解し、経験や勘だけに頼らないデータ設計を支援する仕組みが必要となります。

2-1. 未踏データ設計とデータオリジネーション

未踏データとは私たちのダイナミックに変化する認識や知識と直接結びついていない領域の潜在的なデータを意味します。例えば、分類すると左図のようになります。未踏データは特に、データがあるのに、どのような事象が観測できるのか分からない、またデータがなく、観測したい事象が未知・既知な領域の潜在的なデータを指します。

データオリジネーションは、このような未踏データに対してデータの起源である人間の観察行為に立ち返った未踏データ設計・取得・活用のアプローチです。変数クエストやTEEDAはこのような未踏データの設計とオリジネーションを支援するツールです。

2-2. 変数クエスト（VQ: VARIABLE QUEST）

未だデータ化されていない事象を如何に観測するのかという方法論については属人性が極めて高く、体系的な知識は存在していません。そのため、どのような目的でデータを集め、如何にして活用するのかという緻密なデータのデザイン及びその設計支援手法が重要となります。

本研究では、データの主たる構成要素である変数（データを構成する属性）に着目し、変数が未知のデータ概要から、変数群を推定するシステムVariable Quest (VQ)を実装しました。VQでは、「データ類似度」と「変数の共起性」という2つのモデルを考慮することで、あるデータでは欠けていた変数を他のデータ中に登場する変数によって補完することが可能となります。

2-3. データマッチングシステム: TEEDA

データカタログやポータルサイトの整備によって利用者がデータ保有者及び提供者のデータについて知る機会は増えてきています。しかし、データ利用者がどのような目的でどのようなデータを欲しているのかという情報（Call for Data）は十分に共有されているとは言えません。

TEEDAは欲しいデータ（データリクエスト）と提供可能データから提供者と利用者のマッチングを行うWebアプリケーションです。データ保有者の一方的な情報提供のみならず、利用者がどのようなデータを欲しているのかという情報を交換しつつ、データ提供者と利用者の邂逅を支援します。

なお、TEEDAは"Treasuring Every Encounter of Data Affairs"の頭文字を取った略称であり、「データを巡るすべての出会いを大切にする」という意味が込められています。

2-4. 人・モノ接触データ：未踏データ設計とオリジネーション事例

コロナ禍において顕在化した「未知の事象をどのように観測し、データ化すべきであるのか」という問題に対し、データ設計とオリジネーションを実践した事例の一つです。

人と物の接触（人が何かに触れる/触る）による感染対策については、有効な感染対策につながるデータが少なく、手洗いや薬剤による手の殺菌の奨励、物の消毒などの対策に留まっていました。TEEDAを用いたワークショップによって「接触する頻度が多い場所・物を調べ、消毒の設置場所、優先して消毒する物、場所や乗り物での接触行動の指針を考えたい」というニーズが高いことが分かりました。さらに、変数クエストを用いてコロナ禍における「人とモノの接触行動データ」を設計し、内閣官房「COVID-19 AI・シミュレーションプロジェクト」に協力し、実際にデータ取得と分析を行いました。その結果、消毒液の設置場所、優先して消毒する物、場所や乗り物での接触行動の指針を得ました。

3. ヘテロジニアスデータ連携と解析モデルの創出

データエコシステムにおけるデータ流通および市場でのデータ売買ニーズの進展により、異種のデータを組み合わせた知識発見・価値創造への期待はあるものの、そもそも既存のデータは連携を前提に設計・取得されていないという点に注意が必要です。異種データの連携は対象事象の理解と新たな知識発見に寄与する反面、複雑性をも増大させ、分析結果の説明能力と説得性を下げてしまうリスクがあります。

そのため、自身が保有するデータとの組み合わせや連携に適したデータの探索（検索・推薦）と同時に、組み合わせるデータセットの特性を考慮したデータ統合と解析手法の確立が喫緊の課題です。さらには、異種のデータ連携による解析結果の信頼性を評価し、説明可能な技術も求められています。

3-1. データセット埋込表現によるデータの類似性評価と探索システム

異種のデータを交換するデータプラットフォームが登場していますが、多くのサービスでは自然言語で記述されたメタデータを対象とした一般的な情報検索手法が主であり、そこにはメタデータの整備・信頼性・一貫性・情報量の不足などの課題が存在しました。そこで本研究は、メタデータレスで、実データによる検索・推薦機能を強化した表データ向け言語モデルを基にしたデータセット埋め込みモデルを提案しました。具体的には、表データ向け言語モデル(TaLMs)の一つHyTrelに距離学習を適用し、データセット埋込モデルを学習し、さらに、GitTables、Kaggleの実データとメタデータの関係性などの追加学習を行い、ドメイン適応を図りました。実験の結果、検索・推薦タスク（トピック推定、人間による評価）でメタデータ利用と同等またはそれ以上の性能を得ることができました。

従来研究では、変数の表記揺れ、実データ情報との乖離など、メタデータの情報依存性が高く、さらにデータ公開・販売におけるメタデータ作成が高コストでした。本手法によって、メタデータレスで社内外データを的確に検索する仕組み作りに寄与することが期待されます。

3-2. コンテキストを考慮したグラフベースデータセット埋込表現

一組織内でデータを設計・生成・活用するだけでなく、異なる企業や組織が作成したデータセットを利用したり、自組織のデータと組み合わせて利用する機会が増加しています。このような中、複数のデータセットを統合して利用する際の課題も表出化しています。例えば、データセットは必ずしも連携を前提に設計されているわけではありません。また、統一した設計図が共有されているわけではなく、データセット作成者の背景知識やデータ設計に用いる情報源が異なるため、データの表記方法や構造が必ずしも統一されていないという問題があります。

本研究では、データセットのコンテキスト情報を反映したグラフ構造を活用する新たな埋め込み学習手法を提案し、多様な性質を持つデータセットを用いてスキーママッチングとエンティティ解決のタスクに適用しました。グラフベースのデータセット埋め込み手法を援用し、表データの「行、セル、変数、変数の意味」からなる4部グラフからシーケンスを生成し、埋込表現を学習しました。基礎データ及び実際の業務データを用いた実験を行ったところ、スキーママッチングとエンティティ解決タスクにおいて既存手法の性能を上回る結果を得ました。

4. クロスオーバー空間における情報消化と価値深化のセンシング

SNS、C2Cオンラインショッピングサイト、メタバース、Web3技術などの登場により、今まで個々のドメインの中で閉じていたコミュニティを超えて、異なる人・物・コンテキストなどの要素が互いの境界線を越えて交じり合う機会が急速に増大しました。このような異種の要素が交わることは、イノベーションや異業種協創などのポジティブな観点で議論されることが多い一方で、消費者間のトラブルなども絶えないのが実情です。このようなクロスオーバー空間のデザイン、そして異種の要素の交わりによるコンフリクトの解消及び価値創出インターフェースの実現は喫緊の課題です。また、オンライン（サイバー）空間は現実世界と文脈的に地続きであるにも関わらず、インターフェースがテキストや画像に限定され、活動主体のコミュニケーションは必ずしも自然ではありません。そのため、情報の伝達ミスや消費者トラブルなどが生じています。

そこで、"情報の消化"という概念が重要となります。情報の消化とは、一方的な情報の提供ではなく、受信者が提供された情報を正しく受け取るまでを観測対象にした情報伝達プロセスを意味します。提供された情報が的確に受信者に届いているか計測できれば、価値ある商品を適切に欲しい人に届ける情報伝達の仕組みが実現可能となり、提供者・購入者間の不要な衝突やトラブルを回避することも可能となります。

4-1. テキストと画像を用いた情報チャンネル別の情報消化効率

この研究では、伝達された情報の受信において、受け取り手の"情報の消化"という概念を導入しました。これにより、階層的因子分析による情報消化性の評価モデルを提案し、オンラインニュース記事やECサイトのページなど、4種類の情報伝達手段による消化性を構成する因子を被験者実験により抽出しました。実験の結果、情報伝達の手段や情報量、情報タイプによって情報の消化効率に違いが現れることが分かりました。また、これらの結果を踏まえて作成した媒体別情報消化効率の定量評価モデルに基づいて加工された情報は、より理解されやすい傾向にあることが分かりました。

従来の情報伝達の評価では、情報が受信者に届くところまでしか対象としていなかったのですが、本研究では受信者が取得した情報の内容や目的をどのような観点で理解するのかというころまで対象とすることで、情報受信者が自身にとって価値ある情報を得ることを支援するメソッドへの応用が期待されます。

4-2. C2C市場における情報消化の差異性分析

Webサービスを通して、個人が商品やモノを交換するオンラインC2C（Consumer-to-Consumer）マーケットが急速に拡大しています。しかし、過剰な情報提供や不適切な情報が、買い手にとって商品の理解を難しくし、売り手への信頼性を低下させ、価値あるモノの流通を阻害してしまっています。本研究では、C2Cのオンラインマーケットサービスにおいて情報を「消化する」という行動に着目し、売り手と買い手の情報の受け取り方や理解の違いを分析しました。

売り手と買い手などの立場や商品ページの各項目、商品カテゴリに着目し、売り手と買い手の立場に基づく被験者アンケートを通じて、因子分析と統計的検定により両者間に存在する情報消化の差異の存在を明らかにしました。さらに、情報選択及び情報解釈の差異について、それぞれコンジョイント分析と視線計測、テキストマイニングを用いて、買い手が受信したい情報や売り手は発信したい情報を考察し、これらの市場参加者間での差異を緩和する方策についての示唆を得ました。本研究の成果は、ユーザー個々の情報消化特性に基づいたパーソナライズされた情報提供の仕組みの構築に寄与するとともに、商品の潜在的価値を適切に伝える効果的な情報伝達手法の実現に応用することができるでしょう。