M2 春木さんの「データ品質評価ツール」に関するプレプリントを公開しました。

2025年04月10日

M2学生の春木さんの「データ品質評価ツール開発と評価項目別特徴分析」に関する論文のプレプリントをarxivに公開しました。

本研究では、共同研究パートナーである共同印刷株式会社の皆さまとともに、データ取引の際に重要となるデータ品質評価(DQA: Data Quolity Assessment)を支援する自動評価ツールを開発しました。

データがビジネス資源として注目される中、企業や自治体が外部のデータを購入・活用する機会が増えています。しかし、データの品質を評価するには専門知識が必要で、担当者によって判断がばらつくという課題がありました。

本研究では、10の評価指標(正確性、網羅性、希少性など)を用いて、品質メタデータを自動生成するツールを開発し、データの視覚的な理解を支援する仕組みを構築しました。さらに、41名の社会人を対象にしたアンケート調査や視線計測を通じて、このツールの有効性を検証しました。その結果、特にデータ分析経験が豊富な利用者は評価の精度が向上し、誤った判断も減少。一方で、中間レベルの利用者は情報量の多さによって低評価をつけやすく、さらにその評価がばらつく可能性があることが分かりました。

本研究は、データの購入・活用を行う現場において、評価の属人性を減らし、より公平で効率的な意思決定を実現するための有効な手法となることが期待されています。

https://doi.org/10.48550/arXiv.2504.02663


タイトル:Development of Automated Data Quality Assessment and Evaluation Indices by Analytical Experience

著者:Yuka Haruki, Kei Kato, Yuki Enami, Hiroaki Takeuchi, Daiki Kazuno, Kotaro Yamada, Teruaki Hayashi

アブストラクト:The societal need to leverage third-party data has driven the data-distribution market and increased the importance of data quality assessment (DQA) in data transactions between organizations. However, DQA requires expert knowledge of raw data and related data attributes, which hinders consensus-building in data purchasing. This study focused on the differences in DQAs between experienced and inexperienced data handlers. We performed two experiments: The first was a questionnaire survey involving 41 participants with varying levels of datahandling experience, who evaluated 12 data samples using 10 predefined indices with and without quality metadata generated by the automated tool. The second was an eye-tracking experiment to reveal the viewing behavior of participants during data evaluation. It was revealed that using quality metadata generated by the automated tool can reduce misrecognition in DQA. While experienced data handlers rated the quality metadata highly, semi-experienced users gave it the lowest ratings. This study contributes to enhancing data understanding within organizations and promoting the distribution of valuable data by proposing an automated tool to support DQAs.