抄録
O-033
リンク特性分析によるWebドキュメント中のノイズデータ除去手法の提案
堤 浩太・梅澤 猛・大澤範高(千葉大)
ブログやSNSなどのCGMの普及に従い,集合知獲得の手段としてWebマイニング技術が注目されている.適切なマイニングを行うためのCGMコンテンツに含まれる広告などのノイズデータ除去にはDOMツリー分析が有効であるが,下位層の処理が粗くなってしまうことが知られている.そこで,本研究ではDOMツリー内のノードにおいてリンク特性分析を行うことで下位層におけるノイズデータ除去を適切に行う手法を提案する.また,教師信号付き機械学習により,ノイズデータにおけるリンク特性モデルを獲得する機能により,ルールベースの既存手法に比べ未知のノイズデータや言語の差異にも適応可能な汎用的手法を目指す.