「語と文書の共起に基づく特徴度の数量的表現について」(Vol.41,No.12)

平成13年度論文賞受賞者の紹介

「語と文書の共起に基づく特徴度の数量的表現について」(Vol.41,No.12)

[論文概要]
 本論文では語と文書の共起関係に注目し、与えられた文書集合中での語の特徴度の量的表現やその適用について、情報量的な観点から考察を加えてた。情報検索の分野において今日広く用いられている語の「tf-idf」重み付け法が、語頻度と情報量をかけあわせた尺度として解釈できることを示し、これに基づき語の特徴度を「語の出現確率」と「語の持つ情報量」の積の形で一般的に定義した。実験では用語抽出タスクへの適用を通して、提案する特徴量尺度の有用性を検証した。

[推薦理由]

 本論文では,情報検索,文書分類,用語抽出などで用いられる語の特徴量の尺度について,情報量の観点から明解な視点を与えている.特に,従来より経験的に良い指標とされてきたTF・IDF尺度がこの枠組から導出されることを示すとともに,今までアドホックに選択されていた尺度に対して,確率モデルによる裏付けができるという基礎を与えている.さらに,現実の文書集合において,TF・IDF尺度の情報量的な解釈の妥当性を検証し,用語抽出へ適用可能性を示している.
 上記の点において,本論文は関連分野の多くの読者に対し有用な知見を与えるものであり,そのオリジナリティ,論点の明解さは秀逸である.よって,本論文を論文賞に推薦する.

相澤 彰子君  1985年東京大学工学部電子工学科卒業。1990年同大学院電気工学専攻博士課程修了。工学博士。1990年から1992年、イリノイ大学アーバナ・シャンペイン校客員研究員。現在、国立情報学研究所助教授。統計的テキスト処理、遺伝的アルゴリズム、情報流通システム等の研究に従事。