「日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習」

平成21年度論文賞受賞者の紹介

「日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習」[情報処理学会論文誌 Vol.50, No.6, pp.1622-1635]

[論文概要]

 重要な部分や作業負荷の少ない部分にのみ単語の分割アノテーションをすることにより,新しい分野での表現に対応するための学習データを効率的に作成できる.このような文の一部にのみ単語分割情報を付与する部分的アノテーションを使用して条件付確率場(CRF)を学習する方法を提案する.CRFは単語分割および自然言語処理の様々な問題でその有効性が示されている手法であるが,その学習には文全体へのアノテーションが必要であった.提案法は周辺尤度を目的関数にすることで部分的アノテーションを用いたCRFのパラメータ推定を可能にした.



[推薦理由]

 条件付き確率場(CRF)は、自然言語処理における系列ラベリングタスクにおいて近年盛んに用いられている確率モデルである。従来のCRFのパラメータ推定においては、学習データ全体にラベルが付されている必要があったが、本論文は、部分的なラベル付けを許すよう推定手法を拡張し、実際に日本語単語分割の分野適応の問題に応用することで有用性を検証している。自然言語処理の正解データ作成においては、正解付けが簡単な部分と難しい部分があり、これがデータ作成のコストを上げているが、本手法を用いることで、簡単な部分だけをラベル付けしたり、機械的ルールで確実にわかる部分のみを自動的にラベル付けすることが可能となる。以上の理由から、本研究は、自然言語処理の多くの分野に貢献するものと考え、論文賞に推薦する。

坪井 祐太 君

 2002年奈良先端科学技術大学院大学情報科学研究科博士前期課程修了.同年日本アイ・ビー・エム(株)入社.同社基礎研究所にてテキストマイニングの研究開発に従事.2009年奈良先端科学技術大学院大学情報科学研究科博士後期課程修了.工学博士.

森 信介 君

 1998年京都大学大学院工学研究科電子通信工学専攻博士後期課程修了.同年日本アイ・ビー・エム(株)入社.2007年より京都大学学術情報メディアセンター准教授.工学博士.1997年本学会山下記念研究賞受賞.言語処理学会会員.計算言語学とその実社会への応用に興味を持つ.

鹿島 久嗣 君

  1999年京都大学工学研究科応用システム科学専攻修士課程修了.同年日本アイ・ビー・エム(株)入社.2007年京都大学情報学研究科知能情報学専攻博士後期課程修了.情報学博士.2009年より東京大学情報理工学系研究科数理情報学専攻准教授.2007年人工知能学会論文賞,2009年本学会長尾真記念特別賞受賞.専門は機械学習,データマイニング.

小田 裕樹 君

  1999年徳島大学大学院工学研究科知能情報工学専攻博士前期課程修了.同年NTTソフトウェア(株)入社.言語処理・情報検索システム等の開発,コンサルティング業務に従事.確率・統計的自然言語処理およびその応用に興味を持つ.工学博士.言語処理学会会員.

松本 裕治 君

  1979年京都大学大学院工学研究科情報工学専攻修士課程修了.電子技術総合研究所,英国インペリアルカレッジ,(財)新世代コンピュータ技術開発機構,京都大学を経て,1993年より奈良先端科学技術大学院大学教授.工学博士.専門は自然言語処理.人工知能学会,日本ソフトウェア科学会,言語処理学会,認知科学会,AAAI, ACL, ACM各会員.