抄録
E-054
ブログ著者の年齢推定に有効な素性の抽出
篠山 学(香川高専)
本研究ではブログデータから著者の年齢推定に有効な素性を抽出する. これまでに,著者の性別や居住地の推定に用いる素性は報告されている. また,10代の推定に用いる素性も報告されている. しかし10代以外の年齢の推定に有効な素性はほとんど報告されていない. これはunigramを素性としていることが原因と考えられる. そこで本研究ではbigramやtrigram,共起語を素性として抽出する. 抽出した素性が年齢推定に有効であることを示すためにNaive Bayesを用いた実験を行う.