抄録
D-010
類似文字列検索における可変長N-gramを用いたマージの効率化
◎木村光樹(東大)・高須淳宏・安達 淳(NII)
我々はgramベースの転置索引を用いた類似文字列検索の研究に取り組んでいる。解候補となる転置索引中の文字列リストをマージするのに時間がかかることが問題である。従来の手法ではgramは固定長のものが用いられることが多く、探索のコストはgram長に依存してしまう。これに対してgram長を可変長にすることで探索コストを削減するVGRAMという新しい索引付け手法が提案された。しかしながら、VGRAMではパラメータを3つ事前に決めなければならず、人手によるチューニングコストが大きくなってしまう。そこで我々は、Suffix Tree を用いてパラメータのチューニングコストを削減する新しい可変長N-gramを提案する。