「固有表現抽出のためのSVMの高速化」(Vol.44,No.3)
平成15年度論文賞受賞者の紹介
「固有表現抽出のためのSVMの高速化」(Vol.44,No.3)
[論文概要]
サポートベクトルマシン(SVM)は新しい高性能な学習手法である。しかし、従来手法より分類処理速度が桁違いに遅いことが知られている。本論文では、まずSVMを用いた固有表現抽出方法が既存手法より高精度であることを実験により示す。固有表現抽出は、地名・人名・組織名・日時などの固有表現を文書から抜き出す技術であり、情報抽出システムや質問応答システムなどの重要な基礎技術である。次に、固有表現抽出のデータの特徴を生かして、処理速度を大幅に改善するアルゴリズムを提案する。このアルゴリズムは、自然言語処理における他の様々なタスクに応用可能であると考えられる。
[推薦理由]
SVM (Support Vector Machine) とは機械学習手法の一つであり、1990年台から Vapnik らによって様々な応用に対して高い性能が示されている。自然言語処理においても品詞タグ付与・統語解析・文書分類などへの応用が注目されているが、決定木や最大エントロピー法などの従来の機械学習に比べて学習や処理の計算量が大きいという問題があった。また、固有表現抽出とは、与えられた文書から人名・地名・組織名といった予め決められたタイプの表現を抽出する問題であり、検索や要約における基礎技術の一つである。著者らは固有表現抽出に SVM を適用する際にカーネル関数が二次の多項式関数の時に精度が高いことを調べ、この場合に対して、計算方法を工夫することで処理時間を従来の1/60以下にした。この方法は先に挙げた自然言語処理分野の応用をはじめ多くの場合に適用可能であり、また近似ではなくアルゴリズムレベルでの高速化は他に例がない。有用性・新規性ともに優れており、論文賞に値する。
磯崎 秀樹君 1983年東京大学工学部計数工学科卒業.1986年同工学系大学院修士課程修了.同年,日本電信電話(株)入社.現在,NTTコミュニケーション科学基礎研究所主幹研究員.博士(工学).質問応答,統計的自然言語処理の研究に従事.電子情報通信学会,情報処理学会,人工知能学会,言語処理学会,AAAI,ACL各会員.
賀沢 秀人君 1995年 東京大学理学部物理学科卒業.1997年 同大学院理学系研究科修士課程修了.同年,日本電信電話(株)入社.現在,NTT コミュニケーション科学基礎研究所に所属.主として自然言語処理,機械学習の研究に従事.情報処理学会,ACL,IEEE 会員