見出し画像

Neural Combinatory Constituency Parsing

2022年度研究会推薦博士論文速報
[自然言語処理研究会]

陳 宙斯
(東京都立大学 客員研究員)

邦訳:ニューラル組合せ構文解析

■キーワード
句構造解析/ニューラルネットワーク/高速化

【背景】自然言語には,複雑な構造が存在し,効率的な解析が求められています.
【問題】構造が複雑になるほど,高速かつ高精度な文法解析器は少なくなります.
【貢献】句構造の各複雑度の文法構造に対応する,高速かつ高精度な解析器群を提案しました.

 世界の万物には複雑な関係が存在し,記述するための自然言語も同様に複雑です.文が記述する対象と関係を正確に理解するためには,文の解析(parsing)が必要です.解析には表層の文法と深層の意味の2つのレベルが含まれ,フレーム(frame)を単位として構造を組み立てます.文法のフレームは要素(名詞・動詞・句など)と役割(主語・述語・目的語など)を記述し,意味のフレームは実際の関係(たとえば「誰が誰に何をする」)を記述します.また,フレームは組み合わせて再帰することがあります.たとえば,「私は君が彼を知っていることを知っている.」という文では,「君が彼を知っている」というフレームが「私は知っている」の中にはまっています.また,異なる表層表現方法(能動態と受動態など)でも同じ深層の意味を表現することがあります.

 人間が相互に理解し合うことができるのは,脳が自動的に文からフレームを抽出して解析しているからです.本研究の句構造解析(constituency parsing)は,句をフレームとして解析します.早期の句構造解析理論によって,今のプログラミング言語やコンパイラが誕生し,プログラマと計算機の架け橋となっています.これらの文法はシンプルなので,解析が快速です.

 しかし,日常の自然言語にはプログラミング言語には存在しない複雑な表現が含まれており,句構造が複雑になるほど,高速かつ高精度な解析器は少なくなります.先行研究では,句構造の複雑さをCFG(文脈自由文法),CSG(文脈依存文法),unrestricted(非限制文法)などに分類しました.大半の文(すべてのプログラミング言語と大半の英語・日本語・中国語など)はシンプルなCFGで対応していきますが,一部のより複雑な文(ドイツ語・ロシア語に多い)はCSGに属し,それ以外にunrestrictedに到達することもあります.組合せ数学に基づく句構造解析をしようとすると,句構造の複雑さが組合せ爆発によって増大し,解析が非常に遅くなって計算不可能であることもあります.

 本研究では,組合せ数学の視点を捨て,高速で直感的な神経ネットワークで句構造解析群を構築しました.これらの解析器は,文法の複雑さとの関係が弱く,解析速度と文の長さがほぼ比例しています.故に,複雑な句関係を迅速に解析できます.表層の文法に基づいているので,句内の最も重要な要素(head)を示すことも特徴となっています.最後に,本研究は表層の文法が考察対象でしたが,深層の意味は今後の研究課題です.

■Webサイト動画アプリなどのURL
https://github.com/tmu-nlp/UniTP

参考文献
1)Chen, Z., Zhang, L., Imankulova, A. and Komachi, M. : Neural Combinatory Constituency Parsing. Findings of ACL-IJCNLP 2021. http://dx.doi.org/10.18653/v1/2021.findings-acl.194
2)Chen,
Z. and Komachi, M. : Discontinuous Combinatory Constituency Parsing, Transactions of the Association for Computational Linguistics(2023). https://doi.org/10.1162/tacl_a_00546
3)Chen,
Z. and Komachi, M. : DAG Conversion for Penn Treebank, the 29th Annual Meeting of ANLP (2023). https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/P3-7.pdf

(2023年5月31日受付)
(2023年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月日:2023年3月
 学位種別:博士(情報科学)
 大学:東京都立大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]自然言語処理研究会
構文解析とは文の文法的な構造を明らかにする処理のことで,ことばを理解するための基本的な技術と言えます.この博士論文研究では,複雑さの異なる複数の種類の文法構造に対応可能な,ニューラルネットワークを用いた高速な構文解析の方式を提案しています.ことばを深く読むための技術として今後の発展に期待です.

研究生活  博士課程の5年間は,自由で楽しく視野の広い期間でした.先生に感謝します.研究室内では,勉強会が基礎教育として広い研究視野を作り,進捗報告で自由な思考と交流を主旨として研究問題について存分に打合せをして翌週の計画を立てていました.1人の苦闘がもちろんありましたが,先生の優しさで困難と失敗にも勇気と自信を持つことができました.
  
 研究室外では,学会に参加する経験ができてよかったです.コロナの3年間で,国内外の学会に現地参加する機会がなかったですが,待ちに待った最後の学期で現地参加しました.不思議なことに,地球上の人類が一体であることを感じました.世界の向こう側で自分と似た課題を研究している人と出会い,彼らの声や姿を知るのは,とても面白いことでした.科学・技術・思想の進歩のため,努力し,新しい理論や手法を提案し続けています.読者の皆さんがこの一員になり,共に興味深い時間を過ごすことを期待しています.