見出し画像

『ベーシックコーパス言語学』

『ベーシックコーパス言語学』(石川 慎一郎、ひつじ書房)を読んだ。頭の中の関連情報がきれいに整理整頓された。優れた教科書。言語処理技術者必携。

コーパスとは(その定義も本書の肝であるが)
(1)書き言葉や話し言葉などの現実の言語を
(2)大規模に
(3)基準に沿って網羅的・代表的に収集し
(4)コンピュータ上で処理できるデータとして保存し
(5)言語研究に使用するもの

頻度データを抽出することで、語や表現の典型性や標準性を数値化したり、経年変化を見取ることに主に使われる。言語を扱う研究と開発ではおなじみのデータだが、現代において「大規模」の目安の1億語という条件を満たす日本語コーパスは、「現代日本語書き言葉均衡コーパス」が2011年に公開されたばかり(「現代日本語の縮図」ともいえる)。コーパス言語学は言語学の領域では「とりわけ若い学問」であり、研究者や技術者の間で議論が続いていて情報は入り乱れている。

そこでこの本は、コーパスとは何か、コーパスの種類、コーパスの作成、検索技術、頻度の処理、語法と文法の扱い、学習者コーパスなど、コーパスの基本情報を交通整理している。具体的なリソースも多数挙げてくれており、実用的。

「コーパス言語学では、特定の言語理論を前提とするのではなく、先入観にとらわれない白紙の状態で言語データを観察することが重視されます。固有の枠組みに束縛されることなく、自由な観点でデータを調査・分析することで、言語の特性に関する思いがけない発見をなすことが可能になります。」

と書かれているように、着眼点次第でいろいろな発見ができそうな分野だと思う。データが整備され、フリーソフトで処理することもできるので、誰でも気軽に取り組める時代になったからこそ、第6章の頻度を扱う統計の知識や共起することの意味は大切だと思った。


この記事が気に入ったらサポートをしてみませんか?