正実のなんでもICT相談室リターンズ その173 コーパスって何?という質問。

Q:今日は動画はありません。
A:メルマガの読者の年齢層は何歳ぐらいがバリューゾーンかわかりませんが、先日自分が勤務する県教委主催の研修に参加して自分が参加者で最高齢でした。40代、みんな忙しいんだろうなぁ・・・って思って若手に囲まれて参加してきました。上山先生からは「そんな若い先生たちが研修に参加できて岐阜の未来は明るいですね!」と。
Q:でも、次世代への継承って言えるほど引き継ぐ知識持ってるのか?って話もあるんですけど、意識しないといけない年齢になりました。
A:先日も若手と話してて「コーパスって何ですか?」って聞かれておやおや?と思った次第です。
Q:コーパスって特定の意図のもとに収集された言語データですね。それを分析してある単語とある別の単語との連続する単語列がどれぐらい言語データ上に件数としてみられるか?ですね。
A:ここに便利な一覧があるよ。

自分がいつも使うのは、cocaとGlowbeですかね。
アメリカ英語の動態を追うならこちらで

https://www.english-corpora.org/coca/

世界での使用の様子を伺いたいならこちら

もっと簡易的なもので言えば
Google
 Ngram Viewer

Q:Ngramはその文字列の出現頻度を表示してるだけ
なので、本当にこちらが意図して発話されたものなのか
正直わかりません。本当に大雑把に「これって言うのか?」
って表現が本当に使われてないかをチェックするときに
使ってる感じですね。

A:こういった小ネタをそろそろまとめる時期にきてる
気がするんですけどね。


この記事が気に入ったらサポートをしてみませんか?