俳句コンテストでの類句検知に協力


概要

2021年5月に、部員の西江友里、宮本稜太、宮本大輝が、国内最大規模の俳句コンテスト「伊藤園お~いお茶新俳句大賞」の選考過程において技術支援を行いました。投稿された句のうち、既存の作品と重複するものや著しく類似するもの(類句)の検知を行いました。このコンテストは今年で32回を迎え、近年では毎年約200万件の句が投稿されています。人手で行っている類句検知の労力を軽減するのが目的です。


詳細

今回は一次審査を通過した約2万句について、既存句約100万に対する類句の検知を行いました。全体としては、2つの句の間の2種類の類似度を定義し、2万句と100万句の組み合わせについて比較を行って、閾値を超えるものを類句と判定しました。ひとつの類似度は、文字列としての近さです。例えば、〈古池や蛙飛びこむ水の音〉と〈古池や魚飛びこむ水の音〉では、一つ目の句の「蛙」を「魚」に置き換えるだけで二つ目の句を得ることができます。一般的には、文字単位の編集距離が小さいものほど類似度が高いと定義しました。もうひとつの類似度は、使われている語の一致の割合です。例えば、〈古池や蛙飛びこむ水の音〉と〈水の音蛙飛びこむ古池や〉では、編集距離は大きいものの、使われている語は同じで、著しく近い句とみなすことができます。一般的には、それぞれの出現語からなる集合間のジャッカール係数が大きいものほど類似度が高いと定義しました。この類似度の計算のためには、句を語に分割する分かち書きの処理を行いました。2つの類似度についての閾値は、俳句に詳しい者が一部のデータについて目視で類句を判断し、なるべく取りこぼしが無くなる値を設定しました。

今後の展望

今後は、語の意味を考慮することで類句検知の精度を改善したいと思います。コンテストでは類句検知の結果を基に審査員が類句かどうかの判定を行いますが、ここでは句で詠まれる情景の類似が考慮されます。類句の取りこぼしを少なくすることが求められる一方、候補の数はできるだけ少なくなることが望ましいです。これには、語の意味の近さを考慮し、語の組み合わせによる情景を推定することが効果的ではないかと考えています。

備考

編集距離 : 文字列間の距離。2つの文字列間の編集距離は、片方の文字列に対し文字の挿入、削除、置換のいずれかの編集操作を行ってもう一方の文字列を得るための操作の最小回数。レーベンシュタイン距離。
ジャッカール係数 : 集合間の類似度。2つ集合間のジャッカール係数は、それらの集合の積集合の要素数を和集合の要素数で割った数。ジャッカード係数。

謝辞

この活動は、協力教員の馬場謙介先生の研究補助として行いました。

著者

西江友里
宮本稜太
宮本大輝

この記事が気に入ったらサポートをしてみませんか?