見出し画像

関西は犬の鳴き声に関心!? 検索データと生成AIで未知の地域差を見出す

こんにちは!アナリストの森です。

みなさんのご出身はどちらでしょうか?
どの地域にも特有の表現や好み、価値観があるかと思います。
私は生まれも仕事場も大阪です。普段丁寧語で話す際は関西色が薄いですが、擬音語は良く出ますし、肉まんにはからしをつけます。
このような地域特性は、他地域の人と比べてギャップを感じた時に認識できます。ただ、どのような違いが存在するのかを網羅的に把握することは難しいです。
 
今回は、この地域特性が異なりつつ関係性の近いワードのペアを、生成AIの力を借りて効率的に抽出することが可能かを試してみたいと思います。


地域性のあるキーワードを抽出する

以前、方言に関するnote記事「方言マップを作ってみる ~それぞれの都道府県で最も検索されている方言は?~(小川知紘)」を公開しました。
この記事では「○○ 方言」という検索ワードを収集することで、地域性を見出しています。
 
通常、無数にある検索キーワードから地域性を抽出しようとすると、このような起因となるワードが必要になります。
例えば、肉まんに何をつけるかの地域性を見たい場合、「肉まん 〇〇」というワードが必要になります。ただこれは、肉まんにつけるものが、関西ではからし、九州では酢醤油といったような地域性があることを最初から分かっていないとできません。また、関西では「豚まん」と言うなど表現が違うことも考慮する必要があります。
つまり、ここでいう「肉まん 酢醤油」と「豚まん からし」といったような、地域性のあるキーワード群を抽出したい場合、ある程度事前の知識が必要になります。

この知識を生成AIでうまく補うことで、このような地域性のある対応関係のペアを抽出できないか試してみます。

具体的には、ヤフーのデータを使い網羅的に2つのワードのペアを抽出し、生成AIの理解力を使い関係性のワードを絞り込むという流れで処理をします。

処理のイメージ

主要な生成AIサービスでは、この理解力を表現できるembeddingsというAPIを提供しているため、今回はそちらを使います。

東西での表現の違い

上記の処理を行い、実際に抽出されたペアのキーワード群の中からいくつかピックアップして簡単に見ていきましょう。まずは、東西での地域差のあるペアの抽出データです。
なお、今回都道府県の色分けに使っているデータは特徴度を利用しています。各都道府県エリアにおいて、より検索される傾向が高い場合に、よりスコアが高くなる計算方法となります。

・おしることぜんざい

地域によるおしるこぜんざいの差は、ご存知の方も多いのではないでしょうか?
データで見ると東西でクッキリ分かれることが分かります。


おしるこぜんざいの勢力図

おしることぜんざいは地域ごとの使われやすさもそうですが、実は意味合いも異なります。

おしることぜんざいの意味の違い

旅先で注文するときに注意したいポイントですね。

・通話と電話

通話できない」と「電話できない」という組み合わせも出てきました。
ここでは「LINE 通話できない」や「インスタ 電話できない」といった、全国的に利用されている通話サービスが含まれるキーワードをまとめ上げて可視化しています。


通話できない電話できないの勢力図

東日本は通話を使用し、西日本は電話を使用していることが見て取れます。この境は甲信越あたりにありそうです。
実際、関西出身の私も「電話する」という表現を使うことが多いです。
 
一般的には以下のような表現の違いになります。
・電話する:電話をかけるまでを表すことが多い
・通話する:電話での会話内容を指すことが多い
 
西側は電話という行為に着目していて、東側はその内容に着目している慣習があるのかもしれません。

・ポークソテーとポークステーキ

別の料理についても見てみます。
東はポークソテーという表現をし、西ではポークステーキという表現が特徴的であることをご存知でしょうか?


ポークソテーポークステーキの勢力図

一般的には調理法として次のような違いがあります。

・ソテー:完全に火を通す調理
・ステーキ:焼き加減を好みによって調節できる

肉じゃがやカレーが、東日本ではしっかり火を通す必要がある豚肉が使われる一方で、西日本では火の入れ具合に神経質にならなくても良い牛肉が使われるという有名な違いも加味すると、お肉の調理に対する感覚として、火をしっかり通すか否かという感覚が違うのかもしれません

もしくは、ソテーというシンプルさやオシャレさをイメージさせる表現と、ステーキという豪勢さをイメージさせる表現の違いが、県民性を表している可能性もあります。 

また、おしるこ・ぜんざいと都道府県の境界線がほとんど同じであることからも、ここを境とした食文化の違いがありそうです。

特定地域の状態を知る

もう少し、特定の地域に絞って見ていきましょう。

・犬の鳴き声と猫の鳴き声

例えば、関西や東海圏に着目すると、他の地域と比較して猫の鳴き声よりも犬の鳴き声に関心が高いことが見えてきます。


犬の鳴き声猫の鳴き声の勢力図

動物の鳴き声は、目線によって検索意図が異なると思います。
飼い主目線であれば、鳴き声の変化についての心配や、鳴き声による近隣への迷惑がかからないかという意図が想像できます。
ペット好きの目線であれば、可愛らしい動画などを探しているかもしれません。
また、鳴き声を騒音として迷惑している人の目線もあるかとも思います。
 
少しYahoo! JAPANの検索データを深掘りしてみると、「犬の鳴き声」と一緒に「防音対策」というワードが検索されていることがこの地域の特徴として見えてきました。
このことから、検索している目的は、声が大きい犬種を飼っている人が多い可能性や、ご近所付き合いの枷にならないかの配慮の意図が強いのではと推察できます。

・ランチとグルメ

地域に関連するキーワードを見ると、その地へ訪れる目的の変化も見えてきます。
京都に関して調べてみると、関西圏はランチという普段使いが伺えるワードがよく検索されていますが、その他の地域ではグルメという旅先での特別な食事を探していることが伺えるワードが検索されています。このことから京都への訪問ハードルのラインが見えてきそうです
 
また、この特徴を時系列で並べると、状況の変化も見えてきます。

京都 ランチ京都 グルメの勢力図(左:2020年、右:2022年)

2020年では、三重や福井では、グルメというワードが主流でした。一方、2022年ではその地域がランチに移り変わっています。これは、コロナの状況が緩和し、より気軽に行ける範囲が広がっていることが窺えます。

おわりに

生成AIの力を借りながらビッグデータを分析することで、電話通話などあまり意識していなかった地域性や、ペットの鳴き声など全く予期しなかった地域性を見出すことができました。
 
今まで、アナリストが知らない地域性を抽出することは難易度が高かったのですが、今回の方法でより手軽に抽出できることが分かりました
今後は、3キーワード以上のより複雑な地域性や、他のデータを使った検討もしていきたいと思います。
 
※ 今回公開したデータを含め、ヤフー・データソリューションは、お客さまのデータを統計データとしたうえでデータの可視化や分析結果をご提供するサービスであり、個人を識別できるデータ (パーソナルデータ) については、お客さまから新たに同意をいただかない限り外部に提供することはありません。


この記事が気に入ったらサポートをしてみませんか?