【AI】BTS名前多すぎ問題：検索と表記揺れ

音色

2024年4月6日 21:21

コンテンツの海をどう乗り越えるか

※BTSの話とAI活用・データ整理の話が混ざっております。タグや目次をご参照ください。

大海すぎて把握しきれない問題

バンタン見たさに、毎晩検索に勤しむ私。
最初のころは山ほど出てくるまとめ動画を、ただただ堪能しておりました。

しかし、コンテンツが多すぎて全く網羅できる気配がありません。
公式動画が大量にある上、まとめ動画として世界中で再生産されるから、なかなか見た見てないの区別がつかない。嬉しい悲鳴とはこのことよ。

まとめ系は置いといて、せめて公式系だけでもどれ見たかわかるようになりたい。できれば「あれどれだっけ」を減らしたい。
と思うようになったのも、当然の流れと言えましょう。

チェックリストを手作りしよう

そこで私が取ったのが、チェックリストがないなら作ればいいじゃない作戦。せめて公式くらいはいっとこうかなと。
元々データを取るのが好きなので、自給自足に不満はありません。むしろ好物。

「韓国音楽著作権協会」「歌詞サイトデータベース」「Wikipedia」「Weverse」「YouTube」……
さすが10年選手のBTS、あちこちに一覧化できそうな情報が落ちていましたので、とりあえずサクサク集めてきてExcelやcsvに突っ込みました。

バンタン名前が多すぎ問題

そこでぶち当たったのが、名称(名前や曲名)が多すぎ問題です。「表記揺れ」も含みますが、単語そのものが違う例も多い。

「韓国音楽著作権協会」みたいに会社が管理してるとか、誰かがまとめて更新してくれたから書き方統一されてるみたいな整理されたデータなら問題ないのですが、さすがにカオスだったのが最大のコンテンツ量を誇るYouTube。
作成者も使用言語もバラバラですから、統一されようがありません。あいー。

名前が多すぎると何が問題なの？

名前は統一しなきゃダメなのかと訊かれれば、それはデータをどこでどう使いたいかによる、というのが答えになります。

例えばYouTubeやGoogleで推し検索したい場合と、Excelでデータベース作って動画情報を管理したい場合とでは、欲しい情報も検索環境も全く違うからです。

人間とAIは学習するが、しない子もいる

YouTubeやGoogleでの検索をする場合、人とAIがそれを助けてくれます。

人は学習し、自分の検索方法（アプローチ）を柔軟に変えることができます。「V」で検索に引っ掛からなければ「テテ」で検索してみる、というリトライがすぐできる。
人の可能性は無限大な上、欲望によって進化を加速させるという特性を持ってますからね。非常に優秀です。

AIも、学習して検出結果を進化させていくことができます。
GoogleやYouTubeで、「V」って入れただけでテテが出た時は、感動を覚えました。世界中のARMYが膨大な検索によって検索エンジンを躾けた結果がそれだからです。
いい仕事をなさいました、アミヨロブン！

この学習の良い点は、単語同士が勝手に関連付けられていくので、連想的に結果を回収できるところです。
悪い点は、学習ミスや漏れで間違った答えが出ることがあり、またどこが間違っているのかが辿りにくいところです。出るはずの動画が引っ掛からなくても、わからない。

ただ、普段使いで検索する分には十分だと思います。AI学習は日進月歩の目まぐるしい成長中なため、今後の進化が期待されます！

「テテ＝V」だと完全に理解しているGoogle先生。イルアミ（日本人のファン）による調教完了。

しかし、学習しない子も世の中にはたくさんいます。その筆頭がExcel。
この子は学習するための脳みそをそもそも持っていないので、管轄外です。

「テテ」と言われて「テテ」を探しに行くのは正解か

学習しないというのはどういうことかというと、常に「入れた条件」で探してしまうということです。
要するに、「テテ」って入れたら「テテ」を探しに行くわけです。そこからかけ離れた単語は引っかけられない。
ああ、せめて「V」「뷔」「태형」「taehyung」「テヒョン」くらいはデフォルトで引っかけられたらいいんですけどね～。

この場合は、「V＝テテ」だと1つずつ教える必要があります。
勝手に学習はしてくれないので、あらかじめ単語同士の関連リストを与えてやらなければなりません。

これの良い点があるとすれば、人間がデータを全部把握できるところでしょうか。設定ミスも遡って直せますし、AI学習みたいに「何でその答えが出たのかわからない」ケースがありません。
悪い点は、対応が大半人力ってところです。データが大きくなればなるほどきつくなります。

ちなみに、学習の足りないAIもここに近い挙動をします。
まだ関連付けができてないから、「とりあえず覚えたものを出します」「知らないから無視しますね」みたいな感じです。学習は一夜にしてならず。

表記揺れに関するまとめ

ここまでの流れをまとめますと、以下になります。

人間やAIは勝手に学習するので、表記揺れがあってもある程度は平気
データ処理する時は、書き方が統一されていないと対象外になる

人間の脳みそはマジで優秀

データ活用方法

やりたいこともできないこんな世の中じゃ

例えば、BTSの楽曲データを手に入れた時、あなたはどうしたいですか？
誰もついてこない展開の気がしますが、とりあえず続けます。ｺﾞﾎﾝ

私はまず他のデータと合体させたいです。
曲名同士を比較して、一致するもの同士をくっつけ、時系列でグラフ化する時用に日付列もつけるでしょう。どのメンバーが関わってるか把握するため、メンパー別の列もほしいですね。

この例だと、著作権登録情報と楽曲情報を足しているが、左右で「タイトル/曲名」の表記が合っていないことがわかる。

ここでまず発生するのが、曲名や名前表記が一定でない問題です。
手がかりがなくて、データ同士がくっつかない。

曲名だと基本日韓英の3言語が基本で、そこに略称（例：PTD=Permission To Dance）や通称（例：DOPE＝チョロ）、韓国音楽著作権協会の場合ならタイトルの韓国語読みローマ字表記、が混ざってきます。

名前も同じく、別名（例：Agust D）・愛称（例：ミンシュガ）・本名（例：ユンギ/ミンユンギ）の各国表記に加え、ケミ名（ユニット名）も加わります。BTSは7人組だから、それが7倍。やばい。

余談ですが、「猫」のあだ名があるユンギ探したさに、「各言語での猫の鳴き声が読めるようになった」ARMYを見た時は震えました。学習が深すぎる……！

たまに動画コメントで「SUGAは私のニャーニャーです（直訳）」などと書かれていて、死ぬほどかわいい。

閑話休題。
曲名や名前といった名称が表記揺れしていると、それをキーにしてデータを作ることができません。修正が必要です。
かっこよく言うとデータクレンジングですが、覚えなくて大丈夫です。

修正用の対比表を作ってみる

複数のデータをくっつけたり、今あるデータから特定条件で情報を引き出したい場合は、データの整理が必要になります。
せめてメンバーやグループの名前だけでも統一しておく必要があるため、まずは名称リストを作ります。

欲しいデータを作って推し活を楽しむためならさほど苦ではなく、むしろ自分が検索する時のネタが増えた感もあるのですが、手間はかかります。

YouTubeの「BANGTANTV」チャンネル再生リスト整理用に作った例です。
一般人による投稿動画を含めていないのでまだ少ないですが、逆に言うと大半が身内のデータによる動画タイトルでもこれだけ揺れる、ということですね。
この他にも「95s」「3J」「vocal line」などのユニット名称が出てきます。

最高難易度「V」、次点「RM」

ここで最高難易度を誇るのが私の推し、テテこと「V」です。

アルファベット一文字ですから、「Live」「preview」「MV」……あらゆるVが引っかかりまくります。
どれが個人を指すVなのか、一括で抽出することは、ほぼ不可能です。
「V＋ライブ」が、Vアプリのライブなのかテテがやってるライブなのか見分けがつかない問題もありました。くっ。

ちなみに次点がリーダー・ナムさんこと「RM」です。
何が困るって、「RM」って抽出しようとしたら「ARMY」が一緒に出てくるんですよ……！　単語同士の関連性も高いから、引き剝がすのが難しい💦
しかも改名してるので、彼もまた異名が多いです。発音由来の表記揺れも多彩。「ラプモン」「レプモン」「モン」「モニ」みたいなやつ。

正しく検出されないことによる弊害

名前表記が合致しないのでほしいデータが取れない件は、Excelでのデータ遊びだけでなく、テキストマイニングや検索ワード集計にも影響します。

先日、YouTubeの動画タイトルリストでテキストマイニングして遊んでたんですが、精度の低い、というかBTSを履修していないAIだとこの罠に引っ掛かってしまい、検出結果にやたら差が出ました。
本当はもっとデータが入ってるはずなのに。ナムさんも出てきません。

jin/jimin/jungkookが大きめにフォーカスされており、多く検出されている。
RM/J-Hopeは単語として認識（学習）されていない。hopeは一般名詞と混ざってる様子。

前項の「修正用の対比表」を見たらわかりますが、ジン君やジミンちゃんは名前の候補が非常に少ないので、入ってるデータがそのままカウントされやすいです。
グクは若干表記揺れが多いものの、インプット数が多いため、誤差を乗り越えて上位抽出されてる感じ。

よくある、Google APIあたりから検索結果を取って時系列グラフにした動画に関しても、どの名前をどう抽出した結果なのか気にしながら見ると、また違うものが見えるかもしれません。

個人的な感想で言うと、多分検索ワードに公式のステージ名をそのまま使った場合は、以下の傾向が出ると思います。

V、RM、J-HOPE：実際より少なく出る
SUGA、JUNGKOOK：実際より若干少なく出る
JIMIN、JIN：振れ幅が少ない

ホビは愛称のパターン＝検索ワードが多い。SUGAは別名があるけど表記揺れ自体は少ない。

集計される検索ワードに何が含まれているかがわからないので推測になりますが、要するに、本人を指す検索キーワードが多い人は票がばらけるので、グラフに反映される検索数が減るだろう、という予測です。

ちなみに、テテが同じタイミングで3つの検索ワードを爆発させた例がこちら。

Twitterで「テヒョン（Taehyung）」がミュートされていたにもかかわらず、「キム・テヒョン」はレッドカーペットからグラミー賞後まで何時間も世界中のトレンドに上がった。過去 24 時間で「テヒョン（Taehyung）」が Twitter で最も多く言及されました。
1. Taehyung -2.3M
2. V -1.6M
3. Kim Taehyung -987.6K

@KTHEADLINE

[INFO] Despite 'Taehyung' being muted on Twitter 'Kim Taehyung' trended Worldwide for hours starting from the red carpet to after the Grammys. Taehyung had the most mentions on Twitter for the last 24Hrs.
1. Taehyung -2.3M
2. V -1.6M
3. Kim Taehyung -987.6K

KIM VIRAL TAEHYUNG pic.twitter.com/PZW6qQMrmF
— BTS V HEADLINES (@KTHEADLINES) April 4, 2022

この3つを同じ検索ワードとしてカウントするかどうかで、前述のグラフ動画の結果が変わってくるわけですが、グラフ作成者がARMYでないかぎりは2番の「V（1.6M）」だけを取るんじゃないかと思われるため、「実際より少なく出る」と予測しております。
「V＝Taehung＝Kim Taehung」だという学習がされていれば、グラフの山が１つになるのになあ。

Excelは脳みそを獲得できるか

microsoft 365にCopilot（コパイロット）版が登場

データ処理するには人力精査が必須なのか、というところで思い出したのがmicrosoft 365のCopilot（コパイロット）版。

WordやExcel、PowerPointなどのMicrosoft製品を生成AIの機能を通じてサポートしてくれる機能のことです。この機能が2023年11月1日（米国時間）に正式にリリースされたことで、話題を呼んでいます。

https://sogyotecho.jp/microsoft-365-copilot/

要するに、Excelを含むOffice製品にAIを乗せてくれる機能です。学習用脳みそがついてなかったExcelが、ついに劇的進化を遂げる時が来ましたか！！

Excel
Excelでは、データに基づいて図表を自動作成できる他、未来の数値のシミュレーションや、図表を解説する文章についても出力することができるようになりました。
図表からわかる相関関係やトレンドの分析などもしてくれます。

https://sogyotecho.jp/microsoft-365-copilot/

ん－、読んだ限り、画像生成系AIによる図表の生成・読み取りがメインでしょうか。
単語同士の関連性の学習とか、マイニング用データの整理とか、その辺がどこまで機能するか気になっているのですが。
あまり興味がなかったんだけど、無料版入れてみようかなあ。使い道はBTSデータ管理の効率化ですけどねｗ

まとめ

「Vはテテだよ」「ヴィも뷔もテテだよ」という、ARMYにとっては当然の事実。
これを生かすためには、人間やAIの活用とデータ整理が必要であることが実感していただけましたでしょうか。

人間は色んな書き方で推しを表現しますから、そこを統一するのは困難です。最終的にはAIの進化に期待したいところです。
「BTSを効率よく摂取したい！」という欲望に突き動かされ、私は今日もAIの未来にエールをおくりつつデータクレンジングに勤しむのでした。

おまけ@見える化されたデータの楽しみ方

他ジャンル同様、BTS界隈でもメンバーの担当ライン（歌詞）数やセンター滞在時間、名前の検索数など、統計動画が色々出てます。
見える化された数値にショックを受けているARMYが多かったので、一言フォローさせてください。

グラフは、集計方法や使ったデータ、読み取り方によって全然結果が異なってきます。
単に「推しの検索数少ない！何で！？」ってなるんじゃなくて、このグラフでは何故そういう結果になったのか、を考える方が面白いです。
ARMYがバンタンを、バンタンがARMYを愛している事実は変わらないのだから、それ前提で楽しんでいきましょう。悲しまないで、ARMY！

ちなみに、私は
「VだけカウントしたらTaehyungやテテが入らないから、実際の検索より少ない結果になると思う」
「じゃあ何を取れば実際と最もリンクするのか」
「テテをＶで検索するのはどういう層なのか」
「それが新規だとすれば、新規獲得に対するマンネラインの影響力はやはりすごいと言えるのではないか」
「スタートダッシュを牽引したジンヒョンすごい。最初から顔が完成されている」
みたいなことを延々と考えるのが好きですｗ

コーヒー一杯奢ってください( *´艸｀)