見出し画像

[毎日GPT挙動性能レポート12/16]表現力は向上するも近視眼的な回答が目立つ


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

総括

 今日は近視眼的、視野狭窄という印象の回答が目立つ。

 不満点は一回の回答の説明、意味内容が不充分な印象が強い。
この検証で言えばアニメの全体像を把握しにくい回答と言う事。

 一方で細かい要素に関する話題の深掘りや具体的、抽象的な表現の使い分け、類語累積等の性能は評価できる。

 

 細かい要素とはキャラクターの性格、見た目。
レース、日常といったストーリーパート。
アニメのあらすじやテーマ。
作画、BGMといった「アニメを構成する個別の要素」に当たる。
 私はこれらを「話題」、「トピック」、「視点」といった言葉で表現する

 プロンプトの理解力という点では12月入ってからの回答とすれば比較的良好な結果だと思われる。 
 つまりGPTは会話口調のチャット、キャラクターとして振る舞うという指示を理解し、口語調での発言が目立つ。
 また全体的に説明口調な回答でも、一部分は会話、台詞、口語調になっており、根本からプロンプトの命令を理解していないと感じる回答は極めて少ない。

 また不的確、矛盾した回答も少ない印象。

 ユニークなワードは見受けられず、若干お堅い印象を受けるが、
口語の適切使用によりグラフよりもキャラクターチャットのライブ感は高い。

 また最近の特徴として僅かな数ながらも台詞の引用、応用が毎日コンスタントに使用されることだろうか。


次が回答の一例

過去のレポート

このレポートシリーズの読み解き方

https://note.com/tachibana_llm/n/n8e0cbefe2f6a



ユニークなワード


 突飛な表現、印象的、ユニークな表現、単語の使用は少ない傾向

セリフの引用・応用


 ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。

ウマ娘関連ワード


プロンプトに含まれて居ないウマ娘情報が登場した回答の割合他キャラクターや
トレセン学園等の固有名詞学習データの応用がなされているという判断材料。

 今日は2件、プロンプトに含まれて居ないウマ娘キャラクターが登場
 最近はウマ娘関連ワードもコンスタントに出現し、11/3以前と比べ頻度が高い。
 11/3は11月アプデのプレアプデが有ったとおもわれる。

 11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
 
 テイオーの登場はカットオフの影響を受けていると判断した。
 2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。

ウマ娘不適切ワード


リアル競馬では当たり前だがウマ娘にはそぐわない表現、単語の使用率。
賭博の合法、違法賭博やドーピングなど違法なものに別けている

 12/2日から減少傾向だったが、12/12からは皆無

主人公の種族



主人公がウマ娘か競走馬か、判別がつかないか。 元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。

  回答が比較的に淡泊になったと判断した12/3から混同が減少した。


 主人公がウマ娘か競走馬か、判別がつかないか。
 元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
 種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。

 尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
 ただし、データ不足故、グラフにすると混同が0の割合が高いため
 現時点では細分化したグラフではない

ヒトミミ登場率


架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。



 ヒトミミ登場率は11/3から11/7の間に上昇したが、その後は上昇したものの以前と比べ減少している。
 今日は馬主ジョッキー等よりもトレーナーといったアニメ、アプリ登場人物が多いという比較的珍しい


視聴者


 回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。

 上振れ、下振れが多い子盲目だが、今日は平均より若干少なめ。


 視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。

プロンプト命令の違反


 今日は皆無、10/25からの傾向を維持。

プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど

回答の矛盾・文章の破綻


青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤りオレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した

 競走馬とウマ娘を混同した1件のみ。
大きな矛盾、破綻はなし


回答の視点、トピック


回答で「キャラクター性」、「BGM」や「トレーニング」、レースシーン」、「人間関係」などアニメの要素の視点、トピックのバラエティー

 今日は冒頭の感想通り近視眼的という事で話題、トピックは少なめ。
各回答ごとに話題のバラエティーさが二極化した印象が強い。


文字数の変動



 PCは平均的だが、スマホは12/13からそれ以前と比べ上昇傾向

この記事が気に入ったらサポートをしてみませんか?