見出し画像

ChatGPTとBing Chatを比較してみました

ChatGPTとBing Chatに同じ質問をして添削してみたので、せっかくなので、比較して勝負をつけてしまおうと思いました。

ChatGPTとBing Chatに行った質問はこちら

気付いたこと

  • どちらも事実レベルでの間違いがありました。

    • Bing Chatは検索して情報を確認しているのに、それでも間違いをおこすのですね。

  • Bing Chatは出典を付けていますが、文章とそれに付けられた出典の内容が対応していないことが多くあります。

    • なので、何を見て間違えたのか、出典を見ても分かりません。

  • ChatGPTの方が、細かいところで日本語がよりこなれているように思いました。

    • どちらもGPT-3.5ベースだと思うのですが、なぜでしょうか。

  • ChatGPTの方が、質問に対してより深い理解で回答していることが多いと思いました。

    • 「Transformerの登場の前後で、AIのモデルはどのように変化しましたか?」「BERTやGPTなどの事前学習モデルは、AIをどのように進化させましたか?」「BERTやGPTなどの事前学習モデルの前後で、AIの性能について特に顕著に変化した点を2点あげてください。」について、「モデルの大規模化を可能にして、自然言語モデルの転移学習への道を開いた」という点に触れたのは、ChatGPTのみでした。

    • 「モデルサイズには、どのような変化が起きましたか?」について、パラメータ数が急増して性能が向上したことに加えて、ChatGPTではコンピューターリソース、訓練データ量に与えた影響にも触れていました。

考察

Bing Chatを使う前は、検索結果を参照すれば品質が向上するだろうとナイーブに考えていたのですが、実際に使ってみるとそうでもないと思いました。

特に、ChatGPTの方が深い回答が得られたことはちょっと意外でした。

これは仮説なのですが、検索結果を参照するBing Chatの場合は検索結果の上位の文書の要約という性質が強いのに対し、参照しないChatGPTの場合は学習に使った全ての文書から抽出された言語モデルに含まれる知識だけで回答を作っているのではないでしょうか。

つまり、Bing Chatの場合、検索結果の上位の文書が質問の内容に沿った方向で深い説明が書いてあるのでなければ、検索結果から生成される要約も深い内容になることはない、ということなのではないかと思いました。

上の仮説が正しいのなら、検索結果を参照する場合は、必然的に、回答の質は検索結果の質に依存して、つまりは検索エンジンの性能に依存するということになるのではないかと思います。

その上で、同じ性能を持つ検索エンジンから別々のチャットサービスが作られた場合には、言語モデルに内在する知識と、検索結果などの外部から得られた知識を、どういう形でミックスするのかというところが、最終的な性能を決めることになるのだろうと思います。

残念ながら、現時点でのBing Chatでは、検索結果の外部知識が回答の質を劇的に向上させるには至っていないと思いました。そして、その結果を踏まえて、今後、GoogleのBardがどういう形で世に出てくるのか、興味深いと感じています。

この記事が気に入ったらサポートをしてみませんか?