ChatGPTの裏側にちょこっと思いをはせた

2023年4月25日 18:45

ChatGPTというキーワードを聞かない日がない。
私も、フリーで利用できる、GPT3.5を使ってみた。質問文を入力すると、回答が文章として、スラスラでてくる。箇条書きにもまとめられて、読みやすい。自然な対話もできて、すごい。

私は、かれこれ20年ほど、音声認識エンジンの評価をしたり、認識エンジンを使った書き起こしシステムの保守をしたり、言語モデルを構築したり、といった仕事に携わっている。（いた、が正しいかも）

音声認識技術も、歴史は長いが、パソコンのスペック爆上がり、スマホの普及に伴って、一般の人々が手軽に使えるツールになっている。

昔からある技術なのに、今では「AI」というカテゴリで新しい技術かのように世に浸透しているように見える。技術って、いかに、不特定多数の方々に浸透していくかが、大事なんだと実感する。

ChatGPTは、2022年の11月に登場し、無料で誰でも使えることから一気に注目されたという。本屋でぶらっとしていたら、この本が目にとまり買って読んでみた。

仕事で、音声認識用のモデル学習を行なったりしていたので、学習データはどのようなものなんだろうと気になっていた。
こんな記載があった。

Web上から収集した45テラバイトのデータにフィルターをかけて、570ギガバイトまで絞り込んでいます。このプロセスのなかで、適切ではない言葉は除外されていると考えられます。

先読み!ITxビジネス講座ChatGPT対話型AIが生み出す未来　P88

そうか、収集したデータも99％近く捨てるんだ。

それに加えて、強化学習の「スコア付け」で、不適切なテキストが出ないようにトレーニングしています。

先読み!ITxビジネス講座ChatGPT対話型AIが生み出す未来　P89

後段の作業は、人の手による作業で、差別的な言葉や暴力的な描写のテキストを除いているという。私が気になったことは、この作業を行う人たちを、低賃金で雇っていた、という点だ。

以前、声で情報を検索するスマホのサービス上で、その時入力された音声データを集め、書き起こしをする、という仕事をした。

集められたデータから書き起こしを行なったわけだが、中身はなんとまあ。ここでは書けない、卑猥なワードのオンパレード。
ヒトは、面白半分で、こういうワードばかり言って検索してみたくなるのだろうか、なんて思ってしまったが。

作業していただいた方も、ときどき休憩をはさんでいただくものの、次第に気分が悪くなってしまった。短期間／短時間と割り切らないとできない仕事だった。

このことを思い出してしまった。

こういった差別的だったり、卑猥な単語や文章ばかりを聞かなければならない／読まなければならないのは、誰にとっても非常に苦痛な仕事である。それなのに、低賃金だということに、いたたまれない気持ちになる。

この作業がないと、とんでもない文章が生成されてしまうわけで、非常に重要な仕事である。

人間の仕事を楽にしてくれる技術の裏側には、過酷な労働があるということ、そんなことに、少し思いをはせてしまった。

しかし、驚異的な技術が、生まれたんだなあと驚くばかり。日々新たなニュースが流れ、変化のスピードに追いつかない。

以上、ChatGPTの本質とは違う部分で感じた、ひとりごとでした。
noteの新機能の「AIアシスタント」も色々試し中ですが、とても面白いですね。「アシスタント」という言葉がしっくりくるなあと感じています。

本日もお読みいただき、ありがとうございます。

当noteは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。

この記事が参加している募集

やってみた

36,306件

AIとやってみた

25,824件

この記事が気に入ったらサポートをしてみませんか？