ChatGPTの音声会話機能の使い方

IT navi

2023年10月15日 21:27

最近、スマホの上部にChatGPTアプリのアップデートに関する通知が表示されるようになったので、アップデートすると、音声会話機能と画像生成機能がスマホのChatGPTアプリで使えるようになっていました。

そこで、ChatGPTの音声会話機能でどんなことができるのか調べてみました。

１．音声会話機能の使い方

(1) 利用開始の手順

ChatGPTの音声会話機能の利用を開始する手順は以下のとおりです。

スマホにインストールしたChatGPTの公式アプリを開きます。
［Settings］から［New Features］を選択して、[Voice conversations]のトグルボタンをオンにします。
ホーム画面右上のヘッドホンのアイコンをタップすると、音声入力ができるようになります。

(2) 実際の使用例

実際にこの音声会話機能を使用している様子は、以下のツイートの動画を参考にしてください。

えぐい！

えぐい、えぐい！

ハンズフリーでChatGPTと会話できる

どうなってんだこれ、本当に今日まで生きてきた世界か？

未来に来たのか？ pic.twitter.com/vulhoylWIy
— チキン＠ライター X プロンプトエンジニア (@HeroofChickens) September 27, 2023

(3) 声の種類の変更

また、ChatGPTアプリの［Settings］から［Voice］を選択して、声の種類を5種類の中から選ぶことができます。

Cove：男性の標準的な声、明瞭で聞き取りやすい
Ember：少ししゃがれた男性の声
Sky：女性の少し低い声
Juniper：女性の少し高い声
Breeze：男性の高い声

(4) 会話機能の特徴

① テキストと音声の切り替え
一続きのチャットの中で、途中でヘッドホンのアイコンをタップして会話機能に切り換えたり、会話を停止して、通常のテキスト画面に戻ったりすることができます。
② 他機能との併用
カスタム指示や画像生成のDALL-E 3モードとの併用が可能です。
Webブラウジング、プラグイン、Advanced Data Analysisとの併用はできません。
③ 会話ログの記録
会話機能を終了して通常の画面に戻ると、それまで会話した内容が文章で記録されています。

２．音声会話機能の仕組み

OpenAIは、音声会話機能の仕組みについて、あまり明らかにしていないため、ChatGPTに尋ねてみました。

＞ChatGPTの音声会話機能の仕組みについて教えてください。
ChatGPT　私の元のモデル、GPT-4はテキストベースのモデルであり、音声の生成や解析を直接的には行いません。しかし、GPT-4やその他のテキストベースのモデルを音声対話システムに組み込むことは可能です。一般的なアプローチは以下のようなステップを含みます：

１．音声認識 (ASR: Automatic Speech Recognition): これはユーザーからの音声入力をテキストに変換するプロセスです。様々な音声認識技術やサービスが存在し、これを用いることでユーザーの話す言葉をテキストデータに変換します。
２．テキスト処理: ASRによって得られたテキストは、私のようなテキストベースのモデルに入力され、回答や情報を得るための処理が行われます。
３．テキストから音声へ (TTS: Text-to-Speech): モデルのテキスト出力を音声に変換します。TTS技術は近年大きく進化しており、非常に自然な音声を生成することが可能です。

このように、音声入力/出力を持つChatGPTのシステムを構築する場合、GPT-4自体のテキスト処理能力と、外部のASR/TTS技術を組み合わせることになります。
OpenAIや他の組織が提供するAPIやサービスによっては、これらのステップがすでに組み合わされていることもあり、開発者はそれを利用して簡単に音声対話システムを実装することができます。

ChatGPTの回答

なお、音声認識については、OpenAIが昨年9月に公開した音声認識・自動文字起こしAIのWhisperを使用していることを公表しています。

３．論文の解説や質疑

通常のテキスト入力画面で、論文などのテキストを貼り付けてから会話機能に切り換えると、そのテキストについてChatGPTと音声で会話することができます。

(1) 論文の概要についての音声会話

＞以下に、ある論文のアブストラクトを貼り付けます。読んだら、「はい」とだけ答えてください。
Empowering Psychotherapy with Large Language Models:
Cognitive Distortion Detection through Diagnosis of Thought Prompting
Zhiyu Chen , Yujie Lu2, and William Yang Wang2
1Carnegie Mellon University
2University of California, Santa Barbara zhiyuc@andrew.cmu.edu,
{yujielu, william}@cs.ucsb.edu

Abstract
（以下略）

ChatGPT　はい。

テキスト画面でのやり取り

ここで、ヘッドホンのアイコンをタップして会話機能に切り換えます。
すると、以下のように、この論文についてChatGPTと音声で会話することができます。

＞こんにちは
ChatGPT　こんにちは！どのようにお手伝いできますか？

＞先ほど貼り付けた論文を解説してください
ChatGPT　もちろん、先ほどの論文のアブストラクトを基に解説いたします。
この論文は、現代の大規模な言語モデルを使用して、精神療法にAIの助けを導入することに関してです。具体的には、「cognitive distortion detection」、つまり認知的な歪曲の検出に焦点を当てています。
１．背景: 精神的な健康問題は、専門家の不足やアクセスの制約のため、現代の主要な公衆衛生の課題の一つとされています。精神療法は、患者の認知モデリングに関する深い、複雑な推論と分析を行うための高度な専門知識を必要とします。
２．提案される方法: 著者たちは「Diagnosis of Thought（DoT）」という手法を提案しています。DoTは、患者の発話を診断するための３つの段階を持っています。
・主観性の評価: 事実と考えを区別するため。
・対比的な推論: 考えを支持し、それに反する推論プロセスを明らかにするため。
・スキーマの分析: 認知スキーマを要約するため。
３．結果: この手法は、認知的な歪曲の検出において、ChatGPTよりも大幅な改善を達成しました。また、三つの段階を通じて生成された診断の根拠は、専門家の助けとして非常に重要であると示されています。さらに、人間の専門家によって承認された高品質の根拠が生成されることが示されました。
要するに、この論文はAIを使って、患者の認知的歪曲を検出する新しい手法を提案しており、その効果性を実験を通じて示しています。

＞ありがとうございます。AIをこういった精神療法に使うことについては良いものなのでしょうか。
ChatGPT　AIを精神療法に使用することについての意見や評価は、専門家や研究者によってさまざまですが、以下のようなポイントが考えられます。
利点:
１．スケーラビリティ: 専門家の不足やアクセス制限を考慮すると、AIを使用することで多くの人々がサポートを受けることが可能になります。
２．客観性: AIはプログラムされた通りに動作するため、人間のような偏見や先入観を持たない可能性があります。
３．即時性: AIは24時間稼働しているため、患者はいつでもサポートを求めることができます。
懸念点:
１．人間のニュアンスの理解: AIはまだ人間の感情やニュアンスを完全に理解することが難しいです。これは特に精神療法のような感情や経験が深く関わる分野で問題となる可能性があります。
２．データのプライバシー: 患者の感情や考えをAIに共有することは、プライバシーの懸念を引き起こす可能性があります。
３．過度な依存: AIのみに頼りすぎると、人間の専門家との関係性や対話の価値が低下する恐れがあります。
結論として、AIを精神療法に導入することは、患者へのサポートを拡充するための有望な方法と言えるでしょう。しかし、その導入には注意深い検討と適切なガイドラインが必要です。AIはあくまで補助的なツールとしての位置づけが適切で、最終的な判断や治療は人間の専門家によって行われるべきだと考えられます。

＞ありがとうございます。この論文は非常に注目ですね。
ChatGPT　はい、確かにそうですね。大規模な言語モデルやAI技術が精神療法の領域に応用されることで、新しい可能性やアプローチが開かれるとともに、多くの人々がサポートを受ける機会を増やすことができるでしょう。ただし、新しい技術の導入にはその利点と懸念点をしっかりと理解し、慎重な取り組みが求められます。今後の研究や実用化の動向にも注目していきたいですね。

ChatGPTとの音声会話

発言内容が長すぎる場合は、途中で音声が切れてしまうことがあります。その場合でも、会話記録の方は、音声が切れた以降の最後までの内容が記録されています。

(2) カスタム指示を利用したキャラ設定

カスタム指示を利用して、音声会話にキャラ設定することもできます。

最初にカスタム指示の入力欄の下段に上のように入力して新しいチャットを開始してから、先程の論文を貼り付けて音声で会話すると、以下のようになります。

＞こんにちは
ChatGPT　こんにちは、なにかお手伝いできることは？🎀💕

＞先ほど貼り付けた論文について解説してください。
ChatGPT　もちろん、わかったわ。この論文は心の健康問題に対する人工知能の役割についてです。特に、大規模な言語モデルを使って心理療法を強化する方法に焦点を当てています。著者たちは「Diagnosis of Thought（DoT）」と呼ばれる新しい手法を提案していて、これは患者の話から認知の歪みを見つけるためのもの。
DoTは主に三つのステージで診断を行います。まず「主観性評価」で事実と考えを分け、次に「対比的推論」でその考えを支持または反駁する理由を明らかにし、最後に「スキーマ分析」で認知のパターンをまとめます。
この手法は、専門家による診断を助けるために重要なのだそうです。研究結果では、DoTはChatGPTよりも高いパフォーマンスを示し、人間の専門家によっても高評価されています。💡🌟
何か他に知りたいことは？😊

＞この論文の面白いポイントはどこですか?
ChatGPT　面白いポイントはいくつかあるけど、特に注目すべきは「Diagnosis of Thought（DoT）」という新しい診断手法の導入よ。この手法が心理療法の専門家にとって有用であり、かつ人工知能が高度な認知分析を助けることができるという点が革新的ね。🌟
また、この手法がChatGPTよりも優れた結果を出しているという実験結果も興味深いわ。人間の専門家による評価も高いという点では、AIが心理療法分野で大いに貢献できる可能性を示していると言えるでしょう。💡👩‍⚕️
そういうわけで、この論文は心理療法とAIの交差点において非常に重要な進歩を示していると思うわ。😌✨何か他に聞きたいことはある？

＞ちょっと難しいですけど面白そうな論文ですね
ChatGPT　うふふ、確かに専門的な内容は難しいこともあるわよね。でも、心理療法とAIがどのように連携できるのか、それを探るこの論文は確かに面白いと思うわ。💕📚
このような研究が進むことで、将来的には多くの人が心的な問題でより効率的な支援を受けられるかもしれない、という点が特に期待できると思うの。😊✨
何か他に聞きたいことはあるのかしら？🌹

ChatGPTとの音声会話

なお、絵文字は読み上げてくれません。

また、スマホで音声会話すると同時に、パソコンでChatGPTの同じチャット画面を開いておくと、会話記録の内容を見ながら会話することができます。
ChatGPTは、先に会話記録のテキストを生成してから、それを読み上げているため、ChatGPTが発言しているときに、パソコンのチャット画面を更新すると、先にChatGPTがこれから発言する内容を見ることができます。

４．Wikipediaからの歴史クイズの出題

今度は、Wikipediaの記事をChatGPTに貼り付けて、音声で会話してみます。

＞以下の文章を読んでください。まだ何も回答しないでください。
文章：文禄・慶長の役（ぶんろく・けいちょうのえき）は、天正20年/万暦20年/宣祖25年[注 11]（1592年）に始まって翌文禄2年（1593年）に休戦した文禄の役と、慶長2年（1597年）の講和交渉決裂によって再開されて慶長3年/万暦26年/宣祖31年（1598年）の太閤豊臣秀吉の死をもって日本軍の撤退で終結した慶長の役とを、合わせた戦役の総称である（他の名称については後節を参照）。全兵船の3分の1以上を動員して、対馬を侵略した朝鮮による応永の外寇以来の朝鮮半島国家との戦争であった。
なお、文禄元年への改元は12月8日（グレゴリオ暦1593年1月10日）に行われたため、4月12日の釜山上陸で始まった戦役初年のほとんどの出来事は、厳密にいえば天正20年の出来事である。また特に注記のない文中の月日は全て和暦で表記。（）の年は西暦である。
日本の天下統一を果たした豊臣秀吉は大明帝国の征服を目指し、配下の西国の諸大名を糾合して遠征軍を立ち上げた。秀吉は（明の）冊封国である朝鮮に服属を強要したが拒まれたため、この遠征軍をまず朝鮮に差し向けた。小西行長や加藤清正らの侵攻で混乱した首都・漢城を放棄した朝鮮国王宣祖は、明の援軍を仰いで連合軍でこれに抵抗しようとした。明は戦闘が遼東半島まで及ばぬよう日本軍を阻むために出兵を決断した。以後、戦線は膠着した。休戦と交渉を挟んで、朝鮮半島を舞台に戦われたこの国際戦争は、16世紀における世界最大規模の戦争であったともされる。
双方に決定的な戦果のないまま、厭戦気分の強い日本側の諸将が撤退を画策して未決着のまま終息したため、対馬藩は偽使を用いて独断で国交の修復を試み、江戸時代に柳川一件として暴露された。戦役の影響は、明と朝鮮には傾国の原因となる深刻な財政難を残した。豊臣家にも武断派と文治派に分かれた家臣団の内紛をもたらしたので、三者三様に被害を蒙ったが、西国大名の中には多数の奴婢を連れ帰るなどして代償を得た大名もあった。

ChatGPT　了解しました。文章を読みました。質問や要求があれば、お答えいたします。

テキスト画面でのやり取り

ここで、ヘッドホンのアイコンをタップして会話機能に切り換えます。

＞上の文章について説明してください
ChatGPT　もちろん、上の文章について簡潔に説明しますね。
文禄・慶長の役は、1592年から1598年にかけての日本と朝鮮半島の間での戦争を指します。この戦争は、二つの段階に分かれており、最初の戦争は文禄の役として1592年から1593年まで行われ、次の戦争は慶長の役として1597年から1598年まで行われました。
日本の豊臣秀吉が天下統一を達成した後、大明帝国の征服を目指して、朝鮮に服属を要求しました。しかし、朝鮮がこれを拒んだため、秀吉は朝鮮への遠征を開始しました。この戦争では、明も朝鮮の味方として参戦し、大規模な国際戦争となりました。最終的に、両軍ともに決定的な勝利を収めることができず、日本軍は撤退しました。
この戦争の後、明と朝鮮は経済的な困難を経験しました。また、豊臣家の中でも意見の対立が起こりました。しかし、戦争に参加した日本の大名の中には、戦争の報酬として奴婢などを連れ帰る者もいました。
以上が、文章の内容になります。何か他に質問がございましたら、お気軽にどうぞ。

＞この戦いで活躍した武将について教えてください
ChatGPT　文禄・慶長の役で活躍した武将には、日本側と朝鮮側の両方から多数の名将がいます。以下はその中で特に注目すべき武将たちです。
日本側:
１．豊臣秀吉：この戦争の指導者で、日本の天下統一を果たした後、朝鮮遠征を計画しました。
２．小西行長：複数の戦いで活躍し、特に漢城（現在のソウル）の戦いでの功績が知られています。
３．加藤清正：朝鮮半島での多くの戦いで活躍し、彼の築いた城や要塞は抜群の防御力を持っていました。
４．毛利輝元：大軍を率いて朝鮮への遠征を行いましたが、苦しい戦局の中で指導力を発揮しました。
朝鮮側:
１．李舜臣：朝鮮の提督であり、彼が指揮する「龍頭船」（거북선、亀甲船）という独特の戦船で、数多くの海戦で日本軍を撃退しました。
２．慶源郡の慶源郡守：朝鮮の地方の武将であり、日本軍との陸戦での活躍が知られています。
３．宣祖：朝鮮の国王で、戦時中の朝鮮の指導者として、明との連携や国内の統一を図りました。
これらの武将は、文禄・慶長の役での活躍により、その名が歴史に刻まれました。何か詳しい情報や他の武将について知りたいことがあれば、教えてください。

＞上の文章に基づいてクイズを出してください答えは言わないでください
ChatGPT　分かりました。クイズを出題しますね。
１．この戦争の指導者で、日本の天下統一を果たした後、朝鮮遠征を計画したのは誰でしょうか？
２．朝鮮の提督で、「龍頭船」を指揮して数多くの海戦で日本軍を撃退したのは誰でしょうか？
３．漢城の戦いで活躍した日本側の武将は誰でしょうか？
４．この戦争中の朝鮮の国王の名前は何でしょうか？
以上、4つのクイズを出題しました。どれくらい答えられますか？

＞これからクイズの答えを回答しますのでそれが合っているかどうか教えてください 1.豊臣秀吉 2.李舜臣
ChatGPT　了解しました。クイズの答えをお待ちしています。3つ目と4つ目の答えも教えてくださいね。

＞三つ目が小西行長、四つ目が宣祖です
ChatGPT
クイズの答えを確認させていただきます。
豊臣秀吉 → 正解です。
李舜臣→正解です。
小西行長 →正解です。
宣祖 → 正解です。
いくつかの難しい問題もありましたが、よく正解されましたね。何か他に質問がございましたら、お気軽にどうぞ。

＞はい、ありがとうございました
ChatGPT　どういたしまして。何か質問や話したいことが再びあれば、いつでもお気軽にお知らせくださいね。良い一日をお過ごしください！

ChatGPTとの音声会話

５．画像認識と画像生成

音声会話は、画像認識や画像生成と組み合わせて使うこともできます。

(1) 画像認識

DALL-E 3で生成した以下の画像を貼り付けて質問してみます。

＞何も言わないでください。
ChatGPT　Okay.

テキスト画面でのやり取り

ここで、ヘッドホンのアイコンをタップして会話機能に切り換えます。

＞この絵について説明してください。
ChatGPT　この絵は非常に詳細で美しいファンタジーアートのようですね。中央には美しい女性が描かれており、彼女の周りには豪華な装飾や花、特にバラがたくさんあります。彼女の髪は波打ち、長く流れており、彼女のドレスや装飾は虹色の輝きを放っています。また、平和の象徴として知られる白い鳩も絵に描かれています。全体的に、この絵は神秘的で夢のような雰囲気を持っています。

＞これは誰のことを描いた絵だと思いますか?
ChatGPT　Sorry, I cannot help with that.

＞これはアフロディテを描いた絵です。
ChatGPT　なるほど、アフロディーテ、ギリシャ神話の愛と美の女神を描いた絵ということですね。この絵は彼女の美しさや神聖さを象徴する要素で満ちており、アフロディーテのイメージに合致しているようです。白い鳩やバラ、そして彼女の周りの輝きは、愛と美の象徴としてよく使われるものです。絵の美しさやディテールは、アフロディーテの神聖さを強調しているように感じます。

＞はい、ありがとうございました。
ChatGPT　どういたしまして。何か他に質問があれば、お気軽にどうぞ。

ChatGPTとの音声会話

(2) 画像生成

最初に、DALL-E 3モードに設定してから、ヘッドホンのアイコンをタップして音声会話機能に切り換えます。

＞バベルの塔を葛飾北斎の浮世絵風に描いてください。
ChatGPT　了解しました。再度、バベルの塔を葛飾北斎の浮世絵風で描くイメージを生成します。少々お待ちください。
※この後、ChatGPTが画像4枚分の英語のプロンプトを長々と読み上げます。
バベルの塔を浮世絵風で描いたイメージを表示しました。ご覧いただいて、どのイメージがお気に入りか、または何かフィードバックがあれば教えてください。

＞ボーカロイドの少女を最高品質の水彩画で描いてください。
ChatGPT　了解しました。ボーカロイドの少女を水彩画風で描くイメージを生成します。少々お待ちください。
※この後、ChatGPTが4種類の英語のプロンプトを読み上げます。
ボーカロイドの少女を水彩画風で描いたイメージを表示しました。ご覧いただいて、どのイメージがお気に入りか、または何かフィードバックがあれば教えてください。

ChatGPTとの音声会話

音声会話機能を終了すると、テキスト画面に以下の画像が表示されていました。

６．英会話のレッスン

ChatGPTの音声会話は、英語で自然に会話することができるため、英語のレッスンに最適です。
最初に、ChatGPTアプリの[Settings]をタップして、[Main Language]をJapaneseからEnglishに切り換えてください。

＞I want to chat with you about the future of AGI.
ChatGPT　Of course! Artificial General Intelligence (AGI) is a fascinating topic. It refers to machines that possess intelligence comparable to human intelligence and can perform any intellectual task that a human can do. What specific aspects of AGI are you interested in discussing?

＞Uh, especially about LLMs.
ChatGPT　Ah, you're referring to "Language Learning Models" or models like GPT, which is what I'm based on. As of my last update in January 2022, there have been significant strides in this area, particularly with GPT-3 and GPT-4. These models have grown larger, more sophisticated, and more capable of understanding and generating human-like text.

There are a few key points to consider about the future of LLMs:
１．Capabilities: As models get larger and more advanced, their ability to understand context, generate coherent text, and even perform some form of reasoning is expected to improve.
２．Specialization: We might see models tailored for specific industries or tasks, such as medicine, law, or finance.
３．Ethics and Safety: There are concerns about the misuse of these models, especially in generating misleading or harmful information. Ensuring ethical use and embedding safety measures is a priority for developers.
４．Accessibility: As LLMs become more advanced, there's a push to make them more accessible to the general public, so everyone can benefit from their capabilities.
５．Interactivity: Future LLMs might be more interactive, capable of holding more natural conversations, understanding nuances, and even showing some form of "empathy" or emotional understanding.

What are your thoughts on these points, or is there a specific area you'd like to dive deeper into?

＞Do you think AGI will be realized and the singularity will come?
ChatGPT　The concept of an Artificial General Intelligence (AGI) and the technological singularity are topics of significant debate among experts.

The technological singularity refers to a hypothetical point in the future when technological growth becomes uncontrollable and irreversible, leading to unforeseeable changes to human civilization. This is often associated with the idea that an AI, once reaching or surpassing human-level intelligence, would be able to improve itself rapidly, leading to an "explosion" of intelligence.

Here's a brief rundown of the debate:
１．Optimists: Some believe that AGI will be realized and that the singularity is inevitable. They argue that as technology progresses, AI will eventually surpass human intelligence, leading to rapid advancements.
２．Pessimists: Others are skeptical about the singularity, believing that there are inherent limits to what AI can achieve, or that the rate of progress will slow down as we approach human-level intelligence.
３．Ethical and Safety Concerns: Many in the AI community are focused on ensuring that if or when AGI is approached, it's done safely. There's a concern that an uncontrolled intelligence explosion could have unpredictable and potentially catastrophic consequences.
４．Economic and Social Implications: Beyond the technical aspects, there are concerns about the societal changes that such a breakthrough could bring, especially in terms of job displacement and economic shifts.

Personally, as a machine learning model, I don't have beliefs or predictions. I can only provide information based on the data I was trained on. However, it's important to note that the realization of AGI and the singularity is still a topic of speculation, and the timeline, if it happens, remains uncertain.

What's your perspective on this? Do you believe we're on the cusp of such a transformative event?

＞Thank you very much. I enjoyed the chat with you.
ChatGPT　You're welcome! I'm glad you enjoyed our conversation. If you ever want to chat again or have more questions in the future, don't hesitate to reach out. Have a great day! 😊

ChatGPTとの音声会話

今回は、会話というより、相手の話すことを聞くばかりになってしまいましたが、このように、ChatGPTと普通に英語で会話することによって、英語学校に通わなくても、かなり英語が上達すると思います。

但し、ネイティブスピードで話すので、ある程度、英会話に慣れていないと、なかなか厳しいです。(筆者も正直、結構厳しくて、あまり話せませんでした(^_^;)。もっと修業が必要です。）

この記事が参加している募集

AIとやってみた

24,926件

この記事が気に入ったらサポートをしてみませんか？