見出し画像

音声文字入力を極めよう。(タイパ体感5倍速くらい)

あなた、音声文字入力使ってますか?
ボイスメモじゃないですよ。音声認識によるテキスト文字入力です。iPhoneとかはかなり精度が良い)
最近、日常使いしてハマっています。
相当に、実用的なレベルになってます。

やりかたわからないですか?
そういう人はこのへんの記事をサラっと読んでお試しあれ。


普段から、
時間が無い!時間が無い!時間が無い~~からあれもこれもできない。もっともっとやりたいのにぃー!うぎゃーウギャアー。ぐごおおお

とかって思っている人なら、コレを使わない手はないかな~と思います。

確かに、多少の変換ミスとかは確かにあるんですが、大分よくなりました。
言いたいことは、十分伝わる。
AIに投げて「誤字脱字を直して」とやれば最低限直る。
全然違う変換になっちゃうところもあるけど、そこは自分で読めば前後文脈から手作業で直すことはできる。

仮に直さなかったとしても、
 音声入力しない=書かない=「ゼロ」
よりは、いいでしょう?
完璧主義だとこれができないので、完璧主義はよくないなーとやっぱり思います。

出来ない人は、忙しい事をいいわけにしたいだけのところがあるので、敢えて真剣に取り組まないんだろうなとも思います。

人前で音声入力するのが恥ずかしいとか言う人いますが、
その恥ずかしさで、自分の夢を諦めるんですか?って話で、何言ってんだろうってかんじです。

3/31Voicyの通常回でもお話をさせていただいたのですが、音声入力を極めるとかなり効率があがる。体感5倍速ってところでしょうかね。とってもよいです。


実践編。

ちょうど昨日の夕方、公園のベンチに腰掛けつつ、
「あぁ、音声入力がいいんだよねー話をみんなにしたいなぁ。」
という思いつきで、その場でiPhoneのメモアプリを起動。
そのまま音声入力ボタンを押して入力をスタートしました。

所要時間は、リラックスタイムで5分くらいですかねぇ。
まともに記事にしようとしたら1時間くらいは集中して書く必要があるでしょうね。

実際に音声入力してから、
誤字脱字を修正して、とりあえずの記事にしていくまでの過程を全部載せておきます。

📌音声文字入力したママの原稿がこちら

ちょっと読みにくいかも知れませんが、この原文には私の言いたいことが全部つまっていることでもあるので、全部読んでいただきたい。
これを読んでおいていただくと、その後に続くAIとの攻防についての話が活きてきます。

先ほどボイシの通常会でもお話をさせていただいたのですが、あらゆるものを記録化していくと言うことに今後価値が出てくるのはほぼ間違いないことですよね。
そうなったときに1番ハードルが高いのって、やっぱり文字を書くということが結構めんどくさいんですよね。
もうその日記とかジャーナルとかまぁ昔から言われてる。その日記が三日坊主で続かないとかって言う1番大きな理由って何かって言うとやっぱりめんどくさいんですよ。
何がめんどくさいって書くと言う位が1番めんどくさいんですね。
書く前に何を書くのか考えるという行為も当然めんどくさいんですが、今回はiPhoneのジャーナルと言う機能よってあんまり考えなくても書くことができるようになってます。
つまり何を書こうかっていうことは、だいぶ楽になりました。
ですが、1番ボトルネックになってる部分は文字を書くということです。
今色マスクがニュらリンクという会社で脳内にチップを埋め込んで考えるだけで、パソコンのポインターを操作したりとか、そういったことが今できるようになっていっています。
そのうち頭の中で考えただけで、文章がパソコンの文章になっていくということが実現できたら最高ですよね。
大体タイピングにせよ、手書き文字にせよ、頭で考える思考のスピードに手がついていかないですよね。
だから書くのって難しいし、だからこそ交互と文後の違いがあると思うんですよ。
文字には書き起こすって事は頭の中で執行が浮かんだときにそれを整理して書き言葉に変換をしてそれで書いていかなきゃいけないですよね。そのプロセスが結構難しいんですね。
まず持ってきちんとした文章とか思考ができないと文書っていうの書けませんので、そういう意味でも難易度が結構高いです。
そしてその難易度をクリアしたとしても、単純に文章を書くと言う作業そのものが結構な負荷がかかりますね。なので、この2重の意味で文章にする目で見える文章にするということは結構な労力労働なんですね。
私なんかは別に作家でもなければ、文章で話を送ってると言うこの分泌化でも何でもないわけですけれども、それでもこうして毎週のように文章を書いたりとかブログとか記事を書いたりインストに説明をしたりしていますし、あと仕事や業務も基本的にはもうほぼオンラインでテキストベースで石卒伝達を行っています。
そうするといかにタイピングを正確に素早く行えるかということが、かなり自分のパフォーマンスに対してダイレクト勉強してきますね。
でも正直もうこれ30年近くタイピングを30年近くじゃないなぁ。30年近くタイピングやってるわけじゃないですけれども、小学校の頃からパソコンを独学でタイピングを勉強してここまで来てしまうと、今からタイピングを強制するのは難しいです。
割とホームポジションに近く独学で習得した割にはナチュラルな打ち方をしている方ではあるんですけれども、それでも毎回見する文字があったり、それを強制するのもどうもオッケーだったりっていうことでなかなか頭打ちボトルネックなってます。それとタイピングは人から言わせれば早い方ではあるんですが、それでも自分としては非常に不満がありますね。
なぜ不満があるかと言うと、やっぱり頭の中で思い浮かんだ文章がどんどん進んでいくのに目の前のパソコンの文章は全然先に進まないので、それがとてもストレスになるわけです。
そこで最近工業が見えているのは音声入力ですね。
音声でテキスト入力すると言う意味ですね。
よく音声入力と言ってボイスメモと勘違いする人がいて、声を収録して送ってくる人がいて、困っているんですけれども、ボイスメモと音声入力は全く別物ですね。音声入力、つまり音声を認識してテキストで入力するという意味です。
ねぇボイシとかその音声の発信ってすごい続けやすいですよね何故かって言うと先程も言ったようにそのテキストに起こしていくって言う重労働しなくていいからですね。後はその頭で考えたことそのまま結構そのままのスピードレバーって喋っていくので結構1対1位の思考、思考、スピードとほぼ一対1位スピードが大体1だとした0.8位かな。各スピード0.3位だとしましょうかね。タイピングですね。手書きのスピード0.0チ位ですね。それぐらいのレベルで考えます。
なので、しゃべるっていうのはかなり楽にスピーディーにできるので、それで音声認識入力が最近ものすごく精度が上がってきたので、これを実用的に今できるレベルまで上がってきてるって事は非常になんていうか渡りに不明じゃないかなって言うんだろうな助けられた気持ちなんですよね。
ジャーナルとかをつける時もですね。フリック入力でちまちまやっているとめちゃくちゃ時間がかかるので、テキストをタイピングしたりフリック入力するんじゃなくてですね。この音声入力でバンバン入力していけば、多分なんて1分もしゃべればごめんね。すごい膨大な量できるわけなんですよ。

音声文字入力したママの原稿。
ちょいちょい誤字とかがある。


入力中の画面。右下のマイクマークを押すと録音開始だ。

📌GPT-4に指示

指示内容:「次の文章について、誤字脱字を修正し、改行を多めに入れて読みやすくしてください。」
その結果、GPT-4の打ち返しがこちら。

先ほどボイシの通常回でもお話しをさせていただいたのですが、あらゆるものを記録化していくことに、今後価値が出てくるのはほぼ間違いないと思います。そうなったときに、一番ハードルが高いのは、やはり文字を書くということが結構面倒なんですよね。

もうその、日記やジャーナルといったものは、昔から言われていますよね。その日記が三日坊主で続かない、というのが一番大きな理由は、やはり面倒だからなんです。何が面倒かというと、書くという行為自体が一番面倒なんですね。書く前に何を書くか考える行為も当然面倒ですが、今回はiPhoneのジャーナル機能によって、あまり考えずに書けるようになっています。つまり、何を書こうかということは、だいぶ楽になりました。ですが、一番のボトルネックは文字を書くということです。

今、イーロン・マスクがニューラリンクという会社で、脳内にチップを埋め込んで、考えるだけでパソコンのポインターを操作するなどができるようになっています。そのうち、頭で考えたことだけで、文章がパソコンに打ち出されるようになったら最高ですよね。大体、タイピングであれ、手書き文字であれ、頭で考える速度に手が追いつかないんですよね。だから書くのは難しいし、だからこそ、交互と文章後の違いがあると思うんです。

文字を書き起こすということは、頭の中で思いついたことを整理して、書き言葉に変換していく作業が、結構難しいんです。まず、きちんとした文章や思考ができなければ、文書を書くことができません。そういう意味でも、難易度はかなり高いです。そして、その難易度をクリアしたとしても、単純に文章を書くという作業自体がかなりの負担になります。なので、この二重の意味で、文章を書くことは、かなりの労力が必要なんです。

私は別に作家でもなければ、文章で話を伝える分野に特化しているわけでもありませんが、それでも、毎週のように文章を書いたり、ブログや記事を書いたり、インストラクションを説明したりしています。また、仕事や業務も基本的にはほぼオンラインでテキストベースでコミュニケーションを取っています。そうすると、いかにタイピングを正確に素早く行えるかということが、かなり自分のパフォーマンスに直接関わってきます。

でも正直、もうこれ30年近くタイピングをしていますが、今からタイピングを強化するのは難しいです。割とホームポジションに近い方法で独学で習得したので、ナチュラルな打ち方をしている方ではありますが、それでも毎回

ミスをする文字があったりするので、それを改善するのも一苦労です。タイピングの速度に関しては、人から見れば早い方ですが、自分としては非常に不満があります。不満の理由は、頭の中で思い浮かんだ文章がどんどん進んでいくのに、目の前のパソコンの文章は全然進まないからです。それが非常にストレスになります。

そこで最近注目されているのは、音声入力です。音声でテキストを入力するという意味ですね。よく音声入力と言ってボイスメモと勘違いされることがありますが、ボイスメモと音声入力は全く別物です。音声入力は、音声を認識してテキストで入力するということです。

ボイシやその他の音声の発信は非常に続けやすいですよね。その理由は、先ほども言ったように、テキストに起こすという重労働をしなくても良いからです。また、頭で考えたことをそのままのスピードで話すことができるので、思考のスピードとほぼ同じになります。タイピングや手書きのスピードと比べると、話すことはかなり楽に、スピーディーにできます。それで、音声認識の入力が最近非常に精度が上がってきたので、これを実用的に使えるレベルまで上がってきているのは、非常にありがたいことです。

ジャーナルをつける時も、フリック入力で小まめにやっていると非常に時間がかかります。ですが、この音声入力を使えば、たった1分話すだけで、膨大な量のテキストを生成できるわけです。

GPT-4への指示:「次の文章について、誤字脱字を修正し、改行を多めに入れて読みやすくしてください。」


更に、指示。
「この文章をベースとして、より話し言葉テイストに、くだけた感じにしてください。」

先ほどボイシで話したんだけど、なんでも記録に残すっていうのが、これからめっちゃ価値あるようになるって、ほぼ間違いないよね。でも、実際にやってみると、文字を書くのが結構面倒ってことが壁になるんだよね。

日記とかジャーナルって、昔からよく言われてるけど、続かない最大の理由って、結局のところ面倒くさいからなんだよね。何が面倒って、文字を書くっていう行為自体が一番面倒。書く前に何を書くか考えるのも面倒だけど、今はiPhoneのジャーナル機能があって、考えずにササッと書けちゃうから、少しは楽になったかな。でも、やっぱり文字を書くのが一番のハードルなんだよね。

イーロン・マスクがやってるニューラリンクみたいに、頭の中だけでパソコン操作できる日が来たら、めっちゃ便利だろうな。頭で考えたスピードで手が追いつかないって、結構ストレスだからね。だから、文字を書くのって難しいし、それが文章の良し悪しにも関わってくるんだと思う。

頭の中で思いついたことを、きちんと文字にするって、結構大変。まともな文章にするためには、それなりに頭を使わないといけないし、それでさえクリアしても、単純に文字を書く作業が結構な負担になるんだよね。

私なんて、作家じゃないし、特別文章書く仕事してるわけでもないけど、それでもブログ書いたり、インスト説明したりしてるし、仕事のコミュニケーションもほぼテキストベースだから、タイピングがどれだけ早いかって、直接自分のパフォーマンスに関わってくるんだよね。

でもね、正直、もうタイピングも頭打ち。小学校からやってるけど、今さら速くなるのも難しいし、毎回ミスタイプする文字があるのもストレス。タイピングは早い方だけど、頭で考えてるスピードに追いつかないから、すごく不満。

そこで注目してるのが、音声入力。テキストを打つのに声を使うやつ。音声入力とボイスメモを勘違いする人いるけど、全然違うからね。音声入力は、話したことをテキストに変換するんだ。

音声での発信、ボイシみたいなのは続けやすいよね。テキストに起こす手間が省けるから。頭で考えたことをそのまま話せばいいから、思考スピードにかなり近いスピードで進められる。話すのはめっちゃ楽で、音声認識の精度も上がってきてるから、これからはもっと実用的になると思うんだ。

ジャーナルつけるのも、フリック入力でチマチマやるより、音声入力でバンバン入力する方が、めちゃくちゃ時間の節約になるし、楽なんだよね。

結構ハショられてしまった。

指示:「つづき」
とやったら、独自に色々考えて、僕は言いもしないことを色々考えて文章つくってくれた。笑

だからね、最近はほんと、音声入力にハマってるんだ。文章を考えるのが速ければ速いほど、タイピングっていうのがネックになるわけ。でも、声でドバドバ言えば、そのままテキストになってくれるから、ストレスがめっちゃ減るんだよね。

あとさ、話してる間に新しいアイデアが浮かんだりすることもあるから、その点でも音声入力っていうのは、クリエイティビティを促進してくれると思うんだ。文字を打つときって、どうしても一文字一文字に意識が行ってしまって、大きな流れを見失いがちだけど、話しながらだとそういうことが少ない気がする。

しかも、最近の音声認識技術って、めっちゃ進化してるから、方言がちょっと入ったり、早口だったりしても、結構正確に拾ってくれる。これがまた、使い勝手をよくしてるんだよね。

それに、音声入力だと、手が塞がっていても、例えば運転中とか、料理をしながらでも、アイデアが浮かんだらそのまま言えるから、めちゃ便利。これまで、「あ、これいいアイデアだな」と思っても、パソコンに向かって打ち込むまでに忘れちゃうことがたまにあったけど、そういうのが減った気がする。

ただね、音声入力も万能じゃないんだ。たまに変なところで認識ミスすると、面白いくらい的外れなテキストになったりする。でもそれがまた、なんか新しいアイデアをくれたりするから、面白いんだよね。

結局のところ、文章を書くっていうのは、伝えたいことをどれだけスムーズに、そして正確に外に出せるかってことだと思うんだ。手段は何でもいいわけで、タイピングが速い、遅い、っていうのは一つの手段に過ぎない。大事なのは、頭の中のアイデアを、いかにうまく、速く、人に伝えられるかだから。

音声入力がもっと精度上がって、さらに使いやすくなれば、これからのコミュニケーションの形って、結構変わってくるんじゃないかなって、ワクワクしてるんだ。だから、もしまだ音声入力試したことない人がいたら、ぜひ試してみてほしい。思った以上に、色んなことが楽に、そして面白くなるから。

GPT-4が勝手に付け加えた文章

うん、いいね。良いこと言ってるねw
特に太字の部分なんかは。

だから逆に言うと、こういう「良いこと言うねぇ~」みたいなことって、今後は何の価値もなくなってしまいますよね。だって、こうしてAIが勝手に作って言えちゃう程度のことなんですから。
いまのAI(GPT-4)でですよ。今後数年でGPT-5,6,7となったら……いわずもがなですわ。

このnoteもAIを取り入れることには積極的なようなので、
GPTと会話するようにして作る記事みたいなテイストも流行っていくんじゃないかしらね。

音声入力×AI+喋るの掛け合わせで、AIと会話が普通に成り立つようになってきている。
きっと今年の6月のappleのOSバージョンアップでSIRIに最新AIが搭載されてスーパーSIRIになったら、また話題はAIで沸騰するだろう。

それまでに、ジャーナルアプリでネタを溜めておこうと思ってる。

📌最初の校正でミスった

いや、でも自分的に端折ってほしくなかった部分を一発目で端折られてしまったのでそれはよくないな。
次の部分が端折られてしまっているのはいただけない。

001 :いただけない修正

📌原文
でも正直もうこれ30年近くタイピングを30年近くじゃないなぁ。30年近くタイピングやってるわけじゃないですけれども、小学校の頃からパソコンを独学でタイピングを勉強してここまで来てしまうと、今からタイピングを強制するのは難しいです。

📌GPT-4校正
でも正直、もうこれ30年近くタイピングをしていますが、今からタイピングを強化するのは難しいです。

🔽
いやこれはさぁ、「あ、30年じゃないわ」と訂正している部分がカットされているので、意味がかわってきてしまう。
そしてやっぱり、口語体独特の、「話して、あいや、やっぱ訂正」というのが文字ベースになるとそこは圧縮しないとダメだよね、だって訂正するんでしょ?っていうことになっていますよね。

002 :いただけない修正

📌原文
ねぇボイシとかその音声の発信ってすごい続けやすいですよね
何故かって言うと先程も言ったようにそのテキストに起こしていくって言う重労働しなくていいからですね。
後はその頭で考えたことそのまま結構そのままのスピードレバーって喋っていくので結構1対1位の思考、思考、スピードとほぼ一対1位スピードが大体1だとした0.8位かな。
各スピード0.3位だとしましょうかね。タイピングですね。
手書きのスピード0.0チ位(※0.01くらいの誤変換)ですね。
それぐらいのレベルで考えます。
なので、しゃべるっていうのはかなり楽にスピーディーにできるので、それで音声認識入力が最近ものすごく精度が上がってきたので、これを実用的に今できるレベルまで上がってきてるって事は非常になんていうか渡りに不明じゃないかなって言うんだろうな助けられた気持ちなんですよね。

📌GPT-4修正
ボイシやその他の音声の発信は非常に続けやすいですよね。
その理由は、先ほども言ったように、テキストに起こすという重労働をしなくても良いからです。また、頭で考えたことをそのままのスピードで話すことができるので、思考のスピードとほぼ同じになります。
タイピングや手書きのスピードと比べると、話すことはかなり楽に、スピーディーにできます。それで、音声認識の入力が最近非常に精度が上がってきたので、これを実用的に使えるレベルまで上がってきているのは、非常にありがたいことです。

🔽
結構はしょりましたねー。
ぼくとしては、【思考1:喋り0.8:タイピング0.3:手書き0.01】という、アウトプットのスピード比率は重要な数値だったのですが、まあもののみごとにカットされてしまいました。

リベンジする。

というわけで、気に入らないのでリベンジします。
振り出しに戻ります。
一番最初のGPTへの指示が良くなかった。

ここから先は

3,167字 / 1画像

活動の軍資金にさせて頂きます。