見出し画像

AIニュースまとめ:2022年度下半期

毎週、気になったAI系のニュースをピックアップして、3行程度にまとめています。
今回は、2022年度上半期にまとめたものを貼り付けました。
毎週更新する予定です。

2023/02/13 ~ 2023/02/19 季節性症状の管理

レイ・フロンティア株式会社は2023年2月15日、自社開発ライフログアプリ「SilentLog」への季節性症状を管理する機能の追加リリースを発表した。
AI分析により、ユーザーが一日に訪れた場所の気象情報を自動集計するため、気象情報の入力は不要である。日々の症状を入力するだけで、行動と気象と症状の関連性を確認できるという。
重症化する前に薬を飲んだり、医療機関を受診したりして、迅速な症状への対処が期待できる。

2023/02/06 ~ 2023/02/12 歌声から伴奏の生成

Google Researchに所属する研究者らが発表した論文「SingSong: Generating musical accompaniments from singing」は、歌声からその歌に適した伴奏を生成する機械学習モデルを提案。
ベースラインよりもSingSongのインストゥルメンタル曲の方が66%で好まれた。グランドトゥルース音源と比べた結果は、57%でSingSongのインストゥルメンタル曲が好まれた。
これらの音楽サンプルはプロジェクトページにて公開されており聞くことができる。

2023/01/30 ~ 2023/02/05 パスワード付きファイルの送付

東京大学空間情報科学研究センター、大阪公立大学大学院情報学研究科、東京大学大学院情報理工学系研究科ソーシャルICT研究センター、株式会社国際電気通信基礎技術研究所に所属する研究者らは「日本国内におけるメールセキュリティに関する実態把握」の研究報告を発表した。
パスワード付き圧縮ファイルを添付したメールとそのパスワードを書いたメールを別々に送るセキュリティ対策手法(通称:PPAP)において、脆弱性が高いにもかかわらずまだ使い続けている有無や理由、脆弱性の認識はあるかなどの質問を組織344社に行い、分析した研究報告である。
PPAP は何らかの手順を踏んで実施することによって「何かをやった気になる」心理的な安心感を与えていて、この安心感も採用継続に寄与している可能性がある。

2023/01/23 ~ 2023/01/29 口パクで文書入力

立命館大学とデジタルスピリッツテック社が、論文「Silent Speech Eyewear Interface: Silent Speech Recognition Method using Eyewear with Infrared Distance Sensors」(口パク(無声発話)による音声入力が行えるメガネ型デバイスと耳掛け型マイクデバイスを提案)を発表した。
赤外線距離センサーを備えたアイウェアと耳掛け型マイクからなるセンサーデバイスを用いて、無声発話を認識する方法を提案する。  
ほとんどの音声コマンドが正しく認識され、長い音声コマンドに対する提案手法の有効性を示した。

2023/01/16 ~ 2023/01/22 日本語音声認識モデル

株式会社レアゾン・ホールディングスは、世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス「ReazonSpeech」を公開いたしました。
「ReazonSpeech」は、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群(音声認識モデル、コーパス作成ツール、音声コーパス)です。
音声認識モデルと音声コーパス作成ツールはApacheライセンス2.0にて公開するので、商用・非商用を問わず、誰もが自由に利用・改変・再配布し、同様のコーパスの構築・共有活動に参加できるようになります。

2023/01/09 ~ 2023/01/15 音声合成

米Microsoftの研究者らは1月5日(現地時間)、人間が話す声の3秒分のデータを与えると、その人のようにテキストを読み上げられるようになるAI「VALL-E」を発表した。
Microsoftが「ニューラルコーデック言語モデル」と呼ぶVALL-Eは、米Metaが昨年10月に発表した「EnCodec」に基づいて構築された。
VALL-Eの音声合成機能は、やはりMetaが作成した音声ライブラリ「LibriLight」でトレーニングした。このライブラリには7000人以上の人間による6万時間分の英語音声が含まれている。

2023/01/02 ~ 2023/01/08 歩行追跡

富士通株式会社は2023年1月5日、映像から人の行動を認識する同社の行動認識AI「行動分析技術Actlyzer(アクトライザー)」において、歩行速度によらず多くの人の移動を性格に捉えることのできるトラッキング技術を開発したと発表した。
従来のトラッキング技術では、時間ごとのフレーム(映像中の1コマの静止画)における人を捉えた 対象領域の重なりで同一人物として判別するため、人が高速に移動するとフレーム同士に重なり合う領域が存在せず、同一人物であるという対応付けができないという課題があった。
この課題を解決するため、人を捉える対象領域を拡大し重なり合う領域を作り出し、独自のマッチングアルゴリズムを用いることで、同一人物であるという対応付けを可能にする技術を開発した。

2022/12/26 ~ 2023/01/01 音声の前処理

Adobeが、AIを使った音声編集ウェブサービス「Adobe Podcast」を公開し、Podcast編集用ツール「Enhance Speech from Adobe」のデモを公開している。
Enhance Speech from Adobeを使えば、録音した音声が簡単にプロっぽく仕上がる。
変換できる音声ファイルはMP3形式かWAVE形式で、ファイルサイズが1GB以下あるいは音声の長さ1時間以下である必要がある。

2022/12/19 ~ 2022/12/25 音声プログラミング

GitHubは、年次イベント「GitHub Universe 2022」の基調講演で、音声によるGitHubの操作やコーディングを可能にする実験的機能「Hey, GitHub!」をプレビュー公開しました。
GitHubには、すでにAIによってコメントからコードを自動生成する「GitHub Copilot」が備わっています。
今回、基調講演で行われたHey, GitHub!のデモは、GitHubが音声認識によって自然言語を認識し、その内容をCopilotが受け取り、AIが推奨されるコードが自動的にエディタ画面に記述されていく、というものでした。

2022/12/12 ~ 2022/12/18 喋る動画の生成

生成系AIの開発などに取り組むイスラエルのD-IDは12月14日、画像が喋る動画を生成できるサービス「Creative Reality Studio」を開発したと発表した。
プロンプトを基に、AIが画像や喋らせたい内容を生成し、それらを自動合成し、動画として出力する。
Creative Reality Studioでは、D-ID独自のディープラーニング技術の他、文章の生成には米Open AIの「GPT-3」、画像の生成には英Stability AIの「Stable Diffusion」を利用している。
テキストの読み上げは日本語など119の言語に対応している。

2022/12/05 ~ 2022/12/11 スプレッドシートにAI導入

米Googleは12月7日(現地時間)、「Googleスプレッドシート」に機械学習を活用した機能を導入できるアドオン「Simple ML for Sheets」を発表した。
専門知識がない人でも、データ中の欠損値を機械学習で予測したり、異常な値を検知したりできる。
利用料は無料。

2022/11/28 ~ 2022/12/04 ChatGPTの公開

米AI研究企業OpenAIは12月1日(現地時間)、対話のためのAI言語モデル「ChatGPT」を発表した。
テキストで質問を投げかけることで、AIがその回答を表示する。
現在はテスト期間中としており、無料で利用できる。

2022/11/21 ~ 2022/11/27 朝日新聞の文章要約、校正モデル

朝日新聞社は11月22日、同社の開発機関「朝日新聞社メディア研究開発センター」が独自開発した技術のデモサイト「朝日新聞Playground」を公開した。第1弾として、要約AI「TSUNA」や校正支援AI「TyE」を掲載している。
「TSUNA」は入力された文章の要約文や見出しを生成するAI。文字数指定に応じて出力を調整する機能も備える。30年以上の朝日新聞社の記事を学習させたAIで、社内では業務に活用しているという。
 「TyE」は入力された文章の中に含まれる誤字脱字や文法ミスを検知するAI。朝日新聞社が持つ記事の編集履歴を学習させている。

2022/11/14 ~ 2022/11/20 Metaの大規模ソースコード管理システム

Metaが10年間にわたり開発・使用してきたソースコード管理システム「Sapling」がオープンソース化された。
Git互換で基本的なコマンドは類似しており、すべてのコマンドがシンプルで使いやすいように設計されている。
Saplingと互換性のあるサーバーと仮想ファイルシステムを組み合わせて使うと、Saplingは数千万のファイル、コミット、ブランチを持つMetaの内部リポジトリに対応できる

2022/11/07 ~ 2022/11/13 脳波から言葉の生成

米University of California, San Franciscoなどによる研究チームが発表した論文「Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria」は、脳に電極を埋め込み、脳波から言葉を生成する深層学習を用いたシステムを提案した研究報告である。
発声した際に声道付近の筋肉に指令を送る脳神経から読み取り、脳波から言葉を生成する。
参加者の皮質活動からリアルタイムに文を解読したところ、1分間に15.2語の単語を解読し、単語の誤り率は中央値で25.6%であった。

2022/10/31 ~ 2022/11/06 自動生成小説の文学賞

デジタルメディア研究所(代表:「ロッキング・オン」創刊メンバーの橘川幸夫氏)はこのほど、AI文章生成サービス「AIのべりすと」を使った初の文学賞「AIのべりすと文学賞」の受賞作を発表した。SF作家の高島雄哉氏が、AIがアート界を支配する近未来を描いた「798ゴーストオークション」が大賞に選ばれた。
AIのべりすとは、クリエイターのSta氏がGoogleのツール(TPU Research Cloud)も活用して開発したAI小説生成ツール。数行の文章を入力するだけで、続きの文章をAIが自動生成する。2021年にサービスを開始し、登録ユーザーは30万人を超えているという。

2022/10/24 ~ 2022/10/30 テキストによる画像加工2

2022年10月17日にプレプリントサーバーのarXivで発表された「Imagic」は、画像の修正箇所を手動で指示したり別の画像を入力したりしなくても、1枚の画像とテキストプロンプトだけで複雑な画像の編集が可能。
「Imagic」は、事前にトレーニングしたText to Image拡散モデルを利用しているため、複雑な非剛体(形が変わる物体)の編集が可能です。

2022/10/24 ~ 2022/10/30 テキストによる画像加工

画像や動画の加工を、機械学習を用いて「テキストで指定するだけ」で行うことができる「Text2LIVE」がGitHubで公開されています。
Text2LIVEは機械が見たことがないものを予測するための機械学習である「ゼロショット学習」を用いて、読み込んだ画像から指定されたオブジェクトを識別し、さらに指定した効果を付け加える。
編集された出力結果を直接生成するのではなく、元の入力に合成される編集レイヤー(カラーと不透明度)を追加することが重要なアイデアとなっている。

2022/10/17 ~ 2022/10/23 文字のない言語の翻訳

米Metaは、中国福建省などで使われている方言「福建語」をリアルタイムに通訳できる音声翻訳AIを開発したと発表した。
福建語は文字を持たない言語で、従来の手法では対応が難しかったとしている。
Metaの音声翻訳AIは、入力音声を文字ではなく音響情報として分解して使ったり、文字を持つ関連言語の文字データに変換したりといった手法で開発した。

2022/10/10 ~ 2022/10/16 ノーコードツール「Power Automate」

Power Automateは、さまざまなコネクタにより複数のサービスやアプリケーションをワークフローのように接続する機能と、マウスやキーボードなどの操作をソフトウェアで自動化するRPAの機能などを搭載したサービス連携サービスです。
今回発表されたAIによる自然言語の認識機能により、自然言語で実現したい内容を書き込むと、それに合致するであろうフロー定義が生成されるというものです。
Microsoftは2021年5月に、自然言語をプログラミング言語にAIで変換する機能を「Power Apps」に搭載することを発表しています。

2022/10/03 ~ 2022/10/09 日本語をコードに変換

有限会社アズリアルと株式会社HashLab(ハッシュラボ)は10月4日、日本語で指示を入力するとAIが自動でソースコードを生成する「AI Programmer」のベータ版を提供開始した。
プログラマーのサポートだけでなく、プログラミング学習などでの活用が期待される。
企業に向けてはAPI形式での提供が可能で、すでに企業が所有しているシステムやサービスと連携することが可能である。

この記事が気に入ったらサポートをしてみませんか?