朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日…

朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日々のお仕事や研究開発しているテーマ、実験的な「やってみた」記録などを、時に真面目に、時にゆるっと発信していきます。

マガジン

  • エンジニアたちの「やってみた!」

    さまざまなツールやライブラリを使って、朝日新聞のエンジニアたちが「やってみた」エントリを紹介します! 朝日新聞に登場したデータ活用や頭をやわらかくするクリエイティブなコンテンツまで……新たなアイディアが生まれるかも!?

  • M研のおしごと

    メディア研究開発センター(旧ICTRAD、旧メディアラボ研究チーム)のメンバーのエントリが読めるマガジンです。

  • 新聞社のエンジニアのおしごと

    なかなか知られていない「新聞社のエンジニア」の仕事について、「中の人」たちがご紹介します!

  • 連載:今日からはじめるAI文芸実践入門

    〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する連載「今日からはじめるAI文芸実践入門」のマガジンです。

  • イベント系記事まとめ

    朝日新聞社の技術系イベントに関する記事を集めました。採用関連イベントレポートをはじめ、社外イベント・展覧会への参加などに関する記事がまとめてチェックできます。

最近の記事

LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

朝日新聞社メディア研究開発センター 田森です。 ゴールデンウィークがいよいよ始まりますね。メディア研究開発センターも4月には新年度を迎えワチャワチャしていましたが、月末になりようやく落ち着きを見せてきました。 ようやく、ようやく、要約。ということで、今回のテックブログは自然言語処理における要約タスクとLLMの最近について書いてみたいと思います。このブログは、NLP2024のワークショップ「生成AI時代の自然言語処理における産学官の役割と課題」で発表するにあたり、調査した内

    • SAR衛星画像で能登半島地震の被災状況を把握する初めてのトライ

      はじめに地震や、台風などの自然災害が発生した時に、一番重要なのは被害状況を迅速に把握することです。それによって、迅速かつ適切な救援や、復旧、生活再建活動を行うことができます。災害地の状況を迅速に把握するために、衛星画像を解析した結果を利用することができます。 朝日新聞社メディア研究開発センターの福沢です。令和6年1月1日16時10分に、日本の石川県の能登半島地下16kmで発生した最大震度7の内陸地殻内地震で、建物の倒壊や津波の被害、それに地盤の隆起、火災の被害などが発生しま

      • 焼酎を飲むのは九州の人ばかり?オープンデータでお酒の消費の地域差を分析!🍶

        こんにちは。福岡生まれの石井です。 4月で入社3年目になります。 最近、焼酎が飲めるようになりました。 焼酎はお酒の中でも大人なイメージで、クセも強いかなあと思っていたのですが、友人の勧めで試しにソーダ割で飲んでみたところ、すっかりハマってしまいました。 幼少期に、ふざけて祖父の飲む焼酎の匂いを嗅がせてもらっていたから独特な香りへの抵抗がなかったのでしょうか(もちろん当時は飲んでいません)。 そういえば、焼酎というと生産地がかなり九州に寄っている印象ですよね。 もしかした

        • 桜だより〜関西地方の開花推移〜

          こんにちは。メディア研究開発センターの河﨑です。 春ですね。大都会東京の花粉の多さに慄きながら、日々過ごしています。 (私の大好きな故郷大阪よりも花粉が多いそうで、、やってられないです) 新聞社に入社したので、学生の頃より新聞を読む機会が増えました。 新聞には「その日の情報」がとてもたくさん載っています。 今日の新聞を見ることで、今何が起こっているかがわかる。 過去の新聞を見れば、その時何が起こっていたかわかる。 ここで思い出しました。大学の時、ソメイヨシノの満開日につ

        LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

        マガジン

        • エンジニアたちの「やってみた!」
          42本
        • M研のおしごと
          74本
        • 新聞社のエンジニアのおしごと
          35本
        • 連載:今日からはじめるAI文芸実践入門
          9本
        • イベント系記事まとめ
          8本

        記事

          AWS Inf2によるモデル推論―コンパイルから速度比較まで

          こんにちは。メディア研究開発センター(通称M研)の田口です。今回はAWSのInf2インスタンスを使ったモデル推論の方法を紹介します。 AWS Inf2とはAWS Inf2とは、AWSが提供している推論特化型のInf1インスタンスの後継です。 Inf1については下記のテックブログで、BERTベースの系列ラベリングモデルを例にモデル推論の流れを説明しています。 M研内ではさまざまなタスクで事前学習済みモデルを利用した推論を行っています。リアルタイムで処理したい場合はGPUイ

          AWS Inf2によるモデル推論―コンパイルから速度比較まで

          朝日新聞社技術職(特にM研)への就職をご検討の皆様向けまとめページ(2023-24)

          朝日新聞社メディア事業本部メディア研究開発センター(M研)の田森です。 このnoteは、少しでも弊社、特にM研への就職にご興味がある方に向けて、最近の活動をまとめたものです。ご参考になれば幸いです。 そもそもM研とは?朝日新聞社には現在、約30年、1000万記事がデジタルデータ化されています。M研はこの膨大な言語資源や、その他日々の活動で生み出されていく音声データ、画像データなどの資源を用いて、社内業務の改革や新しいビジネスの開発を進めています。下記のページに詳しく書かれ

          朝日新聞社技術職(特にM研)への就職をご検討の皆様向けまとめページ(2023-24)

          はじめての特許出願【デジタルアーカイブの取り組み】

          こんにちは。メディア研究開発センター(M研)の嘉田です。 いきなりですが… 私の発明、特許を取得しました! ということで、今回のテックブログでは、M研の仲間2人とともに生み出した発明の内容と、特許取得までの道のりをご紹介します。 ちなみにM研発の発明は過去に2件の特許を取得しているので、本件で3件目となります👇 校正:https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2019-016140/86DB7FCA375F25A73DAD

          はじめての特許出願【デジタルアーカイブの取り組み】

          音声認識のアノテーションを効率的に行うための取り組み

          あけましておめでとうございます。メディア研究開発センターの山野です。そういえばイブラヒモビッチに憧れてジャンピングボレーシュートを真似した結果、着地に失敗し靭帯を損傷したこともありました。 動機さて、メディア研究開発センターでは音声認識[1]や音声認識結果の可読性を向上[2]させるための研究を行なっています。そのような研究をするためには多くの高品質なデータが必要であることが一般的には知られています。そこで我々は、独自で構築したデータ収集・アノテーション基盤を活用し、アノテー

          音声認識のアノテーションを効率的に行うための取り組み

          今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる

          はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。 さて、本連載では「〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する」というテーマのもと、毎回異なる文章表現や技術を取り上げた

          今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる

          漢数字を洋数字に変換したいだけなのに

          はじめにはじめまして、メディア研究開発センターの河﨑です。 大学は農学系の学部で、大学4回から修士2回までの3年間は、ソメイヨシノの満開日についてずっと考えていました。 M研に入れてもらえてラッキー、ハッピーって感じだったのですが、右も左も(もはや前も後ろも)わからない状態でてんやわんやの毎日です。 (強強の先輩方に助けられながらなんとか生きています。内定者、就活生の皆様期待して大丈夫です。) 今回は、私が配属されて最初のタスク「音声書き起こし文の最適化」の一部分「漢数字

          漢数字を洋数字に変換したいだけなのに

          EMNLP 2023に参加した話

          はじめにこんにちは。メディア研究開発センターの川畑です。普段は自然言語処理に関する研究開発業務を行っています。 先日シンガポールにて開催された EMNLP 2023 (自然言語処理分野の主要国際会議の一つです) に論文が採択されたので現地参加してきました。 今回の記事では現地の様子や面白そうな論文、採択論文の紹介をしていきます。 数字で見るEMNLP 2023投稿件数は明確に数字では書かれていませんでしたが、昨年と比べて1,000件弱増加していたようです。昨年の EMNLP

          今日からはじめるAI文芸実践入門:AIが「学校の怪談」で繋ぐ平成と令和

          はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。 さて、本連載では「〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する」というテーマのもと、毎回異なる文章表現や技術を取り上げた

          今日からはじめるAI文芸実践入門:AIが「学校の怪談」で繋ぐ平成と令和

          音声合成を使った音声認識のためのデータ作成とその結果

          こんにちは、メディア研究開発センターの山野です。最近よく聞くポッドキャストはダブルヒガシさんの「はちくちダブルヒガシ」です。 動機音声認識のモデル構築は一般的に音声とその書き起こしのペアデータセットを必要とします。そのようなデータセットを一から構築することは、大変コストがかかる作業になります。 今回は音声合成を使った人手を介さない(≒コストのかからない)データセットの構築と実験をしたので、その結果を共有しようと思います。 データセット入力文 JNCデータセットからラン

          音声合成を使った音声認識のためのデータ作成とその結果

          【AI校正】 Typolessを紹介させてください by 開発者

          Noteに記事を投稿するのは久方ぶりになりました、M研の倉井です。 なぜ久しぶりになってしまったのか、それは今回お話しする「Typoless」の開発にいそしんでいたからです! … 言い訳ですね笑 というわけで今回はM研が開発・公開した 「朝日新聞社の文章校正AI Typoless」 について、どんなことができるのか、また将来的にどんなことができるようになるのか、お伝えできればと思います。 TypolessはズバリこんなものTypolessは文章校正のWebサービスです。こ

          【AI校正】 Typolessを紹介させてください by 開発者

          【バズる記事を推論!】非公開データを用いた自然言語処理コンペティション2023

          今回の記事では、11/18〜19にかけて開催されたメディア研究開発センター主催「バズる記事を推論」コンペの様子をお届けします。2021年から始めて3回目の今回ですが、自然言語処理コンペでの腕試しや朝日新聞社の技術職に興味のある総勢16名の学部生、大学院生の方達にご参加いただきました。 どんなコンペ? さて、今回のコンペは朝日新聞デジタルで公開された記事が Twitter (現X) 経由でどれだけ多くの人に読まれたかを、記事の見出しや本文、記事のジャンル、記事の写真などといっ

          【バズる記事を推論!】非公開データを用いた自然言語処理コンペティション2023

          大容量ファイルのアップロードってどうやるの?【署名付きURL×マルチパートアップロード】

          こんにちは。メディア研究開発センター(M研)の新美です。 最近イベント用のグッズでTシャツを購入しましたが、肝心のイベントのチケットが外れて日の目を浴びられないことが確定したため少しやさぐれております。 さて、そんなやさぐれ女が今回ご紹介するのは署名付きURLを用いた大容量ファイルのアップロード方法についてです。私が開発に携わっている社内向け文字起こしサービス「YOLO」では、長時間の録音ファイルや動画ファイルなど大容量のファイルのアップロードが求められるようになってきまし

          大容量ファイルのアップロードってどうやるの?【署名付きURL×マルチパートアップロード】