New-Village

防衛/犯罪対策領域のAIエンジニアです。週末プログラマーとして興味の赴くままにリサーチ…

New-Village

防衛/犯罪対策領域のAIエンジニアです。週末プログラマーとして興味の赴くままにリサーチとアプリ構築を行っています。

最近の記事

国税庁 法人番号公表サイトの分析

国税庁が公表している法人番号公表サイトでは、日本の法人 5,467,443社(4月30日現在)に関する法人番号、法人名やフリガナ、英語社名、住所、英語住所などを提供しています。 法人名や住所に関するデータセットとしては非常に規模が大きく、自然言語処理の題材として面白いので、今回は、これらデータの内容を確認していきたいと思います。 サンプルデータ今回の分析対象となるデータのサンプルは下記のとおりです。意図的に自然言語処理の対象となる変数で、かつ、欠損値(NaN)が無いレコード

    • Blockchain データ分析(2):分析用データの加工

      前回の記事「Blockchain データ分析(1):分析用データの入手」で AWS Public Blockchain Data から、ビットコインのブロックチェーンデータを収集してきました。 ダウンロードしてきたブロックチェーンのデータは、一つのトランザクションの中に、複数の送金元と送金先が混在しています。このため、伝統的な分析を行うためにはアドレス(口座、ウォレット)単位で、送金元と送金先、金額、日付時刻が整理されている形にする必要があります。 今回のタスクでは、ダウン

      • Blockchain データ分析(1):分析用データの入手

        本記事は 勉強用に金融トランザクション・データを入手する|New-Village (note.com) と同一内容になります。データ収集用のスクリプトを Python で作成しなおしたので、ファイルの一括入手 部分のみを書き直したものになります。 Spark を使った分析アプリケーション構築を作るに際して、ある程度の規模を持ったトランザクション・データが欲しかったので、暗号資産の取引データを入手してみました。 Googleで検索した感じ、日本語での説明書きがなかったので、記

        • 勉強用に金融トランザクション・データを入手する

          Spark を使った分析アプリケーション構築を作るに際して、ある程度の規模を持ったトランザクション・データが欲しかったので、暗号資産の取引データを入手してみました。 Googleで検索した感じ、日本語での説明書きがなかったので、記録として残しておきます。 1.データソースの選定Blockchain から直接入手 暗号資産のデータはブロックチェーンから直接取得することが可能です。Github 上でETLプロジェクトが共有されており、Pythonであれば pip でプロジェク

        国税庁 法人番号公表サイトの分析

          AIエディタがプログラム開発で役に立つポイント

          昨日に続き、Cursor エディタを使ってみての感想投稿です。本日は、気象庁のREST APIからデータを取得して成形したのちに、コンソールに出力するプロジェクトを開発していました。 AIが役に立ったポイント1. データ処理ロジックの生成 今回は気象庁から取得したJSONを加工するロジックを実装しています。気象庁が提供しているJSONをファイルにダウンロード(input.json)し、さらに加工後のJSONフォーマットを手作業で作成してファイルを作成(output.jso

          AIエディタがプログラム開発で役に立つポイント

          AI-first Code Editor "Cursor" を使う

          Cursor という Visual Studio Code をフォークして作られたエディタを使ってみました。今回、AIの支援を受けて、これまで触ったことなかった言語でプロジェクトを作ることを目的として触ってみましたが、あっという間に動くアプリを作ることができました。 ツールの概要Visual Studio Code をフォークして作ったコード・エディタなので、やれることは同エディタと変わりません。同ツールとの違いは、ChatGPTとの連携機能がネイティブで統合されており、言

          AI-first Code Editor "Cursor" を使う

          ChatGPT: モデルによる翻訳結果の違い

          Simon Sinek の How Great Leaders Inspire Action をChatGPTで翻訳をかけてみた。精度の問題もあるので、要約は英語で実施した上で、Deeplで日本語化を実施した。 gpt-3.5-turbo-16kgpt-4(stuff)gpt-4(map_reduce)gpt-4(refine)

          ChatGPT: モデルによる翻訳結果の違い

          Google Colab 不要。M1/M2 Mac or iPadで始める AI画像生成

          一ヶ月ほど前に、Mac/iPad向けのStable Diffusion対応アプリ “Draw Things” の存在を知りました。このアプリは無料で画像生成系AIである Stable DiffusionをMac/iPad上で実行することができるアプリです。私はM2 iPad Pro (2022) を使っているのですが、現実的な範囲内で画像生成が楽しめるアプリとなっているため、画像生成系AIを試してみたいという方にはおすすめです。 使い方Draw Thingsを起動すると下

          Google Colab 不要。M1/M2 Mac or iPadで始める AI画像生成

          ChatGPT, BingAI, Bard に旅行計画を立てさせてみた - 検証編

          昨日、ChatGPT、BingAI および Bard で作成した旅行計画の内容について、比較記事を書きましたが、その内容について確認をしていたら、追加の課題が見えてきたので、記事を書くこととしました。 ChatGPTには嘘が多い前回の記事で、「他のサービスに比べて頭一つ抜けている」と書いたChatGPTですが、そこで示された施設について検索したところ、その多くが存在しないことが明らかになりました。 以下が、ChatGPTが示した旅程に含まれる行き先の一覧と、存在の確認結果に

          ChatGPT, BingAI, Bard に旅行計画を立てさせてみた - 検証編

          ChatGPT, BingAI, Bard に旅行計画を立てさせてみた

          期限切れが迫っているJALマイルを消化するために、どこかにマイルを使って旅行の行き先を決めてみたところ、香川県高松市に決まりました。ちまたでは「うどん県」と称されるほど、うどんが有名ですが、他に何があるのか良く分からなかったので、各種AIサービスに旅行計画の提案をさせてみました。 質問事項5月下旬から6月にかけて、3泊4日で香川県高松市に行きます。下記条件を考慮して、ホテル名や名所名、レストラン名を含む具体的な旅行計画を立ててください。 飛行機で高松空港に行きます。

          ChatGPT, BingAI, Bard に旅行計画を立てさせてみた

          Playwright を使ってスクレイピング - スクリーンショットの取得法

          一昨日の記事に続いてスクリーンショットを取得するライブラリの紹介です。requests-htmlの場合、pyppetterのラッピングツールであることもあり、単一ライブラリの設定だけで完結しないこともあり、Selenium と比べて使いにくさを感じる部分も多かったです。 そこで、① インストールが容易(できればAzure Fuctions の従量課金でも動く)、② 認証ページの操作が可能、③ 要素取得が容易 なツールとして Playwright を使ってみることにしました。

          Playwright を使ってスクレイピング - スクリーンショットの取得法

          requests-html を使ってスクリーンショットを取る方法

          Selenium を使ってウェブページのスクリーンショットを取っていたが、ブラウザのインストールや設定が大変だったため、requests-html への切り替えを検討していた。 スクリーンショット取得方法下記のコードでスクリーンショットが取得できた。 import asynciofrom requests_html import HTMLSessiondef take_screenshot(url): # 目標のウェブページにアクセス session = HT

          requests-html を使ってスクリーンショットを取る方法

          法人番号の取得ライブラリを作りました

          日本の法人リストが作りたかったので、国税庁法人番号公表サイトから、全国もしくは特定都道府県を引数にデータを取得するライブラリを作成しました。 公官庁や数多くの法人情報サイトが、国内法人の情報提供を行っていますが、どこのサイトを見ても情報が不完全というか、ただ手の届く情報を集約して羅列しただけで、私のやりたい分析をする上では不完全だった、というのが今回のライブラリ作成のキッカケとなっています。 今回リリースしたバージョンでは、単純に国税庁法人番号公表サイトにあるZIPファイ

          法人番号の取得ライブラリを作りました

          競馬予想

          こんにちは、初めまして。New-Village と言います。 外資系IT企業でプリセールスのマネージャーをやっており、とあるドメインにおける統計を使った業務効率化、高度化のご提案をしています。仕事柄、お客様の業務分析や既存システムと新システムのFitGap、プロトタイプ作成の指示出しなどが中心となっており、分析の現場からは離れております。 分析やプログラミングが好きなんですが、触る機会も減っているので、コーディング欲の欲求不満を解消すべく趣味で分析システムを作ろうと思い立

          競馬予想