クローリング

Beautiful Soupで日経平均の「昨日の終値」をスクレイピングしてみた

(1)まずはインストールから

pip3 install beautifulsoup4pip3 install requests

(2)スクレイピングするサイトを決める

今回はみんなの株式における「昨日の終値」を取ってくることにしましょう。

まずはスクレイピングしたいURLを定義します。

url='https://minkabu.jp/stock/100000018/daily_bar'r

もっとみる
星の数ほどある記事の中からご評価いただきありがとうございます!
1

クローラーエンジニアになるには?学習すべきことを解説

ビッグデータ・AIの台頭とともに、データ収集、活用の重要性が高まるようになりました。ビッグデータを収集するために、多くの企業は専門のクローラーエンジニアを採用しています。今回の記事では、「クローラーエンジニア」の仕事内容、学習すべきスキルについて解説したいと思います。

クローラーエンジニアとは?仕事内容は?

簡単に言えば、クローラーエンジニアはWebクローラーを開発するエンジニアです。以前紹介

もっとみる

Webスクレイピングに関する10のよくある誤解

世間ではWebスクレイピングに関する多くの誤解も見られるようになっています。特に多く見られる10の誤解として、以下が挙げられ、説明します。

1. Webスクレイピングは違法だ

「スクレイピングは違法だ」ということもよく耳にしたことがあり、実際のところはどうなんだろう?Webスクレイピングそのものは違法ではなく、データ分析を目的とし、新たに自社のデータベースとして活用する場合は違法とはなりません

もっとみる

競馬キュレーションサイトを作るよ!#4

前回、開催レース情報をnetkeibaから取得するよう変更し、調査し直しました。
今回はそれらを踏まえ、システム構成を決めてみます。
一般的なシステム開発でいうところの外部設計にあたる部分です。

スケジュール
1. 各メディアを調査
2. システム構成を決める←今ここ
3. 開発環境を作る
4. プロトタイプ作成
5. 実装
6. テスト
7. 公開

システム構成

ざっと決めた構成はこんなと

もっとみる
Vielen Dank

競馬キュレーションサイトを作るよ!#3

前回、開催レース情報と対象記事について調べ、どこから何のデータを取得するか決めました。
が、JRAのサイトをよくよく調べてみると、出走馬が公開されるのは金曜だと分かりました。
競馬メディアは1週間以上前から記事を出しています。
G1などの注目レースもっと前の2週間前からです。
こちらとしてもできるだけ早く開催レース情報を取得しておきたい。

というわけで、開催レース情報はJRAから取得するのをやめ

もっとみる
Grazie

競馬キュレーションサイトを作るよ!#2

まず最初に、
どこから何の情報を得るのか?
をこの段階で決めちゃいます。
一般的なシステム開発でいう要件定義ですね。

スケジュール
1. 各メディアを調査←今ここ
2. システム構成を決める
3. プロトタイプ作成
4. 実装
5. テスト
6. 公開

開催レース情報

競馬メディアをクローリングする前に、どのレースを対象にするか決めておく必要があります。
時期により開催する競馬場もレース名も

もっとみる
Vielen Dank

2019年スクレイピングツールトップ10

Webクローリング、またはWebデータ抽出とも呼ばれるWebスクレイピングは、単にWebサイトからデータを収集してローカルデータベースまたはスプレッドシートに保存するプロセスです。Webスクレイピングを初心者が聞いたら、遠ざけていく専門用語だと思われるかもしれないですが、実はあなたが思っている以上、実用しやすいものです。スクレイピングツールは、求人情報だけでなく、マーケティング、経済やeコマース、

もっとみる

PythonでニュースメディアやブログのRSSから特定の記事だけを一覧する方法【期間、文字列指定】

Pythonを使って、ニュースメディアやブログ、noteのRSSから、指定した期間内で特定の文字列が含まれる記事だけを収集して一覧する方法を紹介。いわゆるスクレイピング。

誰でもできる。Python超初心者の僕でもできた。

例えば、「日経新聞」に掲載された「昨日と今日」の記事のうち、記事タイトルと概要文に「Amazon」という文字列を含む記事を一覧できるようになる。

●RSSを発行しているニ

もっとみる
🥳
12

Webスクレイピングするなら何言語?Python、Ruby、またはJavaScript?

昨日、あるQ&Aサイトで「Webスクレイピングするなら何言語?Python、Ruby、またはJavaScript?」という質問を見ました。

確かに、Python、Ruby、JavaScriptなど、その言語でもスクレイピングはできますが、各方法のメリットデメリットがいまいちわからず選ぶのに困るでしょう。

というわけで、今日はそれぞれ、私なりの見解とおすすめの本を挙げておきます。

Python

もっとみる

GoogleスプレッドシートでWebからデータを取得する

Webサイトからデータを抜き出し、xls、csv、txt、xmlなどに変換するには、コピペが一番使われますよね。でも、データの量が多いなら、相当な労力を費やします。もしPythonなどのプログラミング技術があれば、Webスクレイピングでコピペを自動化でき、その仕事が楽になります。プログラミングの知識がないなら、コピペしかありませんか?そこで、Googleスプレッドシートを試してみてください。

G

もっとみる