記事一覧
怪しいデータを見逃すな!2
大きな病院の外来は土日や祝日は閉まってますよね。
それにも関わらず、これらの日付の検査日があるのは怪しいです。
今日使うデータはこちらです。
vsdat(日付型)が祝日かどうか、あるいは土日かどうかを検出します。
日本の祝日まずは日本の祝日を取得してみましょう。
日本の祝日はjpholidayライブラリで取ることができます。
import jpholidayyear = 2024# 202
怪しいデータを見逃すな!
データの仕事をしていると、時々
「このデータ怪しいんじゃない?」
という場面に遭遇します。
あまりにも似たデータがあるような場合です。
例えば、Day3とDay4のデータは完全に一致しています。
本当に一緒なのか、入力間違いなのか、あるいはわざとなのか・・・
こういうデータは検出して確認したいものです。
文字列の類似性をみる文字列の一致性をみるには、ゲシュタルトパターンマッチングという方法を
Python始めよう
いろんなプログラム言語を勉強してみたけど、結局定着したのはある統計解析ソフトとSQLだけでした。これらは仕事で必須だから当然といえば当然ですが・・・
そう、プログラミングの習得自体が目的になってしまってたのです。
そこで発想を逆に変えました。
これらには期限があるので、必死に調べて作り上げる必要があります。このように目的を明確にすることで、一気に習得度が高まりました。
Pythonといえば、機
PythonでPath操作(pathlib)
PythonでPath情報やファイル名を取ったり、名前を変えたりするのっていろんな方法があります。そんな時に、pathlibというのが結構便利だったりします。
このようなフォルダ構成を題材にします。
基本(パスの登録)
Path("パス名")とするとPathが登録されます。
from pathlib import Pathdir=Path(r"C:\Word_PDF\docs")print(
オンライン診療は増えたのか?
ビジネス戦略を立てるうえで、データの利活用が今後ますます重要になってきます。近年、各国政府が多くのオープンデータを公開しています。
今回は、厚生労働省の保険点数オープンデータから、2019年に保険適用となったオンライン診療の動向を見てみます。
いきなり結果から出します。
保険点数からみると、コロナが蔓延し始めた2020年にオンライン診療が急増しています。
面白いのは男女比です。年を追うごとに女
テキストマイニングの前処理まとめ
これまでやってきたテキストマイニングの前処理のまとめをします。
基本これまでの記事を1つの記事にまとめただけなので新しいことはあまりありません。
題材はツイッターのリツイートです。
サンプルをChat GPTで作りました。サンプルづくりにChat GPTは本当に便利です。
こんな感じです。
必要なパッケージのimportとデータフレーム作成import pandas as pd #データフレ
Chat GPTに聞いてみた(戦争を無くす方法)
Chat GPTに戦争を無くす方法を聞いてみました。
もっと具体的にできるでしょうか。
もっと突っ込んでみましょう。
ツッコミが続きます。
それができなさそうな時の解決策は?
会話は続きます。
さらに突っ込みます。本質は見えてくるでしょうか。
国際社会が一体になっていないことが問題だと思うのでそこを解決するには・・・
なにか突破口は見えてくるか?がんばれ世界の叡智!
なるほど、自
StemmingとLemmatization
テキストマイニングする前の処理として、これまで正規化、トークン化を行ってきました。この2つで文章をデータ化はできているのですが、このまま分析するにはまだ問題があります。例えば、
のような単語はほぼ同じような意味合いで使われていますが、このままでは別々のものとして扱われてしまいます。これを解決する方法としてstemmingとlemmatizationという2つの方法があります。
ざっくり言うとs
Pythonでトークン化
私はいままでテキストマイニングにはKH Coderを使っていたのですが、スピードと自由度を求めてPythonを使うことにしました。特にこのトークン化はPythonのほうがやりやすいです。
今回はこの文をトークン化していきます。
トークン化テキストマイニングの前処理として、前回の正規化に加え、トークン化を行います。英語ではTokenizationと言います。
これは、長い文を単語などの単位に分割
Pythonで正規表現
正規表現を制するものはPythonを制する、とまではいかないですが、奥の深い正規表現を扱ってみます。
一覧は、こちらのQiitaの中にある表がとても分かりやすかったです。
X(twitter)データの加工まずは、この文字列をテキストマイニングできるように加工していきましょう。
処理の概要は、こんな感じです。
・余分な文字列を取り除く
・ユーザIDはUsernameに置き換える
・😀(感情
Pythonでワードクラウド
ちょっとテキストマイニングのまねごとをしてみます。
サンプルデータはこのようなものです。
病名がリスト化されたシンプルなテキストファイルです。
まずはこれをデータフレーム化します。このテキストにはHeaderがないのでヘッダーも指定してデータフレームを作成します。
import pandas as pdheaders = ['AE_Name']df = pd.read_table('Adve