見出し画像

対象に応じた方法/方法に応じた対象

統計の提出課題

養成講座の動画教材を一通り視聴し終えたところ。課題を提出しなくてはならない。データセットを探すのに少々苦労している。

統計解析をするとき、対象となるデータ集団に適した統計手法を選択するのが実務だが、講師からの指示では、t検定に適したデータセットを選んで統計学的評価をするように、という課題となっていて、t検定に適したデータセットを見つけることに悩んでいる。これ、って不自然では?と思いつつ、t検定の理解を深めるために仕方がないのだと思いなおして、どうやって探したらよいのか、申し込んだばかりの課金版のChatGPT-4に質問してみたところ、以下の回答だった:

t検定に適したデータセットを探す際に利用できるサイトはいくつかあります。以下に、信頼できるデータのソースを挙げます:

  1. UCI Machine Learning Repository: 様々な分野からのデータセットが公開されており、統計的分析や機械学習の研究に広く用いられています。

  2. Kaggle: Kaggleはデータサイエンスのコンペティションプラットフォームであり、多くのデータセットが無料で公開されています。ユーザーが生成したデータセットも含まれており、実際の研究やプロジェクトに利用できます。

  3. Google Dataset Search: Googleが提供するデータセット検索ツールで、インターネット上の公開データセットを検索できます。様々な分野のデータが簡単に探せます。

  4. 政府や公的機関のデータベース:

    • 米国政府のデータポータル (Data.gov): アメリカ政府が提供する公開データを集めたポータルで、健康、教育、経済など多岐にわたるデータがあります。

    • 日本の政府統計の総合窓口 (e-Stat): 日本政府が提供する統計データを扱う公式サイトで、人口統計から経済指標まで幅広いデータが入手可能です。

  5. 学術機関や大学のリポジトリ:

    • 多くの大学や研究機関が研究で使用したデータセットを公開しており、特定の研究テーマに関連するデータを見つけることができます。

これらのリソースを通じて、様々な条件に適したデータセットを見つけることができます。データセットを選ぶ際には、そのデータがどのように収集され、どのような前処理が施されているかを確認することも重要です。

(逆引きやるの、実際と違うんじゃない?などと人間のように不満も言わずにサラサラ、っと回答してくれる。おかしいと思わずに従順に答えてくれるのが却って違和感だったが、、、)

いろいろなデータセット

政府の統計局のWebや、Google Dataset Search:をみると、いろいろなデータセットがあって、目的を持って適切に「料理」されるのを待っている。リサーチ・クエスチョンが重要、という理由を、逆引き・順引きをイメージして改めて腹落ちした。なるほど。こういうデータセットからメッセージを伝えられるようになる、というゴールを改めて意識した。先は長いような気もする、、、けれど、やるしかない。

忍耐、というよりは楽しまないと。

課題図書の抜き書き

人生の方向性が定まっていれば、目的地に到着するまでに少しくらい 困っ たことがあっても、たやすく我慢できるはずで ある。

ナポレオン・ヒル. 私たちはできていないが、成功者はやっている52のこと (Kindle の位置No.590-591). KIKOSHOBO. Kindle 版.


この記事が気に入ったらサポートをしてみませんか?