見出し画像

[ R ] データファイルの冒頭 n 行を読み飛ばす

概要 Rでデータファイルを読み取る際,データファイルの頭にコメントなどが入っている場合があります。この記事では,データファイルの冒頭の読み込みたくない行を読み飛ばす方法をお伝えします。

Google Trendsは,Google 検索での検索クエリから,トレンドがどう変化しているかをグラフで見ることができます。

データは csv ファイルでダウンロードできます。統計やグラフの作成の勉強用のデータとしても使えて便利です。

R で Google Trends の出力する csv には注意する点が2点あります。

  1. 冒頭2行にデータの説明が書いてある

  2. データのラベルが日本語になっている

R を使う場合,データファイルの冒頭1行はラベルか,あるいは数値だと使い手は思っています。

また,ラベルは半角の文字列のほうが便利です。これはひとによると思いますが,全角の文字が含まれていると,R を使う際,半角と全角を切り替える作業が一つ増え,面倒です。

この記事では次の2点を行う方法を説明します。

  1. 冒頭2行にデータの説明が書いてある場合,読み飛ばす

  2. データのラベルが日本語になっている場合,半角に変更する

準備

  1. Google トレンドに行く

  2. 「坐禅」をキーワードに5年間の検索ボリュームの推移をみる

  3. データをダウンロードする

ターミナルでダウンロードしたファイルの中身をみてみます。

> head multiTimeline.csv 
カテゴリ: すべてのカテゴリ

週	坐禅: (日本)
2019-03-10	27
2019-03-17	0
2019-03-24	23	

ラベルの前に余計な2行があります。読み飛ばしましょう。

冒頭 n 行を読み飛ばす

data <- read.csv("~/Downloads/multiTimeline.csv", skip=2, header=TRUE)

引数に skip=2 とあります。これで2行,スキップ,読み飛ばすことを指定しています。

> head(data)
週 坐禅...日本.
1 2019-03-10 27
2 2019-03-17 0
3 2019-03-24 23

きちんと2行分,スキップされています。ラベルが日本語(全角)になっているので,半角にします。

ラベルを変更する

colnames を使って,以下のように変更することができます。

> colnames(data) <- c("week", "value")
> head(data)
week value
1 2019-03-10 27
2 2019-03-17 0
3 2019-03-24 23

半角になっていますね。これで,次のようにプロットすると,坐禅の検索ボリュームの推移の図が出力されます。

plot(as.Date(data$weak), data$value, type="l", xlab="時間", ylab="ボリューム")
図1. 「坐禅」の検索ボリュームの推移

おすすめの書籍

R のグラフィックスに関する書籍

R 言語に関する書籍

  • Garrett Grolemund (著)「RStudioではじめるRプログラミング入門」(オライリージャパン)

  • Hadley Wickham ・ Garrett Grolemund (著)「Rではじめるデータサイエンス」(オライリージャパン)

この記事が気に入ったらサポートをしてみませんか?