2008/06/21

テキストファイルに書かれたデータを読み込もう

カンマ区切りやタブ区切りといったテキストファイルに書かれたデータを読み込むことができればかなり分析のバリエーションが広がるでしょう.今回はこれを紹介します.

まずはカンマ区切りやタブ区切りといったテキストファイルを準備します.また一行目には変数名を書いてあることを前提にします.変数名はなくてもできますが,データを目的によって分析するためにもあることがわかりやすいためです.また,このファイルを作業ディレクトリに置きます.作業ディレクトリは getwd() 関数で表示することができます.ちなみに Windows 版 R だと,「ファイル」メニューの「作業ディレクトリの変更」でディレクトリ(フォルダ)を変更することも可能です.もちろん作業ディレクトリを意識せずにファイルを指定すれば読むこともできますが,日本語や空白入力になることもあるためここでは,作業ディレクトリにあることを前提とします.

作業ディレクトリにデータのテキストファイルを置くことができたら,R のコマンドで,sample<-read.table("ファイル名",header=T,sep=",")のように入力します(最初の sample はデータセット名になります.適当な名前を付けてください).header オプションは一行目に変数名があることを示します.0 だと一行目からデータとして読み込まれます.sep は区切り文字を指定します.タブ区切りの場合は,"\t" を入力しましょう.他にもコマンド等を避けるために何行目から読む込むことを指示する skip もある.

ただ完全に一行目の変数名等になっていたら,カンマ区切りは read.csv("ファイル名"),タブ区切りはread.delim("ファイル名") でも読み込み可能です.

データの計算するときは,mean(sample) などと入力すると使えます.mean(sample[1]) とすると 1 列目の平均値を出力します.mean(sampledata[2:3]) とすると 2, 3 列目を出力します.ちなみに変数名も同時に出力してくれるので,わかりやすいと思います.ちなみに変数名は表示されますが,オブジェクトとしては認識されていませんので(データセット全体として認識されています),変数を別途に認識させるか,データセット名[1] のように使います.ひょっとしたら良い方法があるかもしれないので,探してみます.

0 件のコメント: