2009/11/28

ファイルを読み込ませるための作業フォルダ

ファイルを読み込ませるためには作業フォルダを知る必要があるのですが,しばらく使っていないと忘れてしまうし,また C ドライブの直下だとアクセスしづらいので,困りますね.

毎回メニューから作業ディレクトリを設定しまう….

R で階層的クラスター分析

R で階層的クラスター分析をする場合は,とりあえず生データの場合は,以下のように距離行列を求めます.

dist(sampledata) とするとユークリッド距離で,dist(sampledata)^2 となると平方ユークリッド距離が求まります.他の距離もあります.

この距離行列を用いて,階層的クラスター分析をする場合は,次のように入力します.距離と一緒に求めることもできます.

hres<-hclust(dist(sampledata[2:4])^2,"ward")

ちなみに最初の hres の部分は結果をこの変数に入れておく意味です.なくても大丈夫ですが,結果を見る際にこうしておくと楽かもしれません.また,上のデータの書き方をすると特定の変数のみ(2 列目から 4 列目のみ)を使って距離を求めることになります.

後ろの引数の "ward" は Ward 法の意味です.もちろん最短距離法,最大距離法,群平均法など有名どころは利用できます.

このあとに以下の方法をするといろいろと結果を得ることができます.

plot(hres):樹形図を表示できます.R のグラフはすべて画像として保存できます(メニューからまたは右クリックで可能).

cutree(hres,k):クラスター数を k としたときの各対象の所属グループ番号を表示.

2009/11/17

データセットの列の統計量の求め方

データセット(R では言い方がいろいろあるのでこの言い方があっているのかは自信がありません)でデータを与えているなら,R Console 上で,データセット名でデータ内のそれぞれの列の統計量や [m] を使って特定の変数の統計量を求めることができます.

例えば sampledata とデータセットを定義したら,平均値を求める場合は,mean(sampledata) とすると各変数のそれぞれの変数を求めることができます.ただし名義尺度などの場合は求められないと NA が出力されます.また mean(sampledata[3]) とすると 3 列目のみの平均値が求められます.

データの入力と編集 2

以前紹介した「データの入力と編集」が分かりづらかったので,もう少し具体的に紹介します.ここでは Windows での R 環境として紹介します.


  1. 調査・実験データを Excel に長方形データフォーマットで入力.変数名を 1 行目に入力しておくこと.


  2. Excel で「オフィスボタン」>「名前を付けて保存」>「その他の形式」を選択.ファイルの種類で「CSV(カンマ区切り)」を選択.「保存」をクリック.ファイル名は仮に "sampledata" とする.互換性のない機能が含まれることに関するメッセージがでるので,「はい」をクリック.Excel の画面を閉じる.保存のダイアログがでるので,「いいえ」をクリック.


  3. R を起動して,R Console で,「ファイル」>「ディレクトリの変更」を選択し,さっきのファイルの保存フォルダを選択.これで作業フォルダを選択することになる.


  4. R Console で「sampledata<-read.csv("sampleset.csv",header=T)」とすると一行目を変数名として取り込み,残りをデータとして R にデータセット名 "sampledata" として取り込める.ためしに "sampledata" と入力するとデータの内容を表示する.


  5. R Console で,sampledata や sampledata[m] の表現でデータ全体や m 列目の統計量を求めることが可能.例えば平均値を求める場合,mean(sampledata) とすると各列の平均値を出力し(名義尺度の変数の場合は NA とでる),mean(sampledata[3]) とすると 3 列目の平均値のみが表示される.


  6. 結果はテキストで R Console に出力されるので,必要に応じてコピーして他のソフトにペーストする.グラフの場合は,メニューからファイル保存も可能.



参考までに.