R には多数のグラフ機能がありますが,とりあえず 2 変量のデータの分布を確認する際に利用する散布図を書いてみましょう.
この前のデータセットを利用してもできるのですが,軸に変数名の表示をしたいこともありますので,とりあえず height<-sampledata[[2]] などと列の値を改めて変数に入れておきます(もっと楽な方法を探しています)※この意味だとデータセットの前に変数の概念を紹介したほうが良いか….
これにより,height と weight の変数を作ります.これで plot(height,weight) とすると散布図が表示されます.ちなみに plot 関数で引数を一つだけにすると横軸(x 軸)に対象番号(index),縦軸(y 軸)にその変数の値で散布図を書きます.xlim=c(下限,上限)で,横軸(x 軸)の表示範囲を指定できます.同様に ylim で縦軸(y 軸)の表示範囲を指定できます.
また,1 変量のデータの分布を確認するボックスプロット(箱ひげ図)は boxplot 関数で利用できます.boxplot(変数名) で表示できます.ちなみにオプションで,horizontal=F とすると縦向き,T なら横向きに箱を表示します.なお,引数にデータ名を続けて書くと,複数のボックスを書くことになります.ちなみに所属グループの列が対応して入力していたら,変数名~属性変数名とすることで,属性ごとの箱を同時作図してくれます.外れ値の設定などもできるようです.
hist 関数を使うとヒストグラムも書けます.単純に hist(変数名) とすると変数の度数によるヒストグラムを作成してくれます.このとき breaks = seq(下限,上限,階級の幅)で指定するとそれに従ったヒストグラムを書いてくれます.
これらの分布を知るグラフを利用することはデータ分析の基本ですね.使いこなしましょう.
0 件のコメント:
コメントを投稿