2012/02/02
R のデータの利用
R にも多数のサンプルデータが含まれています.もちろんコマンドでそれらのリストや読み込みができます.ただ慣れていないと忘れてしまいそうですので,こういうときは Rcmdr を使いましょう.
まずさっと使えるデータのリストを確認しましょう.いつもの通り,Rcmdr を起動します.
次に「データ」>「パッケージ内のデータ」>「パッケージ内のデータセットの表示」を選びます.するとデータのリストが別ウィンドーで表示されます.それぞれ含まれるパッケージとデータセット名,および簡単なデータの概要を確認することができます.スクリプトウィンドウを見ますと「data()」と書かれていますので,このコマンドで実行されることもわかります.
実際にデータセットの読み込み(インポート)は,「データ」>「パッケージ内のデータ」>「アタッチされたパッケージからデータセットを読み込む…」を選びます.
“パッケージからデータを読み込む”ダイアログがでますので,該当するパッケージとデータセット名をダブルクリックで選び,「OK」をクリックします.これで読み込まれていますので,確認のために「データセットを表示」をクリックしてデータを見ることができます.
自分でデータを入力することが多いと思いますが,このようなデータで R の練習もありでしょうね.
2012/01/26
R での二項分布の確率表示
R では二項分布に関する関数がいくつかありますが,Rcmdr を使うとメニューから選べます.
「分布」>「離散分布」>「2項分布」には裾の確率を求めたり,確率のリストを求めたり,確率のグラフを書いたりできるメニューがあります.
裾の確率は成功数(出現数?)の下側確率で求めていますので,上側確率を求めるときはオプションで変更できますが,注意しましょう.一つイメージとずれるかもしれません.
上記のことを確認する意味で確率のリストを出して,Excel に貼り付けても確認できます.スペース区切りで出力されるので,Excel では,「データ」リボンの「データツール」のグループの「区切り位置」ボタンで使いやすくなります.
確率を描画する場合は,形がみえる部分(確率が 0 に近いところは非表示)になるため,必要に応じて調整しましょう.
Rcmdr 全般で言えますが,一度メニューから一度出力し,その後,スクリプトウィンドウに書かれたコマンドをいじるとスマートにできると思います.今回は,最初に書かれる「.x <- **:**」の部分をいじれば表示される区間を変えられます.
ちなみに教科書で書かれるような事象(さいころなど)の確率の場合,1/6 のように分数で書きたいのですが,式表現は Rcmdr の入力フォームでは使いづらいので,こういう場合には上記の”書き直し”の方法が使いやすいと思います.グラフの表示文言も書き直せます.
「分布」>「離散分布」>「2項分布」には裾の確率を求めたり,確率のリストを求めたり,確率のグラフを書いたりできるメニューがあります.
裾の確率は成功数(出現数?)の下側確率で求めていますので,上側確率を求めるときはオプションで変更できますが,注意しましょう.一つイメージとずれるかもしれません.
上記のことを確認する意味で確率のリストを出して,Excel に貼り付けても確認できます.スペース区切りで出力されるので,Excel では,「データ」リボンの「データツール」のグループの「区切り位置」ボタンで使いやすくなります.
確率を描画する場合は,形がみえる部分(確率が 0 に近いところは非表示)になるため,必要に応じて調整しましょう.
Rcmdr 全般で言えますが,一度メニューから一度出力し,その後,スクリプトウィンドウに書かれたコマンドをいじるとスマートにできると思います.今回は,最初に書かれる「.x <- **:**」の部分をいじれば表示される区間を変えられます.
ちなみに教科書で書かれるような事象(さいころなど)の確率の場合,1/6 のように分数で書きたいのですが,式表現は Rcmdr の入力フォームでは使いづらいので,こういう場合には上記の”書き直し”の方法が使いやすいと思います.グラフの表示文言も書き直せます.
2011/12/30
クロス集計データの独立性の検定
クロス集計をすでにしたデータの独立性の検定を Rcmdr でするときは,「統計量」>「分割表」>「2元表の入力と分析」を使うとできます.
行数と列数も変更でき,ここで項目名も入力できます.またパーセントも出せます.オプションとしては,フィッシャーの正確検定(正確確率検定?,Exact test?)やそれぞれの要素の検定もできる(と思います).
行数と列数も変更でき,ここで項目名も入力できます.またパーセントも出せます.オプションとしては,フィッシャーの正確検定(正確確率検定?,Exact test?)やそれぞれの要素の検定もできる(と思います).
2011/11/25
2011/11/19
R および Rcmdr での欠測値を含めるデータの扱いの覚書
R および Rcmdr でのデータの要約値を求める方法の覚書です.詳しくは書籍等を参照してください.
Excel 等でデータを入力してから R および Rcmdr でデータを読み込むことをこれまで紹介してきましたが,欠測値を NA で入力するよりは,使っていないコード番号や「-」など一つの半角文字で入力したほうがしやすいでしょう.この場合,欠測値の記号を「-」で設定するともちろん可能です.
R および Rcmdr でのデータの要約値を求める方法の覚書
R および Rcmdr でのデータの要約値を求める方法の覚書です.詳しくは書籍等を参照してください.
- Excel を起動,データを入力.この場合,変数名を入力し,欠測値は NA と表記.桁数のカンマは使わない方が Rcmdr での読み込みで無難.
- データの範囲をコピー.
- R および Rcmdr を起動.
- 「データ」>「データのインポート」>「テキストファイルまたはクリップボード,URL から…」を選択.
- 欠測値の記号は「NA」のまま,データファイルの場所は「クリップボード」,フィールドの区切り記号「タブ」で「OK」をクリック.
- 「データ」>「アクティブデータセット内の変数の整理」>「数値変数を因子変換」を選択.
- “変数”で変換したい 1 つまたは複数の変数を選択し,“因子水準”ではコードを言葉に変えたいときは「水準名を指定」を選び,数値のままにする場合は「数値で」を選び,また新しい変数を作る場合は,“新しい変数名または複数の変数に対する接頭文字列”で新しい変数名を入力して「OK」をクリック.複数の変数を選んだ場合は,入力した名称が接頭語になる.この場合,複数の変数であっても同じコードで同じ言葉になるため注意が必要.
- 水準名を指定をえらんだときは,対応する言葉を入力.
- 「統計量」>「要約」>「アクティブデータセット」を選択.
R および Rcmdr での 2 標本の母平均の差の検定の覚書
R および Rcmdr での 2 標本の母平均の差の検定の覚書です.詳しくは書籍等を参照してください.
- Excel を起動,データを入力.この場合,変数名を入力し,欠測値は NA と表記.桁数のカンマは使わない方が Rcmdr での読み込みで無難.
- データの範囲をコピー.
- R および Rcmdr を起動.
- 「データ」>「データのインポート」>「テキストファイルまたはクリップボード,URL から…」を選択.
- 欠測値の記号は「NA」のまま,データファイルの場所は「クリップボード」,フィールドの区切り記号「タブ」で「OK」をクリック.
- 「データ」>「アクティブデータセット内の変数の整理」>「数値変数を因子変換」を選択.
- “変数”で変換したい 1 つまたは複数の変数を選択し,“因子水準”ではコードを言葉に変えたいときは「水準名を指定」を選び,数値のままにする場合は「数値で」を選び,また新しい変数を作る場合は,“新しい変数名または複数の変数に対する接頭文字列”で新しい変数名を入力して「OK」をクリック.複数の変数を選んだ場合は,入力した名称が接頭語になる.この場合,複数の変数であっても同じコードで同じ言葉になるため注意が必要.
- 水準名を指定をえらんだときは,対応する言葉を入力.
- 「統計量」>「平均」>「独立サンプル t 検定」を選択.
- “グループ”では水準の変数を選び,“目的変数”では比較したい変数を選び,“対立仮説”では検定方式(両側,片側(差 <0,差 >0)),“信頼水準”では 1 - 有意水準の値として 5% なら 0.95,“等分散と考えますか?”では等分散を仮定するか否かを考え,選択し,「OK」をクリックする.
以上で,t 値,自由度(df),p 値,各水準の平均等が求められ,95% 信頼区間等も表示される.
登録:
投稿 (Atom)