2011/12/30

クロス集計データの独立性の検定

クロス集計をすでにしたデータの独立性の検定を Rcmdr でするときは,「統計量」>「分割表」>「2元表の入力と分析」を使うとできます.

行数と列数も変更でき,ここで項目名も入力できます.またパーセントも出せます.オプションとしては,フィッシャーの正確検定(正確確率検定?,Exact test?)やそれぞれの要素の検定もできる(と思います).

2011/11/25

R での歪度と尖度

備忘録です.

R で歪度と尖度を使うときには,パッケージを読むことで関数を呼び出せるらしい.skewness と kurtosis がパッケージ e1071 にあるらしい.それ以外は通常の数式で求めるしかないみたい.

どこかで調べてみます.

2011/11/19

R および Rcmdr での欠測値を含めるデータの扱いの覚書


R および Rcmdr でのデータの要約値を求める方法の覚書です.詳しくは書籍等を参照してください.

Excel 等でデータを入力してから R および Rcmdr でデータを読み込むことをこれまで紹介してきましたが,欠測値を NA で入力するよりは,使っていないコード番号や「-」など一つの半角文字で入力したほうがしやすいでしょう.この場合,欠測値の記号を「-」で設定するともちろん可能です.

R および Rcmdr でのデータの要約値を求める方法の覚書

R および Rcmdr でのデータの要約値を求める方法の覚書です.詳しくは書籍等を参照してください.

  1. Excel を起動,データを入力.この場合,変数名を入力し,欠測値は NA と表記.桁数のカンマは使わない方が Rcmdr での読み込みで無難.
  2. データの範囲をコピー.
  3. R および Rcmdr を起動.
  4. 「データ」>「データのインポート」>「テキストファイルまたはクリップボード,URL から…」を選択.
  5. 欠測値の記号は「NA」のまま,データファイルの場所は「クリップボード」,フィールドの区切り記号「タブ」で「OK」をクリック.
  6. 「データ」>「アクティブデータセット内の変数の整理」>「数値変数を因子変換」を選択.
  7. “変数”で変換したい 1 つまたは複数の変数を選択し,“因子水準”ではコードを言葉に変えたいときは「水準名を指定」を選び,数値のままにする場合は「数値で」を選び,また新しい変数を作る場合は,“新しい変数名または複数の変数に対する接頭文字列”で新しい変数名を入力して「OK」をクリック.複数の変数を選んだ場合は,入力した名称が接頭語になる.この場合,複数の変数であっても同じコードで同じ言葉になるため注意が必要.
  8. 水準名を指定をえらんだときは,対応する言葉を入力.
  9. 「統計量」>「要約」>「アクティブデータセット」を選択.
以上で,数値の場合は 5 点要約,水準の場合は度数分布表が表示される.これを利用することで,R が変数をそれぞれの変数を現状でどの尺度で考えているかも確認することができる.

R および Rcmdr での 2 標本の母平均の差の検定の覚書


R および Rcmdr での 2 標本の母平均の差の検定の覚書です.詳しくは書籍等を参照してください.


  1. Excel を起動,データを入力.この場合,変数名を入力し,欠測値は NA と表記.桁数のカンマは使わない方が Rcmdr での読み込みで無難.
  2. データの範囲をコピー.
  3. R および Rcmdr を起動.
  4. 「データ」>「データのインポート」>「テキストファイルまたはクリップボード,URL から…」を選択.
  5. 欠測値の記号は「NA」のまま,データファイルの場所は「クリップボード」,フィールドの区切り記号「タブ」で「OK」をクリック.
  6. 「データ」>「アクティブデータセット内の変数の整理」>「数値変数を因子変換」を選択.
  7. “変数”で変換したい 1 つまたは複数の変数を選択し,“因子水準”ではコードを言葉に変えたいときは「水準名を指定」を選び,数値のままにする場合は「数値で」を選び,また新しい変数を作る場合は,“新しい変数名または複数の変数に対する接頭文字列”で新しい変数名を入力して「OK」をクリック.複数の変数を選んだ場合は,入力した名称が接頭語になる.この場合,複数の変数であっても同じコードで同じ言葉になるため注意が必要.
  8. 水準名を指定をえらんだときは,対応する言葉を入力.
  9. 「統計量」>「平均」>「独立サンプル t 検定」を選択.
  10. “グループ”では水準の変数を選び,“目的変数”では比較したい変数を選び,“対立仮説”では検定方式(両側,片側(差 <0,差 >0)),“信頼水準”では 1 - 有意水準の値として 5% なら 0.95,“等分散と考えますか?”では等分散を仮定するか否かを考え,選択し,「OK」をクリックする.

以上で,t 値,自由度(df),p 値,各水準の平均等が求められ,95% 信頼区間等も表示される.

R および Rcmdr でのクロス集計および独立性の検定の覚書


R および Rcmdr でのクロス集計および独立性の検定の覚書です.詳しくは書籍等を参照してください.


  1. Excel を起動,データを入力.この場合,変数名を入力し,欠測値は NA と表記.桁数のカンマは使わない方が Rcmdr での読み込みで無難.
  2. データの範囲をコピー.
  3. R および Rcmdr を起動.
  4. 「データ」>「データのインポート」>「テキストファイルまたはクリップボード,URL から…」を選択.
  5. 欠測値の記号は「NA」のまま,データファイルの場所は「クリップボード」,フィールドの区切り記号「タブ」で「OK」をクリック.
  6. 「データ」>「アクティブデータセット内の変数の整理」>「数値変数を因子変換」を選択.
  7. “変数”で変換したい 1 つまたは複数の変数を選択し,“因子水準”ではコードを言葉に変えたいときは「水準名を指定」を選び,数値のままにする場合は「数値で」を選び,また新しい変数を作る場合は,“新しい変数名または複数の変数に対する接頭文字列”で新しい変数名を入力して「OK」をクリック.複数の変数を選んだ場合は,入力した名称が接頭語になる.この場合,複数の変数であっても同じコードで同じ言葉になるため注意が必要.
  8. 水準名を指定をえらんだときは,対応する言葉を入力.
  9. 「統計量」>「分割表」>「2元表」を選択.
  10. “行の変数”“列の変数”をそれぞれ選び,必要に応じて,“パーセントの計算”,“仮説検定”のオプションにチェックし,「OK」をクリック.※“部分集合の表現”は分からなかった.“パーセントの計算”では,属性を考えたい変数のパーセントを,“仮説検定”では“独立性のカイ2乗検定”と“期待度数の表示”を選ぶことを紹介したい.
以上で,クロス集計表,パーセント表示のクロス集計表,Pearson のカイ二乗検定(独立性の検定)のカイ二乗値,自由度(df),p 値が求められ,加えてチェックを入れた数値等も表示される.

2011/07/21

TeachingDemos を使ってみる

R には統計教育のパッケージもあるとある先生から聞いていましたが,TeachingDemos もその一つのようです.

見てみると中心極限定理や顔型グラフなどの表示などできそうです.マニュアルもありますので,今後使ってみたいと思います.

とりあえず見つけたのは以下の CRAN のサイトです.

http://cran.r-project.org/web/packages/TeachingDemos/index.html

2011/07/16

Rcmdr で水準の指定

Rcmdr で年度別のデータを比較する際,変数名が数値だと水準に見てもらえないときがあるのので,変更します.変更するときはデータのところで変数の変換的なものがあります.今度またよく見ておきます….

ちなみに変数名は英数字が最初にないといけないため,単純に「2000 年」とかにはできないみたいですね….