5 新しい変数（列）の作成：mutate

本章のポイント
- パッケージdplyrの関数mutate()
- 後の分析に使うために新しい変数の列を作成する
- 効率化のために非常に重要なacross()について学ぶ

5.1 使用データ

psychToolsパッケージに入っている国際パーソナリティ項目プールからの2800名分のデータ
- 名前が似ているpsychotoolsパッケージもあるので注意
- 質問項目が25問あり，5つの構成概念（ここでは因子という）に対応する項目への回答を足し合わせたスコアを計算する
- 性，教育歴，年齢の変数もあり
項目に対し想定される因子（因子名の頭文字が変数名と対応）
- Agree A1からA5
- Conscientious　 C1からC5
- Extraversion E1からE5
- Neuroticism　 N1からN5
- Openness　　 O1からO5
回答選択肢
- 1 Very Inaccurate まったくあてはまらない
- 2 Moderately Inaccurate あてはまらない
- 3 Slightly Inaccurate ややあてはまらない
- 4 Slightly Accurate ややあてはまる
- 5 Moderately Accurate あてはまる
- 6 Very Accurate 非常にあてはまる

# パッケージが入ってなければ下記の#を外して実行。
# install.packages("psychTools")


# まだtidyverseパッケージを読み込んでない場合は以下の#を外して実行
# library(tidyverse)

df_bfi <- 
  psychTools::bfi |> 
  as_tibble()         # 表示に便利なtibble形式に

5.2 基本

データフレームに新しい列を計算して追加するまたは置き換える関数
mutate()の中に新しく作成する変数名を入れ，=でつないで計算式を入れる
ここでは，まず変数A1の平均値（全ケース同じ値が入る）を計算し，個々のケースの値の差分を新しく列として追加する例を示す

df_bfi |> 
  select(A1) |>                      # A1のみを残す
  mutate(
    mean_a1 = mean(A1, na.rm = TRUE), # A1の平均値を作成（NAは除外）
    dif_a1_mean = A1 - mean_a1)       # 各個体のA1と平均値の差分を計算

## # A tibble: 2,800 × 3
##      A1 mean_a1 dif_a1_mean
##   <int>   <dbl>       <dbl>
## 1     2    2.41      -0.413
## 2     2    2.41      -0.413
## 3     5    2.41       2.59 
## # ℹ 2,797 more rows

mean_a1列にはA1の平均値がすべて同じ値で入る（平均値だけの計算がしたければ6章を参照）
dif_a1_mean列は，A1列からmean_a1列を引いた値が入る

5.2.1 新しく作成した列の位置を指定する

.before = 1と引数を指定することで,先頭に持ってこれる
- .after =とあわせて，列名を指定することで出現場所を指定できる

df_bfi |> 
  mutate(
    mean_a1 = mean(A1, na.rm = TRUE), # A1の平均値を作成（NAは除外）
    dif_a1_mean = A1 - mean_a1,
    .before = 1)

## # A tibble: 2,800 × 30
##   mean_a1 dif_a1_mean    A1    A2    A3    A4    A5    C1    C2
##     <dbl>       <dbl> <int> <int> <int> <int> <int> <int> <int>
## 1    2.41      -0.413     2     4     3     4     4     2     3
## 2    2.41      -0.413     2     4     5     2     5     5     4
## 3    2.41       2.59      5     4     5     4     4     4     5
## # ℹ 2,797 more rows
## # ℹ 21 more variables: C3 <int>, C4 <int>, C5 <int>, E1 <int>,
## #   E2 <int>, E3 <int>, E4 <int>, E5 <int>, N1 <int>, N2 <int>,
## #   N3 <int>, N4 <int>, N5 <int>, O1 <int>, O2 <int>, O3 <int>,
## #   O4 <int>, O5 <int>, gender <int>, education <int>, age <int>

引数.keep = "used"で作成に関係した列だけにする

df_bfi |> 
  mutate(
    mean_a1 = mean(A1, na.rm = TRUE), # A1の平均値を作成（NAは除外）
    dif_a1_mean = A1 - mean_a1,
    .keep = "used")

## # A tibble: 2,800 × 3
##      A1 mean_a1 dif_a1_mean
##   <int>   <dbl>       <dbl>
## 1     2    2.41      -0.413
## 2     2    2.41      -0.413
## 3     5    2.41       2.59 
## # ℹ 2,797 more rows

5.2.2 [練習問題]

df_bfiデータの変数A1とA2だけを選んで，A2からA1を引いた新しい変数”A2_1”を作成しよう

5.3 変数の型の変換

がんばらないデータ加工: Rによるくり返し作業入門前編

5 新しい変数（列）の作成：mutate

5.1 使用データ

5.2 基本

5.2.1 新しく作成した列の位置を指定する

5.2.2 [練習問題]

5.3 変数の型の変換

5.3.1 型の変換

5.3.2 【効率化】複数の変数に対し一度の指定で実行

5.3.3 [練習問題]

5.4 across()の特徴

5.4.1 【重要知識】新しい変数名にして追加

5.4.2 [練習問題]

5.5 合計点の作成

5.5.1 足し上げる変数に欠損値があるとどうなるか

5.6 変数の値を数値から文字列に変える

5.6.1 [練習問題]

5.7 連番からIDの作成

5.7.1 【別解】行の名前を直接変数化

5.8 逆転項目を作る

5.8.1 逆転：recode

5.8.1.1 逆転項目の確認

5.8.1.2 変数1つを逆転

5.8.1.3 変数2つ以上を逆転

5.8.1.4 【効率化】変数2つ以上を逆転

5.8.2 【別解】逆転（公式）

5.8.2.1 【効率化】変数2つ以上を逆転

5.8.3 【別解】逆転（case_when）

5.8.3.1 【効率化】変数2つ以上を逆転

5.8.4 [練習問題]

5.9 【別解】合計点の作成

5.9.1 【確認】

5.10 連続変数をカテゴリに区分する

5.10.1 分布の把握

5.10.2 数値変数の値で2区分のカテゴリ変数を作る

5.10.2.1 確認

5.10.2.2 【別解】確認

5.10.3 数値変数の値で3区分以上のカテゴリ変数を作る

5.10.4 [練習問題]

5 新しい変数（列）の作成：mutate

5.1 使用データ

5.2 基本

5.2.1 新しく作成した列の位置を指定する

5.2.2 [練習問題]

5.3 変数の型の変換

5.3.1 型の変換

5.3.2 【効率化】複数の変数に対し一度の指定で実行

5.3.3 [練習問題]

5.4 across()の特徴

5.4.1 【重要知識】新しい変数名にして追加

5.4.2 [練習問題]

5.5 合計点の作成

5.5.1 足し上げる変数に欠損値があるとどうなるか

5.6 変数の値を数値から文字列に変える

5.6.1 [練習問題]

5.7 連番からIDの作成

5.7.1 【別解】行の名前を直接変数化

5.8 逆転項目を作る

5.8.1 逆転：recode

5.8.1.1 逆転項目の確認

5.8.1.2 変数1つを逆転

5.8.1.3 変数2つ以上を逆転

5.8.1.4 【効率化】 変数2つ以上を逆転

5.8.2 【別解】逆転（公式）

5.8.2.1 【効率化】 変数2つ以上を逆転

5.8.3 【別解】逆転（case_when）

5.8.3.1 【効率化】 変数2つ以上を逆転

5.8.4 [練習問題]

5.9 【別解】合計点の作成

5.9.1 【確認】

5.10 連続変数をカテゴリに区分する

5.10.1 分布の把握

5.10.2 数値変数の値で2区分のカテゴリ変数を作る

5.10.2.1 確認

5.10.2.2 【別解】確認

5.10.3 数値変数の値で3区分以上のカテゴリ変数を作る

5.10.4 [練習問題]

5.8.1.4 【効率化】変数2つ以上を逆転

5.8.2.1 【効率化】変数2つ以上を逆転

5.8.3.1 【効率化】変数2つ以上を逆転