はじめに
- 本webサイトは,技術書典12にて頒布したがんばらないデータ加工 Rによるくり返し作業入門 前編のオンラインバージョン
- こちらは随時updateされていく予定
概要
- 本書の目的
- データ加工での面倒な作業をRとRStudioで手軽に実行できるようになるための基礎知識を紹介
- 本書の内容
- Rのモダンな方法を使い,データ加工の過程(例:前処理、データクリーニング、データクレンジング、データラングリングなど)で用いる基本関数の紹介
- 実際は核心の部分に入る前の準備段階までにとどまる。タイトルに「前編」とあるのはその理由による
- 基本的にデータフレーム(1.6参照)の形になったきれいな構造を想定しているが,ここで解説した技術に熟達することで,その他のデータ形式や汚いデータ構造にも立ち向かえるようになる
- 執筆動機
- 本書を書こうと思ったのは拙既刊書『Rで読むExcelファイル』と同じく,「RとRStudioを使いたい!と思う人がもっと増えればいいのに」という願いから
- 今後の展望
- よりタイトルの内容に沿った次回作の「後編」(もしかしたら「中編」も)をお楽しみに!
- 本書の内容は、githubレポジトリですべて公開
本書の特徴
- タイトルの「がんばらない」とは,単純作業のくり返しに無駄なエネルギーを注がなくてよいように,なるべく人力に頼らないようにすること
- 扱う内容は自分が学び始めの時に教えてもらいたかったことが中心
- これまでの解説で不足していると考えられるポイント
- 便利な関数や基本的な使い方の解説は多いが,データ加工の実務上知りたいコード例が豊富なわけではない
- 同じ作業を大量の変数についてくり返し実行したい時のやり方の解説は少ない
- 本書の強み
- くり返し同じ作業する部分を効率化したコードを併せて解説する点
- 自分の学習経験から,そのコード例が知りたかったんだ!という実用的な方法を整理
- まずモダンなRのデータ加工法での基本の書き方を解説した後に,【効率化】でより効率的にコードを書く解説を行う
- 【効率化】のタグが本書では特に重要になる。手作業のくり返しをなるべく避けることが目指すべき点
- 冗長だが【別解】を示すことで様々な関数の働きを理解でき,手持ちの武器が増えデータ加工の幅が広がる
想定読者
- RとRStudioをダウンロードしてPCにインストールまでできることが最低条件
- web上に様々な解説があり,あとは基本的にOKしていけばできるはず
- 例えば公的には総務省の資料などがある1
- Windows10だとインストール時にうまくいかないことがあり,自分もくじけそうになったことがあったが,それは乗り越えてしまうと戻りたくないので今回は解説あきらめた
- どうしてもインストールできなかったら,ブラウザから実行可能なPosit Cloud(旧:RStudio Cloud)を使って練習できる(ただし無料版は時間制限があるらしい)
- 初学者から始めてちょっと背伸びできるくらいまでが到達目標
各章の紹介
まず1章では、RとRStudioに初めて触れる方,初学者を対象とした前提知識を解説する。ゆくゆく楽をするためには避けて通れない知識なので,用語になじんでおきたい
2章はデータの列(変数)2を選ぶ方法を解説する。データをコンパクトにしたり,後のデータ解析等で必要な変数を取得したりするなど,データ加工プロセス全体で必要な基本知識もあるので最初に学んでおきたい
3章はデータの列名(変数名)を変える方法について解説する。単純に見えるがデータ加工の際になくてはならない技術である。効率化させるためには初心者から少し脱する必要があり,奥が深い
4章はデータの行(ケースまたはオブザベーション)を選ぶ方法を解説する。データや加工した結果,分析した結果をコンパクトにするのに役立つ
5章はデータに新しい列を追加する方法について解説する。例えば合計点の作成や,年齢層カテゴリや2区分変数(いわゆるダミー変数)の作成など,変数を計算して新しい変数を作る作業はよく発生する。効率化のために避けて通れない
across()
についてもここで解説する6章は要約値の計算について解説する。実務では大量の変数を一気に処理する必要がある場面が多いので,効率化を意識した説明を多く入れている
執筆環境
- 本書はbookdownにて執筆
- 表紙のタイトルは「あずきフォントB」v1.20を使用
RおよびRStudio、パッケージのバージョン
- Rのバージョン
## # A tibble: 4 × 2
## ind values
## <chr> <chr>
## 1 version R version 4.3.0 (2023-04-21 ucrt)
## 2 os Windows 10 x64 (build 19045)
## 3 system x86_64, mingw32
## 4 date 2023-07-06
## # A tibble: 2 × 2
## package loadedversion
## <chr> <chr>
## 1 bookdown 0.34
## 2 tidyverse 2.0.0
- RStudioのバージョン
- ‘2022.2.1.461’(手動で記入)
ライセンス
- 本webサイトは CC BY-SA 4.0
- 引用例:やわらかクジラ(2021)『がんばらないデータ加工 Rによるくり返し作業入門 前編』. (サークル名:ヤサイゼリー), オンライン版:https://izunyan.github.io/gisho12/
- ただし,ライセンスの適用は本書での著作部分のみとなり,用いているデータやパッケージや画像などはそれぞれのライセンスに準じる
関連情報
-
『Rで読むExcelファイル』
- 技術書典9で頒布したRでのExcelおよびcsvファイル読み込み解説本
- githubレポジトリ
-
ggplot2の辞書
- 視覚化のための
ggplot2
パッケージの辞書的メモ
- 視覚化のための