データクリーニングとは、回収されたデータを集計・分析する前に
誤りや抜け漏れのないデータへと処理する作業です。
不正回答を良しとする場合はデータクリーニングは不要ですし、
不正回答を良しとしない場合、データクリーニングを行います。
データクリーニングを行うことに対しては
推奨or非推奨とはっきり申し訳あげることはできませんが、
一般的には多少のクリーニングを行って集計・分析されてる方が多いです。
下記はデータクリーニングの項目例を記載しております。
データクリーニングの大まかな流れ
- テキストデータのローデータを、エクセル上で開く
- ファイル名を.xlsxに変更する(テキストデータのままだと1シートしか保存されない)
- 1行目にフィルターをつける(Windowsなら、Ctrl+Shift+L)
- 不正回答者のチェックを入れる(チェックしたら削除対象とする)
- 削除フラグのデータを消す
- サンプルカットを行う
1シート目:削除フラグを付けるシート
・B列に一行追加して、カラム名を【削除フラグとする】
・不正回答者のチェックをして、不正回答として判断する場合はB列にメモを残す
・b列は常に、空白セルのみ表示にしておくとやりやすい。
└1度削除フラグついた人を再表示させないため

不正回答としてチェックする項目例
- FA(自由記述)においての適当な回答
- ストレートチェック(任意の設問数において、全て同一の選択肢が選ばれた場合のこと)
- 回答矛盾(前問では、「購入意向あり」と回答したのに、次の自由記述設問で購入したくない理由を書いているなど)
- 調査対象者と違う人が回答していないか? (20~49歳対象の調査なのに、年齢聴取設問で69歳と回答している人など)
2シート目:削除フラグを削除するシート
1シート目をコピーして、削除フラグ人のがついた
行ごとデータを削除する
3シート目:サンプルカットをするシート
①2シート目をコピーして、サンプルカットを行う
②D列【SEX】とF列【GEN】を「&」で合体することで、性年代のカラムを作る
※十の位は【性別】、一の位は【年代】、数字ではなく、文字として認識ください。

③rand関数で、行ごとにシャッフルする
行単位でデータをごちゃまぜにすることで、恣意的なサンプルカットでは無くなります
「=rand()」とrand関数を入力後、並び替えます。
※その際、数式のまま並び替えを行うと、エクセルが重くなることが多いため、値張りを推奨します。
※列全体を選択後、「Ctrl+C」でコピーするようにする。
「Ctrl+Alt+V」で【値】を選択。


④G列【SEX&GEN】を昇順に並び替える
rand関数の行単位でごちゃまぜにした後に、行ってください。

⑤連番を振っていく
G列の数字が変わったら、また1からカウントする。
例)200行目を見ると、数字が「14」になったら
また1から数字をカウントしてくれる

⑥割付数をvlook関数で参照する


⑦【M列】割付が連番よりも小さい時は「1」
割付が連番よりも大きい時は「99」と表示
※99が、サンプルカット対象となる
└確認としてM列で「1」が3000sいれば、OK

4シート目:サンプルカット対象者を削除するシート
3シート目で「99」とついた人は、サンプルカット対象のため、
行単位で削除する
5シート目:無料集計ツール用に仕上げるシート
・自分で追加した列を削除する
└今回は分かりやすくするため自分で追加した列を色付けしている
└初めのうちは、自分で追加する列は色を付けたほうがやりやすい
・このシートをテキストデータ化して保存する