TOPアンケート回収・結果データクリーニングの一例
最終更新日 : 2020/09/16

データクリーニングの一例

データクリーニングとは、回収されたデータを集計・分析する前に
誤りや抜け漏れのないデータへと処理する作業です。

不正回答を良しとする場合はデータクリーニングは不要ですし、
不正回答を良しとしない場合、データクリーニングを行います。

データクリーニングを行うことに対しては
推奨or非推奨とはっきり申し訳あげることはできませんが、
一般的には多少のクリーニングを行って集計・分析されてる方が多いです。

下記はデータクリーニングの項目例を記載しております。

データクリーニングの大まかな流れ

  • テキストデータのローデータを、エクセル上で開く
  • ファイル名を.xlsxに変更する(テキストデータのままだと1シートしか保存されない)
  • 1行目にフィルターをつける(Windowsなら、Ctrl+Shift+L)
  • 不正回答者のチェックを入れる(チェックしたら削除対象とする)
  • 削除フラグのデータを消す
  • サンプルカットを行う

1シート目:削除フラグを付けるシート

・B列に一行追加して、カラム名を【削除フラグとする】
・不正回答者のチェックをして、不正回答として判断する場合はB列にメモを残す
・b列は常に、空白セルのみ表示にしておくとやりやすい。
└1度削除フラグついた人を再表示させないため

あああ.png

不正回答としてチェックする項目例

  • FA(自由記述)においての適当な回答
  • ストレートチェック(任意の設問数において、全て同一の選択肢が選ばれた場合のこと)
  • 回答矛盾(前問では、「購入意向あり」と回答したのに、次の自由記述設問で購入したくない理由を書いているなど)
  • 調査対象者と違う人が回答していないか? (20~49歳対象の調査なのに、年齢聴取設問で69歳と回答している人など)

2シート目:削除フラグを削除するシート

1シート目をコピーして、削除フラグ人のがついた
行ごとデータを削除する

3シート目:サンプルカットをするシート

①2シート目をコピーして、サンプルカットを行う

②D列【SEX】とF列【GEN】を「&」で合体することで、性年代のカラムを作る
※十の位は【性別】、一の位は【年代】、数字ではなく、文字として認識ください。

4.png

③rand関数で、行ごとにシャッフルする

行単位でデータをごちゃまぜにすることで、恣意的なサンプルカットでは無くなります
「=rand()」とrand関数を入力後、並び替えます。

※その際、数式のまま並び替えを行うと、エクセルが重くなることが多いため、値張りを推奨します。
※列全体を選択後、「Ctrl+C」でコピーするようにする。
「Ctrl+Alt+V」で【値】を選択。

④.png
9.png

④G列【SEX&GEN】を昇順に並び替える

rand関数の行単位でごちゃまぜにした後に、行ってください。

10.png

⑤連番を振っていく
G列の数字が変わったら、また1からカウントする。
例)200行目を見ると、数字が「14」になったら
また1から数字をカウントしてくれる

⑤.png

⑥割付数をvlook関数で参照する

13.png
18.png

⑦【M列】割付が連番よりも小さい時は「1」
    割付が連番よりも大きい時は「99」と表示
※99が、サンプルカット対象となる
└確認としてM列で「1」が3000sいれば、OK

⑦.png

4シート目:サンプルカット対象者を削除するシート

3シート目で「99」とついた人は、サンプルカット対象のため、
行単位で削除する

5シート目:無料集計ツール用に仕上げるシート

・自分で追加した列を削除する
└今回は分かりやすくするため自分で追加した列を色付けしている
└初めのうちは、自分で追加する列は色を付けたほうがやりやすい

・このシートをテキストデータ化して保存する