비전문가도 쉽게 할 수 있는 설문조사 데이터 처리 & 결과 정리 방법.zip🗃️
설문조사를 기획하고, 설문지를 만들어서 데이터 수집을 완료하기까지 꽤나 많은 시간과 비용을 들이시게 될 텐데요.(물론 픽플리와 함께 했다면 그 시간과 비용이 정말 많이 줄어들었겠죠?😉) 혹시 그렇게 모은 데이터를 아무런 정리 없이 그냥 바로 분석해서 보고서에 넣고 계시지는 않나요? 만약 지금도 그럴 생각이셨다면 이 글을 보시게 된 것은 큰 행운이실 거예요!
설문조사를 마치고 응답 데이터를 받았다면 데이터를 분석해서 결과 정리를 해야 될텐데요. 막상 어디서부터 어떻게 정리해야 할지 막막하셨던 경험도 있지 않나요? 그런 경험이 있는 학생과 실무자분들을 위해 오늘은 설문조사 데이터를 효과적으로 처리하고 결과를 정리하는 방법에 대해 픽플리 팀에서 핵심만 알려드리겠습니다!
데이터 정리(전처리)의 중요성
설문조사 결과를 분석하기 전, 가장 먼저 해야 할 일은 데이터 전처리, 즉 데이터 정리 과정입니다. 구글 설문지와 네이버 폼 등으로 문항과 선지를 만들어서 선지의 내용 그대로 수집된 직후의 데이터를 로(우) 데이터(Raw Data, 원시 데이터)라고 하는데요. 로(우) 데이터에는 오류, 중복, 이상치 등 다양한 문제가 있을 수 있습니다. 그렇기 때문에 데이터 정리(전처리) 과정을 거쳐야 분석 결과의 신뢰성을 확보할 수 있습니다.
데이터 정리 & 전처리 팁
데이터 정리 과정 중 부정확한 데이터를 식별하고 수정하는 과정을 데이터 클렌징(Data Cleansing) 혹은 데이터 클리닝(Data Cleaning)이라고 하는데요. 데이터 클렌징/클리닝을 통해 불성실 응답과 이상치를 걸러낸 다음 데이터 분석을 진행해야 제대로 된 데이터 분석과 결과 도출을 할 수 있습니다. 그럼 지금부터 이런 데이터 클렌징/클리닝을 쉽게 할 수 있는 몇 가지 팁을 알려드리겠습니다!
Tip 1. 구글 스프레드시트 "데이터 정리" 기능 활용
가장 먼저 소개할 방법은 구글 스프레드시트(Google Spreadsheet) ‘데이터 정리’ 기능 활용입니다. 국내에서 가장 많이 사용되는 온라인 설문지 서비스 중 하나가 구글 설문지이기도 하고, 또 대부분의 경우 업무를 위해 구글 계정을 하나씩은 갖고 계실 것이기 때문에 이 구글 스프레드시트를 쉽게 이용하실 수 있을 텐데요. 다른 서비스를 통해서 데이터를 수집했더라도 엑셀 파일로 데이터를 다운로드 받을 수만 있다면 누구나 무료로 구글 스프레드시트의 유용한 자동화 & AI 기능을 사용할 수 있습니다.
이 구글 스프레드시트에는 ‘데이터 확인’과 ‘데이터 정리’ 등의 유용한 기능이 내장되어 있고, 지속적으로 발전하고 있습니다. 그 중 ‘데이터 정리’ 기능은 원래 사람이 일일이 수동으로 처리했어야 하는 중복 제거, 공백 삭제, 형식 통일을 쉽게 처리해줍니다. 그렇기 때문에 이 ‘데이터 정리’ 기능은 100명 이상이 참여한 대량의 설문 데이터의 전처리에 특히나 유용하게 이용할 수 있습니다. 행 한 줄, 셀 하나씩 일일이 검토하지 마시고, ‘데이터 정리’ 기능 활용으로 데이터 클리닝과 클렌징의 기초 작업을 빠르게 완료하세요!
Tip 2. 필터와 정렬 기능 활용
다음으로 알아볼 것은 필터와 정렬 기능 활용입니다. 필터와 정렬 기능을 활용하면 특정 조건의 데이터만 추출하거나 이상값을 쉽게 찾아낼 수 있는데요. 특히, 주관식/서술형 응답이 중요할 경우, 글자순으로 정렬을 하면 불성실 응답을 쉽게 발견할 수 있습니다.
또한, 설문지에 데이터 품질 제고를 위해 자체적으로 역문항이나 주의 집중 문항(Attention Check)을 설계해두었다면, 필터와 정렬 기능을 활용해 더 쉽게 불성실/허위 응답을 찾아낼 수 있습니다!
Tip 3. 유용한 함수와 기능
마지막 팁으로 유용한 함수와 기능을 몇 가지 소개하겠습니다. 함수와 기능은 크게 세 가지 카테고리로 나눌 수 있습니다.
형식 통일 함수(UPPER, LOWER, SPLIT 등)
유용한 함수의 첫 번째 기능은 형식 통일 함수입니다. 형식 통일 함수(UPPER, LOWER, SPLIT 등)를 활용하면 일관성 없는 텍스트 데이터를 표준화할 수 있는데요. 이 형식 통일 함수는 특히 주관식 응답 정리에 유용합니다.
UPPER(): 텍스트를 대문자로 변환합니다
LOWER(): 텍스트를 소문자로 변환합니다
SPLIT(): 특정 구분자를 기준으로 텍스트를 분리합니다
유효성 검사 함수(COUNTIF, AVERAGE, STDEV 등)
유용한 함수의 두 번째는 유효성 검사 함수입니다. 유효성 검사 함수는 기초 통계 분석의 핵심 도구입니다. 이 기능을 활요해 데이터의 분포와 경향을 파악하세요. 유효성 검사 함수(COUNTIF, AVERAGE, STDEV 등)는 이상치 탐지에도 활용됩니다.
COUNTIF(): 특정 조건을 만족하는 데이터 개수를 셀 수 있습니다
AVERAGE(): 평균을 계산합니다. 척도로 이루어진 설문에서 응답(행)의 평균값이 특정 정수로 수렴이 된다면 해당 데이터를 주의깊게 살펴볼 필요가 있습니다
STDEV(): 표준편차를 구할 수 있습니다. 척도로 이루어진 설문에서 표준편차가 ‘0’인 응답(행)이 발견된다면 해당 데이터를 주의깊게 살펴볼 필요가 있습니다
조건부 서식(이상값과 결측치 표시)
유용한 함수 세 번째는 조건부 서식입니다. 조건부 서식은 데이터 클렌징/클리닝 과정에서 이상값과 결측치 등의 문제 데이터를 빠르게 식별하는 데 도움이 됩니다. 이 기능으로 특정 조건에 따라 셀과 폰트에 색을 설정하여 적용하면 이상값을 한눈에 볼 수 있습니다. 조건부 서식은 데이터 품질 관리의 필수 기능입니다.
[ 비어 있음 ] 규칙으로 빈 셀을 시각적으로 강조
[ 이상 / 이하 / 미만 / 초과 / 범위 ] 등 규칙으로 특정 범위를 벗어난 값을 표시
[ 텍스트에 포함되지 않음 ] 규칙으로 조건과 서식이 정해진 데이터를 표시
[ 맞춤 수식 + COUNTIF(A:A, A1)>1 ] 규칙과 함수로 특정 열의 중복값을 표시
데이터 분석의 기본 🎯
데이터 정리(전처리)가 완료되면 이제 정제된 데이터로 인사이트를 뽑아낼 단계입니다. 데이터 분석은 ‘수집된 정보에서 의미 있는 인사이트를 도출’하는 과정인데요. 데이터 분석에서 가장 중요한 것은 데이터를 분석하기 전에 분석 목적을 명확히 정하는 것입니다. 데이터 분석의 목적이 정해져야 방향을 잡을 수 있고, 방향이 잡히면 결과 해석과 인사이트 도출도 수월해집니다. 데이터 분석 결과는 보고서의 핵심 근거가 됩니다.
기초 통계 분석 방법 📊
데이터 분석의 첫 단계는 기초 통계 분석입니다. 기초 통계 분석에서는 평균, 중앙값, 최빈값 등 통계치(statistic)를 알아보는데요. 이 기초 통계 분석을 통해 데이터의 전반적인 특성을 파악할 수 있습니다.
기초 통계 분석에서는 이상치의 영향에 주의해야 합니다. 극단적인 값이 있으면 평균이 왜곡될 수 있어 특히 평균이 중요한 일부 비즈니스 영역에서는 치명적인 오류가 발생하게 됩니다. 이러한 이상치를 제거하기 위해서 앞선 데이터 정리 단계가 필요한 것이기도 합니다.
💡 데이터 전처리를 하고, 기초 통계 분석 결과를 바탕으로 다시 한 번 이상치 등을 제거한 다음에 심층 데이터 분석을 진행하세요.
피벗 테이블 활용 🔀
대량 데이터 요약의 핵심 도구는 피벗 테이블(Pivot Table)입니다. 피벗 테이블 활용을 통해 데이터를 다양한 관점에서 집계하고 비교할 수 있습니다.
피벗 테이블 활용 방법은 간단합니다. [ 삽입 → 피벗 테이블 ]을 선택하고 행, 열, 값을 설정하면 됩니다. 피벗 테이블을 활용해서 성별 만족도 차이, 연령대별 선호도 등을 한눈에 파악해보세요. 데이터 분석에서 피벗 테이블 활용은 필수입니다.
보고서 작성 팁 📄: 사전 설계의 중요성
마지막으로 보고서 작성팁입니다. 보고서 작성팁의 핵심은 역설적으로 들릴 수도 있지만 ‘사전 설계가 가장 중요하다’입니다. 이는 요리에 비유를 해보면 쉽게 이해를 할 수가 있는데요. 사전 설계나 계획 없이 데이터를 수집하고, 전처리를 하고, 데이터 분석을 해서 나오는 결과들을 보고서에 담는 것은, 어떤 요리를 할지 정하지 않고 식재료를 구입하고, 손질하고, 조리를 하는 것과 같은 것입니다.
설문조사를 시작하기 앞서 기획과 설계 단계의 중요성을 인식하고 목표와 가설 설정, 분석 기준 설정을 사전에 완료해야만 전체 효율성과 효과성을 극대화할 수 있습니다.
목표와 가설 설정
사전 설계의 첫 번째는 목표와 가설 설정입니다. 조사 전에 알고 싶은 것을 명확히 하세요. 목표와 가설 설정이 명확하면 데이터 정리(전처리)와 데이터 분석 방향도 정해집니다. 목표와 가설 설정은 효과적인 리서치의 출발점입니다!
분석 기준 설정
사전 설계의 두 번째는 분석 기준 설정입니다. 어떤 변수로 비교할지, 어떤 기초 통계 분석 지표를 사용할지 정하세요. 분석 기준 설정이 되면 피벗 테이블 활용도 수월해집니다. 분석 기준 설정으로 작업 효율을 높이세요!
마무리하며
오늘은 설문조사 데이터 처리와 결과 정리 방법을 알아보았습니다.
1️⃣ 데이터 정리(전처리)와 데이터 클렌징/클리닝으로 수집된 데이터의 품질을 높이고
2️⃣ 구글 스프레드시트 ‘데이터 정리’ 기능 활용, 필터와 정렬 기능 활용으로 효율적으로 작업하세요. 또, 유용한 함수 몇 가지와 필터, 정렬, 조건부 서식 등의 간단한 기능만 활용해도 이상값과 결측치를 쉽게 제거할 수 있습니다.
3️⃣ 마지막 데이터 분석은 기초 통계 분석과 피벗 테이블 활용만으로도 충분히 유의미한 인사이트를 도출할 수 있는데요. 사전 설계의 중요성을 기억하며 목표와 가설 설정, 분석 기준 설정을 준비하세요.
끝으로 위의 전 과정에서 제미나이(Gemini)와 ChatGPT 등의 AI를 적재적소에 활용한다면 전문가 못지 않은 인사이트와 보고서를 만들어낼 수 있습니다!😁