안녕하세요 성장중독 마케터K 입니다. 오늘은 지난 포스팅에 이어 마케터가 알려주는 돈이 되는 빅데이터 분석라는 책의 데이터 분석 단계별 프로세스에 핵심 내용을 요약하여 읽어보는 시간을 가져보도록 하겠습니다.📗
해당 내용은 마케터가 알려주는 돈이 되는 빅데이터 분석에서 발췌 및 요약한 것이오니 해당 내용의 권리는 강지은 저자님께 있다는 것을 미리 밝힙니다.)
데이터 분석 프로세스
데이터 분석 프로세스는 6단계로 나뉘어집니다. 아래 6단계를 차근차근 살펴보도록 하겠습니다.
1. 데이터의 형태를 먼저 이해하자!
데이터가 어떤 경로를 통해서 축적된 것인지, 언제부터 데디터가 모였으며, 결과적으로 어느 정도 양의 데이터인지를 본다. 그리고 본격적인 데이터 분석에 앞선 데이터 정제를 위해서 데이터 속성을 파악해야 하는데 이 부분이 매우 중요하다. 데이터가 어떤 형식으로 어떤 길이와 조건으로 저장되어 있는지를 살펴봐야한다. 예를 들어, 년도 데이터인데 1999년이라는 숫자가 숫자 형식으로 저장되어 있는지, 텍스트 형식으로 저장되어 있는지, 아니면 뒤죽박죽 저장되어 있는지 보고 데이터 전처리할 때 참고하고 진행한다. 데이터의 내용 속성을 살펴볼 수도 있다. 예를 들어, 고객이 구매한 패션 쪽 데이터인데 ‘구분’이라는 항목에 상의/하의/원피스/바지/아우터… 이런 식으로 구분되었다면 ‘옷의 스타일별로 구분되어 있구나’라고 이해할 수 있다. 확장하면 ‘이 데이터를 가지고 향후에 고객에게 코디 추천 형식으로 데이터를 활용할 수 있겠구나’라고 미리 생각해볼 수 있다. 데이터가 엄청나가 많더라도 일단 몇 개를 샘플로 보면 머릿속에 이 데이터가 어떤 데이터인지 대충 견적이 그려지면서 데이터를 정제하고 분석하는데 튼튼한 기초 작업이 된다.
2. 데이터 정제 - ‘살리고 빼고’의 과정, 노가다 작업을 견디자!
데이터 분석의 8할은 데이터 정제 작업이며, 이걸 ‘데이터 전처리’라고 말합니다. 데이터 전제 과정을 진행하며 성격이 드러납니다. 너무나도 꼼꼼한 능력을 요구하고 오류도 자주 나서 인내심 테스트 과정이라고 생각마저 들때가 많습니다. 데이터 정제는 결국 분석을 위해 데이터를 정갈하게 준비하는 과정인데 하다 보면 백만 가지의 오류와 수정할 점이 눈에 띄게 됩니다. 이 과정을 한마디로 하면 ‘살리고 빼고’의 과정이라고 할 수 있습니다. 데이터 정제 과정의 대표적인 사례를 정리해보면 5개로 정리될 수 있습니다.
2-1. 이가 빠진 데이터 처리(결측값 처리)
입수된 데이터를 보면 이가 빠진 데이터가 많을텐데요. 심지어 항목은 있는데 데이터가 하나도 채워져 있지 않은 항목이 있을 겁니다. 하나도 채워져 있지 않은 항목은 데이터를 입수해야 하는 문제이고 이가 빠진 데이터들 대해서도 판단하에 데이터 정리를 해야 합니다. 또 데이터를 취하느냐 버리느냐에 있어 고객 데이터 항목 10개 중 4개 이상 올바른 데이터가 채워져 있다면 그 고객 데이터는 분석해서 활용하고 그 외에는 버리는 것과 같은 규칙을 정해서 데이터를 정리할 수 있습니다. 이 규칙을 정함에 있어 고려하는 고객의 데이터 항목도 항목의 중요도에 따라 다라질 수 있습니다.
2-2. 명백히 이상한 데이터 보정
고객의 성별 데이터에 예를 들어 ‘남’이나 ‘여’ 대신 ‘넘’이 들어가 있다거나 ‘영’이 들어가 있다면 이는 남과 여로 각각 보정이 가능합니다. 나이 데이터가 나이가 1000이면 이는 불가능한 숫자이기에 그 고객의 다른 데이터를 활용하여 추정치로 100으로 수정한다든지, 아예 공란으로 처리한다든지 하는 작업이 필요합니다. 또, 구매가격이 ‘30ㅎ00’으로 기입되어 있으면 ‘ㅎ’를 제거하고 데이터를 보정해야 합니다. 데이터가 쌓이고 추출되고 하는 과정에서 이런 소소한 오류들이 발생하곤 합니다.
2-3. 데이터 형식 맞추기
데이터가 온라인에 자동으로 입수되고 애초에 데이터 저장 시 나중에 활용할 것에 염두에 두어 자동 지정된 형식으로 데이터가 저장되게 한다면 상관없지만, 사람이 입수한 데이터를 직접 시스템으로 입력한다든가 하는 과정에서 데이터 형식의 자유도는 무한해집니다 예를 들어, ‘최근 구매연도’라는 항목의 데이터에 연도가 숫자 형식으로 저장된 데이터와 텍스트로 저장된 데이터가 섞여 있다면 숫자 형식으로 통일하는 등의 작업 과정입니다.
2-4. 보이지 않는 빈 공간 없애기
데이터 정제 시 정말 힘들게 하는 것 중 하나가 보이지 않는 빈 공간입니다. 예를 들어 ‘서울’이라는 데이터가 기입되어 있는데 에러가 났다면 빈 공간이 ‘서울 ‘ 이렇게 있어서 오류가 난 거라고 볼 수 있다.
2-5. 데이터 병합
이 과정은 인간의 전문 노가다 영역이라고 볼 수 있다. 분석할 데이터에 따라 상황은 다르겠지만, 예를 들어 고객의 의류 구매 데이터를 분석하는데 의류의 컬러 항목에 하얀색, 흰색, 화이트… 이런 데이터가 들어가 있다면 하나의 데이터로 처리해야 합니다. 데이터를 입수 할 때 데이터 분석과 활용을 고려한 규칙이 필요한 이유가 바로 이런 경우입니다. 물론 데이터가 완벽하게 입수되어 한 치의 오차도 없다면 최선이겠지만 현실적으로 그렇게 되기는 쉽지 않다.
다음 내용은 ‘데이터 분석 단계별 프로세스 101 - 3편’에서 이어질 예정이오니 조끔만 기다려주세요!😊