안녕하세요~ 이제 겨울 ☃️☃️이 다가오고 있다는 느낌이 드는 날씨입니다.
이번 포스팅에서는 데이터 분석에 대한 이야기를 하려고 합니다.

생각보다 인간은 습관대로, 자동 루틴대로 하는 일들이 정말 많습니다. 인간의 일상선택의 45%는 습관적인 행동이라는 거죠.
"Chunk"라고 하는데,
예전에는 이 Chunk를 보기가 힘들었죠.

기술이 발전되면서 점점 온라인에 데이터가 쌓이게 되고 그 동안 베일에 가려졌던 이 덩어리들이 보이기 시작합니다.
심지어 쇼핑 패턴만 보고도 임신을 했는지 안 했는지, 언제 아이를 낳을지 예측할 수 있게 된 것이죠.
그럼에도 불구하고, 막상 데이터 분석을 시작하기는 힘듭니다.
『데이터 사이언스 입문』이라는 책을 통해 오늘 함께 나누고자 합니다.

데이터 분석을 하는 이유는 무엇일까요? 멋져보여서? 아니요. 더 나은 선택을 하기 위해서입니다.
똑같은 물건을 팔아도, 데이터 분석을 해서 효과가 있는 측에 파는 것과, 모든 사람에게 다 파는 것은 다르겠죠.
그리고 또 이 데이터가 적합했는지 아닌지 끊임없이 확인이 필요합니다. 너무 나도 많은 데이터 속에서 가치있는 정보를 선별해내야겠죠. 그 과정을 모델링이라고 합니다.
우리가 특정 키워드를 검색했는데, 마음이 안 들어요. 그러면 뭐를 누르죠? 뒤로 가기 버튼을 누르죠.
이 뒤로 가기 버튼을 사람들이 얼마나 눌렀는가를 보는 척도가 Task accomplishment입니다. 어떻게 보면 간단한 아이디어 갔지만, 이 책을 읽기 전까지, 저는 생각도 못했습니다. 즉 데이터를 모델링하기 위해서는 해당 비즈니스, 업계에 대한 지식이 필요한 것이죠.

숙련된 전문가가, 데이터를 다뤄야 한다는 것이 그 말입니다.
의료에서도 마찬가지였습니다. 인공지능 왓슨이 한때 나와 암 진단의 혁명을 이룩할 거라 생각했지만, 결과적으로는 실패하고 말았죠.
그렇기에 데이터 분석가를 한다는 것은 통계 지식 + 분석 도구 활용 + 분석 모델 + 도메인 경험 이 종합되어야 한다는 것입니다.
내가 그 분야에 전문가가 된다는 가정 하에
확률 및 통계 이론, 분석 모델, 분석 도구에 대한 이해
를 향상시켜나가 봅시다!
데이터 분석 프로세스
데이터는 중립적입니다.
우리의 질문과 목적에 따라 보여주는 것도 달라지겠죠. 좋은 답을 얻기 위해서는 좋은 질문이 전제되어야 합니다.
데이터 분석 목적이 정해지면, 이제 거기에 맞춰 데이터를 수집합니다.
데이터를 확보한 후에는 다듬으면서 새롭게 얻은 통찰들을 확인합니다.

이걸 이제 요약해야 하는데, 그 과정이 모델링입니다. 앞서 말했듯이 복잡한 정보 속에서 간단하게 축약해주는 것이죠.
데이터를 모읍니다. → 데이터를 분석하게 좋게 다듬는 전처리 작업을 합니다. → 물끄러미 데이터를 봅니다. 탐색적 데이터 분석. 여기에서 새로운 분석 목표와 가설이 나올 수도 있겠죠. → 필요 시에 모델링하고, 분석 모델의 정확도를 높입니다. → 이 새롭게 발견된 패턴이 경향성인지, 확인해야 하니 통계적으로 검정합니다. → 마지막으로 다른 사람들에게도 알리기 위해 데이터 시각화를 합니다.
데이터 모으기! 크롤링
내가 새롭게 직접 모으냐 Primary data, 기존 검색 엔진에 있는 데이터 Secondary data 로 나뉩니다.
시스템을 활용하는 경우도 있을 건데요, 대개의 사업이나 의학 분석도 여기를 많이 따르겠죠.
세 번째 방법으로 외부 환경에서 데이터를 수집하는 건데, 웹으로 공개된 외부 데이터를 가져오는 작업을 Crawling 크롤링이라 합니다.
탐색적 데이터 분석
탐색적 데이터 분석(Exploratory Data Analysis)는 확증적 데이터 분석(Confirmatory Data Analysis) 와 다르게 가설도 없고 모형도 없이 데이터를 있는 그대로 관찰하는 방법입니다.
제 은사님이 한 데이터베이스를 가지고 그렇게 보자고 했었습니다. 거기서 새로운 의미를 발견할 수도 있을 것이라고!
처음부터 의미가 바로 나올까요? 아니죠, 계속 질문을 던지다 보면 새로운 관점을 갖게 되고, 여기에서 다시 새로운 인사이트를 발견하겠죠.
그래도,

『데이터 사이언스 입문』에서는 두 가지 질문을 끊임없이 하라 조언해주고 있습니다.
"데이터 세트의 변수들에 어떤 변화가 발생하는가?"
"데이터 세트의 변수들에 어떤 공변이 발생하는가?"
표, 그래프, 요약 통계 등을 사용하게 됩니다.
EDA는 값과 그림으로 모아 보고 쪼개 보는 반복 작업이다
다음 시간에는 이렇게 EDA로 탐색한 데이터들을 어떻게 검정할 것인가? 에 대해서 이야기 해보겠습니다.
'책 한 잔' 카테고리의 다른 글
| AI, 나를 위해 일하게 하라 AI에 대한 이해! (20) | 2024.11.14 |
|---|---|
| 조던 피터슨 『의미의 지도』 첫 시작을 하며, '나'를 찾아가는 여행 (11) | 2024.11.04 |
| 실존주의자들이 바라본 불안 키르케고르, 하이데거, 폴 탈리히 (11) | 2024.10.30 |