SeaForest

빅데이터 시대, 성과를 이끌어내는 데이터 문해력 리뷰 본문

Data analysis

빅데이터 시대, 성과를 이끌어내는 데이터 문해력 리뷰

seaforest 2023. 6. 16. 11:53

'데이터 분석을 하는 실무자들이 참고하면 좋은 추천 도서 모음' 을 통해 이 책을 접하게 되었고, 평상시에 데이터 분석은 어떻게 해야 하는지에 대해 궁금했었기에 이 책을 선택해서 읽게 되었다. 

https://lbm.oopy.io/data-link-book-list

 

데이터 분석을 하는 실무자들이 참고하면 좋은 링크, 추천 도서 모음

(23.05.17 업데이트)

lbm.oopy.io

 

■ 데이터 문해력이란

  • 스스로 정답에 대해 고민하고
  • 데이터를 무기로
  • 합리적으로 결론을 도출하고 논하는 능력

→ 데이터에서 찾아낸 인사이트를 자신의 결론으로 이끄는 이야기로 만드는 능력

 

 

■ 올바른 데이터 분석의 최종 결론

 '데이터를 활용한다'란 '결과'가 아니라 '결론'을 도출하는 것

결과 결론
XXX와 YYY는 차이가 있습니다. XXX와 YYY의 차이가 존재한다는 것은, ZZZ라는 의미입니다.
그래프를 보고 이를 단어로 단순하게 바꿔 표현한 것 '내가 무엇을 말하고 싶은지, 어떤 것을 문제로 인식하고 있는지'가 명확함
(ex) 전통 공예 산업 종사자 수와 전 제조업 평균 종사자 수 감소 폭은 차이가 있습니다 (ex) 전통 공예 산업 종사자 수는 같은 제조업 중에서도 그 감소 폭이 현저하게 크며, 심각한 상황이 지속되고 있습니다

 

■ 결과와 결론은 다름

  • 결과 : 계산과 분석을 해서 나온 결과물
  • 결론 : 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것
  • 결과와 결론에 이르는 과정은 본질적으로 같음.결론은 결국 결과에 기반하여 도출한 것이기 때문
  • 하지만 결과와 결론의 표현방식은 다름.
  • 예시

결과 결론
메일링 리스트 등록 여부를 통해 비교할 경우, 등록한 사람의 방문 횟수가 더 높은 것으로 보입니다. 메일링 리스트 등록은 방문 횟수 증가에 효과적입니다.
여성 고객의 경우, 등록한 사람이 그렇지 않은 사람보다 평균값이 높습니다. 메일링 리스트 등록은 여성 고객에게 효과적이지만, 남성 고객에게는 그렇지 않습니다.
남성 고객의 경우, 메일 수신 여부와 관계없이 방문 횟수 평균값이 비슷합니다.  

 

 

■ 기존 데이터 분석의 문제점

  • 무작정 데이터를 만지작거리고 어쩌다 찾아낸 것을 '문제'로 정의함
  • '목적'과 '문제'에 대한 정의가 충분하지 않음 
    (현황 파악은 가능할지 몰라도, 목적을 달성하기 위해 필요한 것이 무엇인지 알지 못함)
  • '그래프와 표를 수집해서 결론을 내리자'라는 방향의 생각
  • '데이터로 문제를 해결할 수 있다'는 착각, 데이터 안에는 해답이 없다고 생각해야함
  • '데이터'와 '데이터 분석'은 목적을 달성하기 위한 도구에 지나지 않음

 

■ 데이터에 대한 평가

  • 데이터 = 숫자의 크고 작음을 나타내는 것
  • '비교 대상'이 있어야 비로소 값에 대한 평가가 가능해짐. 즉, '평가'를 하기 위해 필요한 것은 '비교'에 해당함
  • 평가를 객관적으로 만드는 것은 '다른 것과의 비교'에 해당함
  • 비교를 한다면 어떤 것과 비교를 해야 설득력이 높아질까? → 정답은 없음

 

■ 데이터 분석 시, 생각의 순서

  • '데이터 → 가설(데이터에 기반한 가설 수립)'이 아니라 '가설 → 데이터'  순서로 진행되어야함
  • 데이터로부터 가설을 수립하는 것이 아니라, 가설로부터 데이터를 봐야하고, 데이터는 가설을 검증하기 위한 수단일 뿐이다.
  • '목적과 문제를 정의하는 일'부터 시작해야함
  • '목적'과 '문제'를 명확히 한 후, 이에 맞는 데이터를 준비해야함

 

■ 문제 → 원인 → 해결방안

  • 무엇을 해결, 실현하고자 하는가 (목적 및 문제)
  • 무엇이 결정적 요인인가 (원인)
  • 무엇을 해야 하는가 (해결방안)
  • 원인을 명확하게 규명한 후 대책을 수립해야함
  • '해결 방안'을 고민하는 것은 마지막 단계에 해당함

 

■ 목적 사고력

  • 나는 '무엇'을 알고 싶은가
  • 나는 '무엇'을 해결하고자 하는가
  • 무슨 말을 하고 싶은지를 생각해보고, 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식

 

■ 요약 문장 

  • 데이터 분석을 통해 얻을 수 있는 결과가 목적을 잘 반영하고 있는지는 데이터의 양과 분석 방법에 좌우되지 않는다.
  • 데이터 분석이란 눈앞의 데이터로부터 어떤 패턴을 추출하는 것이 아니다.
  • '데이터를 통해 판독'한 정보는 아무리 훌륭한 데이터 사이언스를 구사하더라도 시사점(인사이트)이라고 할 수 없다.
  • '데이터 분석 방법'과 '데이터 분석을 활용하는 방법'은 전혀 다른 개념이다.
  • 목적이 애매하면 그것이 잘 풀릴지는 운에 의지하게 된다. 애당초 잘 풀리고 있는지 어떤지조차 평가할 수 없겠지만.
  • '분석'도 '데이터'도 어디까지나 수단이고 도구일 분, 답을 제시해주지 않는다.

 

실제로 학부생 시절, 데이터 관련 공부를 계속 하면서 데이터를 우선 많이 보고 시각화를 많이 해보면 뭐라도 나오지 않을까라는 방향으로 접근하여 공부를 한 경험이 있다. 그러다 보니 화려하게 데이터를 시각화해서 그래프를 그렸음에도 불구하고 '이게 데이터 분석을 한건가?', '의미있는 인사이트를 억지로 끌어낸건 아닌가?' 라는 생각을 많이 했었던 것 같다.  이 책에서 보통 일반 사람들의 잘못된 데이터 분석에 해당하는 말들이 모두 내가 지금까지 데이터 분석이라고 생각했던 방식이라 많은 부분에서 공감을 하면서 읽었다.

 

파이썬, 태블로 등을 다룰 수 있는 스킬이 없다면 데이터 활용을 하는 데에 분명 한계는 있겠지만, 이런 기술들은 사실 '도구'에 불과하고, 데이터를 활용한다는 것은 결국 데이터를 이용해서 어떤 생각을 얼마나 하느냐를 의미하는 것 같다. 책의 마지막 부분에 '데이터 분석을 통해 성과를 낸다'는 것은 '나무로 가구를 만든다'에 비유된다.좋은 목재(데이터)가 있고 못을 박는 실력(분석 방법과 통계 지식)이 뛰어나더라도, 어떤 가구를 어떻게 만들지 자신이 모른다면 가구를 완성할 수 없다.' 라는 문장이 있었는데, 이 문장이 이 책에서 말하고자 하는 바를 잘 설명해주고 있는 것 같다.

 

이 책의 처음부터 끝까지 강조했던 목적 사고력 , 즉 데이터를 중심으로 생각하지 말고 '목적'을 명확히 생각한 후 이에 맞게 문제와 데이터를 연결하기 위해  '왜'라는 생각을 끊임없이 해야겠다.