일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- https
- SSO
- batch
- tableau
- 색상코드
- 파이썬
- 선형회귀
- SQL 테이블 삭제
- SAML
- 클라우드
- SSL
- 방화벽
- 맵차트
- Linear models
- Network
- Data Analysis
- SSO인증
- HTTP
- 테이블만들기
- 하드웨어
- map차트
- 날짜 함수
- SQL
- >>
- 태블로
- AWS
- 배치파일
- MySQL
- dns
- Today
- Total
SeaForest
빅데이터 시대, 성과를 이끌어내는 데이터 문해력 리뷰 본문
'데이터 분석을 하는 실무자들이 참고하면 좋은 추천 도서 모음' 을 통해 이 책을 접하게 되었고, 평상시에 데이터 분석은 어떻게 해야 하는지에 대해 궁금했었기에 이 책을 선택해서 읽게 되었다.
https://lbm.oopy.io/data-link-book-list
데이터 분석을 하는 실무자들이 참고하면 좋은 링크, 추천 도서 모음
(23.05.17 업데이트)
lbm.oopy.io
■ 데이터 문해력이란
- 스스로 정답에 대해 고민하고
- 데이터를 무기로
- 합리적으로 결론을 도출하고 논하는 능력
→ 데이터에서 찾아낸 인사이트를 자신의 결론으로 이끄는 이야기로 만드는 능력
■ 올바른 데이터 분석의 최종 결론
'데이터를 활용한다'란 '결과'가 아니라 '결론'을 도출하는 것
결과 | 결론 |
XXX와 YYY는 차이가 있습니다. | XXX와 YYY의 차이가 존재한다는 것은, ZZZ라는 의미입니다. |
그래프를 보고 이를 단어로 단순하게 바꿔 표현한 것 | '내가 무엇을 말하고 싶은지, 어떤 것을 문제로 인식하고 있는지'가 명확함 |
(ex) 전통 공예 산업 종사자 수와 전 제조업 평균 종사자 수 감소 폭은 차이가 있습니다 | (ex) 전통 공예 산업 종사자 수는 같은 제조업 중에서도 그 감소 폭이 현저하게 크며, 심각한 상황이 지속되고 있습니다 |
■ 결과와 결론은 다름
- 결과 : 계산과 분석을 해서 나온 결과물
- 결론 : 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것
- 결과와 결론에 이르는 과정은 본질적으로 같음.결론은 결국 결과에 기반하여 도출한 것이기 때문
- 하지만 결과와 결론의 표현방식은 다름.
- 예시
결과 | 결론 |
메일링 리스트 등록 여부를 통해 비교할 경우, 등록한 사람의 방문 횟수가 더 높은 것으로 보입니다. | 메일링 리스트 등록은 방문 횟수 증가에 효과적입니다. |
여성 고객의 경우, 등록한 사람이 그렇지 않은 사람보다 평균값이 높습니다. | 메일링 리스트 등록은 여성 고객에게 효과적이지만, 남성 고객에게는 그렇지 않습니다. |
남성 고객의 경우, 메일 수신 여부와 관계없이 방문 횟수 평균값이 비슷합니다. |
■ 기존 데이터 분석의 문제점
- 무작정 데이터를 만지작거리고 어쩌다 찾아낸 것을 '문제'로 정의함
- '목적'과 '문제'에 대한 정의가 충분하지 않음
(현황 파악은 가능할지 몰라도, 목적을 달성하기 위해 필요한 것이 무엇인지 알지 못함) - '그래프와 표를 수집해서 결론을 내리자'라는 방향의 생각
- '데이터로 문제를 해결할 수 있다'는 착각, 데이터 안에는 해답이 없다고 생각해야함
- '데이터'와 '데이터 분석'은 목적을 달성하기 위한 도구에 지나지 않음
■ 데이터에 대한 평가
- 데이터 = 숫자의 크고 작음을 나타내는 것
- '비교 대상'이 있어야 비로소 값에 대한 평가가 가능해짐. 즉, '평가'를 하기 위해 필요한 것은 '비교'에 해당함
- 평가를 객관적으로 만드는 것은 '다른 것과의 비교'에 해당함
- 비교를 한다면 어떤 것과 비교를 해야 설득력이 높아질까? → 정답은 없음
■ 데이터 분석 시, 생각의 순서
- '데이터 → 가설(데이터에 기반한 가설 수립)'이 아니라 '가설 → 데이터' 순서로 진행되어야함
- 데이터로부터 가설을 수립하는 것이 아니라, 가설로부터 데이터를 봐야하고, 데이터는 가설을 검증하기 위한 수단일 뿐이다.
- '목적과 문제를 정의하는 일'부터 시작해야함
- '목적'과 '문제'를 명확히 한 후, 이에 맞는 데이터를 준비해야함
■ 문제 → 원인 → 해결방안
- 무엇을 해결, 실현하고자 하는가 (목적 및 문제)
- 무엇이 결정적 요인인가 (원인)
- 무엇을 해야 하는가 (해결방안)
- 원인을 명확하게 규명한 후 대책을 수립해야함
- '해결 방안'을 고민하는 것은 마지막 단계에 해당함
■ 목적 사고력
- 나는 '무엇'을 알고 싶은가
- 나는 '무엇'을 해결하고자 하는가
- 무슨 말을 하고 싶은지를 생각해보고, 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식
■ 요약 문장
- 데이터 분석을 통해 얻을 수 있는 결과가 목적을 잘 반영하고 있는지는 데이터의 양과 분석 방법에 좌우되지 않는다.
- 데이터 분석이란 눈앞의 데이터로부터 어떤 패턴을 추출하는 것이 아니다.
- '데이터를 통해 판독'한 정보는 아무리 훌륭한 데이터 사이언스를 구사하더라도 시사점(인사이트)이라고 할 수 없다.
- '데이터 분석 방법'과 '데이터 분석을 활용하는 방법'은 전혀 다른 개념이다.
- 목적이 애매하면 그것이 잘 풀릴지는 운에 의지하게 된다. 애당초 잘 풀리고 있는지 어떤지조차 평가할 수 없겠지만.
- '분석'도 '데이터'도 어디까지나 수단이고 도구일 분, 답을 제시해주지 않는다.
실제로 학부생 시절, 데이터 관련 공부를 계속 하면서 데이터를 우선 많이 보고 시각화를 많이 해보면 뭐라도 나오지 않을까라는 방향으로 접근하여 공부를 한 경험이 있다. 그러다 보니 화려하게 데이터를 시각화해서 그래프를 그렸음에도 불구하고 '이게 데이터 분석을 한건가?', '의미있는 인사이트를 억지로 끌어낸건 아닌가?' 라는 생각을 많이 했었던 것 같다. 이 책에서 보통 일반 사람들의 잘못된 데이터 분석에 해당하는 말들이 모두 내가 지금까지 데이터 분석이라고 생각했던 방식이라 많은 부분에서 공감을 하면서 읽었다.
파이썬, 태블로 등을 다룰 수 있는 스킬이 없다면 데이터 활용을 하는 데에 분명 한계는 있겠지만, 이런 기술들은 사실 '도구'에 불과하고, 데이터를 활용한다는 것은 결국 데이터를 이용해서 어떤 생각을 얼마나 하느냐를 의미하는 것 같다. 책의 마지막 부분에 '데이터 분석을 통해 성과를 낸다'는 것은 '나무로 가구를 만든다'에 비유된다.좋은 목재(데이터)가 있고 못을 박는 실력(분석 방법과 통계 지식)이 뛰어나더라도, 어떤 가구를 어떻게 만들지 자신이 모른다면 가구를 완성할 수 없다.' 라는 문장이 있었는데, 이 문장이 이 책에서 말하고자 하는 바를 잘 설명해주고 있는 것 같다.
이 책의 처음부터 끝까지 강조했던 목적 사고력 , 즉 데이터를 중심으로 생각하지 말고 '목적'을 명확히 생각한 후 이에 맞게 문제와 데이터를 연결하기 위해 '왜'라는 생각을 끊임없이 해야겠다.
'Data analysis' 카테고리의 다른 글
빅데이터를 지탱하는 기술 리뷰 (2) (0) | 2024.03.03 |
---|---|
빅데이터를 지탱하는 기술 리뷰 (1) (0) | 2023.07.02 |
[Data Analysis] Linear Models, 선형 회귀 모델 (0) | 2022.03.14 |
[Data] 데이터 제공 사이트 리스트 (0) | 2022.01.01 |