2024. 10. 13. 17:13ㆍTableau
데이터 집계
데이터집계는 데이터포인트를 결합하여 하나의 값을 생성하는 프로세스로, 데이터를 집계할때사용할 수 있는 함수들은 다른 언어들과 비슷한 sum,count,average, group,max,min등이 있다.
데이터 준비
태블로에서 집계작업에 사용할 데이터를 로드해준다. 오늘 사용할 데이터는 지역별, 년도별 할당량이 저장되어있는 Quota테이블과고객ID, 판매량 등, 주문에 대한 정보가 구체적으로 담겨있는 Oders데이터를 사용할 예정이다. 오늘 이 두데이터를 가지고 공통적으로 존재하는 년도와 지역을 그룹화한 후, 조인하여 년도, 국가별 전체 판매량과 그에대한 고객수를 한 테이블로 정리하여 추출할 예정이다.
데이터 설명
Quota
첫번째 Quota테이블먼저 정리단계로 살표보면 년도가 행으로 되어있는게 아니라 하나의 필드로 되어있는 wide데이터의 형태이다.
oders
Oders데이터를 살펴보면 총 21개의 컬럼과 만개도 넘는 행이 있는 대용량 데이터이며, 각각의 속성이 필드로 구성되어 쌓이는 long데이터의 형태이다.
집계를 데이터 구조 변경하기
Quota테이블 unpivot하기
현재 두테이블의 구조가 다르기때문에 이 두 테이블의 구조를 먼저 맞춰주어야한다. Qouta테이블을 unpivot하여 wide데이터를 long데이터로 바꿔준다.
Oders테이블 년도 데이터 추출하기
그런 다음, Oders테이블의 년도를 살펴보면 Quata테이블과 다르게 날짜 데이터가 년월일로 이루어져 있다는것을 알수있다. Qouta테이블은 년도로만 이루어져있기때문에 이 둘을 조인하려면 Oders테이블의 년월일에서 년도만 추출해야한다. 날짜변환 탭에서 년 번호를 클릭하면 오른쪽 이미지처럼 Oders Date가 년도만 추출된것을 확인할 수 있다. 이제 이 필드의 이름을 헷갈리지 않도록 year로 바꿔주도록 하자.
데이터 집계하기
데이터 집계를 하기위해서는 집계하고자 하는 데이터에서 +버튼을 누른 후 집계를 누르면
이렇게 집계를 할 수 있는 환경이 셋팅된다. 환경 구조는 왼쪽에 집계할 수 있는 필드들이 나열되어있고 왼쪽에서는 그룹화를 진행할 수 있으며, 오른쪽에서는 sum이나 count등 집계를 할 수 있는 탭이 나타난다.
예정했던 목표에 맞춰 먼저, 년도와 지역을 그룹화해준 후, 판매데이터를 sum해주고 고객수를 알기위해 고객ID를 고유값만count해주는 CNTD로 설정해준다.
두 테이블 조인하기
두 테이블을 조인한 후 결과를 확인해보면 각각의 테이블의 행이 16개밖에 안되는데 조인결과는 64개가 된것을 알 수 있다.
이는 값에 중복이 있어 중복조인됐을 가능성이 크다. Oders데이터에는 4개의 지역정보밖에 없는데 Quota테이블에는 지역이 여러개로 중복 삽입되어있기때문에 전부 중복으로 조인된것이다.
이를 방지하려면 조인키를 지역이외에 년도까지 설정하여, 년도와 지역까지 전부 같은 행만 조인되도록 해주면 된다.
하지만 년도 키를 추가했더니 조인에서 오류가 발생했다.
알고보니 Quota테이블의 년도는 문자형인데 Oders테이블의 년도는 숫자값이라 두 데이터의 형식이 맞지 않아 발생한 오류였다. Oders테이블에서 숫자로 체크되어있던걸 문자열로 바꿔주면
이렇게 문제 없이 조인이 성공적으로 된것을 확인할 수 있다. 우측하단의 데이터를 보면 목표했던 대로 지역 년도별 판매량의 합계와 고객수가 출력된것을 확인할 수 있다.
학습일기
오늘은 태블로에서 데이터를 집계하는 방법을 배웠다. 사실 데이터를 집계하는 방법은 R이나 파이썬, sql에서 거의 동일한 집계함수를 사용하고 사용방법도 동일하기 코드를 작성해서 집계하는 방식이 더 익숙해서 그런지 때문에 오히려 이렇게 드래그앤 드롭으로 집계하는 방식이 약간 어색하고 조금 헷갈리는것 처럼 느껴졌다. 그래도 익숙해지기만 하면 드래그앤 드롭방법이라 확실히 빠르고 편할것 같긴하다..!빨리 손에 익을 수 있도록 해야될것 같다.
'Tableau' 카테고리의 다른 글
Tableau Desktop_데이터 집계방법과 세분화 하기 (0) | 2024.10.15 |
---|---|
Tableau Prep_공공데이터로 서울시 상권데이터 전처리하기 (1) | 2024.10.14 |
Tableau Prep_데이터 출력 방법과 옵션 종류 (0) | 2024.10.13 |
Tableau Prep_Data Pivoting(rows to columns, columns to rows) (0) | 2024.10.12 |
태블로_Tableau Prep 데이터 로드 및 필드 확인과 데이터 조인 (0) | 2024.10.12 |