반응형
목표
데이터 처리 프로세스 이해
데이터 분석 기법 중 시각화 이해
데이터 분석 기법 중 공간분석 이해
데이터 분석 기법 중 탐색적 자료 분석 이해
데이터 분석을 위해 데이터 마트를 어떻게 만들까?
- 대기업에서는 데이터 분석을 위애 데이터웨어하우스(DW)나 데이터마트(DM)에서 데이터를 추출함
- 운영시스템에서 데이터를 추출하여 분석용 데이터를 추출
- 데이터를 추출 가능한 기업내 여러 시스템의 명칭과 프로세스를 이해하면 보다 효과적으로 분석 데이터마트를 구성이 가능
데이터 처리
- 기간계( 기존 운용시스템, legacy ) : 기간계를 통해서 모여드는 다양한 트랜잭션 데이터들을 매일 밤바다 배치작업(주로 야간에 함)을 하며 DW로 넘기기 위한 작업을함
- 스테이징영역( staging area ) : 임시 데이터들이 어떻게 저장되었는지 확인하고 ODS로 넘김
- 운영 데이터 저장소( ODS, Operational Data Store; 전처리구간 ) : 데이터들의 대한 품질을 테스트를 하고 테스트 결과로 미비한 점은 cleansing 작업을 하고 DW로 넘김
- Data Warehouse( DW )의 특징
- 한 번 쓰기하면 수정을 할 수 없음(읽기만 가능)
- 테이블 형태로 쌓아둠
- 키, 값 형태로 저장
- Data Mart( DM )
- DW의 데이터 테이블을 활용해서 분석에 필요로한 여러가지 유형들의 데이터들을 DM에 구성함
- 한 부서의 DW
- 목적에 의한 DW
- 분석 플랫폼 : R, SAS을 통해 최종 데이터 구조로 가공하여 분석 업무 실행
- 시물레이션 모델링 : 처리사긴에 대한 분포 파악
- 최적화 : 목적함수와 계수 값을 프로세스별로 산출
- 데이터마이닝 분류 : 인구통계, 요약변수, 파생변수 산출
- 비정형 데이터 : 텍스트 마이닝을 거쳐 데이터 마트와 통합
- 관계형 데이터 : 사회 신경망 분석을 거쳐 통계값이 데이터 마트와 통합
시각화
- 가장 낮은 수준의 분석기법이지만 잘 사용하면 복잡한 분석보다도 더 효율적 임
- 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수
- 탐색적 분석을 할 때 시각화는 필수
통계분석은 2가지 추론통계와 기술통계로 나뉜다.
기술통계는 데이터를 기반으로 분석하는 방법
시각화는 기술통계 파생된 기법
탐색적 데이터 분석( EDA, Exploratory Data Analysis)
- 대량의 데이터에서 다양한 차원과 값을 조합해 가며 특이점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
- 탐색적 분석의 효율성 확대 방법
- 의미가 있을 것으로 판단되는 변수 집단과 아닌 집단을 1차 구분
- 전체 변수가 300개 일 경우, 의미가 있는 1차 집단 50개, 2차 집단이 100개, 의마가 없는 집단이 150개 정도로 구분
- 필터메소드 : 변수를 선택하는 과정을 통해 중요한 변수들을 찾아감
- Ex) 기업신용평가모형 : EDA -> 통계분석 -> 머신러닝 분석
통계분석
- 통계 : 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타낸 것
- 기술통계( descriptive statistics ) : 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자로 또는 그래프의 형태로 표현하는 절차
- 추측통계( inferential statistics ) : 모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
- 활용분야
- 정부의 경제정책수립과 평가의 근거자료로 활용(통계청의 실업률, 고용률, 물가지수 )
- 농업 : 재해에 강한 품종의 개발 및 개량
- 의학 : 임상실험의 결과 분석
- 경영 : 제품개발, 품질관리, 시장조사, 영업관리 등
- 스포츠 : 체질향상, 경기분석, 선수평가 등
출처
반응형