빅데이터 분석 기사 (필기) - PART 04) 빅데이터 결과 해석 요약 및 정리

분석모형 평가 및 개선

* 분석모형 평가

* 지도학습 - 분류모델 평가 지표

- 정확도(Accuracy)

: 실제 데이터와 예측 데이터를 비교하여 같은 지 판단한다.

- 정밀도(Precision)

: Positive로 예측한 대상 중에 실제와 예측 값이 일치하는 비율이다.

- 재현율(Recall)

: 실제 Positive인 대상 중에 실제와 예측 값이 일치하는 비율이다.

- F1 Score

: 정밀도와 재현율을 결합한 조화평균 지표로 값이 클수록 모형이 정확하다고 판단할 수 있다.

- ROC(Receiver Operating Characteristic) 곡선

: FPR(False Positive Rate) 이 변할 때 민감도인

TPR(True Positive Rate)이 어떻게 변화하는지를 나타내는 곡선이다.

- AUC(Area Under Curve)

: 평가모델의 ROC 곡선의 하단 면적을 뜻하며 랜덤일 때 0.5 값으로

ROC 곡선이 직선에서 멀어질수록 성능이 더 뛰어난 것을 해석한다.

* 지도학습 - 회귀모델 평가 지표

- MSE(Mean Squared Error)

: 실제값과 예측값의 차이의 제곱에 대한 펑균을 취한 값으로 평균제곱 오차라고도 한다.

- RMSE(Root Mean Squared Error)

: MSE에 루트를 취한 값으로 평균제곱근 오차라고도 한다.

- MAE(Mean Absolute Error)

: 실제값과 예측값의 차이의 절대값을 합한 평균값이다.

- Adjusted R²(수정된 결정계수)

: 다변량 회귀분석에서 독립변수가 많아질수록 결정계수가 높아지는데

이를 보완한 결정계수로 표본크기(n)와 독립변수의 개수(p)를 추가적으로 고려하여

분모에 위치시킴으로써 결정계수 값의 증가도를 보정한다.

- MAPE(Mean Absolute Percentage Error)

: MAE를 퍼센트로 변환한 값이다.

* 비지도학습-군집분석 평가 지표

- 비지도학습은 지도학습과 달리 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어렵다.

- 군집분석에 한해 다음과 같은 성능 평가 지표를 참고한다.

* 분석모형 진단

* 잔차 진단

- 회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은

실측치와 예측치의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며

잔차는 추세, 특정 패턴을 가지고 있지 않다.

* K - 폴드 교차검증(k - fold Cross Validation)

- 고정된 훈련데이터 셋과 테스트검증데이터 셋으로 평가를 하여 반복적으로 튜닝하게 될 시

테스트데이터 셋에 과적합 되어버리는 결과가 생길 수 있는데

이를 방지하고자 나온 방법이 교차검증 기법이다.

- K - 폴드 교차검증 기법은 전체 데이터 셋을 k개의 서브셋으로 분리하여

그 중에 k - 1개를 훈련데이터로 사용하고 1개의 서브셋은 테스트데이터로 사용한다.

테스트 셋을 중복없이 병행 진행한 후 평균을 내어 최종적 모델의 성능을 평가 한다.

출처 사이트 - 1

- 교차검증은 모든 데이터 셋을 평가에 활용하여 과적합을 방지할 수 있으나

반복횟수 증가에 따른 모델 훈련과 평가/검증 시간이 오래 걸릴 수 있다.

- 교차검증 기법들로 k - 폴드 교차검증 외 홀드아웃 기법(Holdout Method),

리브 - p - 아웃 교차검증(Leave - one - out Cross Validation),

리브 - 원 - 아웃 교차검증(Leave - one - out - Cross Validation),

계층별 k - 겹 교차검증(Stratified k - fold Cross Validation) 등이 있다.

- 홀드아웃 기법(Holdout Method)

: 일반적으로 훈련데이터 셋과 테스트검증데이터 셋으로 구분한 뒤

훈련데이터로 모델을 학습하고 테스트데이터로 성능을 증가시키는 방법을 사용하는데,

동일한 테스트데이터를 계속 사용한다면 모델이 테스트데이터에 과적합하게 된다.

- 이를 개선하기 위해 훈련데이터, 검증데이터, 테스트데이터를 일정 비율로 지정한 뒤

먼저 훈련데이터로 학습하되 훈련데이터 내에서 일정 부문 검증데이터를 두어

학습과정에서 모델 성능을 높이는 검증을 진행하며

최종적으로 테스트데이터를 통해 성능을 평가한다.

다만 데이터 셋 크기가 작을수록 데이터를 나누는 방식에 따라

모델 성능 추정에 민감한 영향을 미칠 수 있는 단점이 있다.

* 적합도 검정(Goodness of fit Test)

* 카이제곱 검정

- 카이제곱 검정은 기대값과 관측값을 이용한 방법으로

k개의 범주별로 나뉘어진 관측치들과

이와 동일한 범주의 가정된 분포 사이의 적합도를 검정하며

범주형 값 k가 나와야 할 횟수의 기댓값 mk와 실제 나온 횟수 xk의 차이를 이용하여

검정통계량을 구한다.

* 분석모형 개선

* 과대적합 방지

- 드롭아웃

: 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로

훈련 시에는 삭제할 뉴런을 선택하며 테스트 시에는 모든 뉴런에 신호를 전달,

각 뉴런의 출력에 훈련 때 삭제한 비율을 곱하여 전달한다.

- 적은 수의 뉴런들로 학습을 진행할 때 시간이 오래 걸리는 단점이 있다.

* 가중치 감소

- L2 규제

: 손실함수에 가중치에 대한 L2 노름(norm)의 제곱을 더한 패널티를 부여하여

가중치 값을 비용함수 모델에 비해 작게 만들어 낸다.

: 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데

람다로 규제의 강도를 크게 하면 가중치는 0에 가까워진다.

: 회귀 모델에서 L2 규제를 적용한 것이 릿지(Ridge) 모델이다.

- L1 규제

: L1 규제는 L2 규제의 가중치 제곱을 절대값으로 바꾸는 개념으로

손실 함수에 가중치의 절대값인 L1 노름(norm)을 추가 적용하여,

희소한 특성 벡터가 되어 대부분의 특성 가중치를 0으로 만든다.

: 회귀 모델에서 L1 규제를 적용한것이 라쏘(Lasso) 모델이다.

* 초매개변수(하이퍼파라미터, HyperParameter) 최적화

- 초매개변수란 사람이 직접 설정해주어야 하는 매개변수로

뉴런의 수, 배치(batch) 크기, 학습률(learning rate), 은닉층 개수 등이 있다.

- 베이지안 그리드 탐색, 랜덤 탐색

출처 사이트 - 2

* 분석모형 융합

* 앙상블 학습

- 주어진 자료를 이용하여 여러 가지 분석 예측모형들을 만들고

해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 방법이다.

* 최종모형 선정

* 회귀모형에 대한 주요 성능평가지표

- MAE(Mean Absolute Error)

: 실제값과 예측값의 차이의 절대값을 합한 평균값

* 분류모형에 대한 주요 성능평가지표

- 정밀도(Precision)

: 양성 판정 수 중 실제 양성 수

: 해당 클래스 예측 샘플 중 실제 속한 샘플 수의 비율

- 재현율(Recall)

: 통계용어로 민감도(Sensitivity)

: 전체 양성 수에서 검출 양성 수 (양성 중 맞춘 양성의 수)

: 실제 속한 샘플 중 특정 클래스에 속한다고 예측한 표본 수 비율

- 정확도(Accuracy)

: 전체 수 중에서 양성과 음성을 맞춘 수

: 전체 샘플 중 맞게 예측한 샘플 수 비율

* 분석결과 시각화

* 주요 용어

- 축(Axis)

: 데이터가 표시될 위치에 대한 기준선으로 2차원그래프는 2개,

3차 원그래프는 3개의 축으로 구성된다.

- 스케일(Scale)

: 그래프에 표현되는 데이터 값의 범위를 말하며,

각각의 축에 일정한 간격을 가지고 표시된다.

- 범례(Legend)

: 차트에 표현되고 있는 기호나 선 등이 어떤 의미인지 설명하는 역할을 한다.

* 데이터 시각화 영역

* 정보 시각화(Information Visualization)

- 트리맵(Tree map)

* 인포그래픽(Infographic)

- 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용한다.

- 정보를 빠르고 분명하게 표현하는 것에 중심을 둔다.

- 스토리를 통해 정보를 전달하려는 경향이 강하다.

* 시간 시각화

* 막대그래프

- 데이터 값을 길이로 표현한 막대를 배치함으로써

상대적인 차이를 한눈에 알아보도록 표현하는 방법이다.

출처 사이트 -3

* 누적막대그래프

- 막대그래프가 하나의 변수에 따라 달라지는 형태를 보이는 반면에

누적막대그래프는 두 개 이상의 변수를 동시에 다루는 경우에 막대의 영역을 구분하여

나머지 변수의 값을 표현하다.

출처 사이트 - 5

* 꺾은선그래프(연속 시계열그래프)

- 점그래프에서 점과 점 사이를 선으로 연결한 그래프로 데이터의 연속된 특성을 표현한다.

- 경향성을 뚜렷하게 보여주기 위해서 주로 사용한다.

출처 사이트 - 5

* 분포 시각화

* 히스토그램(Histogram)

- 막대그래프의 일종으로 세로축은 데이터의 분포 정도를 표현하고,

가로축은 특정 변수의 구간 폭을 의미한다.

출처 사이트 - 6

* 원그래프(파이차트)

- 하나의 원을 구성하는 데이터의 비율에 따라 조각으로 나누어서 데이터의 분포를 포함한다.

출처 사이트 - 7

* 도넛차트

- 막대그래프를 누적하고 도넛 모양으로 만든 형태이며,

원그래프가 면적으로 분포비율을 표현하는데 반해

도넛차트는 면적이 아닌 길이로 데이터 값의 정도를 표현한다.

출처 사이트 - 8

* 트리맵

- 트리맵은 전체 데이터를 표현하는 하나의 사각형 영역에

세부 사각형들의 크기로 데이터의 분포를 시각화하여 표현한다.

출처 사이트 - 9

* 산점도(스캐터플롯, Scatter Plot)

- 두 변수의 값을 2차원(또는 3차원) 좌표계를 활용하여 점으로 표시한 것으로

점들의 집합이 모여서 두 변수 사이의 관계를 표현한다.

- 두 변수 사이의 다양한 관계를 표현할 수 있다.

* 버블차트(Bubble Chart)

- x, y 값의 위치를 표시하는 산점도에 점의 위치에 해당하는 제

3의 변수값을 원의 크기로 표현한 그래프로 한번에 3개의 변수를 비교해볼 수 있다.

* 히트맵(Heat Map)

- 데이터 분포와 관계에 대한 정보를 색(Heat)으로 표현한 그래프이다.

데이터를 식별하기 위해 각각의 칸마다 색으로 수치의 정도를 표현한다.

* 비교 시각화

* 히트맵(Heat Map)

- 여러 변수와 다수의 대상에 대해 하나의 표 형태로

표현할 수 있는 도구로 관계시각화뿐만 아니라 비교시각화 도구로도 유용하게 사용된다.

* 스타차트(Star Chart)

- 하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고,

축에 표시된 해당 변수의 값들을 연결하여

별 모양(또는 거미줄 모양)으로 표현하는 그래프이다.

* 평행좌표계(Parallel Coordinates)

- 체르노프페이스는 한 대상의 특징을 명확하게 보여주지만,

여러 대상을 한 번에 보여주기는 힘들다.

평행좌표계는 스타차트의 여러 축을 평행으로 배치하고,

축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들을 선으로 연결해서 표현한다.

* 다차원척도법(MDS: Multi - Dimensional Scaling)

- 다차원척도법은 객체 간 근접성을 시각화하는 통계기법으로

모든 변수를 비교해서 비슷한 대상을 그래프 상에 가깝게 배치하는 방법이다.

* 공간 시각화

- 매핑(Mapping)

: 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시한다.

* 카토그램(Cartogram)

- 데이터 값의 변화에 따라 지도의 면적을 인위적으로

왜곡(확대 또는 축소) 하여 데이터 값에 대한 직관적인 이해가 가능하도록 한 다이어그램이다.

* 분석결과 활용

* 분석모형 전개

* 빅데이터 분석 방법론

- 분석기획(Planning)

: 분석하려는 비즈니스를 이해하고 분석 목표와 범위를 설정하는 단계이다.

비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립,

프로젝트 위험계획 수립 등의 작업을 수행한다.

- 데이터 준비(Preparing)

: 프로젝트에 필요한 데이터의 범위와 요건을 정의하고 기준에 맞도록

데이터를 수집, 가공, 준비한다. 필요데이터 정의, 데이터 스토어 설계,

데이터 수집 및 정합성 점검 등의 작업을 수행한다.

- 데이터 분석(Analyzing)

: 준비단계에서 확보된 데이터를 이용하여 다양한 분석 작업을 수행한다.

분석용 데이터 준비,텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증,

모델적용 및 운영방안 수립 등의 작업을 수행한다.

- 평가 및 전개(Deploying)

: 모델의 성능을 유지하고 주기적으로 개선하는 노력을 하기 위해

모델발전계획을 수립하고 프로젝트의 성과를 정량적,

정성적으로 평가하고 최종 보고서를 작성한 후 프로젝트를 종료한다.

* 전개(Deployment) 단계의 역할

- 분석모형 모니터링

: 빅데이터 분석이 끝나면 각 현업부서에서 분석 결과를 활용하게 되는데,

이때 이전에 수립한 활용방안이 계획대로 잘 수행되고 있는지 모니터링 한다.

- 분석모형 리모델링

: 분석 모형이 변화된 업무와 데이터를 지속적으로 수용할 수 있도록

데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 등 리모델링 과정을 진행한다.

* 분석모형 리모델링

* 분석모형 리모델링 과정

- 분석 모델의 성능이 떨어질 수 있으며, 최악의 경우 전혀 다른 결과를 생성하기도 한다.

- 새롭게 추가할 사항을 정리하여 개선방안을 도출한다.

+ 추가

라벨되지 않은 이미지들을 예측,

가장 높은 확률값의 이미지에 신규 라벨링 이미지로 분류 뒤

반복 훈련하는 대표적인 준지도학습 방법론은 셀프트레이닝이다.

앙상블 분석의 종류에 대한 설명

= 부스팅은 가중치를 활용하여

연속적인 Weak Learner를 생성하고

이를 통해 강분류기를 만드는 방법이다.

통계학 회귀분석에서 독립변수들 간에

강한 상관관계가 나타나는 문제를 ( 다중공선성 ) 문제라고 한다.

분석모형 설계에서 특정 영역을 지정,

의사결정 지점으로 진행하는 과정에서 분석기회를 발굴하는 방식

= 상향식 접근

손실함수가 최소가 되는 가중치 값인

중심 점을 찾아 큰 가중치를 제한하는데

람다로 규제의 강도를 크게하면 가중치 값이 가장 근접해지는 값

= 0

추세선에 대한 설명

= 막대그래프에서 데이터 값의 변화하는 경향성을 보여주는 직선 또는 곡선

= 다양한 함수를 적용해서 구할 수 있다.

암에 대해 양성과 음성 데이터를 분류할 시 예측 경우의 수로 적합한 설명

= 양성인데 음성으로 검출되면 False Negative 이다.

데이터 시각화에 대한 설명들

= 데이터 시각화는 분석된 결과를 해석하는 대표적인 방법이다.

= 데이터 값을 시각적 속성으로 변환하고 그래프로 표현한다.

= 데이터 시각화를 통해서

데이터의 이상치를 효율적으로 발견할 수 있다.

연속형 데이터와 이산형 데이터에 모두 적용할 수 있는

데이터의 시각적 속성.

= 위치 속성, 색 속성, 크기 속성

데이터 시각화 도구 중 공간시각화와 가장 가까운 것.

= 단계구분도, 카토그램, 버블차트

관측값들이 어떤 이론적 분포를 따르고 있는지를

검정하는 방법으로 한 개의 요인을 대상으로 하는 것

= 적합도 검정

딥러닝모델에 대한 시각화 방법과 가까운 것

= 산포도, 차원축소, 노드 링크 다이어그램

회귀분석에서 잔차진단의 유형과 관계있는 진단유형

= 정규성 진단, 독립성 진단, 등분산성 진단

CRISP DM 방법론의 전개단계를 구성하는 프로세스인 것

= 전개계획 수립, 모니터링 계획 수립, 프로젝트 종료보고서 작성

분석결과 활용 계획 수립 시 고려할 사항으로 가장 가까운 것.

= 분석업무의 성과목표를 수립하고 측정할 수 있는 성과지표를 설정한다.

= 분석결과 활용을 위한 내, 외부 교육 훈련 방안을 수립한다.

= 결과활용을 위한 시나리오를 개발한다.

체르노프 페이스에서 데이터 표현을 위해 사용되는 요소로 거리가 가까운 것.

= 얼굴형, 코의 크기, 귀의 높이

+ 추가 2

지도학습의 회귀모델 평가지표에서 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값

= MSE(Mean Squared Error) :

실제값과 예측값의 차이의 제곱에 대한 평균을

취한 값으로 평균제곱 오차라고도 한다.

분석모형 리모델링에서 수행하는 활동으로 적합한 것

= 데이터 품질 검토, 분석 알고리즘 개선, 매개변수 최적화

분석모델별 활용되는 시각화 기법 설명

= SVM : 비교시각화 기법의 산점도

= 의사결정나무 : 관계시각화 기법의 트리 다이어그램

= 회귀모델 : 관계시각화 기법의 히트맵

적합도 검정 기법 종류

= 정규성 검정, 카이제곱 검정, 콜모고로프 스미로노프 검정

분석모형 리모델링 과정에 해당하는 것

= 가설 및 추정방법에 대한 재검토

= 분석 데이터의 범위 및 품질 검토

= 과대적합 방지를 위한 알고리즘 개선

= 분석 목적은 변하지 않으며,

목적을 달성하기 위한 분석 모델과 데이터,

알고리즘을 검토하고 개선한다.

분석과제 선정을 위해 고려하는 항목

= 과제의 추진 시급성

= 분석모델의 구현 가능성

= 분석기회 발굴 위한 질문 구체화

분석모델멸 시각화에서 회귀분석모델에서 활용하는 시각화 기법

= 비교시각화, 시간시각화, 관계시각화

딥러닝모델에 대한 시각화 방법

= 산포도, 차원축소, 노드 링크 다이어그램

누적히스토그램 에 대한 설명

= 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시

= 마지막 막대는 전체 데이터의 총 수를 나타냄

= 누적히스토그램은 히스토그램의

각 구간의 값을 누적시켜서 표현한다.

따라서, 데이터의 출현 빈도를

오른쪽으로 누적하면서 표시하며

마지막 막대는 전체 데이터의 총 수를 나타낸다.

+ 추가 3

확률적 경사 하강법에 속도 개념으로 기울기 방향으로

힘을 받으면 물체가 가속되는 물리법칙을 알고리즘에 적용한

매개변수 최적화 기법을 가리키는 것

= 모멘텀

= 모멘텀(Momentum)은 운동량을 뜻하며

확률적 경사 하강법에 속도 개념으로

기울기 방향으로 힘을 받으면

물체가 가속되는 물리법칙을 알고리즘에 적용,

누적된 값이 가중치 갱신에 영향을 주면서 빠른 최적점 수렴이 가능하다.

분석모델별 결과해석 설명

= 회귀분석모델의 잔차에는 패턴이나 추세가 있어서는 안된다.

= 군집분석모델은 연속형 변수의 경우 평균 또는 중앙값을 계산한다.

= 연관분석모델은 지지도, 신뢰도 및

향상도가 높은 규칙들을 찾되 최소 기준점을 적용한다.

= 딥러닝 모델 해석에 사용하는 오차율은

상대오차나 평균 제곱근 편차를 사용한다.

교차검증의 설명

= 테스트 검증데이터가 하나로 고정되지 않게 하며

데이터 모든 부분을 사용하여

모델을 검증한다.

= 훈련 데이터셋의 일부를 훈련으로 이용하며

나머지를 검증으로 활용한다.

= 반복 횟수 증가에 따른 모델 훈련과 평가/검증시간이 오래 걸릴 수 있다.

= k-fold 교차검증 기법의 경우

전체 데이터셋을 k개의 서브셋으로 나누어

k번의 평가를 실행하는데 테스트 셋을 중복없이 병행 진행하여

평균을 내어 최종적 모델의 성능을 평가한다.

데이터 시각화 도구 중 공간시각화와 가장 관련성이 가까운 것

= 단계구분도, 카토그램, 버블차트

분석 서비스의 안정적인 운영과 현행화된 데이터의

수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동

= 분석 데이터 처리, 분석 모형 리모델링, 분석 프로젝트 관리

회귀분석에서 잔차진단의 유형

= 정규성 진단, 독립성 진단, 등분산성 진단

데이터 시각화 방법과 대표적 도구의

연결 중에서 가장 거리가 가까운 것

= 분포시각화 - 누적연속그래프

= 비교시각화 - 히트맵

= 공간시각화 - 카토그램

+ 추가 4

교차검증의 설명

= 테스트 검증데이터가 하나로 고정되지 않게 하며

데이터 모든 부분을 사용하여 모델을 검증한다.

= 훈련 데이터셋의 일부를 훈련으로 이용하며

나머지를 검증으로 활용한다.

= 반복 횟수 증가에 따른 모델 훈련과 평과/검증시간이

오래 걸릴 수 있다.

= k-fold 교차검증 기법의 경우

전체 데이터셋을 k개의 서브셋으로 나누어

k번의 평가를 실행하는데 테스트 셋을 중복없이

병행 진행하여 평균을 내어 최종적 모델의 성능을 평가한다.

여러 지역에 걸친 정량정보를 표현할 때,

데이터가 분포된 지역별로 색을 다르게 칠한 지도

= 단계구분도

= 여러 지역에 걸친 정량 정보를 나타낼 때,

데이터가 분포된 지역별로 색을 다르게 칠한 지도를 단계구분도라고 한다.

관측값들이 어떤 이론적 분포를 따르고 있는지를 검정하는 방법으로

한 개의 요인을 대상으로 하는 것

= 적합도 검정

= 적합도 검정이란 데이터가 가정된 확률에 적합하게 따르는지를 검정하는

즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법이다.

+ 추가 5

분석 프로젝트 최종보고서에 포함될 내용

= 프로젝트 개요, 프로젝트 수행 조직, 프로젝트 단계별 산출물 요약

분석 서비스의 안정적인 운영과 현행화된 데이터의 수집,

저장, 관리, 분석 결과 활용 등을 위한

지속적인 활동

= 분석 모니터링

데이터 시각화 방법에 대한 설명

= 단계구분도는 면적이 넓은 지역의 값이 전체를 지배하는 것처럼

보이는 시각적 왜곡이 발생 할 수 있다.

= 공간시각화는 실제 지도나 지도모양의 다이어그램을

배경으로 데이터의 위치를 시각화한다.

= 히트맵은 여러 변수와 다수의 대상에 대해

하나의 표 형태로 표현할 수 있다.

= 스타차트도 여러 개의 대상을 하나의 차트에 동시에 표현할 수 있다.

데이터에 시각화 대한 설명

= 데이터 시각화는 분석된 결과를 해석하는 대표적인 방법이다.

= 데이터 값을 시각적 속성으로 변환하고 그래프로 표현한다.

= 데이터 시각화를 통해서 데이터의 이상치를 효율적으로 발견할 수 있다.

= 누적막대그래프는 이산형(분절형) 데이터를 표현하는데 적합하다.

데이터 시각화의 하위 개념으로

상호작용이 가능한 시각적 인터페이스를 사용해

데이터의 특징을 분석해 나가는 과정

= 시각적 분석

+ 추가 6

손실함수가 최소가 되는 가중치 값인 중심 점을 찾아

큰 가중치를 제한하는데

람다로 규제의 강도를 크게하면 가중치 값이 가장 근접해지는 값.

= 0

= 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아

큰 가중치를 제한하는데

람다로 규제의 강도를 크게 하면 가중치 값이 0에 가까워진다.

교차검증의 설명.

= 테스트 검증데이터가 하나로 고정되지 않게 하며

데이터 모든 부분을 사용하여 모델을 검증한다.

= 훈련 데이터셋의 일부를 훈련으로 이용하여

나머지를 검증으로 활용한다.

= 반복 횟수 증가에 따른 모델 훈련과 평가/검증시간이 오래 걸릴 수 있다.

= K-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어

k번의 평가를 실행하는데 테스트 셋을 중복없이 병행 진행하여

평균을 내어 최종적 모델의 성능을 평가한다.

초매개변수 최적화 기법.

= 미니배치 크기, 은닉층 개수, 훈련반복 횟수

다수의 객체를 군집으로 나누어

그룹 클러스터별 단위로 분석하는 군집분석에서

적용되는 시각화 기법.

= 산점도

= 다수의 객체를 군집으로 나누는 군집분석은

그룹 클러스터별 단위로 산점도로 시각화한다.

+ 추가 7

분석모델마다 평가되는 해석지표들이 다양한데

회귀모델에서의 해석지표로 추정된 회귀식이

변동을 얼마나 잘 설명했는가에 대한 지표.

= 결정계수

= 회귀모델의 해석지표인 결정계수는

추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로

값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다.

분석 서비스의 안정적인 운영과

현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한

지속적인 활동.

= 분석 모니터링

= 데이터 시각화 방법과 대표적 도구의 연결.

= 분포시각화 - 누적연속그래프, 파이차트

= 비교시각화 - 히트맵

= 공간시각화 - 카토그램

= 시간시각화 - 막대그래프, 점/선 그래프

비지도학습 모형인 군집분석에 대한 주요 성능평가지표.

= 군집간 거리, 군집의 분산, 군집의 지름

데이터시각화 방법에 대한 설명.

= 단계구분도는

면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는

시각적 왜곡이 발생할 수 있다.

= 스타차트도 여러개의 대상을 하나의 차트에 동시에 표현할 수 있다.

= 공간시각화는 실제 지도나 지도모양의 다이어그램을 배경으로

데이터의 위치를 시각화한다.

= 히트맵은 여러 변수와 다수의 대상에 대해

하나의 표 형태로 표현할 수 있다.

분석모형 리모델링 과정.

= 가설 및 추정방법에 대한 재검토

= 분석 데이터의 범위 및 품질 검토

= 과대적합 방지를 위한 알고리즘 개선

= 분석 목적은 변하지 않는다.

손실함수의 기울기를 따라

조금씩 아래로 내려가다 최종적으로

손실함수가 가장 작은 지점에

도달하도록 하는 알고리즘으로 매개변수 값을 조정 시

전체데이터가 아니라

랜덤으로 선택한 하나의 데이터에

데해서만 계산하는 방법.

=SGD

= 확률적 경사 하강법

+ 추가 8

교차검증의 설명.

= 테스트 검정데이터가 하나로 고정되지 않게 하며

데이터 모든 부분을 사용하여 모델을 검증한다.

= 훈련 데이터셋의 일부를 훈련으로 이용하며 나머지를 검증으로 활용한다.

= 반복 횟수 증가에 따른 모델 훈련과 평가, 검증시간이 오래 걸릴 수 있다.

= K fold 교차검증 기법의 경우

전체 데이터셋을 K개의 서브셋으로 나누어

K번의 평가를 실행하는데

테스트 셋을 중복없이 병행 진행하여

평균을 내어

최종적 모델의 성능을 평가한다.

데이터 시각화 방법과 데표적 도구의 연결.

= 분포시각화 - 누적연속그래프,파이차트

= 비교시각화 - 히트맵

= 공간시각화 - 카토그램

= 시간시각화 - 막대그래프, 점/선그래프

빅데이터 분석 기사 (필기) - PART 04) 빅데이터 결과 해석 요약 및 정리

댓글 쓰기

디스코드에서 자신의 토큰을 확인하는 법

Contact form

빅데이터 분석 기사 (필기) - PART 04) 빅데이터 결과 해석 요약 및 정리

You Might Like

댓글 쓰기

Contact form