빅데이터 분석 기사 (필기) - PART 03) 빅데이터 모델링 요약 및 정리

ForeverDisney
0





분석기법

* 분석기법 개요

* 학습유형에 따른 데이터 분석 모델

- 지도학습(Supervised Learning)

: 정답(Label, 라벨 또는 레이블)이 있는 데이터를 활용해 

데이터를 학습시키는 방법으로 입력값이 주어질 때 정답이 무엇인지 알려주면서 

컴퓨터를 학습시키는 방법이다.




- 지도학습 (분류)

: 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트벡터머신(SVM)




- 지도학습 (회귀(예측))

: 다중회귀분석




- 비지도학습(Unsuoervised Learning)

: 정답 없는 데이터를 컴퓨터 스스로 학습하여 

숨겨진 의미, 패턴을 찾아내고 구조화하는 방법이다. 

예를 들어, 전기자동차를 산 구매자들의 데이터를 갖고 있을 때, 

어떤 사람들이 주로 전기자동차를 샀는지를 비지도학습을 통해 알아볼 수 있다. 

다만, 입력값은 있으나 정답이 없어 출력값이 존재하지 않으므로 

학습모델의 성능을 평가하기 어렵다.




: 라벨이 없는 데이터에 대해서 데이터의 특성을 스스로 분석하여 

데이터가 어떤 특성의 그룹으로 구성되어 이는지 확인하는데 사용된다.

(라벨링이 되어있지 않음 = 군집분석)




: 비지도학습의 종류로 군집분석(Clustering)이 있다.




- GAN (Generative Adversarial Networks (생성적 적대 신경망))

: 생성모델(generative model)과 판별모델(식별모델, discriminative model)




- 강화 학습(Reinforcement Learning)

: 주어진 환경에서 보상을 최대화하도록 에이전트를 학습하는 기법이다.




* 회귀분석

* 선형회귀분석

- 다중 선형회귀분석

: 하나의 독립변수가 아닌 여러 개의 독립변수(X 값이 여러 개 일때)를 사용한 회귀분석 기법으로

단순 선형회귀분석이 독립변수를 하나 가지고 있는 선형회귀분석이라면 

다중 선형회귀분석은 독립변수가 두 개 이상이고 종속변수가 y 하나인 선형회귀분석이다. 




- 로지스틱 회귀분석(Logistice Regression)

: 통계학자 D.R. Cox가 1958년에 제안한 확률 모델로 종속변수와 독립 변수와의 관계를 

함수를 통해 예측하는 것은 선형회귀분석과 유사하나, 

종속변수가 연속형이 아닌 범주형으로 입력 데이터가 주어졌을 때 

특정 분류로 결과가 나타나는 것이 다른 점이다.




* 의사결정나무(Decision Tree)

- 나무 모양으로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)함.




* 의사결정나무의 구성

- 뿌리 마디(Root Node, 뿌리 노드)

: 나무가 시작되는 마디, 부모가 없는 마디로 대상이 되는 모든 자료집합을 포함




- 중간 마디(Internal Node)

: 뿌리 마디에서 나온 각 나무줄기 중간에 있는 마디




- 끝 마디(Terminal Node, 잎 노드)

: 각 나무줄기의 끝에 있는 마디, 자식이 없는 마디 




- 자식 마디(Child Node)

: 하나의 마디로부터 분리된 2개 이상의 마디




- 가지(Branch)

: 하나의 마디로부터 끝 마디까지 연결된 마디들




- 깊이(Depth)

: 가장 긴 가지의 크기




* 의사결정나무의 종류

- 분류나무

: 카이제곱 통계량(불순도 함수) = ((실제도수-기대도수)2/기대도수)의 합




* 분산분석

- 자료 형태에 따른 분석에서 독립변수가 범주형이고, 

종속변수가 연속형인 경우 이들의 평균치에 대한 차이를 검정




* 정지규칙(Stopping Rule)

- 더 이상 분리가 일어나지 않고 현재의 마디가 끝 마디가 되도록 하는 여러 규칙이다.




* 정보 획득(Information Gain)

- 정보이론(Information Theory)에서 순도가 증가하고 불확실성이 감소하는 것을 

정보 획득이라 하며 현재 노드의 불순도와 자식노드의 불순도 차이를 의미한다.




* 재귀적 분기(Recursive Partitioning) 학습

- 의사결정나무 분기 전보다 분기 후 각 영억의 정보 획득량이 높아지도록 

입력 변수의 영억을 구분하여 사전에 설정한 기준을 만족할 때가지 

분기를 반복하는 학습이다. 분기 뒤 순도의 증가, 

불확실성이 최대한 가모하는 방향으로 학습을 진행한다.




- 모든 잎(끝마디)의 엔트로피가 0이 될 때까지 반복하는데 

새로운 데이터가 제대로 분류되지 못하는 현상을 방지하기 위해 

일정단계에서 중지하거나 분기를 재조정하는 가지치지 단계로 넘어가게 된다. 




- 가지치기

: 평가용 데이터를 활용, 부적절한 추론규칙을 가지고 있거나 

불필요한 분류오류를 크게 할 위험 있는 마디들을 제거한다.




* 랜덤 포레스트(Random Forest)

- 부트스트래핑 기반 샘플링을 활용한 의사결정나무 생성 이후 

배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성하게 되면 이를 랜덤 포레스트라고 일컫는다. 




- 부트스트래핑(Bootstrapping)

: 단순 복원 임의추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본자료를 생성한다. 




- 배깅(Bagging: Bootstrap Aggregating)

: 여러 부트스트랩 자료를 생성하여 학습하는 모델링으로 

분류기(classifiers)를 생성한 후 그 결과를 앙상블 하는 방법이다.




* 부스팅(Boosting)

- 가중치를 활용하여 약분류기(weak classifier)를 강분류기(string classi-fier)로 만드는 방법




* 앙상블 학습(Ensemble Learning)

- 여러 모델을 학습시켜 결합하는 방식의 학습 방법으로 

일반화(generalization) 성능을 향상시켜 과적합을 해결할 수 있다.




* 의사결정나무의 장단점

- 장점

: 연속형, 범주형 변수 모두 적용, 변수 비교가 가능하며 규칙에 대해 이해하기 쉽다.

: 데이터로부터 규칙을 도출하는 데에 유용하므로 

DB마케팅, CRM, 시장조사, 기업 부도/환율 예측 등 다양한 분야에서 활용된다.




* 인공신경망(ANN: Artificial Neural Network)

* 인공신경망의 특징

- 인간의 두뇌 신경세포인 뉴런을 기본으로 한 기계학습 기법

- 신경망 모형은 높은 복잡성으로 입력 자료의 선택에 민감하다.




* 인공신경망의 발전

* 기존 신경망 다층 퍼셉트론이 가진 문제

- 사라지는 경사도(Vanishing Gradient) 

: 신경망 층수를 늘릴 때 데이터가 사라져 학습이 잘 되지 않는 현상이다. 




- 딥러닝(Deep Learning)의 등장

: 사라지는 경사도 문제를 해결하고 

과대적합을 방지하는 초기화(intialize point) 알고리즘의 발전 및 

고의로 데이터를 누락시키는 드롭아웃(droupout)을 사용하여 

해결되는 것이 증명되면서 기존 인공신경망을 뛰어넘은 모델을 

리브랜딩(re-branding)의 일환으로 딥러닝으로 부르게 된다.

- 딥러닝의 기본구조인 DNN(Deep Neural Network)은 은닉층을 2개 이상 가진 학습 구조




* 인공신경망의 원리

* 인공신경망의 주요 요소

- 노드

: 신경계 뉴런, 가중치와 입력값으로 활성함수를 통해 다음 노드로 전달

- 가중치

: 신경계 시냅스, 노드와의 연결계수

- 활성함수

: 임계값을 이용, 노드의 활성화 여부를 결정

- 은닉층

: 다층 네트워크에서 입력층과 출력층 사이 데이터를 전파학습




* 학습

* 손실 함수

- 신경망이 출력한 값과 실제 값과의 오차에 대한 함수이다. 

- 손실 함수값이 최소화되도록 하기 위해 

가중치와 편향을 찾는 것을 인공신경망의 학습이라고 한다.

- 일반적인 손실 함수로는 평균제곱 오차 또는 교차엔트로피 오차를 활용한다.




* 오차역전파(Back Propagation)

- 가중치 매개변수 기울기를 미분을 통해 진행하는 것은 

시간 소모가 크므로 오차를 출력층에서 입력층으로 전달, 

연쇄법칙(Chain Rule: 합성함수의 미분은 각각의 미분의 곱으로 나타낼 수 있음)을 

활용한 역전파를 통해 가중치와 편향을 계산, 업데이트한다.




* 활성(활성화)함수

- 대표적인 함수는 시그모이드(SIgmoid)와 렐루(Relu)가 있다.




* 과대적합(과적합, Overfitting)

- 해결방안

: 드롭아웃(Dropout)




* Lasso(라쏘) : L1 규제(정규화)

- L1-norm 개념으로 Cost Function(비용함수)를 조정한다.

- L1-norm

: 벡터 요소의 모든 절대값을 합한 값으로 맨하탄(Manhattan) 또는 

택시(Taxi) norm으로 불리는데 뉴욕 맨하탄 시 택시가 출발지에서 목적지로 이동할 시 

대각선이 아닌 건물들 블록(block)을 따라 이동하는 모습과 유사하다고 붙여진 명칭이다.




* Ridge(릿지) : L2 규제(정규화)

- L2-norm 개념으로 Cost Function(비용함수)를 조정한다.

- L2-norm

: 벡터의 유클리드 거리값으로 한 지점에서 다른 지점으로 

이동하는 최단거리로 n차원 좌표평면(유클리드 공간)에서의 벡터의 크기를 계산한다.




* 드롭아웃(Dropout)

- 신경망모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로 

적은 뉴런만으로 훈련한 뒤 테스트 시에 전체 뉴런을 사용하면 정답을 보다 잘 찾을 수 있게 된다.




* 딥러닝 모델 종류

- CNN(Convolutional Neural Network, 합성곱 신경망 모델)

: 신경네트워크(Neural Network)의 한 종류인 CNN은 사람의 시신경 구조를 모방한 구조로 

인접하는 계층의 모든 뉴런과 결합된 완전 연결(fully connected, 전결합)을 구현한 

아핀(Affine) 계층을 사용하여 모든 입력 데이터들을 동등한 뉴런으로 처리한다.




- RNN(Recurrent Neural Network)

: 순서를 가진 데이터를 입력하여 단위 간 연결이 시퀀스를 따라 

방향성 그래프를 형성하는 신경네트워크 모델로 내부 상태(메모리)를 이용하여 

입력 시퀀스를 처리한다.




- LSTM(Long Short - Term Memory Network)

: RNN은 점차 데이터가 소멸해 가는 문제를 발생하는데, 

관련 정보와 그 정보를 사용하는 지점 사이 거리가 멀 경우에 

역전파 시 기울기가 점차 줄어들어 학습 능력이 떨어진다.




- 오토인코더(Auto - encoder)

: 대표적 비지도학습 모델로 다차원 데이터를 저차원으로 바꾸고 

바꾼 저차원 데이터를 다시 고차원 데이터로 바꾸면서 특징점을 찾아낸다.




: 출력 계층과 입력 계층의 차원은 같다.




- GAN(Generative Adversarial Network)

: 학습 데이터 패턴과 유사하게 만드는 생성자(generator) 네트워크와 

패턴의 진위 여부를 판별하는 판별자(discriminator) 네트워크로 구성되는데 

두 네트워크가 서로의 목적을 달성하도록 학습을 반복한다.




* 서포트벡터머신(SVM)

: 지도학습 기법으로 고차원 또는 무한 차원의 공간에서 

초평면(의 집합)을 찾아 이를 이용하여 분류와 회귀를 수행한다.




* SVM의 주요 요소

- 초평면(Hyperplane)

: 서로 다른 분류에 속한 데이터들 간 거리를 가장 크게 하는 분류 선

- 서포트벡터(Support Vector)

: 두 클래스 사이에 위치한 데이터 포인트들

- 마진(Margin)

: 서포트벡터를 지나는 초평면 사이의 거리




* SVM의 핵심적 특징

- SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있다.




* SVM의 장단점

- 단점

: 이진분류만 가능하며 데이터가 많을 시 모델 학습 시간이 오래 소요된다. 




* 군집분석

* 군집분류 시 기본적인 가정

- 하나의 군집 내에 속한 개체들의 특성은 동일하다.

- 개체간의 거리를 기준으로 분류한다.

- 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타낸다.




* 군집분석의 척도

- 유클리드 거리(Euclidean Distance)

: 피타고라스 정리를 통해 측정하며 L2 거리라고도 불린다.

- 맨하탄 거리(Manhatan Distance)

: L1 거리로도 통칭되며 사각형 격자, 블록으로 이뤄진 지도에서 

출발점에서 도착점까지 가로지르지 않고 도착하는 최단거리 개념이다.

- 민코우스키 거리(Minkowski Distance)

: m차원 민코프스키 공간에서의 거리를 뜻하며 m=1일 때 맨하탄 거리와 같고 

m=2일 때 유클리드 거리와 같다.

- 마할라노비스 거리(Mahalanobis Distance)

: 일반적인 다변량 데이터에서 두 데이터 간의 거리를 파악하기 위해 

서로 다른 의미를 지닌 특징 간의 상관관계를 고려해야 한다. 

두 특징 간 나타나는 데이터의 방향성과 상관도를 나타낸 

공분산 행렬(Covariance Matrix) 개념을 적용하여 정규 분포에서 특정 값이 

얼마나 평균에서 멀리 있는지를 나타낸 거리이다.




* 고급 분석기법

* 범주형 자료분석

- 교차분석 또는 카이제곱분석(Chi - Square Test)

: 성별에 따라 종교의 차이가 유의미한가, 

종교에 따라 취미의 분포 차이가 있는지 

또는 야당과 여당에 따라 정치에 대한 긍정, 부정의 시각차가 있는가 등을 보는 것이다.




- 다차원척도법(MDS: Multi - Dimensional Scaling)

: 다차원 관측값 또는 개체들 간의 거리(distance) 또는 비유사성(dissimilarity)을 이용하여 

개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 

공간상에 위치시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 

쉽게 파악하고자 하는데 목적이 있다.




* 시계열분석

* 시계열 자료

- 시간의 흐름에 따라서 관측되는 자료(데이터)를 지칭한다. 

시계열 자료를 이용하여 미래에 대해 예측 또는 제어하는 것이 주 이용목적이다.




* 시계열자료의 성분

- 불규칙 성분(Irregular Component)

: 시간에 따른 규칙적인 움직임이 없는(무관하게) 랜덤하게 변화하는 변동성분이다.




- 추세성분(Trend Component)

: 관측 값이 지속적 증가 또는 감소하는 추세(Trend)를 포함한다.




- 계절성분(Seasonal Component)

: 주기적 성분에 의한 변동을 가지는 형태(계절, 주, 월, 년 등)이다.




- 순환성분(Cyclical Component)

: 주기적 변화를 가지나 계절적인 것이 아닌 주기가 

긴 변동을 가지는 형태(경기 대순환, Business Cycle) 이다.




* 정상성(Stationarity)

: 시계열 데이터가 평균과 분산이 일정한 경우를 지칭한다. 

일반적으로 시계열 데이터가 정상성을 가지면 분석이 용이한 형태로 볼 수 있다.




* 베이즈 기법

- 나이브 베이즈 분류(Naive Baes Classification)

: 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기를 지칭한다.




* 딥러닝 분석

- 딥러닝(Deep Learning)

: 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 

기계 학습 알고리즘의 집합으로 정의된다.

: 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야이다.

: 인공신경망의 단점(계산속도의 저하, 과적합문제) 등이 극복되면서 

재조명되고 부각된 기계학습이다.




- 활성함수

: 시그모이드(sigmoid), 정류선형유닛함수(ReLU: Rectified Linear Unit, 렐루) 등이 사용




- 렐루

: 시그모이드의 단점을 해결함.

: 시그모이드보다 학습 빠름, 연산 비용 적음.

: 0보다 크면 입력값 출력.




* 딥러닝 분석 알고리즘

- 심층 신경망(DNN: Deep Neural Network)

: 심층 신경망은 입력층(input layer)과 출력층(output layer) 사이에 

여러 개의 은닉층(hidden layer)들로 이뤄진 인공 신경망이다.




- 합성곱 신경망(CNN: Convolutional Neural Network)

: 합성곱 신경망은 최소한의 전처리(preprocess)를 사용하도록 [

설계된 다계층 퍼셉트론(multilayer perceptrons) 한 종류이다.




- 순환 신경망(RNN: Recurrent Neural Network)

: 순환 신경망은 인공신경망을 구성하는 유닛 사이의 연결이 

순환적 구조를 갖는 신경망을 말한다.




- 심층 신뢰 신경망(DBN: Deep Belief Network)

: 심층 신뢰 신경망은 기계학습에서 사용되는 

그래프 생성 모형(generative graphical model)이다.




* 비정형 데이터 분석

* 데이터 수집의 난이도

- 정형 데이터

: 내부 시스템인 경우가 대부분이라 수집이 쉽다. 

파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬운 편이다.

수집 난이도) 하




- 반정형 데이터

: 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구된다.

수집 난이도) 중




- 비정형 데이터

: 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 

파싱해야 하기 때문에 수집 데이터 처리가 어렵다.

수집 난이도) 상




* 데이터 처리의 아키텍쳐

- 정형 데이터

: 일반적인 아키텍처 구조로 이루어져 있다.




- 반정형 데이터

: 데이터의 메타구조를 해석해 정형 데이터 형태로 

바꿀 수 있는 아키텍처 구조를 수정해야 한다.




- 비정형 데이터

: 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋 형태로 바꾸고 

정형 데이터 형태의 구조로 만들 수 있도록 아키텍처 구조를 수정해야한다.




* 데이터의 잠재적 가치

- 정형 데이터

: 내부 데이터의 특성과 현실적 가치의 한계상 활용측면에서 잠재적 가치는 상대적으로 낮다.

잠재적 가치) 하




- 반정형 데이터

: 데이터의 제공자가 선별해 제공하는 데이터로 잠재적 가치는 정형 데이터 보다 높다.

잠재적 가치) 중




- 비정형 데이터

: 수집주체에 의해 데이터에 대한 분석이 선행되었기 때문에 

목적록적 데이터 특징이 가장 잘 나타는 데이터이다. 

그렇기 때문에 일단 수집이 가능하면 수집 주체에게는 가장 높은 잠재적 가치를 제공한다.

잠재적 가치) 상




* 비정형 데이터 분석

- 텍스트 마이닝(Text Mining)

: N - Gram ( 문장을 2개 이상 단어로 분리)

: 전통적인 데이터 마이닝의 한계를 벗어난 방법으로 인

간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용하여 

대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 

데이터의 숨겨진 의미를 발견하는 기법이다.




* 앙상블 분석

- 앙상블 분석의 정의

: 앙상블(Ensemble) 기법은 주어진 자료로부터 

여러 개의 학습 모형을 만든 후 학습 모형들을 조합하여 하나의 최종 모형을 만드는 개념이다.




* 앙상블 분석의 종류

- 보팅(Voting)

: 보팅은 뜻 그대로 투표를 통해 결정하는 방식이다. 

보팅은 배깅(Bagging)과 투표방식이라는 점에서 유사하지만 사용법에서 차이점이 있다.




- 부스팅(Boosting)

: 가중치를 활용하여 연속적인(seqential) 약학습기를 생성하고

이를 통해 강학습기를 만드는 방법이다.

: 가중치(weight)를 부여해서 오차를 보완해 나간다는 점이다. 

순차적이기 때문에 병렬 처리에 어려움이 있고, 

다른 앙상블 대비 학습시간이 오래 걸린다는 단점이 있다.




- 배깅(Bagging: Bootstrap Aggregation)

: 배깅을 활용한 모델이 바로 랜덤 포레스트(Random forest) 이다.


+ 추가

* 의사결정나무의 대표적 알고리즘인 CART(Classification and Regression Tree)는 

불순도 측도로 범주형 또는 이산형일 경우 ( 지니지수 )를, 

연속형인 경우 분산의 감소량을 이용한 ( 이진분리 )를 활용한다.


* 군집분석에서는 판별분석과 달리 집단이 사전에 정의되어 있지 않다.


* R의 주요 특징으로 객체지향 언어, 

풍부한 시각화 라이브러리, 

shiny와 같은 웹브라우저 연동 모듈 등이 있으며 

단점은 대용량 메모리 처리가 어려우며 

보안 기능이 취약한 점이 있다.


* 입력신호의 총합을 출력신호로 변환하는 함수를 

일반적으로 활성화 함수라고 한다.


* 순환 연결은 어떠한 뉴런의 출력이 자기 자신에게 입력되는 연결이다.


* 인공신경망에 대하여.


1. 기계학습과 인지과학에서 

생물학의 신경망(동물의 중추신경계중 특히 뇌)에서 

영감을 얻은 통계학적 학습 알고리즘이다.

2. 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 

학습을 통해 시냅스의 결합 세기를 변화시켜, 

문제 해결 능력을 가지는 모델 전반을 가리킨다.

3. 트레이닝 셋에만 최적화되어 

실제 테스트와 예상결과의 괴리가 발생하는 단점이 있다.

4. 최초 시작점의 선택에 따라 

수렴, 발산, 진동 등 다양한 형태로 결과가 바뀌는 단점이 있다.


* 오토인코더의 구조는 뉴럴네트워크 두 개(인코더+디코더)가 뒤집어 붙은 형태이다.



+ 추가 2





비지도학습의 일종인 오토인코더의 특징




= 인코더를 통해 입력 데이터에 대한 특징 추출


= 출력값을 입럭값의 근사로 하는 함수를 학습


= 디코더를 통해 원본 데이터를 재구성하는 학습방식


= 오토인코더의 구조는 

뉴럴네트워크 두 개(인코더+디코더)가 뒤집어 붙은 형태이다.




범주형 분석방법에 대한 설명



= 빈도분석은 질적 자료를 대상으로 빈도와 비율을 계산할 때 쓰인다.


= T 검정은 독립변수가 범주형(두개의 집단)이고

종속변수가 연속형인 경우 사용되는 검정 방법으로

두 집단간의 평균 비교 등에 사용된다.


= 독립변수가 범주형(두개이상 집단)이고 

종속변수가 연속형인 경우 

사용되는 검정 방법으로 분산분석이 사용된다.






자기회귀모형에 대한 설명




= 일정 시점전의 자료가 현재자료에

영향을 준다는 가정하에 만들어진 시계열 예측 모형이다.






데이터 분석의 분할 부문에서 

일반화된 분석모형을 검증하기 위해 분할되는 데이터 명칭





= 테스트 데이터


= 검증용 테스트 데이터는 최종적으로 일반화된 

분석모형을 검증하는 테스트를 분할, 구분된다.






리얼리티 마이닝은 통화/메시징 등의

커뮤니케이션 데이터, gps/wifi 등의 위치 데이터이다.

이를 통해 사회적 행위를 마이닝하고 

사용자 행동 모델링이나 라이프 로그도 

얻어내는 것을 목표로 한다.






통계검정에서 가설을 검정할 시 

어느 정도로 검정할 지에 대한 수준으로 

표본 추출 시 모수를 포함할 구간의 비율을 일컫는 용어






= 신뢰구간은 모수가 

포함될 가능성이 있는 구간으로

구간의 비율은 신뢰수준이라고 한다.







SVM에 대한 설명


=SVM(Support Vector Machine) 분석모델은 

지도학습 기법으로써 고차원 또는 무한 차원의 공간에서 

초평면의 집합을 찾아 이를 이용하여 분류와 회귀를 수행한다. 

SVM의 핵심적 특징은 기존 분류기가 오류율 최소화에 있다면 

여백(마진) 최대화로 일반화 능력의 극대화를 추구하는 점으로 

마진이 가장 큰 ( 초평면 )을 분류기(classifier)로 사용할 때 

새로운 자료에 대한 오분류가 가장 낮아진다. 

또한 경계면과 수직인 법선벡터를 w라고 할 때 

마진은 ( 2/(|W|) )로 계산된다.






+ 추가 3



분석 (시나리오) 작성을 통해

분석과정에 필요한 데이터, 절차, 분석기법 등의

세부사항들을 정의, 분석과정과 결과가

어떻게 활용되는지 명확히 알 수 있다.





비모수 통계의 특징


= 가정을 만족시키지 못한 상태에서

그대로 모수통계분석을 함으로써

발생할 수 있는 오류를 줄일 수 있다.


= 질적척도로 측정된 자료도 분석이 가능하다.


= 비교적 신속하고 쉽게 통계량을 구할 수 있으며

결과에 대한 해석 및 이해 또한 용이하다.


= 많은 표본을 추출하기 어려운 경우에 사용하기 적합하다.





자료의 형태에 따른 분석방법



= 독립변수가 연속형 종속변수가 범주형인 경우는 

로지스틱 회귀분석이다.




데이터 마이닝 기법에 대한 설명




= 대규모로 저장된 데이터 안에서 체계적이고 

자동적으로 통계적 규칙이나 패턴을 분석하여 

가치 있는 정보를 추출하는 과정이다.


= 통계학쪽에서 발전한 탐색적 자료분석, 

가설 검정, 다변량 분석, 시계열 분석, 

일반선형모형 등의 방법론이 사용 될 수 있다.


= 데이터베이스 쪽에서 발전한 

OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 

신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.



= 데이터 마이닝(data mining)은

대규모로 저장된 데이터 안에서 체계적이고 

자동적으로 통계적 규칙이나 패턴을 분석하여 

가치있는 정보를 추출하는 과정이다. 

다른 말로는 KDD(데이터베이스 속의 지식 발견,

 knowledge-discovery in databases)라고도 일컫는다.





라벨되지 않은 이미지들을 예측, 

가장 높은 확률값의 이미지에 신규 라벨링 이미지로 

분류 뒤 반복 훈련하는 대표적인 준지도학습 방법론



= 셀프트레이닝


= 준지도학습의 셀프트레이닝은 

레이블이 달린 데이터로 모델을 학습한 뒤 

레이블 되지 않은 데이터를 예측하여 

이 중에서 가장 확률값이 높은 데이터들만 레이블 데이터로 다시 가져간다.




회귀분석의 기본적인 가정


= 선형성 : 독립변수와 종속변수가 선형적이어야 함.

= 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함.

= 다중공산성 : 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함.

= 잔차들의 분산이 일정해야 하며 1이 될 필요는 없다.




 GAN에 대한 설명


= GAN은 2014년 NIPS에서 Ian Goodfellow가 발표한 

회귀생성 모델로서 ( 분류 )을/를 담당하는 모델(판별자 D)과 

회귀( 생성 )을/를 담당하는 두 개의 모델(생성자 G)로 구성되어 있다.

 생성자 G와 판별자 D가 서로의 성능을 개선해 

적대적으로 경쟁해 나가는 모델로 

적대적 학습에서는 ( 분류 ) 모델을 먼저 학습시킨 후, 

( 생성 ) 모델을 학습시키는 과정을 서로 주고받으면서 반복한다.





비지도학습의 일종인 오토인코더의 특징



= 인코더를 통해 입력 데이터에 대한 특징 추출

= 출력값을 입력값의 근사로 하는 함수를 학습

= 디코더를 통해 원본 데이터를 재구성하는 학습방식

= 오토인코더의 구조는 뉴럴네트워크 두 개

(인코더+디코더)가 뒤집어 붙은 형태이다.




분석모형 정의를 위한 사전 판단기준에 대한 세부 설명



= 필요성 : 추진관점에서 분석과제가 필요한지 판단


= 추진시급성 : 당장 해소되어야 할지 여부 판단, 장기과제 성격 분리


= 구현가능성 : 과제구현에 대해 어려움이 없는지 현실성 판단


분석모형 정의 시 사전 고려사항으로 

분석모형으로 정의, 분석이 실제 추진될 수 있을지의 가능성을 

타진하는 것이 중요하다. 

모델확장성은 분석모델 자체가 아닌 과제가 

시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단함을 뜻한다.




가설검정의 절차



= 유의 수준결정, 검정 통계량의 설정,

기각역의 설정, 검정통계량 계산, 통계적 의사결정








+ 추가 4




비모수 통계의 특징




= 가정을 만족시키지 못한 상태에서

그대로 모수통계분석을 함으로써

발생할 수 있는 오류를 줄일 수 있다.


= 질적척도로 측정된 자료도 분석이 가능하다.


= 비교적 신속하고 쉽게 통계량을 구할 수 있으며

결과에 대한 해석 및 이해 또한 용이하다.


= 많은 표본을 추출하기 어려운 경우에 사용하기 적합하다.






회귀분석의 기본적인 가정




= 잔차들의 분산이 일정해야 하며 1이될 필요는 없다. 






통계검정에서 가설을 감정할 시 어느 정도로 

검정할 지에 대한 수준으로 

표본 추출 시 모수를 포함할 구간의 비율을 일컫는 용어




= 신뢰수준




= 신뢰구간은 모수가 포함될 가능성이 있는 구간으로

구간의 비율은 신뢰수준이라고 한다.






분석모형 종류



= 예측분석, 현황진단, 최적화분석







통계학 회귀분석에서 독립변수들 간에 강한 상관관계가 

나타나는 문제를 ( 다중공선성 ) 문제라고 한다.



= 회귀 분석에서 사용된 모형의 일부 예측 변수가 

다른 예측 변수와 상관 정도가 높아

데이터 분석 시 부정적인 영향을 미치는 것은

다중공선성이다.







로지스틱 회귀분석이 선형 회귀분석과 비교 시 차이점




= 종속변수 : 범주형 변수

= 분포 : 이항분포






분석모형 선정 프로세스와 관련있는 항목




=데이터 도식화, 분석목표 정의, 데이터 수집







라벨되지 않은 이미지들을 예측, 

가장 높은 확률값의 이미지에 신규 라벨링 이미지로 분류 뒤

반복 훈련하는 대표적인 준지도학습 방법론




= 셀프트레이닝



= 준지도학습의 셀프트레이닝은

레이블이 달린 데이터로 모델을 학습한 뒤 

레이블 되지 않은 데이터를 예측하여 

이 중에서 가장 확률값이 높은 데이터들만

레이블 데이터로 다시 가져간다.





나이브 베이즈 분류의 특성



= 분류기를 만들 수 있는 간단한 기술로

단일 알고리즘을 통한 훈련이 아닌

일반적인 원칙에 근거한 

여러 알고리즘들을 이용하여 훈련된다.




= 나이브 베이즈 분류의 장점으로 분류에 필요한

파라미터를 추정하기 위한 

트레이닝 데이터의 양이 매우 적다.



= 나이브 베이즈 분류는 베이즈 정리를 

적용한 확률 분류기를 지칭한다



= 나이브 베이즈 분류기는 공통적으로 

모든 특성 값은 서로 독립임을 가정한다.





가설검정의 절차와 관계있는 항목



= 검정통계량, 유의수준, 확률분포








+ 추가 5






분석모형 설계에서 특정 영역을 지정,

의사결정 지점으로 진행하는 과정에서

분석기회를 발굴하는 방식을 의미하는 용어




= 상향식 접근







신경망학습 구성요소 중 입력신호의 총합을

출력신호로 변환하는 기능이 있는 부문




= 활성화 함수







다변량 분산분석



= 두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간의

관련성을 동시에 알아볼 때 이용되는 통계적 방법이다.



= 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의

분산에 대한 가설을 검증하는데 매우 유용하다.



= 일변량 분산분석의 확장된 형태로

분산을 기준으로 집단간의 

통계적 연관성의 가설을 검증하는데 사용된다.









자료의 형태에 따른 분석방법



= 독립변수가 연속형 종속변수가 범주형인 경우 : 로지스틱 회귀분석









신경망학습에서 뉴런의 연결방법




= 층간연결 : 서로 다른 층에 존재하는 뉴런과 연결


= 층내연결 : 동일 층 내의 뉴런과의 연결


= 정답이 없음


= 순환연결 : 어떠한 뉴런의 출력이 자기 자신에게 입력되는 연결이다.






+ 추가 6



비모수 통계의 특징



= 가정을 만족시키지 못한 상태에서 

그대로 모수통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있다.



= 질적척도로 측정된 자료도 분석이 가능하다.


= 비교적 신속하고 쉽게 통계량을 구할 수 있으며

결과에 대한 해석 및 이해 또한 용이하다.


= 많은 표본을 추출하기 어려운 경우에 사용하기 적합하다.




훈련데이터에 대해서는 높은 정확도를 나타내나

테스트데이터나 새로운 데이터에 대해서는 예측을 잘 못할 때

이를 뜻하는 명칭.


= 과대적합




회귀분석의 기본적인 가정



= 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함.


= 잔차 등분산성 : 잔차들의 분산이 1로 일정해야 함.




의사결정나무의 요소별 설명



= 자식마디 : 하나의 마디로부터 분리된 2개 이상의 마디


= 깊이 : 가지를 이루는 마디의 개수



분석모형에서 종속변수가 없을 시에 사용할 수 있는 알고리즘



= 군집분석, 연관분석, 주성분분석





신경망학습에서 뉴런의 연결방법


= 층간 연결 : 서로 다른 층에 존재하는 뉴런과 연결


= 층내 연결 : 동일 층 내의 뉴런과의 연결


= 순환 연결 : 어떠한 뉴런의 출력이 자기 자신에게 입력되는 연결이다.




비계층적 군집분석은 분석 전에 군집의 수를 정해놓고 

군집의 중심으로부터 가까운 순으로

군집에 들어갈 데이터를 정하는 방법을 의미한다.

각각 중심에 모인 데이터를 같은 군집으로 할당하는

대표적인 군집 분석 알고리즘


= K - 평균 군집




+ 추가 7



범주형 분석방법에 대한 설명.


= 빈도분석은 질적 자료를 대상으로 빈도와 비율을 계산할 때 쓰인다.


= 독립변수가 범주형(두개이상 집단)이고

종속변수가 연속형인 경우

사용되는 검정 방법으로 분산분석이 사용된다.


= T검정은 독립변수가 범주형(두개의 집단)이고,

종속변수가 연속형인 경우 

사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용된다.




통계검정에서 가설을 검정할 시 어느 정도로 검정할 지에 대한 수준으로

표본 추출 시 모수를 포함할 구간의 비율을 일컫는 용어.



= 신뢰수준.


= 신뢰구간은 모수가 포함될 가능성이 있는 구간으로

구간의 비율은 신뢰수준이라고 한다.




지도학습 모델 중 예측모델에 해당되는 것.




= 다중회귀분석



= 의사결정트리, 인공신경망, 서포트벡터머신은 분류모델이다.





+ 추가 8



가설검정의 절차.


= 유의 수준 결정 > 검정통계량의 설정 > 기각역의 설정 > 검정통계량 계산 > 통계적 의사결정


= 검정통계량, 유의수준, 확률분포




데이터 분석 도구 R의 주요 특징.



= 장점: 객체지향언어, 풍부한 시각화 라이브러리, 웹브라우저 연동 모듈 제공


= 단점 : 대용량 메모리 처리의 어려움, 보안 기능 취약.






Tags

댓글 쓰기

0댓글

댓글 쓰기 (0)