빅데이터 분석 기사 (필기) - PART 01) 빅데이터 분석 기획 요약 및 정리

빅데이터의 이해

01) 빅데이터 개요 및 활용

* 데이터의 구분

- 정량적 데이터(Quantitative Data)

: 주로 숫자로 이루어진 데이터이다.

예) 2020년, 100km/h 등

- 정성적 데이터(Qualitative Data)

: 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터이다.

예) 철수가 시험에 합격하였다.

* 데이터의 유형

1. 정형 데이터(Structured Data)

: 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터이며, 연산이 가능하다.

예) 관계형 데이터베이스의 테이블에 저장되는 데이터 등

2. 반정형 데이터(Semi-structured Data)

: 데이터의 형식과 구조가 비교적 유연하고, 스키마 정보를

데이터와 함께 제공하는 파일 형식의 데이터이며, 연산이 불가능하다.

예) JSON

3. 비정형 데이터(Unstructured Data)

: 구조가 정해지지 않은 대부분의 데이터이며, 연산이 불가능하다.

* 데이터의 기능

1. 암묵지

: 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화되어 있으며,

외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다.

2. 형식지

: 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.

* 데이터, 정보, 지식, 지혜

👉 지식의 피라미드 (가치창출 프로세스)

이미지 출처 - 위키피디아

지혜(Wisdom)

: 축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물이다.

예) 다른 상품들도 온라인 쇼핑 시 오프라인 상점보다 저렴할 것이다.

지식(Knowledge)

: 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고

개인적인 경험을 결합시켜 내재화한 고유의 결과물이다.

예) 오프라인 상점보다 저렴한 온라인 쇼핑으로 노트북을 구매할 것이다.

정보(Information)

: 데이터를 가공하거나 처리하여 데이터 간 관계를 분석하고

그 속에서 도출된 의미를 말하며, 항상 유용한 것은 아니다.

예) 오프라인 상점보다 온라인 쇼핑 시 노트북 가격이 더 저렴하다.

데이터(Data)

: 현실 세계에서 관찰하거나 측정하여 수집한 사실이나 값으로

개발 데이터로는 그 의미가 중요하지 않은 객관적인 사실이다.

예) 온라인 쇼핑 시 노트북 가격은 100만 원이며, 오프라인 상점의 노트북 가격은 150만 원이다.

* 확인문제 해설

: 데이터는 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.

: 정량적 데이터는 정형 데이터와 반정형 데이터이고, 정성적 데이터는 비정형 데이터이다.

: 정량적 데이터는 주로 객관적 내용을, 정성적 데이터는 주로 주관적 내용을 내포하고 있다.

: 정형 데이터는 정해진 형식과 구조에 맞게 저장하여야 하지만,

반정형 데이터는 데이터의 형식과 구조가 비교적 유연하고,

비정형 데이터는 구조를 갖지 않은 경우가 대부분이다.

* 데이터베이스

: 데이터베이스라는 용어는 1963년 6월에 컴퓨터 중심의 데이터베이스 개발과 관리라는 주제로

미국 SDC(System Development Corporation)가 개최한 심포지엄에서 공식적으로 사용되었다.

* 데이터베이스의 정의

: 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는

독립된 저작물, 데이터 또는 기타 소재의 수집물이다.

- 소재를 체계적으로 배열 또는 구성한 편집물로서

개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것이다.

: 동시에 복수의 적용 업무를 지원할 수 있도록

복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여

일정한 구조에 따라서 편성된 데이터의 집합이다.

: 문자, 기호, 음성, 화상, 영상 등

상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여

체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체이다.

* 데이터베이스의 활용

1. OLTP(OnLine Transaction Processing)

: 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로

데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다.

- 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고,

바로 처리 결과를 돌려보내는 형태를 말한다.

- 현재 시점의 데이터만을 데이터베이스가 관리한다는 개념이다.

-- 이미 발생된 트랜잭션에 대해서는 데이터값이

과거의 데이터로 다른 디스크나 테이프 등에 보관될 수 있다.

2. OLAP(OnLine Analytical Processing)

: 정보 위주의 분석 처리를 하는 것으로

OLTP에서 처리된 트랜잭션 데이터를 분석해

제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱하는 것을 의미한다.

- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여

의사결정에 활용할 수 있는 정보를 얻을 수 있게 하는 기술이다.

* 데이터 웨어하우스(DW: Data Warehouse)

- ETL(Extract, Transform, Load)

: 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에 적재한다.

- OLAP(Online Analytical Processing)

: 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션이다.

- 데이터마이닝(Data Mining)

: 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론이다.

* 확인문제 해설

- OLTP는 데이터 갱신 위주이고, OLAP는 데이터 조회 위주의 데이터베이스라 할 수 있다.

- 데이터 웨어하우스는 사용자의 의사결정에 도움을 주기 위하여

기관시스템의 데이터베이스에 축적된 데이터를

공통의 형식으로 변환해서 관리하는 데이터베이스이다.

- 주제지향성, 통합성, 시계열성, 비휘발성이라는 특징을 갖고 있다.

-ETL은 기업의 내부 또는 외부로부터 데이터를 추출(Extract), 변환(Transform)하여

데이터 웨어하우스에 적재(Load)하는 과정이다.

- DW 메타데이터는 데이터 모델에 대한 스키마 정보와

비즈니스 측면에서 활용되는 정보를 제공한다.

* 빅데이터의 특징

* 3V

- 규모(Volume)

: 데이터 양이 급격하게 증가(대용량화)

: 기존 데이터 관리 시스템의 성능적 한계 도달

- 유형(Variety)

: 데이터의 종류와 근원 확대(다양화)

: 정형 데이터 외 반정형 및 비정형 데이터로 확장

- 속도(Velocity)

: 데이터 수집과 처리 속도의 변화(고속화)

: 대용량 데이터의 신속하고 즉각적인 분석 요구

* 2V

- 가치(Value)

: 대용량의 데이터 안에 숨겨진 가치 발굴이 중요

: 다른 데이터들과 연계 시 가치가 배로 증대

* 빅데이터의 활용

👉 빅데이터 활용을 위한 기본 테크닉

- 연관규칙학습

: 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법

예) 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가?

- 유형분석

: 문서를 분류하거나 조직을 그룹화할 때 사용

예) 이것은 어떤 특성을 가진 집단에 속하는가?

- 유전 알고리즘

: 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법

예) 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?

- 소셜네트워크분석

: 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용

예) 고객들 간 관계망은 어떻게 구성되는가?

* 확인문제 해설

- 기술 발전으로 인한 데이터 처리비용 감소로

표본조사가 아닌 전수조사를 통해 패턴이나 정보를 발견하는 방식으로 변화되었다.

- 빅데이터는 규모(Volume)면에서

대용량화, 유형(Variety)면에서 다양화, 속도(Velocity)면에서 고속화된 특징을 갖고 있다.

- 빅데이터 활용을 3요소로 자원(빅데이터), 기술(빅데이터 플랫폼, AI)

인력(알고리즈미스트, 데이터 사이언티스트)이 필요하다.

- 빅데이터 활용을 위한 기본 테크닉으로 연관규칙분석, 유형분석, 유전 알고리즘,

기계학습, 회귀분석, 감정분석, 소셜네트워크분석 등이 있다.

* 빅데이터의 기능과 효과

: 빅데이터는 이를 활용하는 기존 사업자에게 경쟁 우위를 제공한다.

- 새롭게 시장에 진입하려는 잠재적 경쟁자에게는 진입장벽과도 같다.

- 고객 세분화와 맞춤형 개인화 서비스를 제공할 수 있다.

- 시뮬레이션을 통한 수요 포착과 변수 탐색으로 경쟁력을 강화하고,

비즈니스 모델이나 제품 또는 서비스의 혁신을 가져온다.

: 빅데이터는 알고리즘 기반으로 의사결정을 지원하거나 이를 대신한다.

: 빅데이터는 투명성을 높여 R&D 및 관리 효율성을 제고한다.

* 데이터 산업의 진화

: 데이터 처리 - 통합 - 분석 - 연결 - 권리

1. 데이터 처리 시대

- 컴퓨터 프로그래밍 언어를 이용하여

대규모 데이터를 빠르고 정확하게 처리할 수 있게 되었으며 결과는 파일 형태로 보관되었다.

- 기업들은 EDPS(Electronic Data Processing System)를 도입하여

급여 계산, 회계 전표 처리 등의 업무에 적용하였다.

- 데이터는 업무 처리의 대상으로 새로운 가치를 제공하지는 않았다.

2. 데이터 통합 시대

- 데이터 처리가 여러 업무에 적용되기 시작하면서 데이터가 쌓이기 시작했고

전사적으로 데이터 일관성을 확보하기가 어려워졌다.

- 데이터 모델링과 데이터베이스 관리 시스템이 등장했다.

- 데이터 조회와 보고서 산출, 원인 분석 등을 위해 데이터 웨어하우스가 도입되었다.

3. 데이터 분석 시대

- 대부분 업무에 정보기술이 적용되고,

모바일 기기 보급, 공정센서 확대, 소셜네트워크 이용 확산 등으로 인해

데이터가 폭발적으로 증가했다.

- 대규모 데이터를 보관하고 관리할 수 있는 하둡, 스파크 등의 빅데이터 기술이 등장했다.

- 데이터를 학습하여 전문가보다도 정확한 의사결정을 빠르게 내릴 수 있는

인공지능 기술도 상용화되었다.

- 데이터를 분석하여 사실들의 인과관계를 밝힐 수 있고,

이를 업무에 적용하면 의사결정의 연관성과 기민성을 높일 수 있다는 점이

다양한 사례로 증명되었다.

- 데이터 소비자(Data Consumer)의 역할과

활용 역량을 높이기 위한 데이터 리터러시(Data Literacy) 프로그램의 중요성도 커지고 있다.

4. 데이터 연결 시대

- 기업 또는 기관, 사람, 사물 등 모든 것이 항상

그리고 동시에 둘 이상의 방식으로 연결되어 데이터를 주고받는다.

- 디지털 경제의 주축 세력인 디지털 원주민은 융합된 서비스를 원한다.

: 융합된 서비스를 제공하기 위해서는 다양한 기업들의 서비스 연결이 필요하고,

이는 기업 간 데이터로 연결되어야 한다.

- 데이터 경제의 데이터 연결을 강조하는 의미에서, 오픈 API 경제라는 용어가 사용되기도 한다.

또한, 오픈 API 제공 수 및 접속 수, 오픈 API로 연결된 외부 실체 수 등이

기업의 지속가능성과 성장성을 확인할 수 있는 지표가 되기도 한다.

5. 데이터 권리 시대

- 개인이 자신의 데이터를 자신을 위해서 사용한다.

: 데이터의 원래 소유자인 개인이 자신의 데이터에 대한 권리를 보유하고 있으며

스스로 행사할 수 있어야 한다는 마이데이터(My Data)가 등장하였다.

- 데이터 권리를 개인이 갖게 된다는 것은 산업이 데이터를 중심으로 재편될 수 있다는 뜻이다.

: 데이터는 기본적으로 거래 행위의 부산물이었다. 기업들은 개인과 거래를 하는 과정에서

개인의 데이터가 있어야 했고,

이를 확보하였지만 몇 가지 문제(유출, 미동의 활용, 데이터의 산재)를 일으켰다.

: 개인의 데이터를 관리해 줄 수 있는 서비스와 필요한 수요자에게

데이터를 팔아 주는 서비스가 나타날 수 있다.

: 개인은 스스로 데이터를 만들고

자신이 만든 데이터를 기반으로 하는 비즈니스 모델을 구상할 수 있다.

: 기존 기업들은 개인 데이터 사용에 제약을 받게 됨으로써 고객 접점을 상실하게 될 수 있다.

- 데이터의 공정한 사용이 보장되어야 하며,

데이터 독점이 유발할 수 있는 경제 독점이 방지되어야 한다.

* 확인문제 해설

- 데이터 처리 시대의 데이터는 업무 처리의 대상으로 새로운 가치를 제공하지는 않았다.

- 데이터 통합 시대에는 전사적으로 데이터 일관성을 확보하기 위해

데이터 모델링과 DBMS를 도입하기 시작했다.

- 데이터 분석 시대에는 하둡, 스파크 등 빅데이터 기술과

의사결정을 빠르고 정확하게 내릴 수 있는 인공지능 기술이 상용화되었다.

- 데이터 권리 시대에는 데이터 원래 소유자인 개인이

자신의 데이터에 대한 권리를 보유하고 있으며

스스로 행사할 수 있어야 한다는 마이데이터(My Data)가 등장하였다.

- 통계학이나 분석 방법에 대한 지식과 분석 경험이 있는 분석인력을 중심으로

전사 또는 특정 부서 내 조직으로 구성하여 운영한다.

- 전사 분석 업무를 별도의 전담조직에서 수행하는 집중형,

각 현업 부서에서 분석 업무를 직접 수행하는 기능형,

분석 전문 인력을 현업 부서에 배치하여 분석 업무를 수행하는 분산형 조직으로 구성할 수 있다.

- 분석조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력도 필요하다.

- 분석전담조직(DSCoE: Data Science Center of Excellence)은

집중형, 분산형 조직에서는 필요하지만, 기능형 조직에서는 필요하지 않다.

02) 빅데이터 기술 및 제도

* 빅데이터 처리기술

1. 빅데이터 처리과정과 요소기술

: 데이터(생성) ➩ 수집 ➩ 저장(공유) ➩ 처리 ➩ 분석 ➩ 시각화

: 수집

- 크롤링을 통해 데이터 원천으로부터 데이터를 검색하여 수집한다.

- ETL을 통해 소스 데이터로부터 추출하고, 변환하여, 적재한다.

- 단순한 수집이 아니라 검색 및 수집, 변환 과정을 모두 포함한다.

- 로그 수집기나, 센서 네트워크 및 Open API 등을 활용할 수 있다.

: 저장(공유)

- 저렴한 비용으로 데이터를 쉽고 빠르게 많이 저장한다.

- 정형 데이터뿐만 아니라 반정형, 비정형 데이터도 포함한다.

- 병렬 DBMS나 하둡(Hadoop), NoSQL 등 다양한 기술을 사용할 수 있다.

- 시스템 간의 데이터를 서로 공유할 수 있다.

: 처리

- 데이터를 효과적으로 처리하는 기술이 필요한 단계이다.

- 분산 병렬 및 인 메모리(In-memory) 방식으로 실시간 처리한다.

- 대표적으로 하둡(Hadoop)의 맵리듀스(MapReduce)를 활용할 수 있다.

* 빅데이터 수집

: 크롤링(Crawling)

- 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여

검색 대상의 색인으로 포함시키는 기술이다.

: 센서 네트워크(Sensor Network)

- 유비 쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크이다.

: RSS Reader/Open API

- 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술이다.

: ETL 프로세스

- 데이터의 추출(Extract), 변환(Transform), 적재(Load)의 약어로,

다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 적재하는 과정이다.

* 빅데이터 저장

: NoSQL(Not-only SQL)

- 전통적인 관계형 데이터베이스와는 다르게 데이터 모델을 단순화하여 설계된

비관계형 데이터베이스로 SQL을 사용하지 않는 DBMS와 데이터 저장장치이다.

: 분산 파일 시스템

- 네트워크로 공유하는 여러 호스트의 파일에 접근할 수 있는 파일 시스템이다.

- HDFS(Hadoop Distributed File System)이 대표적이다.

* 빅데이터 처리

: 분산 시스템

- 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술이다.

- 분산 시스템에 속한 각 노드는 독립된 시스템이다.

- 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 한다.

: 분산 병렬 컴퓨팅

- 다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여

이를 제어하는 미들웨어(Middleware)를 이용해 하나의 시스템으로 동작하게 하는 기술이다.

: 하둡(Hadoop)

- 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는

오픈 소스 소프트웨어 프레임워크이다.

- 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리되고 있다.

- 하둡 분산파일시스템인 HDFS와 분산칼럼기반 데이터베이스인 Hbase,

분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성되어 있다.

- 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공한다.

-- 분산파일시스템에 저장된 대용량의 데이터들을 맵리듀스를 이용하여

실시간으로 처리 및 분석 가능하다.

- 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공한다.

: 아파치 스파크(Apache Spark)

- 실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며

하둡보다 처리속도가 빠르다.

- 스칼라 언어로 개발되었지만 스칼라뿐만 아니라 Java, R, Python을 지원한다.

: 맵리듀스(MapReduce)

- 구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로

효과적인 병렬 및 분산 처리를 지원한다.

- 런타임(Runtime)에서의 입력 데이터 분할, 작업 스케줄링,

노드 고장, 노드 간의 데이터 전송 작업이 맵리듀스 처리 성능에 많은 영향을 미친다.

* 확인문제 해설

- NoSQL은 전통적인 관계형 데이터베이스와는 다르게

데이터 모델을 단순화하여 설계된 비관계형 데이터베이스로

SQL을 사용하지 않는 DBMS와 데이터 저장장치이다.

- 확인 요인 분석(CFA)은 관찰된 변수들의 집합 요소 구조를 파악하기 위한

통계적 기법을 통해 데이터를 분석하는 방법이며,

데이터 간 상호 관계를 파악하여 데이터를 분석하는 방법은 탐구 요인 분석(EFA)이다.

* 빅데이터와 인공지능

* 기계학습의 종류

: 지도학습(Supervised Learning)

- 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법이다.

- 지도 학습기(Supervised Learner)가 하는 작업은

훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을

올바르게 추측해내는 것이다.

: 비지도학습(Unsupervised Learning)

- 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다.

- 지도학습 혹은 강화학습과는 달리 입력값에 대한 목표치가 주어지지 않는다.

- 통계의 밀도 추정(Density Estimation)과 깊은 연관이 있으며,

데이터의 주요 특징을 요약하고 설명할 수 있다.

: 준지도학습(Semi-supervided Learning)

- 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용하는 것을 말한다.

- 많은 기계학습 연구자들이 목표값이 없는 데이터에 적은 양의 목표값을 포함한

데이터를 사용할 경우 학습 정확도에 있어서 상당히 좋아짐을 확인하였다.

: 강화학습(Reinforcement Learning)

- 행동심리학에서 영감을 받았으며, 선택 가능한 행동들 중

보상을 최대화하는 행동 혹은 순서를 선택하는 방법이다.

- 강화학습의 초점은 학습 과정(on-line)에서의 성능이며,

이는 탐색(exploration)과 이용(exploitation)의 균형을 맞춤으로써 제고된다.

* 기계학습 방법에 따른 인공지능 응용분야

: 지도학습

- 분류모형 = 이미지 인식, 음성 인식, 신용평가 및 사기검출, 불량예측 및 원인발굴

- 회귀모형 = 시세/가격/주가 예측, 강우량 예측 등

: 비지도학습

- 군집분석 = 텍스트 토픽 분석, 고객 세그멘테이션

- 오토인코더(AutoEncoder) = 이상징후 탐지, 노이즈 제거, 텍스트 벡터

- 생성적 적대 신경망(Generative Adverserial Network) = 시뮬레이션 데이터 생성,

누락 데이터 생성, 패션 데이터 생성 등

: 강화학습

- 강화학습 = 게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 등

* 확인문제 해설

- 오토인코더는 라벨의 설정되어 있지 않은 학습 데이터로부터

더욱 효율적인 코드로 표현하도록 학습하는 신경망으로 비지도학습 방법 중 하나이다.

- 기계학습은 인공지능의 연구 분야 중 하나로

인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여

실현하고자 하는 기술 및 방법이다.

* 개인정보 개요

: 개인정보의 판단기준

- '생존하는' '개인의 관한' 정보여야 한다.

- '정보'의 내용, 형태 등은 제한이 없다.

- 개인을 '알아볼 수 있는' 정보여야 한다.

-- 다른 정보와 '쉽게 결합하여' 개인을 알아볼 수 있는 정보도 포함된다.

* 개인정보 법, 제도

* 개인정보 보호법

: 당사자의 동의 없는 개인정보 수집 및 활용하거나

제3자에게 제공하는 것을 금지하는 등 개인정보보호를 강화한 내용을 담아 제정한 법률이다.

: 상대방의 동의 없이 개인정보를 제3자에게 제공하면

5년 이하의 징역이나 5,000만 원 이하의 벌금에 처할 수 있다.

* 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)

: 정보통신서비스 제공자 등은 정보통신서비스의 제공에 관한 계약을 이행하고

이용자의 편의 증진 등을 위하여 필요한 경우에는

고지절차와 동의절차를 거치지 않고,

이용자에게 이에 관해 알리거나

개인정보 처리방침 등에 이를 공개할 수 있다(정보통신망법 제25조 제2항).

* 2020년 데이터 3법의 주요 개정 내용

👉 데이터 이용 활성화를 위한 '가명정보' 개념 도입 및 데이터간 결합 근거 마련

👉 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화

👉 데이터 활용에 따른 개인정보처리자 책임 강화

👉 다소 모호했던 개인정보의 판단기준 명확화

: 개인정보보호법 주요 개정 내용

- 개인정보 관련 개념을 개인정보, 가명정보, 익명정보로 구분

- 가명정보를 통계 작성 연구, 공익적 기록보존 목적을 처리할 수 있도록 허용

- 가명정보 이용 시 안전장치 및 통제 수단 마련

- 분산된 개인정보보호 감독기관을 개인정보보호위원회로 일원화

- 개인정보보호위원회는 국무총리 소속 중앙행정기관으로 격상

: 정보통신망법 주요 개정 내용

- 개인정보보호 관련 사항을 개인정보보호법으로 이관

- 온라인상 개인정보보호 관련 규제 및 감독 주체를 개인정보보호위원회로 변경

: 신용정보보호법 주요 개정 내용

- 가명정보 개념을 도입해 빅데이터 분석 및 이용의 법적 근거 마련

- 가명정보는 통계작성, 연구, 공익적 기록보존 등을 위해

신용정보 주체의 동의 없이 이용, 제공 가능

* 개인정보 차등 보호

- 데이터에 노이즈를 추가 = 개인정보 보호 + 데이터 분석

* 개인정보 비식별화

: 개인을 알아볼 수 없도록 하는 조치를 말한다.

- 비식별 정보는 개인정보가 아닌 정보로 추정되므로

정보주체로부터의 별도 동의없이 해당 정보를 이용하거나 제3자에게 제공할 수 있다.

-- 불특정 다수에게 공개되는 경우에는 다른 정보를 보유하고 있는 누군가에 의해

해당 정보주체가 식별될 가능성이 있으므로 비식별 정보의 공개는 원칙적으로 금지된다.

* 개인정보 비식별화 조치 가이드라인의 단계별 조치사항

: 사전 검토

- 개인정보에 해당하는지 여부를 검토한 후,

개인정보가 아닌 것이 명백한 경우 법적 규제 없이 자유롭게 활용

: 비식별 조치

- 가명, 총계, 범주화

* 빅데이터 분석 기획 절차

: 비즈니스 이해 및 범위 설정 👉 프로젝트 정의

👉 프로젝트 수행 계획 수립 👉 프로젝트 위험 계획 수립

* 개인정보 비식별화 조치 가이드라인의 조치방법

: 가명처리

- 개인정보 중 주요 식별 요소를 다른 값으로 대체하는 방법이다.

- 값을 대체 시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의해야한다.

예) 홍길동, 35세, 서울 거주, 한국대 재학

👉 임꺽정, 30대, 서울 거주, 국제대 재학

: 총계 처리

- 데이터의 총합 값을 보여 주고 개별 값을 보여 주지 않는 방법이다.

- 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은

그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의해야 한다.

예) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm

👉 물리학과 학생 키 합 : 660cm, 평균 키 165cm

예) 에이즈 환자 집단임을 공개하면서

특정인이 그 집단에 속함을 알 수 있도록 표시하는 행위 금지

: 데이터 범주화

- 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법이다.

예) 홍길동 35세

👉 홍씨, 30~40세

: 데이터 마스킹

- 개인을 식별하는 데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법이다.

- 남아 있는 정보만으로 개인을 식별할 수 없어야 하며,

공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없어야 한다.

예) 홍길동, 35세, 서울 거주, 한국대학교 재학

👉 홍oo, 35세, 서울 거주, oo대 재학

데이터 분석 계획

01) 분석 방안 수립

* 데이터 분석

* 데이터 분석 시 고려사항

: 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는가의 문제이다.

* 데이터 분석 기획

: 분석 기획 시 필요역량

- 분석 기획은 도메인 지식과 정보기술, 수학 및 통계학적 지식이라는

3가지 역량에 대한 균형 잡힌 시각을 갖고서 분석의 방향성과 계획을 수립하는 것이다.

* 분석 마스터 플랜과 로드맵 설정

* 분석 마스터 플랜

: 분석 과제를 수행함에 있어 그 과제의 목적이나 목표에 따라

전체적인 방향성을 제시하는 기본계획이다.

: 분석 과제의 중요도와 난이도 등을 고려하여 우선순위를 결정한다.

: 단기와 중장기로 나누어 분석 로드맵을 수립한다.

* 분석 ROI(Return On Investment, 투자 수익률,

투자자본수익률, 투자 대비 수익률) 요소를 고려한 과제 우선순위 평가기준

: 시급성(중요) 👉 전략적 중요도

: 난이도 👉 투자비용 요소

* 분석 로드맵 설정

: 분석 로드맵 수립 절차

- 최종적인 실행 우선순위를 결정하여 단계적 구현 로드맵을 수립한다.

- 단계별로 추진하고자 하는 목표를 명확하게 정의한다.

- 추진 과제별 선행 관계를 고려하여 단계별 추진 내용을 정렬한다.

* 분석 문제 정의

: 분석 문제 정의 개요

- 동적인 환경에서 발산과 수렴 단계를 반복적으로 수행하며

상호 보완을 통해 분석의 가치를 극대화할 수 있다.

* 하향식 접근 방식(Top Down Approach)

: 하향식 접근 방식은 문제가 주어지고 이에 대한 해법을 찾기 위하여

각 과정이 체계적으로 단계화되어 수행하는 방식이다.

: 해결방안 탐색(Solution Search) 단계

- 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안들을 모색한다.

-- 기법 밎 시스템과 분석 역량 보유 여부에 따라 세분화가 가능하다.

출처 사이트

* 상향식 접근 방식(Bottom Up Approach)

: 데이터를 활용하여 생각지도 못했던 인사이트 도출 및 시행착오를 통한 개선이 가능하다.

* 데이터 분석 방안

: 폭포수 모형(Waterfall Model)

- 고전적 Life Cycle Paradigm으로 분석, 개발, 구현, 시험 및 유지보수 과정을

순차적으로 접근하는 방법이다.

출처 사이트 2

: 나선형 모델(Spiral Model)

- 시스템을 개발하면서 생기는 위험을 최소화하기 위해

나선을 돌면서 점진적으로 완벽한 시스템으로 개발하는 모형이다.

출처 사이트 3

: 반복적 모형(Iterative Development Model)

- 사용자의 요구사항 일부분 혹은 제품의 일부분을 반복적으로 개발하여

최종 시스템으로 완성하는 모형이다.

출처 사이트 4

: CRISP-DM 분석 방법론의 분석절차

- 업무 이해(Business Understanding)

= 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계이다.

= 도메인 지식을 데이터 분석을 위한 문제정의로 변경한다.

= 초기 프로젝트 계획을 수립한다.

== 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

- 데이터 이해(Data Understanding)

= 분석을 위한 데이터 수집 및 데이터 속성을 이해한다.

= 데이터 품질 문제를 식별한다.

= 인사이트를 발견하는 단계이다.

= 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

- 데이터 준비(Data Preparation)

= 수집된 데이터를 분석 기법에 적합한 데이터로 변환한다.

= 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅

- 모델링(Modeling)

= 다양한 모델링 기법과 알고리즘으로 모형 파라미터를 최적화한다.

= 모델링 결과를 테스트용 프로세스와 데이터셋으로 평가하여 모형 과적합 등의 문제를 확인한다.

= 데이터셋을 추가하기 위해 데이터 준비 절차를 반복할 수 있다.

= 모델링 기법 선택, 모형 테스트 계획 설계, 모형 작성, 모형 평가

- 평가(Evaluation)

= 분석 모형이 프로젝트의 목적에 부합하는지 평가한다.

= 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단한다.

= 분석결과 평가, 모델링 과정 평가, 모형 적용성 평가

- 전개(Deployment)

= 완성된 분석 모형을 업무에 적용하기 위한 계획을 수립한다.

= 모니터링과 분석 모형의 유지보수 계획을 마련한다.

= 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 완료한다.

= 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

* 빅데이터 분석 방법론

* 빅데이터 분석 방법론의 개발절차

: 분석 기획(Planning) 👉 데이터 준비(Preparing)

👉 데이터 분석(Analyzing) 👉 시스템 구현(Developing) 👉 평가 및 전개(Deploying)

- 분석 기획(Planning)

= 비즈니스 이해 및 범위 설정

-- 향후 프로젝트 진행을 위한 방향을 설정하고, 프로젝트 목적에 부합한 범위를 설정한다.

-- 프로젝트의 범위를 명확하게 파악하기 위해 구조화된 명세서를 작성한다.

= 프로젝트 정의 및 계획 수립

-- 모형의 운영 이미지를 설계하고 모형 평가 기준을 설정한다.

-- 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여

상세 프로젝트를 정의하고 수행 계획을 세운다.

-- 프로젝트 산출물을 중심으로 WBS(Work Breakdown Structure)를 작성한다.

= 프로젝트 위험계획 수립

-- 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별하여 사전 대응방안을 수립한다.

-- 예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용으로 구분하여 위험 관리 계획서를 작성한다.

= 데이터 분석(Analyzing)

-- 분석용 작업 공간과 전사 차원의 데이터 스토어로 분리할 수 있다.

-- 데이터 분할, 데이터 모델링, 모델 적용 및 운영방안 수립

-- 텍스트 분석

---- 데이터 스토어에서 필요한 텍스트 데이터를 추출하여

다양한 기법으로 분석하고 모형을 구축한다.

---- 텍스트 분석 결과는 모델링 태스크와 연동하여

프로젝트 목적에 부합하는 최종 모형을 구축한다.

---- 구축된 모형은 텍스트 시각화 도구로 모형의 의미 전달을 명확화한다.

-- 탐색적 분석

---- 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고

모델링에 필요한 데이터를 편성한다.

---- 다양한 관점으로 평균, 분산 등 기초 통계량을 산출하여

데이터의 분포와 변수간의 관계 등 데이터 자체의 특성과 통계적 특성을 파악한다.

---- 시각화를 탐색적 데이터 분석을 위한 도구로 활용하여

데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악한다.

-- 모델링

---- 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여

분류, 예측, 군집 등의 모형을 만들어 가동 중인 운영 시스템에 적용할 수 있다.

---- 필요한 경우 비정형 데이터 분석결과를 통합적으로 활용하여

프로젝트 목적에 맞는 통합 모델링을 수행할 수 있다.

---- 개발된 모형을 활용하기 위해 상세한 알고리즘 설명서 작성과 모니터링 방안이 필요하다.

-- 모델 평가 및 검증

---- 프로젝트 정의서의 평가 기준에 따라 모형의 완성도를 평가한다.

---- 품질관리 차원에서 모형 평가 프로세스를 진행한다.

---- 모형 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 검증을 위한

별도의 데이터를 활용하여 모형의 객관성과 실무 적용성을 검증한다.

---- 요구되는 성능 목표에 미달하는 경우 모형 튜닝 작업을 수행한다.

= 평가 및 전개(Deploying)

-- 프로젝트 평가 및 보고

---- 프로젝트 성과를 정량적 성과, 정성적 성과로 나눠 성과 평가서를 작성한다.

---- 프로젝트 진행과정에서 산출된 지식이나 프로세스 등 산출물을 자산화한다.

* 데이터 거버넌스

: 데이터 거버넌스의 정의

- 전사 차원의 모든 데이터에 대하여 정책 및 지침,

표준화, 운영조직과 책임 등의 표준화된 관리 체계를 수립

* 데이터 분석 수준진단

: 분석 성숙도(Maturity)

- 도입 👉 활용 👉 확산 👉 최적화

- 👆

- 비즈니스, 조직 및 역량, IT

출처 사이트 5

: 분석 성숙도 모델

- 데이터 분석 능력 및 데이터 분석 결과 활용에 대한

조직의 성숙도 수준을 평가하여 현재 상태를 점검하는 방법이다.

- 비즈니스 부문, 조직 및 역량 부문, IT 부문 총 3개 부문을 대상으로 실시한다.

- 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분한다.

02) 분석 작업 계획

- 정확성(Accuracy)

: 데이터 사용 목적에 따라 데이터 정확성의 기준을 상이하게 적용

- 적시성(Timeliness)

: 소멸성이 강한 데이터에 대한 품질 기준 판단

: 웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립

- 일관성(Consistency)

: 동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에

분석 요건에 따른 검증 요소 적용

* 일반적인 분석 절차

- 문제 인식

: 문제를 인식하고 분석 목적을 명확하게 정의한다.

: 분석 주제는 가설 형태 또는 결과 해석을 중심으로 할 수 있다.

- 연구조사

: 문제 해결을 위한 각종 문헌을 조사하고 내용을 바탕으로 문제에 대한 해결방안을 정의한다.

: 중요한 요인이나 변수들을 파악한다.

- 모형화

: 복잡한 문제를 논리적이면서도 단순화하는 과정이다.

: 많은 변수가 포함된 현실 문제를 특징적 변수로 정의한다.

: 문제를 변수들 간의 관계로 정의한다.

* 분석 프로젝트의 추가적 속성

- 데이터를 다루면서 분석 모형을 생성하는 프로젝트 특성상

아래 표의 추가적인 중점 관리 영역을 고려하여야 한다.

- 데이터 크기(Data Size)

: 데이터가 지속적으로 생성되어 증가하는 점을 고려한다.

- 데이터 복잡도(Data Complexity)

: 정형, 비정형 데이터와 다양한 시스템에 산재되어 있는

원천 데이터들을 통합하는 진행이 필요하다.

- 속도(Speed)

: 분석 결과가 도출되어 이를 활용하는 시나리오 측면에서의 속도까지 고려하여야 한다.

: 프로젝트 수행 시 분석 모형의 성능과 속도를 고려한 개발과

테스트 수행을 고려하여야 한다.

- 분석 모형의 복잡도(Analytic Model Complexity)

- 분석 모형의 정확도와 복잡도는 Trade off 관계에 있다.

- 분석 모형이 복잡할수록 정확도는 상승하지만

해석이 어려워지므로 이에 대한 기준을 정의하고 최적 모형을 탐색해야 한다.

- 정확도와 정밀도(Accuracy & Precision)

: 분석 결과를 활용하는 측면에서는 Accuracy가 중요하다.

: 분석 모형의 안정성 측면에서는 Precision이 중요하다.

: Accuracy와 Precision은 Trade off인 경우가 많다.

데이터 수집 및 저장 계획

01) 데이터 수집 및 전환

- ETL(Extract Transform Load)

: 수집 대상 데이터를 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술이다.

- FTP(File Transfer Protocol)

: TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술이다.

- API(Application Programming Interface)

: 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구로,

시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있도록

기능을 제공하는 인터페이스이다.

- 크롤링(Crawling)

: 인터넷상에서 제공되는 다양한 웹 사이트로부터

소셜 네트워크 정보, 뉴스, 게시판 등으로부터 웹 문서 및 정보를 수집하는 기술이다.

- RSS(Rich Site Summary)

: 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해

XML 기반으로 정보를 배포하는 프로토콜이다.

- Open API

: 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API다.

- 카프카(Kafka)

: 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술이다.

* 수집되는 데이터 형태

- HTML(Hypertext Markup Language)

: 웹 페이지를 만들 때 사용되는 문서 형식을 말한다.

: 텍스트, 태그, 스크립트로 구성된다.

- XML(eXtensible Markup Language)

: 데이터를 표현하기 위해서 태그(tag)를 사용하는 언어이다.

: 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성된다.

- JSON(JavaScript Object Notation)

: 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식이며,

경량의 데이터 교환 방식이다.

* 비식별 조치 방법

- 가명처리(Pseudonymization)

: 개인정보 중 주요 식별요소를 다른 값으로 대체하는 방법이다.

: 값을 대체 시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의해야 한다.

예) 홍길동, 30세, 서울 거주, 한국대 재학 👉 임꺽정, 30대, 서울 거주, 국제대 재학

세부기술) 휴리스틱 가명화, 암호화, 교환 방법

- 총계처리(Aggregation)

: 데이터의 총합 값을 보여주고 개별 값을 보여주지 않는 방법이다.

: 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은

그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의해야 한다.

예) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm

👉 물리학과 학생 키 합 = 660cm, 평균키 165cm

세부기술) 총계처리, 부분총계, 라운딩, 재배열

- 데이터 범주화(Data Suppression)

: 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법이다.

예) 홍길동, 35세 👉 홍씨, 30~40세

세부기술) 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩

- 데이터 마스킹(Data Masking)

: 개인을 식별하는 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법이다.

: 남아 있는 정보만으로 개인을 식별할 수 없어야 하며,

공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없어야 한다.

예) 홍길동, 35세, 서울 거주, 한국대 재학 👉 홍oo, 35세, 서울 거주, oo대학 재학

세부기술) 임의 잡음 추가, 공백과 대체

* 데이터 마스킹(Data Masking)

- 데이터의 전부 또는 일부분을 대체 값(공백, 노이즈 등)으로 변환한다.

장점) 개인 식별 요소를 제거하는 것이 가능하며, 원 데이터 구조에 대한 변형이 적다.

단점) 마스킹을 과도하게 적용할 경우 데이터 필요 목적에 활용하기 어려우며

마스킹 수준이 낮을 경우 특정한 값에 대한 추론이 가능하다.

- 임의 잡음 추가(Adding Random Noise)

: 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법이다.

: 지정된 평균과 분산의 범위 내에서 잡음이 추가되므로

원 자료의 유용성을 해치지 않으나, 잡음 값은 데이터 값과는 무관하기 때문에,

유효한 데이터로 활용하기 곤란하다.

예) 실제 생년월일에 6개월의 잡음을 추가할 경우,

원래의 생년월일 데이터에 1일부터 최대 6개월의 날짜가 추가되어

기존의 자료와 오차가 날 수 있도록 적용한다.

* 적정성 평가

- 프라이버시 보호 모델

: K - 익명성(k - anonymity)

-- 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상

비식별 되도록 하는 기법이다.

적용) 동일한 값을 가진 레코드를 k개 이상으로 하며,

이 경우 특정 개인을 식별할 확률은 k분의 1이다.

-- 공개된 데이터에 대한 연결공격 등 취약점을 방어하기 위해

제안된 개인정보 보호 모델로 비식별화 조치를 위한 최소의 기준으로 사용된다.

-- k - 익명성은 주어진 데이터 집합에서 같은 값이 적어도

k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 한다.

--- 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한(구별되지 않는)

k - 1개 이상의 레코드를 가진다.

--- 적정성 평가단은 적절한 k - 값을 선택한 후 평가(예) k=3, k=4 등)을 진행한다.

: l - 다양성

-- 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여

추론 가능성을 낮추는 기법이다.

적용) 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여

동질성 또는 배경지식 등에 의한 추론을 방지한다.

-- k - 익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을

방어하기 위한 모델로, 주어진 데이터 집합에서 함께

비식별되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 정보를 가지도록 한다.

-- 비식별 조치 과정에서 충분히 다양한(l개 이상) 서로 다른 정보를 갖도록

동질 집합을 구성함으로써 다양성의 부족으로 인한 공격에 방어가 가능하고,

배경지식으로 인한 공격에도 일정 수준의 방어능력을 가질 수 있다.

: t - 근접성

-- l - 다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법이다.

적용) 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를

t 이하로 하여 추론을 방지한다.

-- l - 다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위한 모델로

값의 의미를 고려하는 모델이다.

-- t - 근접성은 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서

정보의 분포가 t 이하의 차이를 보여야 하며,

각 동질 집합에서 '특정 정보의 분포')가 전체 데이터집합의 분포와 비교하여

너무 특이하지 않도록 한다.

-- t - 근접성은 정보의 분포를 조정하여 정보가 특정 값으로 쏠리거나

유사한 값들이 뭉치는 경우를 방지하는 방법이다.

-- t 수치가 0에 가까울수록 전체 데이터의 분포와

특정 데이터 구간의 분포 유사성이 강해지기 때문에

그 익명성의 방어가 더 강해지는 경향이 있다.

-- 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는

변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않다.

데이터 수집 및 저장 계획

01) 데이터 수집 및 전환

* 데이터 품질 검증

* 데이터 품질

- 유일성

: 데이터 항목은 유일해야 하며 중복되어서는 안된다.

- 유효성(Validity)

: 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다.

-- 범위 유효성

= 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다.

예) 기준점 좌포각은 -360초과, 360미만까지의 값을 가진다.

-- 날짜 유효성

= 칼럼 값이 날짜 유형일 경우에는 유효날짜 값을 가져야 한다.

예) 9991231, 20050231은 유효하지 않은 값이다.

-- 형식 유효성

= 칼럼은 정해진 형식과 일치하는 값을 가져야 한다.

예) 주민번호는 '000000-0000000'의 형식이어야 한다.

- 일관성

: 데이터가 지켜야할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야 한다.

-- 기준코드 일관성

= 데이터가 지켜야 할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야 한다.

예) 고객의 직업코드는 통합코드테이블의 직업코드에 등록된 값이어야 한다.

-- 참조 무결성

= 테이블 간의 칼럼값이 참조관계이 있는 경우 그 무결성을 유지해야 한다.

예) 대출원장의 대출원장번호는 대출 상세내역에 존재해야 한다.

-- 데이터 흐름 일관성

= 데이터를 생산하거나 가공하여 데이터가 이동되는 경우,

연관된 데이터는 모두 일치해야 한다.

-- 칼럼 일관성

= 관리 목적으로 중복 칼럼을 임의 생성하여 활용하는 경우

각각의 동의어 칼럼 값은 일치해야 한다.

- 정확성

: 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야 한다.

-- 선후 관계 정확성

= 복수의 칼럼값이 선후 관계에 있을 경우 이 규칙을 지켜야 한다.

예) 시작일은 종료일 이전 시점이어야 한다.

-- 계산/집계 정확성

= 한 칼럼의 값은 다수 칼럼의 계산된 값일 경우 계산 값이 정확해야 한다.

예) 월 통계 테이블의 매출액은 현재 월 매출액의 총합과 일치해야 한다.

-- 최신성

= 정보의 발생, 수집, 그리고 갱신 주기를 유지해야 한다.

예) 고객의 현재 값은 고객변경이력의 마지막 ROW와 일치해야 한다.

-- 업무규칙 정확성

= 칼럼의 업무적으로 복잡하게 연관된 경우 관련 업무규칙에 일치해야 한다.

예) 지급원장의 지급여부가 'Y'이면 지급원장의 지급일자는

신청일보다 이전 시점이어야 하고 NULL이 아니어야 한다.

02) 데이터 적재 및 저장

* 데이터 저장

* 분산 파일 시스템

- 하둡 분산파일 시스템(HDFS: Hadoop Distributed File System)

: 하둡은 아파치 진영에서 분산 환경 컴퓨팅을 목표로 시작한 프로젝트로

분산 처리를 위한 파일 시스템이다.

: HDFS는 대용량 파일을 클러스터에 여러 블록으로 분산하여 저장하며,

블록들은 마지막 블록을 제외하고 모두 크기가 동일하다(기본 크기 64MB).

: HDFS는 마스터(Master) 하나와 여러 개의 슬레이브(Slave)로 클러스터링 되어 구성된다.

-- 마스터노드(Master Node)는 네임노드(Name Node)라고 하며

슬레이브를 관리하는 메타데이터와 모니터링 시스템을 운영한다.

-- 슬레이브노드(Slave Node)는 데이터노드(Date Node)라고 하며

데이터 블록을 분산처리한다.

: 데이터 손상을 방지하기 위해서 데이터 복제 기법을 사용한다.

* NoSQL의 데이터 모델

- NoSQL의 데이터 저장 방식에 따라 키-값 구조, 칼럼기반 구조,

문서기반구조로 구분할 수 있다.

- 키-값(key-value) 데이터베이스

: 데이터를 키와 그에 해당하는 값의 쌍으로 저장하는 데이터 모델에 기반을 둔다.

: 단순한 데이터 모델에 기반을 두기 때문에 관계형 데이터베이스보다

확장성이 뛰어나고 질의 응답시간이 빠르다.

: 아마존의 Dynamo 데이터베이스가 효시이며, Redis와 같은

in-memory 방식의 오픈소스 데이터베이스가 대표적이다.

- 열기반(칼럼기반, column-oriented) 데이터베이스

: 데이터를 로우가 아닌 칼럼기반으로 저장하고 처리하는 데이터베이스를 말한다.

: 칼럼과 로우는 확장성을 보장하기 위하여 여러 개의 노드로 분할 및 저장되어 관리된다.

: 구글의 Bigtable이 칼럼기반 데이터베이스의 효시이며,

이로부터 파생된 Cassansra, Hbase, HyperTable 등이 대표적인 칼럼기반 데이터베이스이다.

- 문서기반(document-oriented) 데이터베이스

: 문서 형식의 정보를 저장, 검색, 관리하기 위한 데이터베이스이다.

: 키-값 데이터베이스보다, 문서의 내부 구조에 기반을 둔 복잡한 형태의

데이터 저장을 지원하고 이에 따른 최적화가 가능하다는 장점이 있다.

: 대표적으로 MongoDB, SImpleDB, CouchDB가 있다.

+ 추가

생성 분석 변수의 전처리 방법으로 적합한 것

= 데이터 정제, 데이터 통합, 테이터 변환, 데이터 축소

정보의 특징

= 정확성, 적시성, 적당성, 관련성

난이도와 시급성을 고려한 포트폴리오 사분면 분석기법에 대한 설명

= 가장 우선적으로 분석 과제 적용이 필요한 영역은 3사분면이다.

= 우선순위가 낮은 영역은 2사분면이다.

= 적용 우선순위 기준을 시급성에 둘 경우

순서는 3사분면, 4사분면, 2사분면 순이다.

= 적용 우선순위 기준을 난이도에 둘 경우

순서는 3사분면, 1사분면, 2사분면이다.

비식별화 방법

= 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹

개인정보 비식별화 방법 중 가명처리 기법의 세부기술

= 휴리스틱 가명화, 암호화, 교환 방법

상향식 접근 방식에 대한 설명

= 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색한다.

= 문제가 먼저 주어지는 것은 하향식 접근 방식이고,

동적인 환경에서 발산과 수렴 단계를 반복하는 것은 혼합 방식이며

신상품 개발이나 전략 수립 등 중요한 의사결정 시 사용한다.

데이터상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이

무엇을 학습해야 하는지 알려주는 표식 작업

= 데이터상의 주석 작업으로 딥러닝과 같은

학습 알고리즘이 무엇을 학습하여야 하는지

알려주는 표식 작업을 애노테이션 이라 한다.

스트리밍 데이터에 대한 특징

= 대용량성, 실시간성, 무중단성

데이터 산업 구조의 서비스 영역

= 데이터 활용 교육, 데이터 처리 제공, 데이터 기반 컨설팅

= 서비스 영역에서는 데이터 자체나 데이터를 가공한 정보를 제공한다.

새로운 아이디어는 서비스를 제공받는 사람이 생각해야 한다.

+ 추가 2

빅데이터 플랫폼의 부하 제어 기능

= 컴퓨팅 부하 제어, 저장 부하 제어, 네트워크 부하 제어

개인정보의 판단기준

= 생존하는 개인에 관한 정보여야 한다.

= 개인에 관한 정보여야 한다.

= 정보의 내용이나 형태 등은 제한이 없다.

= 개인을 알아볼 수 있는 정보여야 한다.

= 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함한다.

빅데이터 플랫폼의 등장배경

= 비즈니스 요구사항 변화, 데이터 처리 복잡도 증가,

데이터 규모 증가, 데이터 구조의 변화,

데이터 분석 유연성 증대, 데이터 처리의 신속성 요구 등

분석작업계획 수립 절차

= 프로젝트 소요비용 배분, 프로젝트 작업분할구조 수립,

프로젝트 업무 분장 계획 및 배분이 있다.

맵리듀스의 데이터처리과정을 순서대로 나열한 것

= 맵리듀스의 데이터 처리과정은

데이터 분할(Split), 맵(Map) 처리, 셔플(Shuffle), 리듀스(Reduce) 단계로 이어진다

+ 추가 3

분석 기획 시 분석 주제와 방법에 따른 분류 유형

= Optimization 은 분석 주제와 방법을 모두 알고있는 때 가능하다.

= Solution 은 분석 주제는 알지만 방법을 알지 못한 경우에도 찾을 수 있다.

= Discovery 는 분석 주제와 방법 모두 모르고 있더라도 가능하다.

= Insight 는 분석 주제는 정해지지 않았더라도 방법을 알고 있을 때 가능하다.

분석 기획 시 고려해야 할 내용

= 사용 가능한 데이터에 대한 확인이 필요하다.

= 기존에 잘 구현되어 활용되고 있는

적합한 사례가 있는지 탐색해 보아야 한다.

= 분석 수행 시 발생 가능한 위험요소들에 대한 고려가 필요하다.

= 분석 수행 시 미리 반복 횟수를 정하여 제한하는 것은 바람직하지 않다.

데이터 변환 방식의 종류

= 비정형 데이터를 정형 데이터 형태로 저장하는 방식

= 수집 데이터를 분산파일시스템으로 저장하는 방식

= 주제별, 시계열적으로 저장하는 방식

상향식 접근 방식에 대한 설명

= 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색한다.

빅데이터를 활용하는 과정에서

사생활 침해를 방지하기 위하여

데이터에 포함된 개인정보를 삭제하거나

알아볼 수 없는 형태로 변환하는 방법

= 익명화

= 익명화는 사생활 침해를 방지하기 위하여

데이터에 포함된 개인정보를 삭제하거나

알아볼 수 없는 형태로 변환하는 방법이다.

비즈니스 도메인 정보를 습득하기 위해 필요한 것

= 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스

정보의 특징

= 정확성, 적시성, 적당성, 관련성

데이터 분석 과제 수행을 위한 필요역량

= 도메인 이슈 도출 역량, 분석 목표 수립 역량,

프로젝트 계획 수립 역량, 보유 데이터 자산 확인 능력

+ 추가 4

난이도와 시급성을 고려한 포트폴리오 사분면 분석기법에 대한 설명.

= 가장 우선적으로 분석 과제 적용이 필요한 영역은 3사분면이다.

= 우선순위가 낮은 영역은 2사분면이다.

= 적용 우선순위 기준을 시급성에 둘 경우 순서는 3사분면, 4사분면, 2사분면 순이다.

= 적용 우선순위 기준을 난이도에 둘 경우 순서는 3사분면, 1사분면, 2사분면 순이다.

하향식 접근 방식의 4단계 구성요소.

= 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 평가

데이터 저장 시 NoSQL 데이터베이스 저장방식의 종류,

= Key value 데이터베이스, column oriented 데이터베이스, document 데이터베이스

데이터 적절성 검증을 위한 방법

데이터 누락, 데이터의 정확성, 대량 트래픽 발생 여부

대표적인 데이터 저장 방식.

= 파일 시스템, 분산처리 데이터베이스, 관계형 데이터베이스

주성분 분석 (PCA) 에 대한 설명.

= 분포된 데이터들의 특성을 설명할 수 있는

하나 또는 복수 개의 특징(주성분)을 찾는 것을 의미한다.

= 서로 연관성이 있는 고차원공간의 데이터를

선형연관성이 없는 저차원(주성분)으로 변환하는 과정을 거친다(직교변환을 사용)

= 기존의 기본변수들을 새로운 변수의 세트로 변환하여

차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여

이를 통한 분석결과의 신뢰성을 확보한다.

= 차원 축소에 폭넓게 사용된다. 어떠한 사전적 분포 가정의 요구가 없다.

= 차원치 축소는 본래의 변수들이 서로 상관이 있을 때만 가능하다.

빅데이터 분석 기사 (필기) - PART 01) 빅데이터 분석 기획 요약 및 정리

댓글 쓰기

Chzzk 치지직 그리드 없이 (1080p) 보는 법 #2 (매우 간단)

Contact form

빅데이터 분석 기사 (필기) - PART 01) 빅데이터 분석 기획 요약 및 정리

You Might Like

댓글 쓰기

Contact form