빅데이터 분석기사 필기 - 빅데이터의 이해

* 본인이 수제비 교재의 지피지기 기출문제와 천기누설 예상문제를 풀며 보완이 필요한 개념들만 정리한 글이므로 모든 개념이 다 정리된 글이 아닙니다.

1. 빅데이터 개요 및 활용

진단 분석(Diagnosis Analysis) [가트너의 분석 가치 애스컬레이터(Analytic Value Escalator) 중]

묘사 단계에서 찾아낸 분석의 원인을 이해하는 과정
데이터를 기반으로 왜 발생했는지 이유를 확인

DIKW 피라미드 포함 요소

데이터, 정보, 지식, 지혜

빅데이터의 가치

경제적 자산 : 새로운 기회를 창출하고, 위험을 해결하여 사회 및 경제 발전의 엔진 역할을 수행한다.
불확실성 제거 : 현실 세계의 데이터를 기반으로 한 패턴 분석과 미래 전망을 예측한다.
리스크 감소 : 환경, 소셜, 모니터링 정보의 패턴 분석을 통해 위험 징후 및 이상 신호를 포착한다.
타 분야 융합 : 방대한 데이터 활용과 타 분야와의 융합을 통한 새로운 가치를 창출한다.
스마트한 경쟁력 : 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 기능

일반적으로 통용되는 빅데이터의 정의

다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍처.
일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 Ackoff, R.L.이 도식화한 DIKW 피라미드로 표현할 수 있다.
빅데이터는 데이터의 양(Volume), 다양성(Variety), 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.

빅데이터 분석에 경제성을 제공해 준 결정적인 기술

클라우드 컴퓨팅(Cloud Computing)

책임 원칙의 훼손에 대해 가장 올바른 사례

-> 범죄 예측 프로그램에 의해 범행이 발생하기 전 체포

예측 기술과 빅데이터 분석기술이 발전하면서 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 증가한다.
잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있는 민주주의 국가 원리를 훼손할 가능성이 존재한다.

빅데이터 시대의 위기와 통제에 대한 설명

빅데이터 분석은 실제 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 언제나 맞을 수는 없는 오류가 존재한다.
알고리즘을 통해 불이익을 당한 사람들을 대변할 알고리즈미스트라는 전문가가 필요하다.

묘사 분석(Descriptive Analysis) [가트너의 분석 가치 애스컬레이터(Analytic Value Escalator) 중]

분석의 가장 기본적인 지표
과거에 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인
단순한 소비자 선호도(좋다, 나쁘다)뿐만 아니라 선호하는 대상까지 확인

데이터 분석 준비도 프레임워크 중 분석 업무 파악 항목

발생한 사실 분석 업무
예측 분석 업무
시뮬레이션 분석 업무
최적화 분석 업무
분석 업무 장기적 개선

* 대체로 ~ 분석 업무 의 항목들이다.

조직 평가를 위한 성숙도 단계

도입 단계 : 분석을 시작해 환경과 시스템을 구축
활용 단계 : 분석 결과를 실제 업무에 적용
확산 단계 : 전사 차원에서 분석을 관리하고 공유
최적화 단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여

데이터 거버넌스 체계 항목

데이터 표준화 : 데이터 표준 용어 설명, 명명 규칙 수립, 메타데이터 구축, 데이터 사전 구축 / 데이터 표준 준수 진단, 논리.물리 모델 표준에 맞는지 검증
데이터 관리 체계 : 메타데이터와 데이터 사전의 관리 원칙 수립
데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
표준화 활동 : 데이터 거버넌스 체계 구축 이후 표준 준수 여부를 주기적으로 점검 및 모니터링 실시

빅데이터 조직 구조 설계의 요소

업무 활동 : 수직 업무 활동과 수평 업무 활동으로 구분한다. / 수평 업무 활동은 업무 프로세스 절차별로 업무 배분
부서화 : 조직의 미션과 목적을 효율적으로 달성하기 위한 조직 구조 유형이다.
보고 체계 : 조직의 목표 달성을 위하여 업무 활동 및 부서의 보고 체계를 설계한다.

조직 구조의 설계 특성

공식화, 분업화, 직무 전문성, 통제 범위, 의사소통 및 조정

데이터사이언티스트에서 인문학 열풍을 가져오게 한 외부환경 요소

컨버전스에서 디버전스로의 변화
제품생산에서 서비스로의 변화
생산에서 시장창조로의 변화

데이터 사이언스와 데이터 사이언티스트에 대한 설명

통계학과 데이터 사이언스는 '데이터를 다룬다'는 것이 비슷하지만 데이터 사이언스는 더욱 확장된 유형의 데이터를 다룬다.
데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문이다.
데이터 사이언티스트가 갖춰야할 역량으로 대부분의 전문가들이 호기심을 언급한다.
더 높은 가치 창출과 차별화를 가져오는 것은 전략적 통찰력과 관련된 소프트 스킬이다.

가트너가 제시한 데이터 사이언티스트가 갖춰야할 역량

분석 모델링, 데이터 관리, 소프트스킬, 비즈니스 분석

2. 빅데이터 기술 및 제도

비식별화 조치

k-익명성(k-Anonymity)은 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델 / 연결 공격 취약점을 방어하기 위한 모델
l-다양성(l-Diversity)은 l개의 서로 다른 민감정보를 가져야 한다. / k-익명성에 대한 동질성 공격, 배경지식에 의한 공격을 방어하기 위한 프라이버시 모델
t-근접성(t-Closeness)은 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보이도록 해야 한다. / l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델
m-유일성(m-Uniqueness)은 원본 데이터와 동일한 속성값의 조합이 비식별 결과 데이터에 최소 m개가 존재해야 한다. / 재식별 가능성 위험을 낮춘 모델

빅데이터와 인공지능의 관계

상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높인다.
빅데이터 기술이 주목을 받는 이유는 정보처리 능력이 중심이 아니라 우수한 정보처리를 바탕으로 의미 있는 솔루션을 도출할 수 있다는 점이 빅데이터가 주목받는 이유이다.
인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 가지고 스스로 학습하는 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 되었다.
빅데이터 목표가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 크다.

맵리듀스의 처리 순서

Input -> Map -> Shuffle -> Reduce -> Output

하둡 에코시스템에 대한 설명

Sqoop : 정형 데이터를 수집하는 대용량 데이터 전송 솔루션
HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
Map Reduce : 대용량 데이터 세트를 분산 정렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
HBase : 칼럼 기반 저장소로 HDFS와 인터페이스 제공

하둡 에코시스템의 주요 기술

데이터 가공	피그(Pig), 하이브(Hive)
데이터 마이닝	머하웃(Mahout)
실시간 SQL 질의	임팔라(Impala)
워크플로우 관리	우지(Oozie)
분산 코디네이션	주키퍼(Zookeeper)

개인정보를 수집할 수 없는 경우 예시

정보 주체와의 계약을 체결할 경우 <- 불가피하게 필요한 경우에만 수집 가능하다.

가명 정보에 대한 설명

추가정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보
통계작성(상업적 목적 포함), 연구(산업적 연구 포함), 공익적 기록보존 목적 등을 위해 동의 없이 사용할 수 있다.

쏠림 공격, 유사성 공격을 보완하기 위해 제안된 프라이버시 보호 모델

t-근접성(t-Closeness) : l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델이다.

'Personal > AI, Big Data' 카테고리의 다른 글

혼공머신 11강 - 로지스틱 회귀로 와인 분류하기, 결정 트리 (0)	2022.07.14
GAN(Generative Adversarial Networks) 생성적 적대 신경망 (0)	2022.05.02
[NIPA] 실무 응용 과정 - 03 지도학습 - 회귀 (0)	2021.10.01
[NIPA] 실무 응용 과정 - 02 데이터 전 처리하기 (0)	2021.09.30
[NIPA] 실무 응용 과정 - 01 머신러닝 시작하기 (0)	2021.09.29

IT study-hs

빅데이터 분석기사 필기 - 빅데이터의 이해

1. 빅데이터 개요 및 활용

2. 빅데이터 기술 및 제도

'Personal > AI, Big Data' 카테고리의 다른 글

티스토리툴바

빅데이터 분석기사 필기 - 빅데이터의 이해

1. 빅데이터 개요 및 활용

2. 빅데이터 기술 및 제도

'Personal > AI, Big Data' 카테고리의 다른 글

'Personal/AI, Big Data' Related Articles

티스토리툴바