본문 바로가기

Personal/AI, Big Data

빅데이터 분석기사 필기 - 빅데이터의 이해

* 본인이 수제비 교재의 지피지기 기출문제와 천기누설 예상문제를 풀며 보완이 필요한 개념들만 정리한 글이므로 모든 개념이 다 정리된 글이 아닙니다.

 

1. 빅데이터 개요 및 활용

진단 분석(Diagnosis Analysis) [가트너의 분석 가치 애스컬레이터(Analytic Value Escalator) 중]

  • 묘사 단계에서 찾아낸 분석의 원인을 이해하는 과정
  • 데이터를 기반으로 왜 발생했는지 이유를 확인

 

DIKW 피라미드 포함 요소

  • 데이터, 정보, 지식, 지혜

 

빅데이터의 가치

  • 경제적 자산 : 새로운 기회를 창출하고, 위험을 해결하여 사회 및 경제 발전의 엔진 역할을 수행한다.
  • 불확실성 제거 : 현실 세계의 데이터를 기반으로 한 패턴 분석과 미래 전망을 예측한다.
  • 리스크 감소 : 환경, 소셜, 모니터링 정보의 패턴 분석을 통해 위험 징후 및 이상 신호를 포착한다.
  • 타 분야 융합 : 방대한 데이터 활용과 타 분야와의 융합을 통한 새로운 가치를 창출한다.
  • 스마트한 경쟁력 : 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 기능

 

일반적으로 통용되는 빅데이터의 정의

  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍처.
  • 일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
  • 데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 Ackoff, R.L.이 도식화한 DIKW 피라미드로 표현할 수 있다.
  • 빅데이터는 데이터의 양(Volume), 다양성(Variety), 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.

 

빅데이터 분석에 경제성을 제공해 준 결정적인 기술

  • 클라우드 컴퓨팅(Cloud Computing)

 

책임 원칙의 훼손에 대해 가장 올바른 사례

-> 범죄 예측 프로그램에 의해 범행이 발생하기 전 체포

  • 예측 기술과 빅데이터 분석기술이 발전하면서 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 증가한다.
  • 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있는 민주주의 국가 원리를 훼손할 가능성이 존재한다.

 

빅데이터 시대의 위기와 통제에 대한 설명

  • 빅데이터 분석은 실제 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 언제나 맞을 수는 없는 오류가 존재한다.
  • 알고리즘을 통해 불이익을 당한 사람들을 대변할 알고리즈미스트라는 전문가가 필요하다.

묘사 분석(Descriptive Analysis) [가트너의 분석 가치 애스컬레이터(Analytic Value Escalator) 중]

  • 분석의 가장 기본적인 지표
  • 과거에 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인
  • 단순한 소비자 선호도(좋다, 나쁘다)뿐만 아니라 선호하는 대상까지 확인

 

데이터 분석 준비도 프레임워크 중 분석 업무 파악 항목

  • 발생한 사실 분석 업무
  • 예측 분석 업무
  • 시뮬레이션 분석 업무
  • 최적화 분석 업무
  • 분석 업무 장기적 개선

* 대체로 ~ 분석 업무 의 항목들이다.

 

조직 평가를 위한 성숙도 단계

  • 도입 단계 : 분석을 시작해 환경과 시스템을 구축
  • 활용 단계 : 분석 결과를 실제 업무에 적용
  • 확산 단계 : 전사 차원에서 분석을 관리하고 공유
  • 최적화 단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여

 

데이터 거버넌스 체계 항목

  • 데이터 표준화 : 데이터 표준 용어 설명, 명명 규칙 수립, 메타데이터 구축, 데이터 사전 구축 / 데이터 표준 준수 진단, 논리.물리 모델 표준에 맞는지 검증 
  • 데이터 관리 체계 : 메타데이터와 데이터 사전의 관리 원칙 수립
  • 데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
  • 표준화 활동 : 데이터 거버넌스 체계 구축 이후 표준 준수 여부를 주기적으로 점검 및 모니터링 실시

빅데이터 조직 구조 설계의 요소

  • 업무 활동 : 수직 업무 활동과 수평 업무 활동으로 구분한다. / 수평 업무 활동은 업무 프로세스 절차별로 업무 배분
  • 부서화 : 조직의 미션과 목적을 효율적으로 달성하기 위한 조직 구조 유형이다.
  • 보고 체계 : 조직의 목표 달성을 위하여 업무 활동 및 부서의 보고 체계를 설계한다.

조직 구조의 설계 특성

  • 공식화, 분업화, 직무 전문성, 통제 범위, 의사소통 및 조정

 

데이터사이언티스트에서 인문학 열풍을 가져오게 한 외부환경 요소

  • 컨버전스에서 디버전스로의 변화
  • 제품생산에서 서비스로의 변화
  • 생산에서 시장창조로의 변화

 

데이터 사이언스와 데이터 사이언티스트에 대한 설명

  • 통계학과 데이터 사이언스는 '데이터를 다룬다'는 것이 비슷하지만 데이터 사이언스는 더욱 확장된 유형의 데이터를 다룬다.
  • 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문이다.
  • 데이터 사이언티스트가 갖춰야할 역량으로 대부분의 전문가들이 호기심을 언급한다.
  • 더 높은 가치 창출과 차별화를 가져오는 것은 전략적 통찰력과 관련된 소프트 스킬이다.

 

가트너가 제시한 데이터 사이언티스트가 갖춰야할 역량

  • 분석 모델링, 데이터 관리, 소프트스킬, 비즈니스 분석

 

2. 빅데이터 기술 및 제도

비식별화 조치

  • k-익명성(k-Anonymity)은 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델 / 연결 공격 취약점을 방어하기 위한 모델
  • l-다양성(l-Diversity)은 l개의 서로 다른 민감정보를 가져야 한다. / k-익명성에 대한 동질성 공격, 배경지식에 의한 공격을 방어하기 위한 프라이버시 모델
  • t-근접성(t-Closeness)은 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보이도록 해야 한다. / l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델
  • m-유일성(m-Uniqueness)은 원본 데이터와 동일한 속성값의 조합이 비식별 결과 데이터에 최소 m개가 존재해야 한다. / 재식별 가능성 위험을 낮춘 모델

 

빅데이터와 인공지능의 관계

  • 상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높인다.
  • 빅데이터 기술이 주목을 받는 이유는 정보처리 능력이 중심이 아니라 우수한 정보처리를 바탕으로 의미 있는 솔루션을 도출할 수 있다는 점이 빅데이터가 주목받는 이유이다.
  • 인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 가지고 스스로 학습하는 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 되었다.
  • 빅데이터 목표가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 크다.

 

맵리듀스의 처리 순서

  • Input -> Map -> Shuffle -> Reduce -> Output

 

하둡 에코시스템에 대한 설명

  • Sqoop : 정형 데이터를 수집하는 대용량 데이터 전송 솔루션
  • HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
  • Map Reduce : 대용량 데이터 세트를 분산 정렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
  • HBase : 칼럼 기반 저장소로 HDFS와 인터페이스 제공

 

하둡 에코시스템의 주요 기술

데이터 가공 피그(Pig), 하이브(Hive)
데이터 마이닝 머하웃(Mahout)
실시간 SQL 질의 임팔라(Impala)
워크플로우 관리 우지(Oozie)
분산 코디네이션 주키퍼(Zookeeper)

 

 

개인정보를 수집할 수 없는 경우 예시

  • 정보 주체와의 계약을 체결할 경우 <- 불가피하게 필요한 경우에만 수집 가능하다.

 

가명 정보에 대한 설명

  • 추가정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보
  • 통계작성(상업적 목적 포함), 연구(산업적 연구 포함), 공익적 기록보존 목적 등을 위해 동의 없이 사용할 수 있다.

 

쏠림 공격, 유사성 공격을 보완하기 위해 제안된 프라이버시 보호 모델

  • t-근접성(t-Closeness) : l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델이다.