본문 바로가기

Personal/AI, Big Data

(11)
파이썬 기초 라이브러리부터 쌓아가는 머신러닝 4 보호되어 있는 글입니다.
파이썬 기초 라이브러리부터 쌓아가는 머신러닝 3 보호되어 있는 글입니다.
혼공머신 13강 - 트리의 앙상블 * 혼자공부하는 머신러닝 + 딥러닝 책의 Youtube 강의를 보며 실습 및 공부한 내용입니다. Chapter 05 트리 알고리즘 05 -3 트리의 앙상블 목적: 앙상블 학습이 무엇인지 이해하고 다양한 앙상블 학습 알고리즘을 실습을 통해 배운다. 정형 데이터와 비정형 데이터 정형 데이터: CSV 파일의 데이터처럼 어떤 구조로 되어 있는 데이터, CSV나 데이터베이스, 엑셀에 저장하기 쉽다. 비정형 데이터: 데이터베이스나 엑셀로 표현하기 어려운 것들, 텍스트 데이터, 디지털카메라로 찍은 사진, 핸드폰으로 듣는 디지털 음악 등. 앙상블 학습: 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘, 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘. 랜덤 포레스트 랜덤 포레스..
혼공머신 12강 - 교차 검증과 그리드 서치 * 혼자공부하는 머신러닝 + 딥러닝 책의 Youtube 강의를 보며 실습 및 공부한 내용입니다. Chapter 05 트리 알고리즘 05 -2 교차 검증과 그리드 서치 목적: 검증 세트가 필요한 이유를 이해하고 교차 검증에 대해 배웁니다. 그리드 서치와 랜덤 서치를 이용해 최적의 성능을 내는 하이퍼파라미터를 찾습니다. 핵심 키워드: 검증 세트, 교차 검증, 그리드 서치, 랜덤 서치 책 242p 시작하기 전 에피소드 -> 테스트 세트를 사용해 자꾸 성능을 확인하면 점점 테스트 세트에 맞추게 된다. 테스트 세트로 일반화 성능을 올바르게 예측하려면 가능한 한 테스트 세트를 사용하지 말아야 한다. max_depth 매개변수를 사용한 하이퍼파라미터 튜닝을 어떻게 할 수 있을까? 검증 세트 -> 검증 세트: 하이퍼파..
혼공머신 11강 - 로지스틱 회귀로 와인 분류하기, 결정 트리 * 혼자공부하는 머신러닝 + 딥러닝 책의 Youtube 강의를 보며 실습 및 공부한 내용입니다. Chapter 05 트리 알고리즘 05 -1 결정 트리 목적: 결정 트리 알고리즘을 사용해 새로운 분류 문제를 다루어 봅니다. 결정 트리가 머신러닝 문제를 어떻게 해결하는지 이해합니다. 핵심 키워드: 결정 트리, 불순도, 정보 이득, 가지치기, 특성 중요도 책 220p 시작하기 전 에피소드 -> 한빛 마켓에서 신상품으로 와인을 판매하려 한다. 캔와인인데 레드 와인과 화이트 와인 표시가 누락되었다. 캔에 인쇄된 알코올 도수, 당도, PH 값으로 와인 종류 구별할 수 있는 방법이 있을까? 이 3가지 값에 로지스틱 회귀 모델을 적용해보기로 했다. 화이트 와인이 양성 클래스로 값은 1이다. 레드 와인은 음성 클래스로..
GAN(Generative Adversarial Networks) 생성적 적대 신경망 생성적 적대 신경망(GAN: Generative Adversarial Network) 이란? 소위 심층학습의 4대 석학 중 한 명인 요슈아 벤지오(Yoshua Bengio) 몬트리올대 교수의 제자인 이안 굿펠로우(Ian Goodfellow)가 2014년 신경정보처리시스템 학회(Neural Information Processing System)에서 처음 소개됐다. 비지도 학습에 사용되는 인공지능 알고리즘이다. (딥러닝) 제로섬 게임 틀 안에서 서로 경쟁하는 두 개의 신경 네트워크 시스템에 의해 구현된다. 진위를 감별하는 알고리즘과 새로운 이미지를 만드는 알고리즘을 서로 경쟁시키듯 학습시키면서 진짜 이미지와 가짜 이미지의 오차를 줄여 진짜 같은 가짜를 만들어 내는 원리이다. GAN에는 최대한 진짜 같은 데이..
빅데이터 분석기사 필기 - 빅데이터의 이해 * 본인이 수제비 교재의 지피지기 기출문제와 천기누설 예상문제를 풀며 보완이 필요한 개념들만 정리한 글이므로 모든 개념이 다 정리된 글이 아닙니다. 1. 빅데이터 개요 및 활용 진단 분석(Diagnosis Analysis) [가트너의 분석 가치 애스컬레이터(Analytic Value Escalator) 중] 묘사 단계에서 찾아낸 분석의 원인을 이해하는 과정 데이터를 기반으로 왜 발생했는지 이유를 확인 DIKW 피라미드 포함 요소 데이터, 정보, 지식, 지혜 빅데이터의 가치 경제적 자산 : 새로운 기회를 창출하고, 위험을 해결하여 사회 및 경제 발전의 엔진 역할을 수행한다. 불확실성 제거 : 현실 세계의 데이터를 기반으로 한 패턴 분석과 미래 전망을 예측한다. 리스크 감소 : 환경, 소셜, 모니터링 정보의..
[NIPA] 실무 응용 과정 - 03 지도학습 - 회귀 보호되어 있는 글입니다.