2. 분류에 대한 기초
교사학습 (Supervised Learning)
– 훈련 데이터(Training Data) 로 부터 하나의 함수를 유추해 내기 위한 기계학습(Machine
Learning)의 한 방법
예측모델
– 연속형 : 분류(calssification)
– 이산형 : 회귀분석(regression)
예제를 통한 결정 트리 배우기
– 중첩된 if-then 형식의 모델링
3. 분류에 대한 기초
정보 엔트로피(information entropy)
– 값의 분포와 관련된 무질서 정도 측정.
9. 외카 API를 활용한 블로그 글 분류
블로그 글을 분류하기 위한 데이터셋 빌드
– 테그셋과 관련된 블로그 글을 가져온다 (관심태그, 관심없는태그로 이루어져
있다)
– 블로그 글을 파싱하여 텀벡터로 만든다.텀 벡터는 관심여부를 의미하는 예측
값과 연관.
– 각 텀벡터를 외카 Instance 객체로 변환한다. 이런 Instance 객체가 모여서
데이터셋을 구성하며, 이는 Instances 객체로 표현된다.
– 명목형 속성인 태그는, 블로그 글에 태그가 존재하면 값이 참이고, 존재하지
않으면 값이 boolean 속석으로 각 태그를 변환
16. JDM을 사용한 분류와 회귀 분석
JDM API를 이용한 교사 학습 설정
– 분류 설정 객체 생성
– JDM API를 이용한 분류 태스크 생성
– JDM API를 이용한 분류 태스크 실행
– JDM API를 이용한 분류 모델 가져오기
– JDM API를 이용한 모델 테스트
Editor's Notes
교사학습(지도학습)Supervised Learning은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다. 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고 주어진 입력 벡터가 어떤 종류의 값인지 표식하는 것을 분류(Classification)라 한다.- 지도 학습기(Supervised Learner)가 하는 작업은 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해내는 것이다. 이 목표를 달성하기 위해서는 학습기가 “알맞은” 방법을 통하여 기존의 훈련 데이터로부터 나타나지 않던 상황까지도 일반화하여 처리할 수 있어야 한다. 사람과 동물에 대응하는 심리학으로는 개념학습(Concept Learning)을 예로 들 수 있다.- Supervised Learning을이용한알고리즘. 서포트 벡터 머신(support vector machine). 은닉 마르코프 모델(Hidden Markov model). 회귀 분석(Regression). 신경망(Neural network). 나이브 메이즈 분류(Naïve Bayes Classification)예측모델을 사용할때는 학습, 에플리케이션의 2단계가 있습니다.- 학습단계에서는 입력과 출력 속성을 가진 데이터 셋이 주어지고, 그 데이터 셋을 기반으로 수학적인 모델을 빌드합니다.- 애플리케이션에서 무언가를 예측할때는 이 수학 모델을 이용합니다.= 상대적으로 애플리케이션에서 예측은 빠르기때문에 실시간 예측의 적용이 가능합니다. 반대로 학습단계에서는 느리기때문에 비동기적인 수행이 필요합니다.-
나이브 베이지언 분류기단순한 확률적 분류법 이라고 합니다. 확률 모델은 베이지의 정리(http://www.aistudy.com/math/bayes_theorem.htm)에서 유도 되었고, 핵심적인 내용은 새로운 정보를 이용하여 점진적으로 확률의 개선작업이 이루어 진다고 합니다.
Bayesian network 또는 Bayesian belief network 는 변수를 표현하는 노드 (node) 와 변수들 간의 의존관계를 표현하는 호 (arc) 의 방향성 비순환 그래프 (directed acyclic graph) 이다. 노드 A 에서 노드 B 까지의 호가 있다면 A 는 B 의 parent 라고 부른다. 노드가 값이 주어져 있다면 evidence node 라고 부른다. 하나의 노드는 측정값, 인수, 숨겨진 (latent) 변수, 가설 등의 어떤 종류의 변수일 수도 있다. 노드는 임의의 변수를 표현하는데 제약이 없다 ; 이것이 Bayesian network 에 대해서 "Bayesian" 이라는 것이다 (Nodes are not restricted to representing random variables; this is what is "Bayesian" about a Bayesian network).
WEKAPredictiveBlogDataSetCreatorImpl 의 구현을 설명하는 파트 입니다.
회귀분석X,Y 라는 두 변수가 있을때, 상관분석을 통해서 Y~X 가 서로 상관관계가 있을을 알 수 있습니다.여기서 더 나아가 Y=aX+b 라는 방정식을 얻을 수 있으면,X라는 변수로 Y의 값을 예측할 수 있게 됩니다.이런 방정식을 회귀방적식이라고 하며, 이런 과정을 회귀 분석이라고 합니다.
WEKABlogClassifier 클래스를 상속받아 개발한다.연속형 속성을 가진 Instance를 생성해야 한다.