SlideShare a Scribd company logo
1 of 18
자연어처리 소개
얕게 읽고 깊게 이해하는
#개발경험공
유
자연어처리(NLP)는 사람들이 사용하는 언어(자연어)를 컴퓨터가 처리를 연구하는
분야이다.
- 관련 용어 : NLU(자연어이해), NLG(자연어 생성)
자연어처리 소개
자연어 처
리
인공지능
머신러닝
언어학
자연어처리 포지셔닝
자연어처리
심리학
언어학
인공지능
사회학
통계학 통계학
머신러닝
자연어처리의 기반 기술
종류 관련 기술 서비스 도전 기술 요소
분류 감정 분석, 언어 탐지 리뷰 분석 어휘 분석,
어휘 모호성 해결
추출 토픽 추출, 중요 구문 추출 검색 어휘 분석
요약 생성 요약 뉴스 요약 어휘 분석,
클러스터링 문서 군집화 문서 클러스터링 어휘 추출
자연어처리 응용 영역
1. 자연어는 무한하기에 어렵다.
예) 글자 수는 유한하지만 이들을 조합해 생성할 수 있는 단어, 문장 수가 무한
함
1. 모호한 중의성을 포함하고 있어 어렵다.
예) 여러 단어가 문장을 이루면서 중의성이 발생할 수 있음
자연어처리 처리가 어려운 이유
1. 규칙 기반 방식 : 초창기의 연구 방식이였으며, 형태소 분석등을 활용해 의미를
분석
2. 통계 기반 : 조건부 확률이라는 수학 개념을 기반으로, 어떤 단어 이후에 등장
할 단어를 예측하는 등의 처리하는 방식
3. 딥러닝 기반 : 데이터 입력 하여 가중치를 학습한 모델을 활용을 활용하는 방식
자연어처리 처리의 방식
1. 코퍼스 : 문장들을 모아둔 텍스트 자료, 한국어로 ‘말뭉치’라고도 함
2. 모델 : 딥러닝으로 학습한 모델이며, 자연어처리에서 분류(Classification)와 자
연어 생성(Generation)과 관련한 모델이 존재할 수 있음.
자연어처리 용어
1. 음절 : 말소리(발화)의 최소 단위, ‘강’, ‘가’와 같이 한글자에 해당
2. 형태소 : 의미를 가진 최소 단위, 의존 여부에 따라 자립형태소(명사/대명사/수
사)와 의존 형태소로 나뉜다. 예) mecab 등의 형태소 분석기가 존재함
3. 어절 : 띄어쓰기 단위이다.
4. 품사(POS) : 명사, 대명사, 형용사 등과 같은 문장성분이다.
언어학 용어
비정형 데이터 또는 특수문자 등이 포함되어 컴퓨터가 균일하게 처리하기 어려운
데이터를 컴퓨터가 처리할 수 있는 형태로 바꾸는 처리 작업이다.
정보추출과 전처리간의 차이
예) HTML 문서 파싱하여 body의 table의 title의 텍스트를 읽기(정보 추출)
예) 입력된 텍스트를 특수문자 제거, 대문자 변환 등을 수행하여 균일하게 만들기
(전처리)
텍스트 전처리
맞춤법 및 띄어쓰기 교정
자연어처리 응용 분야
http://speller.cs.pusan.ac.kr/results
‘구문 분석’은 문장의 구성요소들의 문법 구조를 분석하는 과정이다. 구구조 구문
문법과 의존 구문 분석이 있다. 구구조 구문 문법은 단어들이 모여 절을 이룬다는
관점에서 계층적인 분석에 해당하며, 의존 문법은 문장의 구성 단어들간의 의존 관
계 관점에서 분석을 함
구문 분석
https://www.geeksforgeeks.org/syntax-tree-natural-language-processing/
나는 한국에 갔다.
구구조 구문 문
법
의존 문법
서술어와 서술어의 수식을 받는 논항간의 의미 관계(role)를 인식하는 과정
의미 분석
지니(용언;AGENT)가 학교(GOAL;용언이 도착점)에 갔다
지니(용언;AGENT)가 축구공(INS;용언의 도구)을 찼다.
..
개체명 인식(NER)은 사람(PS:Person), 장소(LC:Location), 날짜(DT:Date), 사건
(EVENT)와 같은 의미를 식별하는 과정. F-score를 이용해 NER 성능을 평가할 수
있다.
개체명 인식
6·25 전쟁(EVENT)은 1950년 6월 25일 일요일 새벽 4시경(DATE) 북한군(PS:Person)이 암호명 '폭
풍 224'라는 치밀한 사전 계획 …
텍스트 말뭉치를 훈련하여 단어에 대한 확률 분포를 포함한 모델이다. 단순한 형태
로 N-Gram 모델이 있으며, 품사 태깅, 정보 검색, 기계번역, 자연어 생성 등의 응용
분야에 유용하게 활용할 수 있다. 모델 평가를 위해 PPL(perplexity) 값을 측정함.
언어 모델
언어 모
델
텍스트 인
풋
텍스트 아웃풋
(문장생성, 요약, 자동완성, 번역,
…)
숫자 표현 (응용)
기계 번역
자연어처리 응용 분야
일상 대화, 목적 지향 시스템(Task Oriented)를 지원 하는 시스템
대화 시스템
Dialog Manager
User Input
Dialog History
Domain
Expert
NLU NLI
NLG
Dialog State
Frame
딥러닝 모델
기계 학습 모델은 입력에 대해 의미있는 출력을 만드는 만드는 다량의 데이터로 부
터 학습된 신경망 모델이다.

More Related Content

What's hot

[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLPJoeun Park
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해Hee Won Park
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation찬희 이
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기Kwangsik Lee
 
Deep learning - A Visual Introduction
Deep learning - A Visual IntroductionDeep learning - A Visual Introduction
Deep learning - A Visual IntroductionLukas Masuch
 
Natural Language Processing (NLP)
Natural Language Processing (NLP)Natural Language Processing (NLP)
Natural Language Processing (NLP)Yuriy Guts
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
머신러닝 및 딥러닝 기초 (2020.01.07)
머신러닝 및 딥러닝 기초 (2020.01.07)머신러닝 및 딥러닝 기초 (2020.01.07)
머신러닝 및 딥러닝 기초 (2020.01.07)KYOYOON JUNG
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝Modulabs
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차Taekyung Han
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 
텐서플로 걸음마 (TensorFlow Tutorial)
텐서플로 걸음마 (TensorFlow Tutorial)텐서플로 걸음마 (TensorFlow Tutorial)
텐서플로 걸음마 (TensorFlow Tutorial)Taejun Kim
 
NLP Bootcamp 2018 : Representation Learning of text for NLP
NLP Bootcamp 2018 : Representation Learning of text for NLPNLP Bootcamp 2018 : Representation Learning of text for NLP
NLP Bootcamp 2018 : Representation Learning of text for NLPAnuj Gupta
 

What's hot (20)

[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기
 
Deep learning - A Visual Introduction
Deep learning - A Visual IntroductionDeep learning - A Visual Introduction
Deep learning - A Visual Introduction
 
Natural Language Processing (NLP)
Natural Language Processing (NLP)Natural Language Processing (NLP)
Natural Language Processing (NLP)
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
머신러닝 및 딥러닝 기초 (2020.01.07)
머신러닝 및 딥러닝 기초 (2020.01.07)머신러닝 및 딥러닝 기초 (2020.01.07)
머신러닝 및 딥러닝 기초 (2020.01.07)
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
KorQuAD v2.0 소개
KorQuAD v2.0 소개KorQuAD v2.0 소개
KorQuAD v2.0 소개
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
Word embedding
Word embedding Word embedding
Word embedding
 
텐서플로 걸음마 (TensorFlow Tutorial)
텐서플로 걸음마 (TensorFlow Tutorial)텐서플로 걸음마 (TensorFlow Tutorial)
텐서플로 걸음마 (TensorFlow Tutorial)
 
NLP Bootcamp 2018 : Representation Learning of text for NLP
NLP Bootcamp 2018 : Representation Learning of text for NLPNLP Bootcamp 2018 : Representation Learning of text for NLP
NLP Bootcamp 2018 : Representation Learning of text for NLP
 

Similar to 자연어처리 소개

Natural Language Processing.pptx
Natural Language Processing.pptxNatural Language Processing.pptx
Natural Language Processing.pptxYongHeeHan10
 
CoreDot TechSeminar 2018 - Session3 Doh Seungheon
CoreDot TechSeminar 2018 - Session3 Doh SeungheonCoreDot TechSeminar 2018 - Session3 Doh Seungheon
CoreDot TechSeminar 2018 - Session3 Doh SeungheonCore.Today
 
생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기흥래 김
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
 
1910 tfkr3 warnikchow
1910 tfkr3 warnikchow1910 tfkr3 warnikchow
1910 tfkr3 warnikchowWarNik Chow
 
[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2
[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2
[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2NUGU developers
 
한국어 자연어처리 101
한국어 자연어처리 101한국어 자연어처리 101
한국어 자연어처리 101Junyoung Park
 
Introduction to Natural Language Processing
Introduction to Natural Language ProcessingIntroduction to Natural Language Processing
Introduction to Natural Language ProcessingEunGi Hong
 
33기 정병길 "자연어 처리 (Nlp)"
33기 정병길 "자연어 처리 (Nlp)"33기 정병길 "자연어 처리 (Nlp)"
33기 정병길 "자연어 처리 (Nlp)"hyu_jaram
 
기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리Seonbae Kim
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Taekyung Han
 
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축Heewon Jeon
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거찬희 이
 
Nlp and perl - The old memory
Nlp and perl - The old memoryNlp and perl - The old memory
Nlp and perl - The old memoryJun Hong Kim
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기Han-seok Jo
 

Similar to 자연어처리 소개 (20)

Natural Language Processing.pptx
Natural Language Processing.pptxNatural Language Processing.pptx
Natural Language Processing.pptx
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
 
CoreDot TechSeminar 2018 - Session3 Doh Seungheon
CoreDot TechSeminar 2018 - Session3 Doh SeungheonCoreDot TechSeminar 2018 - Session3 Doh Seungheon
CoreDot TechSeminar 2018 - Session3 Doh Seungheon
 
생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
1910 tfkr3 warnikchow
1910 tfkr3 warnikchow1910 tfkr3 warnikchow
1910 tfkr3 warnikchow
 
자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
 
[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2
[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2
[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2
 
한국어 자연어처리 101
한국어 자연어처리 101한국어 자연어처리 101
한국어 자연어처리 101
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
 
Topic models
Topic modelsTopic models
Topic models
 
Introduction to Natural Language Processing
Introduction to Natural Language ProcessingIntroduction to Natural Language Processing
Introduction to Natural Language Processing
 
33기 정병길 "자연어 처리 (Nlp)"
33기 정병길 "자연어 처리 (Nlp)"33기 정병길 "자연어 처리 (Nlp)"
33기 정병길 "자연어 처리 (Nlp)"
 
기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한  질의어 오타 교정 시스템 구축
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
 
Nlp and perl - The old memory
Nlp and perl - The old memoryNlp and perl - The old memory
Nlp and perl - The old memory
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
 

More from Jin wook

클린 아키텍처 재해석
클린 아키텍처 재해석클린 아키텍처 재해석
클린 아키텍처 재해석Jin wook
 
Angular2를 위한 컴포넌트 분석과 개발
Angular2를 위한 컴포넌트 분석과 개발Angular2를 위한 컴포넌트 분석과 개발
Angular2를 위한 컴포넌트 분석과 개발Jin wook
 
Angular2를 위한 타입스크립트
Angular2를 위한 타입스크립트Angular2를 위한 타입스크립트
Angular2를 위한 타입스크립트Jin wook
 
Angular2를 활용한 컴포넌트 중심의 개발
Angular2를 활용한 컴포넌트 중심의 개발Angular2를 활용한 컴포넌트 중심의 개발
Angular2를 활용한 컴포넌트 중심의 개발Jin wook
 
MIPS CPU의 이해 (입문)
MIPS CPU의 이해 (입문)MIPS CPU의 이해 (입문)
MIPS CPU의 이해 (입문)Jin wook
 
Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략Jin wook
 
PHP를 위한 NginX(엔진엑스) 시작과 설정
PHP를 위한 NginX(엔진엑스) 시작과 설정PHP를 위한 NginX(엔진엑스) 시작과 설정
PHP를 위한 NginX(엔진엑스) 시작과 설정Jin wook
 
Mongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUDMongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUDJin wook
 
아파치 쓰리프트 (Apache Thrift)
아파치 쓰리프트 (Apache Thrift) 아파치 쓰리프트 (Apache Thrift)
아파치 쓰리프트 (Apache Thrift) Jin wook
 
Node.js의 도입과 활용
Node.js의 도입과 활용Node.js의 도입과 활용
Node.js의 도입과 활용Jin wook
 
파이썬(Python) 소개
파이썬(Python) 소개파이썬(Python) 소개
파이썬(Python) 소개Jin wook
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
AngularJS의 개발방식에 대하여
AngularJS의 개발방식에 대하여AngularJS의 개발방식에 대하여
AngularJS의 개발방식에 대하여Jin wook
 

More from Jin wook (13)

클린 아키텍처 재해석
클린 아키텍처 재해석클린 아키텍처 재해석
클린 아키텍처 재해석
 
Angular2를 위한 컴포넌트 분석과 개발
Angular2를 위한 컴포넌트 분석과 개발Angular2를 위한 컴포넌트 분석과 개발
Angular2를 위한 컴포넌트 분석과 개발
 
Angular2를 위한 타입스크립트
Angular2를 위한 타입스크립트Angular2를 위한 타입스크립트
Angular2를 위한 타입스크립트
 
Angular2를 활용한 컴포넌트 중심의 개발
Angular2를 활용한 컴포넌트 중심의 개발Angular2를 활용한 컴포넌트 중심의 개발
Angular2를 활용한 컴포넌트 중심의 개발
 
MIPS CPU의 이해 (입문)
MIPS CPU의 이해 (입문)MIPS CPU의 이해 (입문)
MIPS CPU의 이해 (입문)
 
Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략
 
PHP를 위한 NginX(엔진엑스) 시작과 설정
PHP를 위한 NginX(엔진엑스) 시작과 설정PHP를 위한 NginX(엔진엑스) 시작과 설정
PHP를 위한 NginX(엔진엑스) 시작과 설정
 
Mongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUDMongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUD
 
아파치 쓰리프트 (Apache Thrift)
아파치 쓰리프트 (Apache Thrift) 아파치 쓰리프트 (Apache Thrift)
아파치 쓰리프트 (Apache Thrift)
 
Node.js의 도입과 활용
Node.js의 도입과 활용Node.js의 도입과 활용
Node.js의 도입과 활용
 
파이썬(Python) 소개
파이썬(Python) 소개파이썬(Python) 소개
파이썬(Python) 소개
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
AngularJS의 개발방식에 대하여
AngularJS의 개발방식에 대하여AngularJS의 개발방식에 대하여
AngularJS의 개발방식에 대하여
 

자연어처리 소개

  • 1. 자연어처리 소개 얕게 읽고 깊게 이해하는 #개발경험공 유
  • 2. 자연어처리(NLP)는 사람들이 사용하는 언어(자연어)를 컴퓨터가 처리를 연구하는 분야이다. - 관련 용어 : NLU(자연어이해), NLG(자연어 생성) 자연어처리 소개
  • 5. 종류 관련 기술 서비스 도전 기술 요소 분류 감정 분석, 언어 탐지 리뷰 분석 어휘 분석, 어휘 모호성 해결 추출 토픽 추출, 중요 구문 추출 검색 어휘 분석 요약 생성 요약 뉴스 요약 어휘 분석, 클러스터링 문서 군집화 문서 클러스터링 어휘 추출 자연어처리 응용 영역
  • 6. 1. 자연어는 무한하기에 어렵다. 예) 글자 수는 유한하지만 이들을 조합해 생성할 수 있는 단어, 문장 수가 무한 함 1. 모호한 중의성을 포함하고 있어 어렵다. 예) 여러 단어가 문장을 이루면서 중의성이 발생할 수 있음 자연어처리 처리가 어려운 이유
  • 7. 1. 규칙 기반 방식 : 초창기의 연구 방식이였으며, 형태소 분석등을 활용해 의미를 분석 2. 통계 기반 : 조건부 확률이라는 수학 개념을 기반으로, 어떤 단어 이후에 등장 할 단어를 예측하는 등의 처리하는 방식 3. 딥러닝 기반 : 데이터 입력 하여 가중치를 학습한 모델을 활용을 활용하는 방식 자연어처리 처리의 방식
  • 8. 1. 코퍼스 : 문장들을 모아둔 텍스트 자료, 한국어로 ‘말뭉치’라고도 함 2. 모델 : 딥러닝으로 학습한 모델이며, 자연어처리에서 분류(Classification)와 자 연어 생성(Generation)과 관련한 모델이 존재할 수 있음. 자연어처리 용어
  • 9. 1. 음절 : 말소리(발화)의 최소 단위, ‘강’, ‘가’와 같이 한글자에 해당 2. 형태소 : 의미를 가진 최소 단위, 의존 여부에 따라 자립형태소(명사/대명사/수 사)와 의존 형태소로 나뉜다. 예) mecab 등의 형태소 분석기가 존재함 3. 어절 : 띄어쓰기 단위이다. 4. 품사(POS) : 명사, 대명사, 형용사 등과 같은 문장성분이다. 언어학 용어
  • 10. 비정형 데이터 또는 특수문자 등이 포함되어 컴퓨터가 균일하게 처리하기 어려운 데이터를 컴퓨터가 처리할 수 있는 형태로 바꾸는 처리 작업이다. 정보추출과 전처리간의 차이 예) HTML 문서 파싱하여 body의 table의 title의 텍스트를 읽기(정보 추출) 예) 입력된 텍스트를 특수문자 제거, 대문자 변환 등을 수행하여 균일하게 만들기 (전처리) 텍스트 전처리
  • 11. 맞춤법 및 띄어쓰기 교정 자연어처리 응용 분야 http://speller.cs.pusan.ac.kr/results
  • 12. ‘구문 분석’은 문장의 구성요소들의 문법 구조를 분석하는 과정이다. 구구조 구문 문법과 의존 구문 분석이 있다. 구구조 구문 문법은 단어들이 모여 절을 이룬다는 관점에서 계층적인 분석에 해당하며, 의존 문법은 문장의 구성 단어들간의 의존 관 계 관점에서 분석을 함 구문 분석 https://www.geeksforgeeks.org/syntax-tree-natural-language-processing/ 나는 한국에 갔다. 구구조 구문 문 법 의존 문법
  • 13. 서술어와 서술어의 수식을 받는 논항간의 의미 관계(role)를 인식하는 과정 의미 분석 지니(용언;AGENT)가 학교(GOAL;용언이 도착점)에 갔다 지니(용언;AGENT)가 축구공(INS;용언의 도구)을 찼다. ..
  • 14. 개체명 인식(NER)은 사람(PS:Person), 장소(LC:Location), 날짜(DT:Date), 사건 (EVENT)와 같은 의미를 식별하는 과정. F-score를 이용해 NER 성능을 평가할 수 있다. 개체명 인식 6·25 전쟁(EVENT)은 1950년 6월 25일 일요일 새벽 4시경(DATE) 북한군(PS:Person)이 암호명 '폭 풍 224'라는 치밀한 사전 계획 …
  • 15. 텍스트 말뭉치를 훈련하여 단어에 대한 확률 분포를 포함한 모델이다. 단순한 형태 로 N-Gram 모델이 있으며, 품사 태깅, 정보 검색, 기계번역, 자연어 생성 등의 응용 분야에 유용하게 활용할 수 있다. 모델 평가를 위해 PPL(perplexity) 값을 측정함. 언어 모델 언어 모 델 텍스트 인 풋 텍스트 아웃풋 (문장생성, 요약, 자동완성, 번역, …) 숫자 표현 (응용)
  • 17. 일상 대화, 목적 지향 시스템(Task Oriented)를 지원 하는 시스템 대화 시스템 Dialog Manager User Input Dialog History Domain Expert NLU NLI NLG Dialog State Frame
  • 18. 딥러닝 모델 기계 학습 모델은 입력에 대해 의미있는 출력을 만드는 만드는 다량의 데이터로 부 터 학습된 신경망 모델이다.