SlideShare a Scribd company logo
1 of 30
Download to read offline
소셜네트워크 2조
김하람, 박채은, 위효원, 이의동
주제 선정
sns 상에 달린 댓글이
악플인지 아닌지를 “분류”하는 모델 만들기
?
주제 선정 배경
대학교 익명 커뮤니티
에브리타임
악플로 인한 피해 심각
주제 선정 배경
대학교 익명 커뮤니티
에브리타임
악플로 인한 피해 심각
사용한 데이터 소개
&
hate offensive none
‘1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데’
사용한 데이터 소개
&
기사 제목: """반드시 살려낸다"" '골목식당' 백종원, 약속 지켰다‥성내동 大성공[어저께TV] "
‘그입 닥쳐라 ..지금까지 골목시장에 늘어놓은 짜장면집 빽다방등...철수나 하셔....돈 많으넘이 돈 욕심낸다고’
‘지금이야 방송빨 타니깐 잘되지 몇년 지나봐야 안다’
‘옆동네는 눈물흘립니다’
hate
offensive
none
사용한 데이터 소개
data set
train set
dev set
모델을 train 하는데 이용
성능 평가에 이용
hate offensive none
1 0
공격적인 댓글도 악플로 분류
데이터셋 처리
선정한 악플 분류 모델: SVM / BERT
SVM
1. 딥러닝 모델인 Bert와 비교해보고자 선택
2. SVM은 분류 목적으로 사용하는 모델
3. 신경망보다 사용하기 쉬움.
4. 딥러닝 이전에 많이 사용되었던 모델임.
BERT(KOBERT)
1. 머신러닝 모델인 SVM과의 비교를 위해 선택
2. Google이 개발한 최신모델로 자연어처리 모델 중 가장 성능이 좋다고 알려짐.
3. 양방향성을 포함하여 문맥을 고려할 수 있음.
머신러닝 모델
SVM이란
Support Vector Machine
- 결정 경계(분류를 위한 기준 선)을 정의하는 모델
- 즉, 최적의 결정 경계를 찾는 것
-> 마진을 최대화하는 초평면을 찾기
Support Vectors: 결정 경계와 가까이 있는 데이터 포인터들
Margin: 결정 경계와 서포트 벡터 사이의 거리
Sklearn SVM 파라미터
C
Controls trade-off between smooth decision- boundary and classifying training points correctly
C값이 작을수록 오류를 더 많이 허용 -> 일반적인 결정 경계
C값이 클수록 오류를 덜 허용 -> 세심한 결정 경계
Sklearn SVM 파라미터
decision boundary의 모양을 선형으로 할지 다항식형으로 할지 결정
Kernel
-> parameter로 linear, polynomial, sigmoid, rbf 등의 kernel을 선택
Sklearn SVM 파라미터
Defines how far the influence of a single training point reaches
Gamma
Decision boundary의 굴곡에 영향을 주는 데이터의 범위
Gamma가 작으면 reach가 멀다 -> 경계와 가까운 포인트의 영향이 상대적으로 적다
-> 경계가 직선에 가깝다
Gamma가 크면 reach가 가깝다 -> 경계와 가까운 포인트의 영향이 상대적으로 크다
-> 경계가 굴곡진다
SVM 모델
TF, Word2vec, doc2vec보다 더 좋은 성능을 보임.
1. Comments 텍스트 전처리: mecab 사용해서 comments를 토큰화
정제(한글, 띄어쓰기만 남기기/ 불용어 제거), 품사 태깅, 중요 품사만 남기기
2. Comments 임베딩: TFIDF 방식을 활용
예) “10년만에 재미를 느끼는 프로였는데왜 니들때문에 폐지를해야되냐”
=> ['재미', '느끼', '프로', '왜', '폐지', '되']
SVM 모델
3. Gridsearch로 hyperparameter 선정: C, kernel 등
C = 1, gamma = 1, kernel = ‘rbf’ 선정됨.
4. Best hyperparameter로 SVM 모델 적합
5. 성능 확인: dev set을 undersampling해서 accuracy와 f1 score 구함.
Accuracy: 0.756
F1 score: 0.762
Confusion matrix
예측
실제
악플X 악플
악플X 117 43
악플 35 125
딥러닝 모델
BERT by Devlin et al. 2018.
Pre-trained language model
- 문맥을 반영한 워드 임베딩
- Fine-tuning based model
Pre-trained된 parameter들이
downstream task 학습을 통해 fine-tuning됨
BERT by Devlin et al. 2018.
- Transformer(Vaswani et al. 2017)의
encoder 구조 사용
- Self-attention을 활용한 효율적인 학습
- Masked LM, Next sentence prediction
방법론을 사용
“Deep bidirectional”
Masked LM: 문장 내 Masked된 토큰을 예측
Next sentence prediction: 두 문장이 이어지는 문장인지 아닌지 판별
BERT Tokenize
Sentence -> Tokenize to tokens for BERT
BERT Tokenize
“Special tokens in BERT”
- Use [MASK] Token for Masked Language Model
- Use [SEP] Token for Next Sentence Prediction
Bert detail
## Loss function:
CrossEntropyloss
## 훈련 parameter 설정
batch_size = 64
dr_rate = 0.3
learning_rate = 5e-5
BERT result
Test(Dev) acc
Train loss
최종 acc: 0.9979 최종 acc: 0.8811
최종 epoch: 40
에브리타임 게시판별 악플 비율 비교
데이터 소개
연세대학교 신촌캠 에브리타임 어플에 올라온 게시글 크롤링
데이터 소개
시간: 2021-03-17 기준 최근 100페이지의 데이터
게시판 종류:
- 자유게시판
- 새내기게시판
- 비밀게시판
- 시사, 이슈 게시판
- 정보게시판
SVM 모델 결과
게시판 종류 Hate(hate&offensive) None
비밀 게시판 0.6677 0.3323
시사이슈 게시판 0.6064 0.3936
새내기 게시판 0.6063 0.3937
자유게시판 0.5619 0.4381
정보게시판 0.4051 0.5949
Bert 모델 결과
- ex) 시사, 이슈 게시판
Hate(hate & offensive) None
"설탕세 뭐누??? 이제 더이상 세금
걷을 데가 없어서 설탕세를 걷누? 장
난하나",
“ㅇㅇㅇ 딸 홍대미대 입시청탁 의혹
뜨길래 조국처럼 터지나 하고 지켜봤
는데 지원도 안했네ㅋㅋㅋㅋㅋㅋㅋ
ㅋㅋㅋㅋ 에라이~",
"혹시 업적, 잘한 일 궁금해서 알아
보는 사람 있어? 어떤 사람들을 찾아
봐?” "그만큼 지지하신다는 거지",
"3자구조 ㅇㅇㅇ 1등이라고..? ㅋㅋ
ㄱ 객관성 있는 자료인가",
Bert 모델 결과
게시판 종류 Hate(hate&offensive) None
비밀 게시판 0.4341 0.5658
시사이슈 게시판 0.3381 0.6618
새내기 게시판 0.3084 0.6915
자유게시판 0.2236 0.7763
정보게시판 0.1172 0.8227
최종 결론
1. 공통점: 순위
에타 게시글이라는 new data에 대해
같은 순위를 매긴 것으로 보아
두 모델이 악플 분류를 잘 수행하고 있음을
알 수 있음.
2. 차이점: 비율
버츠가 SVM에 비해 악플을 더 보수적으로
판단했다. 절대적인 숫자 자체가 작다.
게시판 종류/
악플 비율
SVM BERT
비밀게시판 0.6677 0.4341
시사이슈
게시판
0.6064 0.3381
새내기
게시판
0.6063 0.3084
자유게시판 0.5619 0.2236
정보게시판 0.4051 0.1172
최종 결론
3. 모델의 accuracy에서 SVM이 0.76,
버츠가 0.88 정도로 버츠가 조금 더 좋은 성능을 보였다.
0.88 0.76

More Related Content

What's hot

[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기
[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기
[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기Haesol Youn
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
비즈니스모델강의자료
비즈니스모델강의자료비즈니스모델강의자료
비즈니스모델강의자료WASIS
 
PT_Brand name_(마카롱)_1809_sharing.pdf
PT_Brand name_(마카롱)_1809_sharing.pdfPT_Brand name_(마카롱)_1809_sharing.pdf
PT_Brand name_(마카롱)_1809_sharing.pdfNamhee Choi
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들Chris Ohk
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
 
인프런 - 스타트업 인프랩 시작 사례
인프런 - 스타트업 인프랩 시작 사례인프런 - 스타트업 인프랩 시작 사례
인프런 - 스타트업 인프랩 시작 사례Hyung Lee
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초keunbong kwak
 
[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기
[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기
[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기MinGeun Park
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
 
송창규, unity build로 빌드타임 반토막내기, NDC2010
송창규, unity build로 빌드타임 반토막내기, NDC2010송창규, unity build로 빌드타임 반토막내기, NDC2010
송창규, unity build로 빌드타임 반토막내기, NDC2010devCAT Studio, NEXON
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdfArtcoon
 
자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012
자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012
자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012Esun Kim
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정Seongyun Byeon
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축BOAZ Bigdata
 

What's hot (20)

[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기
[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기
[패스트캠퍼스]맛집 리뷰로 속성별 감성 분석하기
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
비즈니스모델강의자료
비즈니스모델강의자료비즈니스모델강의자료
비즈니스모델강의자료
 
PT_Brand name_(마카롱)_1809_sharing.pdf
PT_Brand name_(마카롱)_1809_sharing.pdfPT_Brand name_(마카롱)_1809_sharing.pdf
PT_Brand name_(마카롱)_1809_sharing.pdf
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
 
인프런 - 스타트업 인프랩 시작 사례
인프런 - 스타트업 인프랩 시작 사례인프런 - 스타트업 인프랩 시작 사례
인프런 - 스타트업 인프랩 시작 사례
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초
 
[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기
[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기
[150124 박민근] 모바일 게임 개발에서 루아 스크립트 활용하기
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
 
송창규, unity build로 빌드타임 반토막내기, NDC2010
송창규, unity build로 빌드타임 반토막내기, NDC2010송창규, unity build로 빌드타임 반토막내기, NDC2010
송창규, unity build로 빌드타임 반토막내기, NDC2010
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
 
자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012
자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012
자동화된 소스 분석, 처리, 검증을 통한 소스의 불필요한 #if - #endif 제거하기 NDC2012
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
 

Similar to 악플분류 모델링 프로젝트

댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)Jeffrey Kim
 
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017Donghwa Kim
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.BOAZ Bigdata
 
Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)NAVER Engineering
 
VC dimension for graduate course in Sogang university
VC dimension for graduate course in Sogang universityVC dimension for graduate course in Sogang university
VC dimension for graduate course in Sogang universityHoSung Park
 
소프트웨어 2.0을 활용한 게임 어뷰징 검출
소프트웨어 2.0을 활용한 게임 어뷰징 검출소프트웨어 2.0을 활용한 게임 어뷰징 검출
소프트웨어 2.0을 활용한 게임 어뷰징 검출정주 김
 
임태현, 서버점검 제로에의 도전, NDC2011
임태현, 서버점검 제로에의 도전, NDC2011임태현, 서버점검 제로에의 도전, NDC2011
임태현, 서버점검 제로에의 도전, NDC2011devCAT Studio, NEXON
 
메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템
메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템 메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템
메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템 ByungTak Kang
 
임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012devCAT Studio, NEXON
 
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Platform
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usageTae Young Lee
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinDataya Nolja
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Taejun Kim
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작DACON AI 데이콘
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
 

Similar to 악플분류 모델링 프로젝트 (20)

댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
머신러닝으로 쏟아지는 유저 CS 답변하기 DEVIEW 2017
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스포 적발 강력 1팀] : 네 리뷰가 스포라는 것을 스포한다.
 
Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)
 
VC dimension for graduate course in Sogang university
VC dimension for graduate course in Sogang universityVC dimension for graduate course in Sogang university
VC dimension for graduate course in Sogang university
 
소프트웨어 2.0을 활용한 게임 어뷰징 검출
소프트웨어 2.0을 활용한 게임 어뷰징 검출소프트웨어 2.0을 활용한 게임 어뷰징 검출
소프트웨어 2.0을 활용한 게임 어뷰징 검출
 
임태현, 서버점검 제로에의 도전, NDC2011
임태현, 서버점검 제로에의 도전, NDC2011임태현, 서버점검 제로에의 도전, NDC2011
임태현, 서버점검 제로에의 도전, NDC2011
 
메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템
메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템 메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템
메이플스토리 사례를 통해 살펴보는 서버사이드 봇/핵 탐지 시스템
 
임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012
 
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 
Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explained
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
 

More from DataScienceLab

21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전DataScienceLab
 
2021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP162021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP16DataScienceLab
 
21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조DataScienceLab
 
21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조DataScienceLab
 
21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조DataScienceLab
 
21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조DataScienceLab
 
21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀DataScienceLab
 
폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트DataScienceLab
 
2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트DataScienceLab
 
음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링DataScienceLab
 
영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석DataScienceLab
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석DataScienceLab
 
건강식품리뷰데이터분석
건강식품리뷰데이터분석건강식품리뷰데이터분석
건강식품리뷰데이터분석DataScienceLab
 
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석DataScienceLab
 
Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석 Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석 DataScienceLab
 
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언 에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언 DataScienceLab
 
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가DataScienceLab
 
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안DataScienceLab
 
Reinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine SweeperReinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine SweeperDataScienceLab
 

More from DataScienceLab (20)

21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전
 
2021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP162021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP16
 
21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조
 
21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조
 
21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조
 
21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조
 
21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀
 
폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트
 
2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트
 
음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링
 
영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석
 
광고 CTR 예측
광고 CTR 예측광고 CTR 예측
광고 CTR 예측
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석
 
건강식품리뷰데이터분석
건강식품리뷰데이터분석건강식품리뷰데이터분석
건강식품리뷰데이터분석
 
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
 
Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석 Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석
 
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언 에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
 
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
 
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
 
Reinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine SweeperReinforcement Learning on Mine Sweeper
Reinforcement Learning on Mine Sweeper
 

악플분류 모델링 프로젝트

  • 2. 주제 선정 sns 상에 달린 댓글이 악플인지 아닌지를 “분류”하는 모델 만들기 ?
  • 3. 주제 선정 배경 대학교 익명 커뮤니티 에브리타임 악플로 인한 피해 심각
  • 4. 주제 선정 배경 대학교 익명 커뮤니티 에브리타임 악플로 인한 피해 심각
  • 5. 사용한 데이터 소개 & hate offensive none ‘1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데’
  • 6. 사용한 데이터 소개 & 기사 제목: """반드시 살려낸다"" '골목식당' 백종원, 약속 지켰다‥성내동 大성공[어저께TV] " ‘그입 닥쳐라 ..지금까지 골목시장에 늘어놓은 짜장면집 빽다방등...철수나 하셔....돈 많으넘이 돈 욕심낸다고’ ‘지금이야 방송빨 타니깐 잘되지 몇년 지나봐야 안다’ ‘옆동네는 눈물흘립니다’ hate offensive none
  • 7. 사용한 데이터 소개 data set train set dev set 모델을 train 하는데 이용 성능 평가에 이용 hate offensive none 1 0 공격적인 댓글도 악플로 분류 데이터셋 처리
  • 8. 선정한 악플 분류 모델: SVM / BERT SVM 1. 딥러닝 모델인 Bert와 비교해보고자 선택 2. SVM은 분류 목적으로 사용하는 모델 3. 신경망보다 사용하기 쉬움. 4. 딥러닝 이전에 많이 사용되었던 모델임. BERT(KOBERT) 1. 머신러닝 모델인 SVM과의 비교를 위해 선택 2. Google이 개발한 최신모델로 자연어처리 모델 중 가장 성능이 좋다고 알려짐. 3. 양방향성을 포함하여 문맥을 고려할 수 있음.
  • 10. SVM이란 Support Vector Machine - 결정 경계(분류를 위한 기준 선)을 정의하는 모델 - 즉, 최적의 결정 경계를 찾는 것 -> 마진을 최대화하는 초평면을 찾기 Support Vectors: 결정 경계와 가까이 있는 데이터 포인터들 Margin: 결정 경계와 서포트 벡터 사이의 거리
  • 11. Sklearn SVM 파라미터 C Controls trade-off between smooth decision- boundary and classifying training points correctly C값이 작을수록 오류를 더 많이 허용 -> 일반적인 결정 경계 C값이 클수록 오류를 덜 허용 -> 세심한 결정 경계
  • 12. Sklearn SVM 파라미터 decision boundary의 모양을 선형으로 할지 다항식형으로 할지 결정 Kernel -> parameter로 linear, polynomial, sigmoid, rbf 등의 kernel을 선택
  • 13. Sklearn SVM 파라미터 Defines how far the influence of a single training point reaches Gamma Decision boundary의 굴곡에 영향을 주는 데이터의 범위 Gamma가 작으면 reach가 멀다 -> 경계와 가까운 포인트의 영향이 상대적으로 적다 -> 경계가 직선에 가깝다 Gamma가 크면 reach가 가깝다 -> 경계와 가까운 포인트의 영향이 상대적으로 크다 -> 경계가 굴곡진다
  • 14. SVM 모델 TF, Word2vec, doc2vec보다 더 좋은 성능을 보임. 1. Comments 텍스트 전처리: mecab 사용해서 comments를 토큰화 정제(한글, 띄어쓰기만 남기기/ 불용어 제거), 품사 태깅, 중요 품사만 남기기 2. Comments 임베딩: TFIDF 방식을 활용 예) “10년만에 재미를 느끼는 프로였는데왜 니들때문에 폐지를해야되냐” => ['재미', '느끼', '프로', '왜', '폐지', '되']
  • 15. SVM 모델 3. Gridsearch로 hyperparameter 선정: C, kernel 등 C = 1, gamma = 1, kernel = ‘rbf’ 선정됨. 4. Best hyperparameter로 SVM 모델 적합 5. 성능 확인: dev set을 undersampling해서 accuracy와 f1 score 구함. Accuracy: 0.756 F1 score: 0.762 Confusion matrix 예측 실제 악플X 악플 악플X 117 43 악플 35 125
  • 17. BERT by Devlin et al. 2018. Pre-trained language model - 문맥을 반영한 워드 임베딩 - Fine-tuning based model Pre-trained된 parameter들이 downstream task 학습을 통해 fine-tuning됨
  • 18. BERT by Devlin et al. 2018. - Transformer(Vaswani et al. 2017)의 encoder 구조 사용 - Self-attention을 활용한 효율적인 학습 - Masked LM, Next sentence prediction 방법론을 사용 “Deep bidirectional” Masked LM: 문장 내 Masked된 토큰을 예측 Next sentence prediction: 두 문장이 이어지는 문장인지 아닌지 판별
  • 19. BERT Tokenize Sentence -> Tokenize to tokens for BERT
  • 20. BERT Tokenize “Special tokens in BERT” - Use [MASK] Token for Masked Language Model - Use [SEP] Token for Next Sentence Prediction
  • 21. Bert detail ## Loss function: CrossEntropyloss ## 훈련 parameter 설정 batch_size = 64 dr_rate = 0.3 learning_rate = 5e-5
  • 22. BERT result Test(Dev) acc Train loss 최종 acc: 0.9979 최종 acc: 0.8811 최종 epoch: 40
  • 24. 데이터 소개 연세대학교 신촌캠 에브리타임 어플에 올라온 게시글 크롤링
  • 25. 데이터 소개 시간: 2021-03-17 기준 최근 100페이지의 데이터 게시판 종류: - 자유게시판 - 새내기게시판 - 비밀게시판 - 시사, 이슈 게시판 - 정보게시판
  • 26. SVM 모델 결과 게시판 종류 Hate(hate&offensive) None 비밀 게시판 0.6677 0.3323 시사이슈 게시판 0.6064 0.3936 새내기 게시판 0.6063 0.3937 자유게시판 0.5619 0.4381 정보게시판 0.4051 0.5949
  • 27. Bert 모델 결과 - ex) 시사, 이슈 게시판 Hate(hate & offensive) None "설탕세 뭐누??? 이제 더이상 세금 걷을 데가 없어서 설탕세를 걷누? 장 난하나", “ㅇㅇㅇ 딸 홍대미대 입시청탁 의혹 뜨길래 조국처럼 터지나 하고 지켜봤 는데 지원도 안했네ㅋㅋㅋㅋㅋㅋㅋ ㅋㅋㅋㅋ 에라이~", "혹시 업적, 잘한 일 궁금해서 알아 보는 사람 있어? 어떤 사람들을 찾아 봐?” "그만큼 지지하신다는 거지", "3자구조 ㅇㅇㅇ 1등이라고..? ㅋㅋ ㄱ 객관성 있는 자료인가",
  • 28. Bert 모델 결과 게시판 종류 Hate(hate&offensive) None 비밀 게시판 0.4341 0.5658 시사이슈 게시판 0.3381 0.6618 새내기 게시판 0.3084 0.6915 자유게시판 0.2236 0.7763 정보게시판 0.1172 0.8227
  • 29. 최종 결론 1. 공통점: 순위 에타 게시글이라는 new data에 대해 같은 순위를 매긴 것으로 보아 두 모델이 악플 분류를 잘 수행하고 있음을 알 수 있음. 2. 차이점: 비율 버츠가 SVM에 비해 악플을 더 보수적으로 판단했다. 절대적인 숫자 자체가 작다. 게시판 종류/ 악플 비율 SVM BERT 비밀게시판 0.6677 0.4341 시사이슈 게시판 0.6064 0.3381 새내기 게시판 0.6063 0.3084 자유게시판 0.5619 0.2236 정보게시판 0.4051 0.1172
  • 30. 최종 결론 3. 모델의 accuracy에서 SVM이 0.76, 버츠가 0.88 정도로 버츠가 조금 더 좋은 성능을 보였다. 0.88 0.76