4. 해결방
안
문제점 제기
2018년 ~ 2020년 사이의 멜론 곡 리뷰에서 “사재기" 관련
언급 빈도수를 분석한 결과, 2019년 여름을 기점으로 음원 사
재기에 관한 사람들의 관심이 폭발적으로 증가
5. 해결방
안
문제점 제기
2018년 ~ 2020년 사이의 멜론 곡 리뷰에서 “사재기"
관련 언급 빈도수를 분석한 결과, 2019년 여름을 기점
으로 음원 사재기에 관한 사람들의 관심이 폭발적으로
증가
“음원 사재기” :
브로커에게 일정 금액의 돈을 지불한 뒤, 특정 가수의 특
정 음원을 연속 재생하여 음악 순위 목록 및 실시간 스트
리밍 순위 등을 조작하는 행위
*통합비례제: 스트리밍 플랫폼에서 발생한 전체 수익 중 플랫폼 사업자가 3-40%를 가져가고
나머지를 전체 음원 스트리밍에서 개별 음원이 차지하는 비중만큼 분배하는 방식
6. 해결방
안
문제점 제기
2018년 ~ 2020년 사이의 멜론 곡 리뷰에서 “사재기" 관련
언급 빈도수를 분석한 결과, 2019년 여름을 기점으로 음원 사
재기에 관한 사람들의 관심이 폭발적으로 증가
1. 스트리밍 서비스 사용자의 이용료가
자신이 주로 음원을 듣는 아티스트에게
돌아가지 않음
2. 해당 아티스트가 전체 음원 스트리
밍에서 높은 비중을 차지하지 않는다면
실제 스트리밍 서비스 사용자의 서비스
이용료는 대부분이 차트 순위가 높은
아티스트에게 할당
7. ㅌ
해결방
안
아이디어 제시
곡 리뷰
데이터
음원 사이트 댓글/리뷰들을 통해 해당 음원의 사재기 여부를 파악할 수 있지 않을까?
사재기 곡 ?
20년 3월 통계 기준 국내 스트리밍 음원
시장 점유율이 높은 멜론을 선택
8. 주제 선정
문제점 제기
해결 방안 제시
데이터 수집 및
전처리
모델 설명 및 성
능비교
BERT
KOBERT
결과
사재기 판별해보기
9. 1. 멜론 차트 리뷰 크롤링
사재기 의혹 없는 가수: 악동뮤지션, 아이유, 장범준, 블랙핑
크
사재기 의심 가수: 임재현, 전상근, 송하예, 장덕철, 황인욱
- 곡별 추천 순 리뷰 2000개
- 곡 제목, 가수, 평점, 리뷰, 리뷰 작성 시기
데이터 수집
2. 리뷰 라벨링
사재기 의심 리뷰: 1
사재기 의심 X, 언급 없는 리뷰: 0
도배성, 스팸성 리뷰: 2
10. 데이터 전처리
“사재기 재현이 순위 내려가서 눈물이 주룩주룩”
“ ㅅㅈㄱ 재현이 순위 내려가서 재생 다운로드 곡명 눈
물이 주룩주룩 아티스트명 솔라 (마마무) 솔라 (마마무)
앨범명 솔라감성 Part.6 “
초성 치환
타 가수 앨
범 정보 삭
제
이모티콘
삭제
스팸성/
도배성 리
뷰 제거
리뷰 길이
제한 (128
자)
“악동뮤지션이 2년만에 돌아왔습니다! 예전과는 다른, 성숙함이 돋보이
는 새 앨범 항해, 오래오래 사랑해주세요 :) ❤답글순 정화❤"악뮤 항해
대박나자" 달아주세요!악뮤 항해 대박나자!!!! “
“악동뮤지션이 2년만에 돌아왔습니다! 예전과는
다른, 성숙함이 돋보이는, 새 앨범 항해, 오래오래
사랑해주세요 답글순 정화”
11. 주제 선정
문제점 제기
해결 방안 제시
데이터 수집 및
전처리
모델 설명 및 성능
비교
BERT
KOBERT
결과
사재기 판별해보기
12. BERT
BERT란?: 양방향 문장 정보를 활용하는 언어 이해 모델
방대한 양의 Corpus로 사전학습 후에, layer를 추가하여 원하는 과업 수행이 가능
=> Masked language model, Next sentence prediction
SOTA models for a wide range of NLP tasks(QA, NER, Sentiment Analysis, etc.
13. Transformer architecture를 중점적으로 사용한 구조를 가
짐
Transformer란?:
일정 개수의 인코더와 디코더만으로 이루어진 언어 이해에 특화된 신경
망 구조
모델 설명 - BERT
(Multilingual)
14. 모델 설명 - BERT
(Multilingual)
입력 시퀀스 데이터를 병렬 처리하여 계산 복잡도와 연산 시간을
줄일 수 있음
트랜스포머 구조의 인코더만으로 모델을 구성
Transformer architecture를 중점적으로 사용한 구조를 가
짐
Transformer란?:
일정 개수의 인코더와 디코더만으로 이루어진 언어 이해에 특화된 신경
망 구조
15. 개선된 문맥 파악 성능
문맥을 고려하지 못하는 기존의 많은
단방향 NLP 모델들의 문제점을 개선
ex. 동음이의어의 처리
간접적 비난까지도 구분
악성댓글의 특성상 간접적인 비
난까지도 구분이 가능해야함
적은 양의 데이터로도 좋은 성능
문장마다 직접 클래스 라벨을 붙이는
작업이 필요, 적은 양의 데이터로도 좋
은 성능을 낼 수 있는 모델을 선정
BERT 선택 이유
사과 (Apple) vs
사과 (Apology)
타다 (burn) vs 타다 (ride)
눈 (snow) vs 눈 (eyes)
9 songs
X
2000 Reviews
16. 한국어의 불규칙한 언어 변화 특
성을 반영하기 위해 데이터 기반
토큰화 기법 적용
뉴스, 위키피디아의 수백만 개의
한국어 문장으로 이루어진
대용량 코퍼스(corpus)로 학습
KoBERT (Korean BERT)란?
BERT
KoBERT
KoBERT
: 기존 BERT의 한국어 성능 한계를 극복하기 위해 개발된 모델
17. TASK : ‘멜론’ 음원사이트의 사재기 의심 댓글 분류하기
12개의 레이어와 셀프 어텐션 헤드를 갖는 Bert-base-multilingual-
cased, KoBERT 모델 사용
INPUT : 토큰 임베딩 + 문장 임베딩 + 포지션 임베딩
모델링 진행
18. BERT(Multilingual) KoBERT CONTENTS
raw data 0.83 0.84 -
전처리 이후 0.84 0.86
첨부된 노래 삭제
초성 치환
중복되는 자음 처리
시기별 구분 0.86 0.88
2019년 11월 24일
박경 사재기 폭로 이전
하이퍼파라미터 튜닝 0.84 0.88 learning rate 조정
결론 ACC: 0.83 → 0.86 ACC: 0.84 → 0.88 Multilingual < KoBERT
모델링 결과 - 성능
BERT(Multilingual) vs KoBERT
19. 주제 선정
문제점 제기
해결 방안 제시
데이터 수집 및
전처리
모델 설명 및 성
능비교
BERT
KOBERT
결과
사재기 판별해보기
20. 멜론 2019년 연간차트 1~20위 곡에 대한 사재기 판별 진행
- 곡 당 100개의 추천 순 리뷰 크롤링 후, 모델 학습 후 나
오는 결과에 따라 사재기 판별
- 레이블이 1인 리뷰의 수가 50개 이상이면 사재기 의심
결과 - 2019년 연간 차트
사재기 의혹 곡:
- 임재현: 사랑에 연습이 있었다면
- 송하예: 니 소식
- 우디: 이 노래가 클럽에서 나온다면
- 황인욱: 포장마차
21. 결과 - 2019년 연간 차트
사재기 판별 Multilingual KoBERT 사재기 판별 Multilingual KoBERT
사랑에 연습이 있었다면 (임재현) 0.26 0.75 벌써 12시 (청하) 0.73 0.43
그때가 좋았어 (케이시) 0.33 0.44 술이 문제야 (장혜진, 윤민수) 0.35 0.53
작은것들을 위한 시 (BTS) 0.70 0.21 옥탑방 (엔플라잉) 0.54 0.57
넘쳐흘러 (엠씨더맥스) 0.39 0.34 달라달라 (ITZY) 0.20 0.13
모든날 모든 순간 (폴킴) 0.25 0.39 노래방에서 (장범준) 0.13 0.08
너를 만나 (폴킴) 0,22 0.18
이 노래가 클럽에서 나온다면 (
우디)
0.83 0.74
사계 (태연) 0.36 0.22 포장마차 (황인욱) 0.59 0.62
주저하는 연인들을 위해 (잔나비) 0.22 0.13 나만, 봄 (볼빨간 사춘기) 0.40 0.25
니 소식 (송하예) 0.64 0.76 사계 (엠씨더맥스) 0.42 0.37
오늘도 빛나는 너에게 (마크툽) 0.12 0.11 안녕 (폴킴) 0.26 0.32
22. 결과 - 2019년 연간 차트
BERT(Multilingual) vs KoBERT
KoBERT 기준 사재기 의심 곡
- 1위 임재현, <사랑에 연습이 있었다면>
- 9위 송하예, <니 소식>
- 16위 우디, <이 노래가 클럽에서 나온다면>
- 17위 황인욱, <포장마차>
- 12위 장혜진 윤민수, <술이 문제야>
- 13위 엔플라잉, <옥탑방>
+
23. 결과 - 워드클라우드
11위 청하 <벌써 12시>
- 사재기 곡, 가수 등에 대한 언급 다수
- Multulingual: 사재기 지수 0.73
vs KoBERT: 사재기 지수 0.43
16위 우디
<이 노래가 클럽에서 나온다면>
- 사재기 가수에 대한 비난 글 다수
- Multulingual: 사재기 지수 0.83
vs KoBERT: 사재기 지수 0.73
17위 황인욱
<포장마차>
- 순위에 대한 의문 제기 글 다수
- Multulingual: 사재기 지수 0.59
vs KoBERT: 사재기 지수 0.62
- 특이결과값에 대한 워드클라우드