SlideShare a Scribd company logo
한국어 혐오 표현 코퍼스 구축 방법론 연구:
온라인 악성 댓글에 나타나는 특성을 중심으로
조원익 (SNU ECE) 문지형 (Upstage)
2020. 10. 16 @HCLT 2020
목차
• 연구 소개
• 데이터
• 가이드라인
• 어노테이션
• 코퍼스 분석
• 연구 방향
<주의! 본 발표에는 독자의 불쾌감을 유발할 수 있는 발화들이 포함되어 있습니다>
1
연구 소개
• 혐오 표현
 Hate speech?
• 혐오와 증오
• 욕설과 모욕
• 차별과 편견
 부적절한 발화, 악성 댓글, 분란글 등의 이름으로 다양한 연구가 진행 중
 무분별한 혐오 표현이 문제임에 대한 사회적 합의 존재
 하지만 사안에 대한 다양한 시각이 있는데 ...
• 그래서 혐오 표현이 어떤 것인가?
• 특정 표현은 혐오 표현이라 할 수 있는가?
• 혐오 표현이 정말 ‘혐오‘ 표현인가?
2
연구 소개
• 혐오 표현
 Hate speech?
• 혐오와 증오
• 욕설과 모욕
• 차별과 편견
 부적절한 발화, 악성 댓글, 분란글 등의 이름으로 다양한 연구가 진행 중
 무분별한 혐오 표현이 문제임에 대한 사회적 합의 존재
 하지만 사안에 대한 다양한 시각이 있는데 ...
• 그래서 혐오 표현이 어떤 것인가?
• 특정 표현은 혐오 표현이라 할 수 있는가?
• 혐오 표현이 정말 ‘혐오‘ 표현인가?
3
연구 소개
• 혐오 표현
 학문적 논의
• 혐오 표현의 정의 및 범위, 용어의 적절성
• 법적 규제 및 표현의 자유
 사회적 논의
• 학문적 논의를 사회 현상에 적용하기 위한 절차
• 실제 관찰되는 양상을 정의와 비교하여 적절성 판단
• 각자의 윤리적 기준에 따른 대립의 발생
 산업적 논의
• 사회적 논의를 고려하여, 실제로 이를 탐지하고 예방
• 서비스 제공자의 관점에서, 다양한 사용자의 ‘불쾌한 경험’을 줄이는 것
4
연구 소개
• 혐오 표현
 학문적 논의
• 혐오 표현의 정의 및 범위, 용어의 적절성
• 법적 규제 및 표현의 자유
 사회적 논의
• 학문적 논의를 사회 현상에 적용하기 위한 절차
• 실제 관찰되는 양상을 정의와 비교하여 적절성 판단
• 각자의 윤리적 기준에 따른 대립의 발생
 산업적 논의
• 사회적 논의를 고려하여, 실제로 이를 탐지하고 예방
• 서비스 제공자의 관점에서, 다양한 사용자의 ‘불쾌한 경험’을 줄이는 것
5
연구 소개
• 혐오 표현
 학문적 논의
• 혐오 표현의 정의 및 범위, 용어의 적절성
• 법적 규제 및 표현의 자유
 사회적 논의
• 학문적 논의를 사회 현상에 적용하기 위한 절차
• 실제 관찰되는 양상을 정의와 비교하여 적절성 판단
• 각자의 윤리적 기준에 따른 대립의 발생
 산업적 논의
• 사회적 논의를 고려하여, 실제로 이를 탐지하고 예방
• 서비스 제공자의 관점에서, 다양한 사용자의 ‘불쾌한 경험’을 줄이는 것
6
연구 소개
• 혐오 표현
 현재 산업적 논의들은 기존의 학문적/사회적 논의들을 고려하는가?
• 혐오 표현의 탐지에 관한 양적 연구들
– 욕설(swear words) 및 비속어(profanity terms) 감지 : 사전 기반 위주
– 사전의 단어들이 포함된 문장들을 혐오 표현으로 규정
– 특정 커뮤니티의 언어를 혐오 표현으로 규정
– 혐오 표현 여부를 human annotation (binary)
• 탐지 서비스가 제공되지만 정확한 가이드라인이 제공되지 않는 경우
– 게임에서의 욕설 탐지 및 블라인드
– 온라인 방송에서의 부적절한 표현 감지
– 온라인 포털/커뮤니티 댓글의 블라인드 기능
• 탐지 서비스와 함께 가이드라인이 제공되지만 적극적인 모니터링보다는 조금 더
사용자의 자율성을 조금 더 보장하는 경우
– 유튜브 영상물 및 댓글
– 페이스북, 트위터 게시글 및 댓글
7
연구 소개
• 혐오 표현
 현재 산업적 논의들은 기존의 학문적/사회적 논의들을 고려하는가?
• 혐오 표현의 탐지에 관한 양적 연구들
– 욕설(swear words) 및 비속어(profanity terms) 감지 : 사전 기반 위주
– 사전의 단어들이 포함된 문장들을 혐오 표현으로 규정
– 특정 커뮤니티의 언어를 혐오 표현으로 규정
– 혐오 표현 여부를 human annotation (binary)
• 탐지 서비스가 제공되지만 정확한 가이드라인이 제공되지 않는 경우
– 게임에서의 욕설 탐지 및 블라인드
– 온라인 방송에서의 부적절한 표현 감지
– 온라인 포털/커뮤니티 댓글의 블라인드 기능
• 탐지 서비스와 함께 가이드라인이 제공되지만 적극적인 모니터링보다는 조금 더
사용자의 자율성을 조금 더 보장하는 경우
– 유튜브 영상물 및 댓글
– 페이스북, 트위터 게시글 및 댓글
8
연구 소개
• 혐오 표현
 현재 산업적 논의들은 기존의 학문적/사회적 논의들을 고려하는가?
• 혐오 표현의 탐지에 관한 양적 연구들
– 욕설(swear words) 및 비속어(profanity terms) 감지 : 사전 기반 위주
– 사전의 단어들이 포함된 문장들을 혐오 표현으로 규정
– 특정 커뮤니티의 언어를 혐오 표현으로 규정
– 혐오 표현 여부를 human annotation (binary)
• 탐지 서비스가 제공되지만 정확한 가이드라인이 제공되지 않는 경우
– 게임에서의 욕설 탐지 및 블라인드
– 온라인 방송에서의 부적절한 표현 감지
– 온라인 포털/커뮤니티 댓글의 블라인드 기능
• 탐지 서비스와 함께 가이드라인이 제공되지만 적극적인 모니터링보다는 조금 더
사용자의 자율성을 조금 더 보장하는 경우
– 유튜브 영상물 및 댓글
– 페이스북, 트위터 게시글 및 댓글
9
연구 소개
• 혐오 표현
 해외 혐오 표현 탐지에 관한 논의
• Waseem and Hovy (2016)
– 혐오 표현으로 판단될 수 있는 10여개의 특성들을 활용해 트위터 게시물 태깅
• Davidson et al. (2017)
– 혐오 표현의 학문적 정의와 실제 표현들에 대한 판단 사이의 괴리를 언급
– 혐오 표현(hate)과 혐오 표현이 아닌 것(none) 사이에 무례한 언사(offensive)를 두어,
grey zone에 있는 표현들을 포괄할 수 있도록 함
• Sanguinetti et al. (2018)
– 이탈리아의 이민자들에 대한 게시글을 대상으로 혐오 표현을 판단하되, hate speech 여
부뿐 아니라 offensive한지, aggressive한지, irony와 sarcasm이 존재하는지, stereotype
이 존재하는지, 전반적인 글의 intensity가 어떠한지 등에 대해 종합적으로 표시함
– 차별의 근거가 될 수 있는 선입견(stereotype)을 레이블링의 요소로 삼음
10
연구 소개
• 혐오 표현
 해외 혐오 표현 탐지에 관한 논의
• Waseem and Hovy (2016)
– 혐오 표현으로 판단될 수 있는 10여개의 특성들을 활용해 트위터 게시물 태깅
• Davidson et al. (2017)
– 혐오 표현의 학문적 정의와 실제 표현들에 대한 판단 사이의 괴리를 언급
– 혐오 표현(hate)과 혐오 표현이 아닌 것(none) 사이에 무례한 언사(offensive)를 두어,
grey zone에 있는 표현들을 포괄할 수 있도록 함
• Sanguinetti et al. (2018)
– 이탈리아의 이민자들에 대한 게시글을 대상으로 혐오 표현을 판단하되, hate speech 여
부뿐 아니라 offensive한지, aggressive한지, irony와 sarcasm이 존재하는지, stereotype
이 존재하는지, 전반적인 글의 intensity가 어떠한지 등에 대해 종합적으로 표시함
– 차별의 근거가 될 수 있는 선입견(stereotype)을 레이블링의 요소로 삼음
11
연구 소개
• 혐오 표현
 Research Questions
• RQ1
– 한국어 온라인 악성 댓글에서 혐오 표현은 어떤 양상으로 나타나는가?
» 편견(bias)은 무엇이며 어떤 종류가 있는가?
» 표현이 유해하다는 것(toxic)은 어떻게 나타낼 수 있을까?
• RQ2
– 혐오 표현의 특성을 중심으로 레이블링한 한국어 혐오 표현 코퍼스는 어떤 특징을 가지
는가?
» 편견은 표현의 유해함을 동반하는가?
» 편견의 종류와 유해함은 어떤 관련이 있는가?
• RQ3
– 혐오 표현 코퍼스 구축 방법론은 기존의 학문적 논의와 어떤 관련을 가지는가?
» 방법론은 기존의 논의를 반영하는가?
» 구축된 코퍼스는 기존 논의의 어떤 부분을 비추어 볼 수 있는가?
12
데이터
• 수집된 뉴스 댓글 데이터
 온라인 포털 연예 뉴스 기사
• 두터운 독자층, 타깃이 확실, 관찰되는 갈등이 특정 집단에 치우치지 않음
– 댓글 수집 배포에 문제는 없는가?
 기간: Jan. 2018 ~ Feb. 2020
 수집 기사 및 댓글
• Raw data:
– 10,403,368 from 23,700 articles
• 1,580 articles (by stratified sampling)
– 특정 기간에 몰리지 않도록
• Top 20 댓글
– Downvote 비율을 고려하여 추출 (Wilson Score)
• Removed?
– 중복된 댓글
– single token이나 100자 이상의 댓글
• 최종적으로, random한 10K개의 댓글 샘플링
13
가이드라인
• 문제 구성
 혐오 표현
• 10,000개 댓글 중 1,000개를 함께 분석하며 토의
• 어떤 요소들이 존재할까?
– 편견(bias)
» ‘이러이러한 사람’은 ‘이러이러한 특징’을 가질 것이다
» 단순한 판단(judgment)과 다를 수 있다
– 혐오(hate)
» ‘이러이러한 특징’을 가진 집단에 대한 적대감
» 이는 profanity terms로도 표출될 수 있지만, 그렇다고 해서 혐오인 것은 아님
– 모욕(insult)
» 개인 및 집단의 사회적 체면을 깎을 수 있는 언사
» 많은 profanity terms가 이에 해당함
– 무례한 언사(offensive)
» 혐오나 모욕에는 미치지 못하지만, 대상이나 보는 이를 기분나쁘게 할 수 있음
» 냉소, 비꼼, 넘겨짚기, 반인륜적 표현 등이 이에 해당
14
가이드라인
• 문제 구성
 혐오 표현
• 10,000개 댓글 중 1,000개를 함께 분석하며 토의
• 어떤 요소들이 존재할까?
– 편견(bias)
» ‘이러이러한 사람’은 ‘이러이러한 특징’을 가질 것이다
» 단순한 판단(judgment)과 다를 수 있다
– 혐오(hate)
» ‘이러이러한 특징’을 가진 집단에 대한 적대감
» 이는 profanity terms로도 표출될 수 있지만, 그렇다고 해서 혐오인 것은 아님
– 모욕(insult)
» 개인 및 집단의 사회적 체면을 깎을 수 있는 언사
» 많은 profanity terms가 이에 해당함
– 무례한 언사(offensive)
» 혐오나 모욕에는 미치지 못하지만, 대상이나 보는 이를 기분나쁘게 할 수 있음
» 냉소, 비꼼, 넘겨짚기, 반인륜적 표현 등이 이에 해당
15
가이드라인
• 문제 구성
 Social bias + Toxicity
• 편견의 검출 (ternary)
– Gender-related bias
– Other biases
– None
» 탐지의 문제에 가까움
» Why concentrated on gender issue?
• 유해성의 판단 (ternary)
– Severe hate or insult
– Not hateful but offensive or sarcastic
– None
» 수위의 문제에 가까움
» Why formulated as a problem of intensity?
16
가이드라인
• 문제 구성
 Social bias + Toxicity
• 편견의 검출 (ternary)
– Gender-related bias
– Other biases
– None
» 탐지의 문제에 가까움
» Why concentrated on gender issue?
• 유해성의 판단 (ternary)
– Severe hate or insult
– Not hateful but offensive or sarcastic
– None
» 수위의 문제에 가까움
» Why formulated as a problem of intensity?
17
가이드라인
• 가이드라인 작성
 예외 케이스 결정
• 너무 짧거나 오타가 있거나, 정말로 context 없이는 알 수 없는 경우들
18
가이드라인
• 가이드라인 작성
 편견에 대한 세부 사항 (1) Gender-related bias
19
가이드라인
• 가이드라인 작성
 편견에 대한 세부 사항 (2) Other bias
20
가이드라인
• 가이드라인 작성
 편견에 대한 세부 사항 (2) Other bias
21
가이드라인
• 가이드라인 작성
 유해성에 대한 세부 사항 (1) Severe hate or insult
• 혐오: 대상을 일정한 특성에 근거해서 섣불리 판단한 후 대상에 대해 적대감을 드
러내는 발언
– 표현의 대상에게 정신적인 고통과 같은 감정 상태를 야기하는 경우에도 해당됨
• 모욕: 대상에 대해 근거없이 비난하거나 깎아내리는 경우
– 대상이 모욕감 혹은 수치감을 느낄 수 있는 발언
• 합리적인 비판은 해당되지 않으며, 단순히 욕설이 등장한다고 해서 모욕이나 혐오
가 느껴지는 것은 아닐 수 있음
22
가이드라인
23
가이드라인
24
가이드라인
• 가이드라인 작성
 유해성에 대한 세부 사항 (2) Not hateful but offensive or sarcastic
25
가이드라인
• 가이드라인 작성
 (2) Not hateful but offensive or sarcastic & (3) None
26
어노테이션
• 파일럿 연구 – 어떤 작업자가 함께 일하기 좋을까?
 일정 횟수 이상의 태깅을 진행하였는가?
 반려한 샘플들에 대한 피드백이 잘 반영되었는가?
 가이드라인과 현격히 차이가 있는, 성별이나 다른 요소들에 대한 기준을 가
지고 있지는 않은가?
 태깅을 pass하는 빈도가 너무 높지는 않은가?
27
어노테이션
• 크라우드소싱 – 선정된 작업자들과 함께
 어노테이션 과정에서는 개별 리뷰는 별도로 수행하지 않음
28
어노테이션
• 파일럿 및 크라우드소싱을 위한 예시 문항
29
어노테이션
• 파일럿 및 크라우드소싱을 위한 예시 문항
30
어노테이션
• 파일럿 및 크라우드소싱을 위한 예시 문항
31
어노테이션
• 파일럿 및 크라우드소싱을 위한 예시 문항
32
코퍼스 분석
• 데이터 후처리
 전체 어노테이션 완료 후 (8,000개)
• Social bias와 toxicity에서 공통적으로 체크한 내용
– 세 명의 어노테이터가 모두 다른 태깅을 한 경우
» 태깅 기반으로, 리뷰어들의 논의를 통해 결정
• Toxicity에서 체크한 내용
– ‘Intensity’의 문제이기 때문에, (o) 아니면 (x) 만 있는 경우는 다시 체크해볼 필요가 있음
» 역시 태깅 기반의 논의을 통해 결정
• 위의 절차를 거치고 합의에 이르지 못하는 경우 (majority voting 불가) discard함
 Inter-annotator agreement (Krippendorff’s alpha): 전반적으로 moderate한
일치도
• Bias (binary) – 0.767 (성 관련 편견의 존재 여부는 비교적 명확)
• Bias (ternary) – 0.492
• Hate (ternary) – 0.496
33
코퍼스 분석
• 데이터 후처리
 전체 어노테이션 완료 후 (8,000개)
• Social bias와 toxicity에서 공통적으로 체크한 내용
– 세 명의 어노테이터가 모두 다른 태깅을 한 경우
» 태깅 기반으로, 리뷰어들의 논의를 통해 결정
• Toxicity에서 체크한 내용
– ‘Intensity’의 문제이기 때문에, (o) 아니면 (x) 만 있는 경우는 다시 체크해볼 필요가 있음
» 역시 태깅 기반의 논의을 통해 결정
• 위의 절차를 거치고 합의에 이르지 못하는 경우 (majority voting 불가) discar함
 Inter-annotator agreement (Krippendorff’s alpha): 전반적으로 moderate한
일치도
• Bias (binary) – 0.767 (성 관련 편견의 존재 여부는 비교적 명확)
• Bias (ternary) – 0.492
• Hate (ternary) – 0.496
34
코퍼스 분석
• 크라우드소싱 – 선정된 작업자들과 함께
 데이터 분배
• 10,000 문항에서 659개 discard
• 나머지를 train, valid, test로 활용
 데이터 구성
• Test: 974
– Guideline 구축 과정에서 태깅이 진행된 데이터셋 (가장 의도하던 바와 비슷)
• Valid: 471
– 많은 주석자들을 대상으로 한 Pilot study 과정에서 태깅/리뷰/반려/승인의 절차를 거친
데이터셋 (의도하던 바와 대체로 비슷)
• Train: 7,896
– 선정된 주석자들을 대상으로 한 crowd-sourcing으로, 리뷰/반려/승인의 절차를 거치지
는 않았으나, 특정한 케이스들에 대해 adjudication 실시
35
코퍼스 분석
• 최종 데이터
 특징
• 전반적으로 유해성이 있는 경우는
그렇지 않은 경우보다 높은 비율
• 편견의 경우 그렇지 않다
 주의할 점
• ‘연예 도메인의 댓글에는 혐오 표현이 많다’?
– Downvote를 기준으로 샘플링했기 때문에, 실제 댓글에 있는 혐오 표현의 비율보다는 낮
을 것
• ‘유해한 발화의 비율이 높다’?
– 구축된 코퍼스에서는 그렇게 보이지만, bias가 toxicity보다 더 함축되어 있어 쉽게 인지
되지 않는 개념으로 볼 수도 있음
» 이러한 부분이 up/downvote에 반영되었을 것
36
코퍼스 분석
• 최종 데이터
 특징
• 전반적으로 유해성이 있는 경우는
그렇지 않은 경우보다 높은 비율
• 편견의 경우 그렇지 않다
 주의할 점
• ‘연예 도메인의 댓글에는 혐오 표현이 많다’?
– Downvote를 기준으로 샘플링했기 때문에, 실제 댓글에 있는 혐오 표현의 비율보다는 낮
을 것
• ‘유해한 발화의 비율이 높다’?
– 구축된 코퍼스에서는 그렇게 보이지만, bias가 toxicity보다 더 함축되어 있어 쉽게 인지
되지 않는 개념으로 볼 수도 있음
» 이러한 부분이 up/downvote에 반영되었을 것
37
코퍼스 분석
• 최종 데이터
 편견과 유해성
• 성 관련 혹은 기타 편견이 함유된
댓글에서는 대부분 유해성이 관찰
– 성 관련 편견이 존재
» 유해한 댓글은 93.76%
– 기타 편견이 존재
» 유해한 댓글은 90.42%
• 유해한 댓글들에는 반드시 사회적 편견이 관찰된다고 보기 어려움
 편견의 종류와 유해한 정도
• 혐오/모욕 댓글에 성 관련 편견이 드러나는 경우가 기타 편견이 드러나는 경우 대
비 1.4배 정도 많음
– 무례한 악성 댓글에서는 성 관련 편견이 기타 편견이 드러나는 경우의 절반 정도
• 가이드라인 상에서 성 관련 편견이 별도로 분리된 것, 그리고 성희롱/성적 모욕 등
의 요건이 별도로 언급된 것과 무관하다고는 할 수 없지만, 어느 정도는 연예 도메
인 상에 성 관련된 모욕이 다른 특성과 결부된 모욕보다 유해성의 정도가 높다고
할 수 있음
38
코퍼스 분석
• 최종 데이터
 편견과 유해성
• 성 관련 혹은 기타 편견이 함유된
댓글에서는 대부분 유해성이 관찰
– 성 관련 편견이 존재
» 유해한 댓글은 93.76%
– 기타 편견이 존재
» 유해한 댓글은 90.42%
• 유해한 댓글들에는 반드시 사회적 편견이 관찰된다고 보기 어려움
 편견의 종류와 유해한 정도
• 혐오/모욕 댓글에 성 관련 편견이 드러나는 경우가 기타 편견이 드러나는 경우 대
비 1.4배 정도 많음
– 무례한 악성 댓글에서는 성 관련 편견이 기타 편견이 드러나는 경우의 절반 정도
• 가이드라인 상에서 성 관련 편견이 별도로 분리된 것, 그리고 성희롱/성적 모욕 등
의 요건이 별도로 언급된 것과 무관하다고는 할 수 없지만, 어느 정도는 연예 도메
인 상에 성 관련된 모욕이 다른 특성과 결부된 모욕보다 유해성의 정도가 높다고
할 수 있음
39
코퍼스 분석
• 기존 논의와의 연관
 RQ1
• 한국어 온라인 악성 댓글에서
혐오 표현은 어떤 양상으로
나타나는가?
– 사회적 편견(social bias)과 유해성(toxicity)
 RQ2
• 혐오 표현의 특성을 중심으로 레이블링한
한국어 혐오 표현 코퍼스는 어떤 특징을
가지는가?
– 편견은 표현의 유해성을 동반한다
– 성 관련 편견은 강한 유해성을 동반할 수 있다
 RQ3
• 혐오 표현 코퍼스 구축 방법론은 기존의 학문적 논의와 어떤 관련을 가지는가?
40
코퍼스 분석
• 기존 논의와의 연관
 홍성수 외 (2016)
• 혐오표현의 용어 정의
– 어떤 개인/집단에 대하여 그들이 사회적 소수자로서의 속성을 가졌다는 이유로
그들을 차별/혐오 하거나 차별/적의/폭력을 선동하는표현
• 혐오 표현의 유형 정의
– 차별적 괴롭힘
– 차별 표시
– 공개적인 멸시/모욕/위협
– 증오선동
• 본 연구와의 관련성
– ‘차별/혐오’, ‘차별/적의/폭력을 선동’ > ‘사회적 편견, 유해성’ 의 두 가지 요소로 표현
– ‘사회적 소수자’의 개념에 관해서는 추가적인 논의가 필요
» 본 연구에서는 ‘성별, 나이, 직업, 종교, 국적, 피부색, 정치색 등의 요인을 언급
» 소수자를 나누는 기준 vs. 실제로 어떤 집단을 소수자로 인정하느냐
41
코퍼스 분석
• 기존 논의와의 연관
 김수아 (2017)
• 사회적 소수자로서의 대상성을 바탕으로 혐오 표현이 피해자에게 미치는 심리적
해악을 설명
– 혐오 표현을 통해 발화자가 피해자의 정체성을 부정
– 온라인 공간의 익명성 등이 소셜 미디어에 혐오 표현 노출이 증가한 원인으로 작용
• 사회적 소수자에게 가해지는 혐오 표현에 집중
– 사회적 소수자란?
– 사회적 소수자가 아닌 사람에게 가해지는 혐오 표현은?
• 본 연구와의 관련성
– 사회적 소수자는 본 연구에서도 활용된 성별, 성 정체성, 성적 지향성, 피부색, 국적 등
다양한 요인의 측면에서, 사회에서 underrepresent되는 것으로 여겨지는 집단을 의미
– 많은 경우, 통념적으로 minority로 여겨지는 집단에 대한 차별과 혐오가 관찰되지만, 그
렇지 않은 집단에 대한 무차별적 증오 역시 유해성의 측면에서 간과하기 어려움
» 특정 집단의 소수자성이 항상 절대적인 것이 아니고 사안마다 약자성은 달라질 수
있음 – 이를 어노테이션 과정에서 고려
42
코퍼스 분석
• 기존 논의와의 연관
 김수아 (2017)
• 사회적 소수자로서의 대상성을 바탕으로 혐오 표현이 피해자에게 미치는 심리적
해악을 설명
– 혐오 표현을 통해 발화자가 피해자의 정체성을 부정
– 온라인 공간의 익명성 등이 소셜 미디어에 혐오 표현 노출이 증가한 원인으로 작용
• 사회적 소수자에게 가해지는 혐오 표현에 집중
– 사회적 소수자란?
– 사회적 소수자가 아닌 사람에게 가해지는 혐오 표현은?
• 본 연구와의 관련성
– 사회적 소수자는 본 연구에서도 활용된 성별, 성 정체성, 성적 지향성, 피부색, 국적 등
다양한 요인의 측면에서, 사회에서 underrepresent되는 것으로 여겨지는 집단을 의미
– 많은 경우, 통념적으로 minority로 여겨지는 집단에 대한 차별과 혐오가 관찰되지만, 그
렇지 않은 집단에 대한 무차별적 증오 역시 유해성의 측면에서 간과하기 어려움
» 특정 집단의 소수자성이 항상 절대적인 것이 아니고 사안마다 약자성은 달라질 수
있음 – 이를 어노테이션 과정에서 고려
43
코퍼스 분석
• 기존 논의와의 연관
 박미숙, 추지현 (2017)
• 표현의 자유와 혐오 표현의 경계
– 표현의 자유를 침해하지 않으면서도 혐오 표현을 규제할 수 있는 기준 확립이 중요
– 기존의 모욕/혐오에 따른 법 집행 사레를 통해, 어떤 요건들이 충족되어야 위법이 성립
하는가에 대해 고찰
– 그렇지만 표현의 자유가 소수자나 사회 취약계층의 존엄성 및 인격적 가치를 공격하기
위해 보장되는 것이 아님을 역설
• 본 연구와의 관련성
– 혐오 표현의 용어 및 범위를 단순히 정의하는 것을 넘어, 실제 피해자가 있는 사회/언어
현상으로써, 불분명한 경계를 조금 더 분명하게 만드는 것을 목표
44
혐오 표현의 해석과 사회적 편견을 연관
모욕적 언사와 차별에 기반한 혐오 표현을 모두 고려
사례를 통해 흐릿한 혐오 표현의 경계를 분명하게 하는 것
코퍼스 분석
• 기존 논의와의 연관
 박미숙, 추지현 (2017)
• 표현의 자유와 혐오 표현의 경계
– 표현의 자유를 침해하지 않으면서도 혐오 표현을 규제할 수 있는 기준 확립이 중요
– 기존의 모욕/혐오에 따른 법 집행 사레를 통해, 어떤 요건들이 충족되어야 위법이 성립
하는가에 대해 고찰
– 그렇지만 표현의 자유가 소수자나 사회 취약계층의 존엄성 및 인격적 가치를 공격하기
위해 보장되는 것이 아님을 역설
• 본 연구와의 관련성
– 혐오 표현의 용어 및 범위를 단순히 정의하는 것을 넘어, 실제 피해자가 있는 사회/언어
현상으로써, 불분명한 경계를 조금 더 분명하게 만드는 것을 목표
45
혐오 표현의 해석과 사회적 편견을 연관
모욕적 언사와 차별에 기반한 혐오 표현을 모두 고려
사례를 통해 흐릿한 혐오 표현의 경계를 분명하게 하는 것
맺음말
• 혐오 표현의 학문적, 사회적, 산업적 논의 간에는 온도차가 존재하며, 각
각의 목표를 인지해야 함
• 혐오 표현의 탐지 관점에서 가이드라인을 만들고 코퍼스를 구축하는 과
정에서, 사회적 편견과 유해성이라는 요소를 관찰하였음
• 혐오 표현 코퍼스의 분석을 통해, 기존 사회언어학적 논의와의 연관을 파
악하고 유사성/차이점을 분석하는 과정이 필요
• 관찰을 통해 얻은 기준과 유사하게, 혐오 표현에 편견, 차별, 모욕 등이
기여한다는 것을 인지하였고, 실 사례를 통해 경계를 분명하게 하는 것을
공통된 목표로 가진다는 것을 파악하였음
46
맺음말
• Model and data release
 Annotation guideline
• https://www.notion.so/c1ecb7cc52d446cc93d928d172ef8442
 Kaggle competition
• https://www.kaggle.com/c/korean-gender-bias-detection
• https://www.kaggle.com/c/korean-bias-detection/
• https://www.kaggle.com/c/korean-hate-speech-detection/
 Github repository
• https://github.com/kocohub/korean-hate-speech
• For easier data importing
 Koco package
• https://github.com/inmoonlight/koco
– Library to easily access kocohub datasets
– Kocohub contains KOrean COrpus for natural language processing
» https://github.com/kocohub
47
Thank you!
EndOfPresentation

More Related Content

More from WarNik Chow

More from WarNik Chow (20)

2211 HCOMP
2211 HCOMP2211 HCOMP
2211 HCOMP
 
2211 APSIPA
2211 APSIPA2211 APSIPA
2211 APSIPA
 
2211 AACL
2211 AACL2211 AACL
2211 AACL
 
2210 CODI
2210 CODI2210 CODI
2210 CODI
 
2206 FAccT_inperson
2206 FAccT_inperson2206 FAccT_inperson
2206 FAccT_inperson
 
2206 Modupop!
2206 Modupop!2206 Modupop!
2206 Modupop!
 
2108 [LangCon2021] kosp2e
2108 [LangCon2021] kosp2e2108 [LangCon2021] kosp2e
2108 [LangCon2021] kosp2e
 
2106 PRSLLS
2106 PRSLLS2106 PRSLLS
2106 PRSLLS
 
2106 JWLLP
2106 JWLLP2106 JWLLP
2106 JWLLP
 
2106 ACM DIS
2106 ACM DIS2106 ACM DIS
2106 ACM DIS
 
2104 Talk @SSU
2104 Talk @SSU2104 Talk @SSU
2104 Talk @SSU
 
2103 ACM FAccT
2103 ACM FAccT2103 ACM FAccT
2103 ACM FAccT
 
2102 Redone seminar
2102 Redone seminar2102 Redone seminar
2102 Redone seminar
 
2011 NLP-OSS
2011 NLP-OSS2011 NLP-OSS
2011 NLP-OSS
 
2010 INTERSPEECH
2010 INTERSPEECH 2010 INTERSPEECH
2010 INTERSPEECH
 
2010 PACLIC - pay attention to categories
2010 PACLIC - pay attention to categories2010 PACLIC - pay attention to categories
2010 PACLIC - pay attention to categories
 
2009 DevC Seongnam - NLP
2009 DevC Seongnam - NLP2009 DevC Seongnam - NLP
2009 DevC Seongnam - NLP
 
2008 [lang con2020] act!
2008 [lang con2020] act!2008 [lang con2020] act!
2008 [lang con2020] act!
 
2007 CogSci 2020 poster
2007 CogSci 2020 poster2007 CogSci 2020 poster
2007 CogSci 2020 poster
 
2006 kakao brain NLP colloquium
2006 kakao brain NLP colloquium2006 kakao brain NLP colloquium
2006 kakao brain NLP colloquium
 

2010 HCLT Hate Speech

  • 1. 한국어 혐오 표현 코퍼스 구축 방법론 연구: 온라인 악성 댓글에 나타나는 특성을 중심으로 조원익 (SNU ECE) 문지형 (Upstage) 2020. 10. 16 @HCLT 2020
  • 2. 목차 • 연구 소개 • 데이터 • 가이드라인 • 어노테이션 • 코퍼스 분석 • 연구 방향 <주의! 본 발표에는 독자의 불쾌감을 유발할 수 있는 발화들이 포함되어 있습니다> 1
  • 3. 연구 소개 • 혐오 표현  Hate speech? • 혐오와 증오 • 욕설과 모욕 • 차별과 편견  부적절한 발화, 악성 댓글, 분란글 등의 이름으로 다양한 연구가 진행 중  무분별한 혐오 표현이 문제임에 대한 사회적 합의 존재  하지만 사안에 대한 다양한 시각이 있는데 ... • 그래서 혐오 표현이 어떤 것인가? • 특정 표현은 혐오 표현이라 할 수 있는가? • 혐오 표현이 정말 ‘혐오‘ 표현인가? 2
  • 4. 연구 소개 • 혐오 표현  Hate speech? • 혐오와 증오 • 욕설과 모욕 • 차별과 편견  부적절한 발화, 악성 댓글, 분란글 등의 이름으로 다양한 연구가 진행 중  무분별한 혐오 표현이 문제임에 대한 사회적 합의 존재  하지만 사안에 대한 다양한 시각이 있는데 ... • 그래서 혐오 표현이 어떤 것인가? • 특정 표현은 혐오 표현이라 할 수 있는가? • 혐오 표현이 정말 ‘혐오‘ 표현인가? 3
  • 5. 연구 소개 • 혐오 표현  학문적 논의 • 혐오 표현의 정의 및 범위, 용어의 적절성 • 법적 규제 및 표현의 자유  사회적 논의 • 학문적 논의를 사회 현상에 적용하기 위한 절차 • 실제 관찰되는 양상을 정의와 비교하여 적절성 판단 • 각자의 윤리적 기준에 따른 대립의 발생  산업적 논의 • 사회적 논의를 고려하여, 실제로 이를 탐지하고 예방 • 서비스 제공자의 관점에서, 다양한 사용자의 ‘불쾌한 경험’을 줄이는 것 4
  • 6. 연구 소개 • 혐오 표현  학문적 논의 • 혐오 표현의 정의 및 범위, 용어의 적절성 • 법적 규제 및 표현의 자유  사회적 논의 • 학문적 논의를 사회 현상에 적용하기 위한 절차 • 실제 관찰되는 양상을 정의와 비교하여 적절성 판단 • 각자의 윤리적 기준에 따른 대립의 발생  산업적 논의 • 사회적 논의를 고려하여, 실제로 이를 탐지하고 예방 • 서비스 제공자의 관점에서, 다양한 사용자의 ‘불쾌한 경험’을 줄이는 것 5
  • 7. 연구 소개 • 혐오 표현  학문적 논의 • 혐오 표현의 정의 및 범위, 용어의 적절성 • 법적 규제 및 표현의 자유  사회적 논의 • 학문적 논의를 사회 현상에 적용하기 위한 절차 • 실제 관찰되는 양상을 정의와 비교하여 적절성 판단 • 각자의 윤리적 기준에 따른 대립의 발생  산업적 논의 • 사회적 논의를 고려하여, 실제로 이를 탐지하고 예방 • 서비스 제공자의 관점에서, 다양한 사용자의 ‘불쾌한 경험’을 줄이는 것 6
  • 8. 연구 소개 • 혐오 표현  현재 산업적 논의들은 기존의 학문적/사회적 논의들을 고려하는가? • 혐오 표현의 탐지에 관한 양적 연구들 – 욕설(swear words) 및 비속어(profanity terms) 감지 : 사전 기반 위주 – 사전의 단어들이 포함된 문장들을 혐오 표현으로 규정 – 특정 커뮤니티의 언어를 혐오 표현으로 규정 – 혐오 표현 여부를 human annotation (binary) • 탐지 서비스가 제공되지만 정확한 가이드라인이 제공되지 않는 경우 – 게임에서의 욕설 탐지 및 블라인드 – 온라인 방송에서의 부적절한 표현 감지 – 온라인 포털/커뮤니티 댓글의 블라인드 기능 • 탐지 서비스와 함께 가이드라인이 제공되지만 적극적인 모니터링보다는 조금 더 사용자의 자율성을 조금 더 보장하는 경우 – 유튜브 영상물 및 댓글 – 페이스북, 트위터 게시글 및 댓글 7
  • 9. 연구 소개 • 혐오 표현  현재 산업적 논의들은 기존의 학문적/사회적 논의들을 고려하는가? • 혐오 표현의 탐지에 관한 양적 연구들 – 욕설(swear words) 및 비속어(profanity terms) 감지 : 사전 기반 위주 – 사전의 단어들이 포함된 문장들을 혐오 표현으로 규정 – 특정 커뮤니티의 언어를 혐오 표현으로 규정 – 혐오 표현 여부를 human annotation (binary) • 탐지 서비스가 제공되지만 정확한 가이드라인이 제공되지 않는 경우 – 게임에서의 욕설 탐지 및 블라인드 – 온라인 방송에서의 부적절한 표현 감지 – 온라인 포털/커뮤니티 댓글의 블라인드 기능 • 탐지 서비스와 함께 가이드라인이 제공되지만 적극적인 모니터링보다는 조금 더 사용자의 자율성을 조금 더 보장하는 경우 – 유튜브 영상물 및 댓글 – 페이스북, 트위터 게시글 및 댓글 8
  • 10. 연구 소개 • 혐오 표현  현재 산업적 논의들은 기존의 학문적/사회적 논의들을 고려하는가? • 혐오 표현의 탐지에 관한 양적 연구들 – 욕설(swear words) 및 비속어(profanity terms) 감지 : 사전 기반 위주 – 사전의 단어들이 포함된 문장들을 혐오 표현으로 규정 – 특정 커뮤니티의 언어를 혐오 표현으로 규정 – 혐오 표현 여부를 human annotation (binary) • 탐지 서비스가 제공되지만 정확한 가이드라인이 제공되지 않는 경우 – 게임에서의 욕설 탐지 및 블라인드 – 온라인 방송에서의 부적절한 표현 감지 – 온라인 포털/커뮤니티 댓글의 블라인드 기능 • 탐지 서비스와 함께 가이드라인이 제공되지만 적극적인 모니터링보다는 조금 더 사용자의 자율성을 조금 더 보장하는 경우 – 유튜브 영상물 및 댓글 – 페이스북, 트위터 게시글 및 댓글 9
  • 11. 연구 소개 • 혐오 표현  해외 혐오 표현 탐지에 관한 논의 • Waseem and Hovy (2016) – 혐오 표현으로 판단될 수 있는 10여개의 특성들을 활용해 트위터 게시물 태깅 • Davidson et al. (2017) – 혐오 표현의 학문적 정의와 실제 표현들에 대한 판단 사이의 괴리를 언급 – 혐오 표현(hate)과 혐오 표현이 아닌 것(none) 사이에 무례한 언사(offensive)를 두어, grey zone에 있는 표현들을 포괄할 수 있도록 함 • Sanguinetti et al. (2018) – 이탈리아의 이민자들에 대한 게시글을 대상으로 혐오 표현을 판단하되, hate speech 여 부뿐 아니라 offensive한지, aggressive한지, irony와 sarcasm이 존재하는지, stereotype 이 존재하는지, 전반적인 글의 intensity가 어떠한지 등에 대해 종합적으로 표시함 – 차별의 근거가 될 수 있는 선입견(stereotype)을 레이블링의 요소로 삼음 10
  • 12. 연구 소개 • 혐오 표현  해외 혐오 표현 탐지에 관한 논의 • Waseem and Hovy (2016) – 혐오 표현으로 판단될 수 있는 10여개의 특성들을 활용해 트위터 게시물 태깅 • Davidson et al. (2017) – 혐오 표현의 학문적 정의와 실제 표현들에 대한 판단 사이의 괴리를 언급 – 혐오 표현(hate)과 혐오 표현이 아닌 것(none) 사이에 무례한 언사(offensive)를 두어, grey zone에 있는 표현들을 포괄할 수 있도록 함 • Sanguinetti et al. (2018) – 이탈리아의 이민자들에 대한 게시글을 대상으로 혐오 표현을 판단하되, hate speech 여 부뿐 아니라 offensive한지, aggressive한지, irony와 sarcasm이 존재하는지, stereotype 이 존재하는지, 전반적인 글의 intensity가 어떠한지 등에 대해 종합적으로 표시함 – 차별의 근거가 될 수 있는 선입견(stereotype)을 레이블링의 요소로 삼음 11
  • 13. 연구 소개 • 혐오 표현  Research Questions • RQ1 – 한국어 온라인 악성 댓글에서 혐오 표현은 어떤 양상으로 나타나는가? » 편견(bias)은 무엇이며 어떤 종류가 있는가? » 표현이 유해하다는 것(toxic)은 어떻게 나타낼 수 있을까? • RQ2 – 혐오 표현의 특성을 중심으로 레이블링한 한국어 혐오 표현 코퍼스는 어떤 특징을 가지 는가? » 편견은 표현의 유해함을 동반하는가? » 편견의 종류와 유해함은 어떤 관련이 있는가? • RQ3 – 혐오 표현 코퍼스 구축 방법론은 기존의 학문적 논의와 어떤 관련을 가지는가? » 방법론은 기존의 논의를 반영하는가? » 구축된 코퍼스는 기존 논의의 어떤 부분을 비추어 볼 수 있는가? 12
  • 14. 데이터 • 수집된 뉴스 댓글 데이터  온라인 포털 연예 뉴스 기사 • 두터운 독자층, 타깃이 확실, 관찰되는 갈등이 특정 집단에 치우치지 않음 – 댓글 수집 배포에 문제는 없는가?  기간: Jan. 2018 ~ Feb. 2020  수집 기사 및 댓글 • Raw data: – 10,403,368 from 23,700 articles • 1,580 articles (by stratified sampling) – 특정 기간에 몰리지 않도록 • Top 20 댓글 – Downvote 비율을 고려하여 추출 (Wilson Score) • Removed? – 중복된 댓글 – single token이나 100자 이상의 댓글 • 최종적으로, random한 10K개의 댓글 샘플링 13
  • 15. 가이드라인 • 문제 구성  혐오 표현 • 10,000개 댓글 중 1,000개를 함께 분석하며 토의 • 어떤 요소들이 존재할까? – 편견(bias) » ‘이러이러한 사람’은 ‘이러이러한 특징’을 가질 것이다 » 단순한 판단(judgment)과 다를 수 있다 – 혐오(hate) » ‘이러이러한 특징’을 가진 집단에 대한 적대감 » 이는 profanity terms로도 표출될 수 있지만, 그렇다고 해서 혐오인 것은 아님 – 모욕(insult) » 개인 및 집단의 사회적 체면을 깎을 수 있는 언사 » 많은 profanity terms가 이에 해당함 – 무례한 언사(offensive) » 혐오나 모욕에는 미치지 못하지만, 대상이나 보는 이를 기분나쁘게 할 수 있음 » 냉소, 비꼼, 넘겨짚기, 반인륜적 표현 등이 이에 해당 14
  • 16. 가이드라인 • 문제 구성  혐오 표현 • 10,000개 댓글 중 1,000개를 함께 분석하며 토의 • 어떤 요소들이 존재할까? – 편견(bias) » ‘이러이러한 사람’은 ‘이러이러한 특징’을 가질 것이다 » 단순한 판단(judgment)과 다를 수 있다 – 혐오(hate) » ‘이러이러한 특징’을 가진 집단에 대한 적대감 » 이는 profanity terms로도 표출될 수 있지만, 그렇다고 해서 혐오인 것은 아님 – 모욕(insult) » 개인 및 집단의 사회적 체면을 깎을 수 있는 언사 » 많은 profanity terms가 이에 해당함 – 무례한 언사(offensive) » 혐오나 모욕에는 미치지 못하지만, 대상이나 보는 이를 기분나쁘게 할 수 있음 » 냉소, 비꼼, 넘겨짚기, 반인륜적 표현 등이 이에 해당 15
  • 17. 가이드라인 • 문제 구성  Social bias + Toxicity • 편견의 검출 (ternary) – Gender-related bias – Other biases – None » 탐지의 문제에 가까움 » Why concentrated on gender issue? • 유해성의 판단 (ternary) – Severe hate or insult – Not hateful but offensive or sarcastic – None » 수위의 문제에 가까움 » Why formulated as a problem of intensity? 16
  • 18. 가이드라인 • 문제 구성  Social bias + Toxicity • 편견의 검출 (ternary) – Gender-related bias – Other biases – None » 탐지의 문제에 가까움 » Why concentrated on gender issue? • 유해성의 판단 (ternary) – Severe hate or insult – Not hateful but offensive or sarcastic – None » 수위의 문제에 가까움 » Why formulated as a problem of intensity? 17
  • 19. 가이드라인 • 가이드라인 작성  예외 케이스 결정 • 너무 짧거나 오타가 있거나, 정말로 context 없이는 알 수 없는 경우들 18
  • 20. 가이드라인 • 가이드라인 작성  편견에 대한 세부 사항 (1) Gender-related bias 19
  • 21. 가이드라인 • 가이드라인 작성  편견에 대한 세부 사항 (2) Other bias 20
  • 22. 가이드라인 • 가이드라인 작성  편견에 대한 세부 사항 (2) Other bias 21
  • 23. 가이드라인 • 가이드라인 작성  유해성에 대한 세부 사항 (1) Severe hate or insult • 혐오: 대상을 일정한 특성에 근거해서 섣불리 판단한 후 대상에 대해 적대감을 드 러내는 발언 – 표현의 대상에게 정신적인 고통과 같은 감정 상태를 야기하는 경우에도 해당됨 • 모욕: 대상에 대해 근거없이 비난하거나 깎아내리는 경우 – 대상이 모욕감 혹은 수치감을 느낄 수 있는 발언 • 합리적인 비판은 해당되지 않으며, 단순히 욕설이 등장한다고 해서 모욕이나 혐오 가 느껴지는 것은 아닐 수 있음 22
  • 26. 가이드라인 • 가이드라인 작성  유해성에 대한 세부 사항 (2) Not hateful but offensive or sarcastic 25
  • 27. 가이드라인 • 가이드라인 작성  (2) Not hateful but offensive or sarcastic & (3) None 26
  • 28. 어노테이션 • 파일럿 연구 – 어떤 작업자가 함께 일하기 좋을까?  일정 횟수 이상의 태깅을 진행하였는가?  반려한 샘플들에 대한 피드백이 잘 반영되었는가?  가이드라인과 현격히 차이가 있는, 성별이나 다른 요소들에 대한 기준을 가 지고 있지는 않은가?  태깅을 pass하는 빈도가 너무 높지는 않은가? 27
  • 29. 어노테이션 • 크라우드소싱 – 선정된 작업자들과 함께  어노테이션 과정에서는 개별 리뷰는 별도로 수행하지 않음 28
  • 30. 어노테이션 • 파일럿 및 크라우드소싱을 위한 예시 문항 29
  • 31. 어노테이션 • 파일럿 및 크라우드소싱을 위한 예시 문항 30
  • 32. 어노테이션 • 파일럿 및 크라우드소싱을 위한 예시 문항 31
  • 33. 어노테이션 • 파일럿 및 크라우드소싱을 위한 예시 문항 32
  • 34. 코퍼스 분석 • 데이터 후처리  전체 어노테이션 완료 후 (8,000개) • Social bias와 toxicity에서 공통적으로 체크한 내용 – 세 명의 어노테이터가 모두 다른 태깅을 한 경우 » 태깅 기반으로, 리뷰어들의 논의를 통해 결정 • Toxicity에서 체크한 내용 – ‘Intensity’의 문제이기 때문에, (o) 아니면 (x) 만 있는 경우는 다시 체크해볼 필요가 있음 » 역시 태깅 기반의 논의을 통해 결정 • 위의 절차를 거치고 합의에 이르지 못하는 경우 (majority voting 불가) discard함  Inter-annotator agreement (Krippendorff’s alpha): 전반적으로 moderate한 일치도 • Bias (binary) – 0.767 (성 관련 편견의 존재 여부는 비교적 명확) • Bias (ternary) – 0.492 • Hate (ternary) – 0.496 33
  • 35. 코퍼스 분석 • 데이터 후처리  전체 어노테이션 완료 후 (8,000개) • Social bias와 toxicity에서 공통적으로 체크한 내용 – 세 명의 어노테이터가 모두 다른 태깅을 한 경우 » 태깅 기반으로, 리뷰어들의 논의를 통해 결정 • Toxicity에서 체크한 내용 – ‘Intensity’의 문제이기 때문에, (o) 아니면 (x) 만 있는 경우는 다시 체크해볼 필요가 있음 » 역시 태깅 기반의 논의을 통해 결정 • 위의 절차를 거치고 합의에 이르지 못하는 경우 (majority voting 불가) discar함  Inter-annotator agreement (Krippendorff’s alpha): 전반적으로 moderate한 일치도 • Bias (binary) – 0.767 (성 관련 편견의 존재 여부는 비교적 명확) • Bias (ternary) – 0.492 • Hate (ternary) – 0.496 34
  • 36. 코퍼스 분석 • 크라우드소싱 – 선정된 작업자들과 함께  데이터 분배 • 10,000 문항에서 659개 discard • 나머지를 train, valid, test로 활용  데이터 구성 • Test: 974 – Guideline 구축 과정에서 태깅이 진행된 데이터셋 (가장 의도하던 바와 비슷) • Valid: 471 – 많은 주석자들을 대상으로 한 Pilot study 과정에서 태깅/리뷰/반려/승인의 절차를 거친 데이터셋 (의도하던 바와 대체로 비슷) • Train: 7,896 – 선정된 주석자들을 대상으로 한 crowd-sourcing으로, 리뷰/반려/승인의 절차를 거치지 는 않았으나, 특정한 케이스들에 대해 adjudication 실시 35
  • 37. 코퍼스 분석 • 최종 데이터  특징 • 전반적으로 유해성이 있는 경우는 그렇지 않은 경우보다 높은 비율 • 편견의 경우 그렇지 않다  주의할 점 • ‘연예 도메인의 댓글에는 혐오 표현이 많다’? – Downvote를 기준으로 샘플링했기 때문에, 실제 댓글에 있는 혐오 표현의 비율보다는 낮 을 것 • ‘유해한 발화의 비율이 높다’? – 구축된 코퍼스에서는 그렇게 보이지만, bias가 toxicity보다 더 함축되어 있어 쉽게 인지 되지 않는 개념으로 볼 수도 있음 » 이러한 부분이 up/downvote에 반영되었을 것 36
  • 38. 코퍼스 분석 • 최종 데이터  특징 • 전반적으로 유해성이 있는 경우는 그렇지 않은 경우보다 높은 비율 • 편견의 경우 그렇지 않다  주의할 점 • ‘연예 도메인의 댓글에는 혐오 표현이 많다’? – Downvote를 기준으로 샘플링했기 때문에, 실제 댓글에 있는 혐오 표현의 비율보다는 낮 을 것 • ‘유해한 발화의 비율이 높다’? – 구축된 코퍼스에서는 그렇게 보이지만, bias가 toxicity보다 더 함축되어 있어 쉽게 인지 되지 않는 개념으로 볼 수도 있음 » 이러한 부분이 up/downvote에 반영되었을 것 37
  • 39. 코퍼스 분석 • 최종 데이터  편견과 유해성 • 성 관련 혹은 기타 편견이 함유된 댓글에서는 대부분 유해성이 관찰 – 성 관련 편견이 존재 » 유해한 댓글은 93.76% – 기타 편견이 존재 » 유해한 댓글은 90.42% • 유해한 댓글들에는 반드시 사회적 편견이 관찰된다고 보기 어려움  편견의 종류와 유해한 정도 • 혐오/모욕 댓글에 성 관련 편견이 드러나는 경우가 기타 편견이 드러나는 경우 대 비 1.4배 정도 많음 – 무례한 악성 댓글에서는 성 관련 편견이 기타 편견이 드러나는 경우의 절반 정도 • 가이드라인 상에서 성 관련 편견이 별도로 분리된 것, 그리고 성희롱/성적 모욕 등 의 요건이 별도로 언급된 것과 무관하다고는 할 수 없지만, 어느 정도는 연예 도메 인 상에 성 관련된 모욕이 다른 특성과 결부된 모욕보다 유해성의 정도가 높다고 할 수 있음 38
  • 40. 코퍼스 분석 • 최종 데이터  편견과 유해성 • 성 관련 혹은 기타 편견이 함유된 댓글에서는 대부분 유해성이 관찰 – 성 관련 편견이 존재 » 유해한 댓글은 93.76% – 기타 편견이 존재 » 유해한 댓글은 90.42% • 유해한 댓글들에는 반드시 사회적 편견이 관찰된다고 보기 어려움  편견의 종류와 유해한 정도 • 혐오/모욕 댓글에 성 관련 편견이 드러나는 경우가 기타 편견이 드러나는 경우 대 비 1.4배 정도 많음 – 무례한 악성 댓글에서는 성 관련 편견이 기타 편견이 드러나는 경우의 절반 정도 • 가이드라인 상에서 성 관련 편견이 별도로 분리된 것, 그리고 성희롱/성적 모욕 등 의 요건이 별도로 언급된 것과 무관하다고는 할 수 없지만, 어느 정도는 연예 도메 인 상에 성 관련된 모욕이 다른 특성과 결부된 모욕보다 유해성의 정도가 높다고 할 수 있음 39
  • 41. 코퍼스 분석 • 기존 논의와의 연관  RQ1 • 한국어 온라인 악성 댓글에서 혐오 표현은 어떤 양상으로 나타나는가? – 사회적 편견(social bias)과 유해성(toxicity)  RQ2 • 혐오 표현의 특성을 중심으로 레이블링한 한국어 혐오 표현 코퍼스는 어떤 특징을 가지는가? – 편견은 표현의 유해성을 동반한다 – 성 관련 편견은 강한 유해성을 동반할 수 있다  RQ3 • 혐오 표현 코퍼스 구축 방법론은 기존의 학문적 논의와 어떤 관련을 가지는가? 40
  • 42. 코퍼스 분석 • 기존 논의와의 연관  홍성수 외 (2016) • 혐오표현의 용어 정의 – 어떤 개인/집단에 대하여 그들이 사회적 소수자로서의 속성을 가졌다는 이유로 그들을 차별/혐오 하거나 차별/적의/폭력을 선동하는표현 • 혐오 표현의 유형 정의 – 차별적 괴롭힘 – 차별 표시 – 공개적인 멸시/모욕/위협 – 증오선동 • 본 연구와의 관련성 – ‘차별/혐오’, ‘차별/적의/폭력을 선동’ > ‘사회적 편견, 유해성’ 의 두 가지 요소로 표현 – ‘사회적 소수자’의 개념에 관해서는 추가적인 논의가 필요 » 본 연구에서는 ‘성별, 나이, 직업, 종교, 국적, 피부색, 정치색 등의 요인을 언급 » 소수자를 나누는 기준 vs. 실제로 어떤 집단을 소수자로 인정하느냐 41
  • 43. 코퍼스 분석 • 기존 논의와의 연관  김수아 (2017) • 사회적 소수자로서의 대상성을 바탕으로 혐오 표현이 피해자에게 미치는 심리적 해악을 설명 – 혐오 표현을 통해 발화자가 피해자의 정체성을 부정 – 온라인 공간의 익명성 등이 소셜 미디어에 혐오 표현 노출이 증가한 원인으로 작용 • 사회적 소수자에게 가해지는 혐오 표현에 집중 – 사회적 소수자란? – 사회적 소수자가 아닌 사람에게 가해지는 혐오 표현은? • 본 연구와의 관련성 – 사회적 소수자는 본 연구에서도 활용된 성별, 성 정체성, 성적 지향성, 피부색, 국적 등 다양한 요인의 측면에서, 사회에서 underrepresent되는 것으로 여겨지는 집단을 의미 – 많은 경우, 통념적으로 minority로 여겨지는 집단에 대한 차별과 혐오가 관찰되지만, 그 렇지 않은 집단에 대한 무차별적 증오 역시 유해성의 측면에서 간과하기 어려움 » 특정 집단의 소수자성이 항상 절대적인 것이 아니고 사안마다 약자성은 달라질 수 있음 – 이를 어노테이션 과정에서 고려 42
  • 44. 코퍼스 분석 • 기존 논의와의 연관  김수아 (2017) • 사회적 소수자로서의 대상성을 바탕으로 혐오 표현이 피해자에게 미치는 심리적 해악을 설명 – 혐오 표현을 통해 발화자가 피해자의 정체성을 부정 – 온라인 공간의 익명성 등이 소셜 미디어에 혐오 표현 노출이 증가한 원인으로 작용 • 사회적 소수자에게 가해지는 혐오 표현에 집중 – 사회적 소수자란? – 사회적 소수자가 아닌 사람에게 가해지는 혐오 표현은? • 본 연구와의 관련성 – 사회적 소수자는 본 연구에서도 활용된 성별, 성 정체성, 성적 지향성, 피부색, 국적 등 다양한 요인의 측면에서, 사회에서 underrepresent되는 것으로 여겨지는 집단을 의미 – 많은 경우, 통념적으로 minority로 여겨지는 집단에 대한 차별과 혐오가 관찰되지만, 그 렇지 않은 집단에 대한 무차별적 증오 역시 유해성의 측면에서 간과하기 어려움 » 특정 집단의 소수자성이 항상 절대적인 것이 아니고 사안마다 약자성은 달라질 수 있음 – 이를 어노테이션 과정에서 고려 43
  • 45. 코퍼스 분석 • 기존 논의와의 연관  박미숙, 추지현 (2017) • 표현의 자유와 혐오 표현의 경계 – 표현의 자유를 침해하지 않으면서도 혐오 표현을 규제할 수 있는 기준 확립이 중요 – 기존의 모욕/혐오에 따른 법 집행 사레를 통해, 어떤 요건들이 충족되어야 위법이 성립 하는가에 대해 고찰 – 그렇지만 표현의 자유가 소수자나 사회 취약계층의 존엄성 및 인격적 가치를 공격하기 위해 보장되는 것이 아님을 역설 • 본 연구와의 관련성 – 혐오 표현의 용어 및 범위를 단순히 정의하는 것을 넘어, 실제 피해자가 있는 사회/언어 현상으로써, 불분명한 경계를 조금 더 분명하게 만드는 것을 목표 44 혐오 표현의 해석과 사회적 편견을 연관 모욕적 언사와 차별에 기반한 혐오 표현을 모두 고려 사례를 통해 흐릿한 혐오 표현의 경계를 분명하게 하는 것
  • 46. 코퍼스 분석 • 기존 논의와의 연관  박미숙, 추지현 (2017) • 표현의 자유와 혐오 표현의 경계 – 표현의 자유를 침해하지 않으면서도 혐오 표현을 규제할 수 있는 기준 확립이 중요 – 기존의 모욕/혐오에 따른 법 집행 사레를 통해, 어떤 요건들이 충족되어야 위법이 성립 하는가에 대해 고찰 – 그렇지만 표현의 자유가 소수자나 사회 취약계층의 존엄성 및 인격적 가치를 공격하기 위해 보장되는 것이 아님을 역설 • 본 연구와의 관련성 – 혐오 표현의 용어 및 범위를 단순히 정의하는 것을 넘어, 실제 피해자가 있는 사회/언어 현상으로써, 불분명한 경계를 조금 더 분명하게 만드는 것을 목표 45 혐오 표현의 해석과 사회적 편견을 연관 모욕적 언사와 차별에 기반한 혐오 표현을 모두 고려 사례를 통해 흐릿한 혐오 표현의 경계를 분명하게 하는 것
  • 47. 맺음말 • 혐오 표현의 학문적, 사회적, 산업적 논의 간에는 온도차가 존재하며, 각 각의 목표를 인지해야 함 • 혐오 표현의 탐지 관점에서 가이드라인을 만들고 코퍼스를 구축하는 과 정에서, 사회적 편견과 유해성이라는 요소를 관찰하였음 • 혐오 표현 코퍼스의 분석을 통해, 기존 사회언어학적 논의와의 연관을 파 악하고 유사성/차이점을 분석하는 과정이 필요 • 관찰을 통해 얻은 기준과 유사하게, 혐오 표현에 편견, 차별, 모욕 등이 기여한다는 것을 인지하였고, 실 사례를 통해 경계를 분명하게 하는 것을 공통된 목표로 가진다는 것을 파악하였음 46
  • 48. 맺음말 • Model and data release  Annotation guideline • https://www.notion.so/c1ecb7cc52d446cc93d928d172ef8442  Kaggle competition • https://www.kaggle.com/c/korean-gender-bias-detection • https://www.kaggle.com/c/korean-bias-detection/ • https://www.kaggle.com/c/korean-hate-speech-detection/  Github repository • https://github.com/kocohub/korean-hate-speech • For easier data importing  Koco package • https://github.com/inmoonlight/koco – Library to easily access kocohub datasets – Kocohub contains KOrean COrpus for natural language processing » https://github.com/kocohub 47

Editor's Notes

  1. .