SlideShare a Scribd company logo
1 of 23
Download to read offline
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
김 지 인
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
‘ 대중가요 가사의 단어 ’
수집한 데이터
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
여러 아티스트의 음악을 듣는 중
에 각 아티스트마다 자주 들리는
단어의 종류가 다르다는 것을 알
게 된 날이 있었다. 사랑에 대해
직접적으로 노래하는 가수들은 가
사에서 사랑 그 자체의 단어와 그
와 연관된 단어들을 많이 사용하
고, 사랑보단 일상이나 그 외의 것
을 노래하는 가수들은 전자의 가
수보다 ‘사랑’이라는 단어의 빈도
수가 낮다. 말과 단어는 그것을 내
뱉는 화자의 생각을 대변하고, 이
런 원칙에 입각하여 당사자가 사
용한 단어 등을 추적하여 그 사람
의 생각, 성향, 거짓말인지 아닌지
등을 분석하는 연구가 지금까지
많이 있었다. 나는 이 작업을 ‘가
사’라는 데이터를 통해 하고 싶었
다. 사람마다 다른 것은 당연하다.
모두가 익히 알고 있는 사실이다.
하지만 이미 알고 있는 것이라도
눈에 보이는 가시적인 것이 되면
느낌이 달라진다. 사람마다 다른
것에서 기인한 여러 음악 아티스
트의 가사들의 차이. 그것은 국적
의 차이에서 기인하는 것일까?—
미국인 아티스트가 사용하는 ‘사
랑’이라는 단어와 일본인 아티스
트가 사용하는 ‘사랑’이라는 단어
의 빈도수 차이. 활동시기에 따른
차이 일수도 있을까?—전설의 팝
황제 마이클 잭슨이 즐겨 사용했
을 단어와 지금 시대를 흔드는 아
티스트 아델이 자주 사용하는 단
어 빈도수 차이. 장르에 따라 자주
쓰이는 단어의 차이도 있지 않을
까?—발라드, 소울 등에서 빈번하
게 등장하는 단어와 록 등에서 등
장하는 단어 빈도수 차이. 요약하
자면 사람, 언어, 음악에 대한 관
심이 그 이유라 할 수 있겠다.
‘ 사람 ’에 대한 관심
‘ 언어 ’에 대한 관심
‘ 음악 ’에 대한 관심
수집한 이유
국적의 차이에서 기인하는 것일까?
미국인 아티스트, 일본인 아티스트
활동시기에 따른 차이 일수도 있을까?
김광석, 악동뮤지션
장르에 따른 차이?
발라드, 록
성별의 차이에서 기인하는 것일까?
레드벨벳, 엑소
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
참고사항
1. 가사 데이터를 수집한 시점은 2018년 3월 26일로, 수집한 가사는 모두 이 시점 전으로 발매된 곡들이다.
2. 일본 가사의 경우 일본어의 단어 수를 계산하는 프로그램이 없는 관계로 일본어 가사를 영어로 번역(네이버 파파고 이용)하여 데이터를 수
집하였다.
3. 한국 가사는 영어 번역을 거치지 않았다.
4. 데이터 수집 곡 수는 각 아티스트마다 최소 50곡으로 하였으나, (1) 발매한 곡이 이보다 적을 경우에는 모든 곡의 가사를 수집, (2) 발매한
곡이 100곡을 넘을 경우는 인기순 80곡(80곡이 되지 않는 경우 혹은 그 수만큼 수집할 의미가 없다고 판단되는 경우 70곡, 예외적으로
더 많은 가사 데이터 수집이 필요하다고 판단되는 경우는 약 90곡)으로 하였다.
5. (한 곡 당 평균 단어 수) = (총 단어 수) ÷ (곡 수) (단, 소수점 첫째자리에서 반올림)
6. 아티스트 선정 기준은 절대적이지 않다.
7. ‘Word Frequency(density)단어 빈도수’에서 ‘the’, ‘it’, ‘a’와 같은 관사나 데이터 해석에 있어 무의미한 단어는 임의로 삭제하였다.
8. 빈도수 30 이하인 단어는 곡 전반에 나타난 단어 빈도수 수집에 있어 무의미(보통 한 곡에서 후렴 등을 이유로 반복되는 한 단어의 빈도수
가 30 정도 되는 것으로 확인)하므로 빈도수 31인 단어까지 수집하였다.
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/국적/성별/장르
아티스트 국적 성별 장르
Michael Jackson마이클 잭슨 미국 M 팝, 팝락, 댄스, 디스코
Bob Dylan밥 딜런 미국 M 컨트리, 락앤롤
oasis오아시스 영국 M 브리티시 모던 록, 얼터너티브 록
Adele아델 영국 F 소울
김광석 한국 M 포크 록
레드벨벳 한국 F 댄스, R&B
엑소 한국 M 댄스, R&B
악동뮤지션 한국 M/F 포크, 어쿠스틱, 댄스, 발라드,
EDM
椎名林檎시이나링고 일본 F 얼터너티브 록, R&B, 재즈, 팝
androp안드롭 일본 M 얼터너티브 록, 인디록 인디팝
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/곡 수/총 단어 수/ 한 곡 당 평균 단어 수
아티스트 곡 수 총 단어 수 한 곡 당 평균 단어 수
Michael Jackson마이클 잭슨 80 27860 348
Bob Dylan밥 딜런 93 27671 298
oasis오아시스 57 13213 232
Adele아델 55 15476 281
김광석 64 15543 243
레드벨벳 54 12874 238
엑소 70 17130 245
악동뮤지션 36 7030 195
椎名林檎시이나링고 70 11171 160
androp안드롭 80 16635 208
(한 곡 당 평균 단어 수) = (총 단어 수) ÷ (곡 수) (단, 소수점 첫째자리에서 반올림)
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/Michael Jackson마이클 잭슨/
you: 1239
i: 809
me: 705
my: 390
love: 294
she: 166
baby: 159
why: 156
girl: 148
bad: 97
world: 91
time: 90
leave: 41
remember: 41
shout: 40
heart: 40
cry: 40
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/Bob Dylan밥 딜런/
you: 844
i: 758
my: 328
me: 260
your: 257
she: 160
his: 97
love: 80
man: 57
door: 50
good: 45
must: 45
people: 44
hard: 44
god: 44
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/oasis오아시스/
i: 451
you: 440
my: 227
me: 184
we: 142
don't: 142
your: 119
i'm: 81
feel: 59
i've: 57
life: 57
want: 56
day: 53
never: 53
love: 42
world: 40
soul: 34
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/Adele아델/
i: 729
you: 694
me: 418
my: 289
love: 185
your: 184
we: 126
never: 103
heart: 71
feel: 53
time: 50
baby: 43
she: 42
fall: 39
why: 38
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/김광석/
내 188
사랑 124
그대 115
속에 54
없는 48
너무 48
나의 45
다시 42
나는 32
너의 27
슬픈 21
변해가네 21
때 21
우리 21
난 21
함께 21
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/레드벨벳/
내: 146
me: 132
you: 111
난: 109
네: 87
i: 84
love: 83
boy: 73
사랑: 69
너의: 64
baby: 58
넌: 55
내가: 42
왜: 40
나를: 34
your: 33
우리: 31
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/엑소/
you: 222
널: 177
내: 171
난: 152
me: 141
baby: 113
너를: 102
너의: 102
my: 101
네: 100
날: 96
i: 92
나: 90
넌: 85
love: 83
내가: 70
나를: 65
너: 63
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/악동뮤지션/
내: 75
날: 65
you: 65
i: 58
내가: 41
baby: 39
love: 38
난: 38
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/椎名林檎시이나링고/
i: 428
you: 341
me: 107
if: 93
my: 91
with: 70
your: 64
want: 59
now: 56
i'm: 55
don't: 52
love: 47
life: 35
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
아티스트/Word Frequency(density)단어 빈도수
/androp안드롭/
i: 708
you: 588
your: 163
me: 139
my: 120
blue: 95
i'm: 77
light: 76
voice: 75
we: 74
dream: 73
world: 66
future: 60
tears: 55
love: 54
time: 52
cry: 40
sky: 39
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
보편적 단어 - 1인칭 빈도수 순위(%)
Adele아델 9.28%
androp안드롭 8.11%
oasis오아시스 7.57%
Michael Jackson마이클 잭슨 6.83%
椎名林檎시이나링고 6.10%
엑소 5.76%
Bob Dylan밥 딜런 4.86%
레드벨벳 4.25%
악동뮤지션 3.94%
김광석 1.84%
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Adele아델 5.95%
엑소 5.63%
Michael Jackson마이클 잭슨 5.55%
androp안드롭 4.51%
oasis오아시스 4.23%
Bob Dylan밥 딜런 3.98%
레드벨벳 3.74%
椎名林檎시이나링고 3.63%
악동뮤지션 1.48%
김광석 0.91%
Data Contents
보편적 단어 - 2인칭 빈도수 순위(%)
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
‘Love’ 빈도수 순위(%) *(이름순)
Adele아델 1.2%
Michael Jackson마이클 잭슨 1.06%
김광석 0.8%
레드벨벳 0.64%
악동뮤지션 0.54%
엑소 0.48%
椎名林檎시이나링고 0.42%
androp안드롭 0.32%
oasis오아시스 0.32%
Bob Dylan밥 딜런 0.29%
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
Data Contents
보편적 단어를 제외하고 가장 많은 빈도수가 나타난 단어
Michael Jackson마이클 잭슨 why, bad, world, leave, remember, shout, heart, cry
Bob Dylan밥 딜런 man, door, good, people, hard, god
oasis오아시스 life, day, world, soul
Adele아델 fall, why
김광석 속에, 다시, 슬픈, 함께
레드벨벳
엑소
악동뮤지션
椎名林檎시이나링고 life
androp안드롭 blue, light, voice, dream, world, future, tears, time, cry, sky
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
흥미로운 점: 앞서 언급한 이 데이터를 수집하
게 한 궁금증은 데이터를 수집하면서 더 확대되
었다. 자신을 나타내는 1인칭 단어와 상대방(주
로 노래하는 대상)을 나타내는 2인칭이 가장 많
은 빈도수를 나타냈는데, 어떤 아티스트는 1인
칭이 더 많이 등장하고 어떤 아티스트는 2인칭
이 더 많이 등장한다. 이 또한 흥미로운 점이다.
같은 사랑을 노래해도 ‘나’는 이렇고 저렇고, ‘내’
가 이렇고 저런데, ‘나의’ 마음이나 생각, 기분은
이렇고 저런데, 하는 식의 노래를 할 수도 있고,
‘너’는 어떤데? ‘너의’ 친구들은 이렇게 이야기하
더라, ‘네’가 이러길 바라, 저러길 바라, 하는 식
의 노래를 할 수도 있음을 시사하기 때문이다.
이 데이터에서 특징적인 점을 몇 개 꼽아본다
면, 먼저 김광석의 데이터가 주목할 만하다. 김
광석은 1인칭, 2인칭 빈도에서 모두 10위로 제
일 마지막 순위를 기록했는데, ‘사랑’이라는 단
어의 빈도수로는 3위로 매우 높은 순위를 기록
했다. 두 번째로 엑소의 단어 빈도수는 거의 모
두 인칭 대명사인 것이 주목할 만하다. 다른 단
어는 거의 등장하지 않고 영어와 한국어를 통틀
어 you, 널, 내, 난, me, 너를 등 모두 1인칭 혹
은 2인칭이다. 이 아티스트만큼 다른 단어가 거
의 등장하지 않는 아티스트는 찾아보기 어렵다.
세 번째로 노벨문학상을 수상한 밥 딜런의 빈도
수 순위권 단어에는 다른 아티스트의 순위에는
등장하지 않는 ‘people’, ‘god’ 등과 같은 단어
가 빈번하게 나타난다는 점이 두드러진다. 마지
막으로 androp의 빈도수 순위권 단어에 tears
가 있는데 실제로 이 아티스트의 노래를 들을
때마다 ‘なみだ나미다(涙, 눈물)’라는 단어가 자
주 들렸었다. 또한 sky라는 단어도 있는데, 실
제로 Jpop을 듣다보면 ‘そら소라(空, 하늘)’라
는 단어도 자주 들린다. 더 많은 일본인 아티스
트를 찾으면 더 확고해질 것이다. 이처럼 국적
마다 애용하는 단어가 조금씩 다르고, 가수의
각 개인사를 토대로 사용하는 단어의 차이 또한
있음이 보인다. ‘단어 빈도수’라는 주제로 개인
과 그 당시 시대상, 국가 간의 정서 차이를 알아
가는 관점이 흥미롭다고 생각한다.
흥미로운 점
‘단어 빈도수’를 소재로 가수 개인과 그 당시 시대상, 국가 간의 정서 차이를 알아보고자
하는 관점이 흥미롭다고 생각한다.
2018.03.27디지털 미디어 컨텐츠
Digital Media Contents 1713089 김지인
Data acquisition/collection
김 지 인

1713089 data acquisition2

  • 1. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection 김 지 인
  • 2. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection ‘ 대중가요 가사의 단어 ’ 수집한 데이터
  • 3. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection 여러 아티스트의 음악을 듣는 중 에 각 아티스트마다 자주 들리는 단어의 종류가 다르다는 것을 알 게 된 날이 있었다. 사랑에 대해 직접적으로 노래하는 가수들은 가 사에서 사랑 그 자체의 단어와 그 와 연관된 단어들을 많이 사용하 고, 사랑보단 일상이나 그 외의 것 을 노래하는 가수들은 전자의 가 수보다 ‘사랑’이라는 단어의 빈도 수가 낮다. 말과 단어는 그것을 내 뱉는 화자의 생각을 대변하고, 이 런 원칙에 입각하여 당사자가 사 용한 단어 등을 추적하여 그 사람 의 생각, 성향, 거짓말인지 아닌지 등을 분석하는 연구가 지금까지 많이 있었다. 나는 이 작업을 ‘가 사’라는 데이터를 통해 하고 싶었 다. 사람마다 다른 것은 당연하다. 모두가 익히 알고 있는 사실이다. 하지만 이미 알고 있는 것이라도 눈에 보이는 가시적인 것이 되면 느낌이 달라진다. 사람마다 다른 것에서 기인한 여러 음악 아티스 트의 가사들의 차이. 그것은 국적 의 차이에서 기인하는 것일까?— 미국인 아티스트가 사용하는 ‘사 랑’이라는 단어와 일본인 아티스 트가 사용하는 ‘사랑’이라는 단어 의 빈도수 차이. 활동시기에 따른 차이 일수도 있을까?—전설의 팝 황제 마이클 잭슨이 즐겨 사용했 을 단어와 지금 시대를 흔드는 아 티스트 아델이 자주 사용하는 단 어 빈도수 차이. 장르에 따라 자주 쓰이는 단어의 차이도 있지 않을 까?—발라드, 소울 등에서 빈번하 게 등장하는 단어와 록 등에서 등 장하는 단어 빈도수 차이. 요약하 자면 사람, 언어, 음악에 대한 관 심이 그 이유라 할 수 있겠다. ‘ 사람 ’에 대한 관심 ‘ 언어 ’에 대한 관심 ‘ 음악 ’에 대한 관심 수집한 이유 국적의 차이에서 기인하는 것일까? 미국인 아티스트, 일본인 아티스트 활동시기에 따른 차이 일수도 있을까? 김광석, 악동뮤지션 장르에 따른 차이? 발라드, 록 성별의 차이에서 기인하는 것일까? 레드벨벳, 엑소
  • 4. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection 참고사항 1. 가사 데이터를 수집한 시점은 2018년 3월 26일로, 수집한 가사는 모두 이 시점 전으로 발매된 곡들이다. 2. 일본 가사의 경우 일본어의 단어 수를 계산하는 프로그램이 없는 관계로 일본어 가사를 영어로 번역(네이버 파파고 이용)하여 데이터를 수 집하였다. 3. 한국 가사는 영어 번역을 거치지 않았다. 4. 데이터 수집 곡 수는 각 아티스트마다 최소 50곡으로 하였으나, (1) 발매한 곡이 이보다 적을 경우에는 모든 곡의 가사를 수집, (2) 발매한 곡이 100곡을 넘을 경우는 인기순 80곡(80곡이 되지 않는 경우 혹은 그 수만큼 수집할 의미가 없다고 판단되는 경우 70곡, 예외적으로 더 많은 가사 데이터 수집이 필요하다고 판단되는 경우는 약 90곡)으로 하였다. 5. (한 곡 당 평균 단어 수) = (총 단어 수) ÷ (곡 수) (단, 소수점 첫째자리에서 반올림) 6. 아티스트 선정 기준은 절대적이지 않다. 7. ‘Word Frequency(density)단어 빈도수’에서 ‘the’, ‘it’, ‘a’와 같은 관사나 데이터 해석에 있어 무의미한 단어는 임의로 삭제하였다. 8. 빈도수 30 이하인 단어는 곡 전반에 나타난 단어 빈도수 수집에 있어 무의미(보통 한 곡에서 후렴 등을 이유로 반복되는 한 단어의 빈도수 가 30 정도 되는 것으로 확인)하므로 빈도수 31인 단어까지 수집하였다.
  • 5. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/국적/성별/장르 아티스트 국적 성별 장르 Michael Jackson마이클 잭슨 미국 M 팝, 팝락, 댄스, 디스코 Bob Dylan밥 딜런 미국 M 컨트리, 락앤롤 oasis오아시스 영국 M 브리티시 모던 록, 얼터너티브 록 Adele아델 영국 F 소울 김광석 한국 M 포크 록 레드벨벳 한국 F 댄스, R&B 엑소 한국 M 댄스, R&B 악동뮤지션 한국 M/F 포크, 어쿠스틱, 댄스, 발라드, EDM 椎名林檎시이나링고 일본 F 얼터너티브 록, R&B, 재즈, 팝 androp안드롭 일본 M 얼터너티브 록, 인디록 인디팝
  • 6. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/곡 수/총 단어 수/ 한 곡 당 평균 단어 수 아티스트 곡 수 총 단어 수 한 곡 당 평균 단어 수 Michael Jackson마이클 잭슨 80 27860 348 Bob Dylan밥 딜런 93 27671 298 oasis오아시스 57 13213 232 Adele아델 55 15476 281 김광석 64 15543 243 레드벨벳 54 12874 238 엑소 70 17130 245 악동뮤지션 36 7030 195 椎名林檎시이나링고 70 11171 160 androp안드롭 80 16635 208 (한 곡 당 평균 단어 수) = (총 단어 수) ÷ (곡 수) (단, 소수점 첫째자리에서 반올림)
  • 7. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수
  • 8. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /Michael Jackson마이클 잭슨/ you: 1239 i: 809 me: 705 my: 390 love: 294 she: 166 baby: 159 why: 156 girl: 148 bad: 97 world: 91 time: 90 leave: 41 remember: 41 shout: 40 heart: 40 cry: 40
  • 9. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /Bob Dylan밥 딜런/ you: 844 i: 758 my: 328 me: 260 your: 257 she: 160 his: 97 love: 80 man: 57 door: 50 good: 45 must: 45 people: 44 hard: 44 god: 44
  • 10. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /oasis오아시스/ i: 451 you: 440 my: 227 me: 184 we: 142 don't: 142 your: 119 i'm: 81 feel: 59 i've: 57 life: 57 want: 56 day: 53 never: 53 love: 42 world: 40 soul: 34
  • 11. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /Adele아델/ i: 729 you: 694 me: 418 my: 289 love: 185 your: 184 we: 126 never: 103 heart: 71 feel: 53 time: 50 baby: 43 she: 42 fall: 39 why: 38
  • 12. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /김광석/ 내 188 사랑 124 그대 115 속에 54 없는 48 너무 48 나의 45 다시 42 나는 32 너의 27 슬픈 21 변해가네 21 때 21 우리 21 난 21 함께 21
  • 13. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /레드벨벳/ 내: 146 me: 132 you: 111 난: 109 네: 87 i: 84 love: 83 boy: 73 사랑: 69 너의: 64 baby: 58 넌: 55 내가: 42 왜: 40 나를: 34 your: 33 우리: 31
  • 14. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /엑소/ you: 222 널: 177 내: 171 난: 152 me: 141 baby: 113 너를: 102 너의: 102 my: 101 네: 100 날: 96 i: 92 나: 90 넌: 85 love: 83 내가: 70 나를: 65 너: 63
  • 15. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /악동뮤지션/ 내: 75 날: 65 you: 65 i: 58 내가: 41 baby: 39 love: 38 난: 38
  • 16. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /椎名林檎시이나링고/ i: 428 you: 341 me: 107 if: 93 my: 91 with: 70 your: 64 want: 59 now: 56 i'm: 55 don't: 52 love: 47 life: 35
  • 17. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 아티스트/Word Frequency(density)단어 빈도수 /androp안드롭/ i: 708 you: 588 your: 163 me: 139 my: 120 blue: 95 i'm: 77 light: 76 voice: 75 we: 74 dream: 73 world: 66 future: 60 tears: 55 love: 54 time: 52 cry: 40 sky: 39
  • 18. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 보편적 단어 - 1인칭 빈도수 순위(%) Adele아델 9.28% androp안드롭 8.11% oasis오아시스 7.57% Michael Jackson마이클 잭슨 6.83% 椎名林檎시이나링고 6.10% 엑소 5.76% Bob Dylan밥 딜런 4.86% 레드벨벳 4.25% 악동뮤지션 3.94% 김광석 1.84%
  • 19. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Adele아델 5.95% 엑소 5.63% Michael Jackson마이클 잭슨 5.55% androp안드롭 4.51% oasis오아시스 4.23% Bob Dylan밥 딜런 3.98% 레드벨벳 3.74% 椎名林檎시이나링고 3.63% 악동뮤지션 1.48% 김광석 0.91% Data Contents 보편적 단어 - 2인칭 빈도수 순위(%)
  • 20. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents ‘Love’ 빈도수 순위(%) *(이름순) Adele아델 1.2% Michael Jackson마이클 잭슨 1.06% 김광석 0.8% 레드벨벳 0.64% 악동뮤지션 0.54% 엑소 0.48% 椎名林檎시이나링고 0.42% androp안드롭 0.32% oasis오아시스 0.32% Bob Dylan밥 딜런 0.29%
  • 21. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection Data Contents 보편적 단어를 제외하고 가장 많은 빈도수가 나타난 단어 Michael Jackson마이클 잭슨 why, bad, world, leave, remember, shout, heart, cry Bob Dylan밥 딜런 man, door, good, people, hard, god oasis오아시스 life, day, world, soul Adele아델 fall, why 김광석 속에, 다시, 슬픈, 함께 레드벨벳 엑소 악동뮤지션 椎名林檎시이나링고 life androp안드롭 blue, light, voice, dream, world, future, tears, time, cry, sky
  • 22. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection 흥미로운 점: 앞서 언급한 이 데이터를 수집하 게 한 궁금증은 데이터를 수집하면서 더 확대되 었다. 자신을 나타내는 1인칭 단어와 상대방(주 로 노래하는 대상)을 나타내는 2인칭이 가장 많 은 빈도수를 나타냈는데, 어떤 아티스트는 1인 칭이 더 많이 등장하고 어떤 아티스트는 2인칭 이 더 많이 등장한다. 이 또한 흥미로운 점이다. 같은 사랑을 노래해도 ‘나’는 이렇고 저렇고, ‘내’ 가 이렇고 저런데, ‘나의’ 마음이나 생각, 기분은 이렇고 저런데, 하는 식의 노래를 할 수도 있고, ‘너’는 어떤데? ‘너의’ 친구들은 이렇게 이야기하 더라, ‘네’가 이러길 바라, 저러길 바라, 하는 식 의 노래를 할 수도 있음을 시사하기 때문이다. 이 데이터에서 특징적인 점을 몇 개 꼽아본다 면, 먼저 김광석의 데이터가 주목할 만하다. 김 광석은 1인칭, 2인칭 빈도에서 모두 10위로 제 일 마지막 순위를 기록했는데, ‘사랑’이라는 단 어의 빈도수로는 3위로 매우 높은 순위를 기록 했다. 두 번째로 엑소의 단어 빈도수는 거의 모 두 인칭 대명사인 것이 주목할 만하다. 다른 단 어는 거의 등장하지 않고 영어와 한국어를 통틀 어 you, 널, 내, 난, me, 너를 등 모두 1인칭 혹 은 2인칭이다. 이 아티스트만큼 다른 단어가 거 의 등장하지 않는 아티스트는 찾아보기 어렵다. 세 번째로 노벨문학상을 수상한 밥 딜런의 빈도 수 순위권 단어에는 다른 아티스트의 순위에는 등장하지 않는 ‘people’, ‘god’ 등과 같은 단어 가 빈번하게 나타난다는 점이 두드러진다. 마지 막으로 androp의 빈도수 순위권 단어에 tears 가 있는데 실제로 이 아티스트의 노래를 들을 때마다 ‘なみだ나미다(涙, 눈물)’라는 단어가 자 주 들렸었다. 또한 sky라는 단어도 있는데, 실 제로 Jpop을 듣다보면 ‘そら소라(空, 하늘)’라 는 단어도 자주 들린다. 더 많은 일본인 아티스 트를 찾으면 더 확고해질 것이다. 이처럼 국적 마다 애용하는 단어가 조금씩 다르고, 가수의 각 개인사를 토대로 사용하는 단어의 차이 또한 있음이 보인다. ‘단어 빈도수’라는 주제로 개인 과 그 당시 시대상, 국가 간의 정서 차이를 알아 가는 관점이 흥미롭다고 생각한다. 흥미로운 점 ‘단어 빈도수’를 소재로 가수 개인과 그 당시 시대상, 국가 간의 정서 차이를 알아보고자 하는 관점이 흥미롭다고 생각한다.
  • 23. 2018.03.27디지털 미디어 컨텐츠 Digital Media Contents 1713089 김지인 Data acquisition/collection 김 지 인