SlideShare a Scribd company logo
1 of 13
Evans, J. A., & Aceves, P. (2016).
Machine translation: mining text for social theory.
Annual Review of Sociology, 42, 21-50.
Department of Sociology
Yonsei Univ.
Changdong Oh
Mathematical Sociology
목차
- 텍스트 마이닝의 사회학적 의미(Social Games)
- NLP와 텍스트 마이닝에 대한 간단한 소개
이걸로 뭘 할 수 있나요? / 한국어 / BoW, ngram
- 비지도 학습 vs 지도 학습, 그리고 사회이론
Unsupervised / Supervised /
The Curse of Dimensionality
- 텍스트 마이닝 연구의 세 층위
Latent Meaning
Constitutive Social Game
Underlying Social World
텍스트 마이닝의 사회학적 의미
Social Game
- 잘은 모르겠지만 부르디외의 개념
인간은 온전히 유희적 존재거나 게임이론적 합리
성을 가진 것이 아니다. 일련의 ‘장’에서 내기물을
놓고 규칙에 따라 내기를 벌이는 존재.
- 언어, 그리고 텍스트를 통해 이 게임을 구성하는
다양한 층위를 추출해낼 수 있다.
- 사회학에도 Content Analysis의 족보가 있다.
그러나 전통적 코딩 방식은 엄청난 시간과 노력 필
요
- 근래의 머신 러닝 기반의 방법론을 통해 이를 크게
절약할 수 있고,
- 데이터에 가설이나 연구 문제를 끼워 맞추는 관행
텍스트 마이닝의 사회학적 의미
Social Game
NLP와 텍스트 마이닝
이걸로 뭘 할 수 있나요?
NLP와 텍스트 마이닝
이걸로 뭘 할 수 있나요?
Bag of Words
One-hot encoding: d1
𝑏𝑖𝑛𝑎𝑟𝑦
=
0
1
0
1
⋮
Term Frequency: d1
𝑇𝐹
=
0
3
0
5
⋮
NLP와 텍스트 마이닝
Traditional Representations of Text
+TF-IDF and other
applitcations
- 특정한 Prior Distribution을 가정하거나(Bayesian),
- Nonparametric Estimation Methods를 사용해서
- 연구자가 던진 데이터에서 구조나 패턴을 찾아낸
다.
- 이러한 구조나 패턴은 연구자가 직접 해석.
- 이렇게 추출한 구조, 패턴이 차원 축소에 기여 가
능
비지도학습, 지도학습, 그리고 사회이론
Unsupervised Learning
- 모델에 들어갈 input(혹은 독립 변수)과 output(혹
은 종속 변수)가 모두 코딩되어 있고,
- 이러한 input과 output의 관계를 반영하는 모델을
학습시키는 것이 목표.
- Precision, recall, F-score, ROC Curve…
비지도학습, 지도학습, 그리고 사회이론
Supervised Learning
- BoW 모델의 경우 차원이 너무너무너무너무 많음
발표자의 예시: 문서 4만 개, 단어 6261107개.
- Lasso, Ridge(0에 가까운 것들은 제거)
- SVM(많은 차원을 설명할 수 있는 다른 차원을 추
가)
- Semi-supervised, PCA(차원 축소)
비지도학습, 지도학습, 그리고 사회이론
The Curse of Dimensionality
- Content of communication
- 표면에 드러난 의사 소통이나 담론의 내용
- 집합적 단위가 중심
- Grimmer & King 2011 / Grimmer & Stewart 2013 /
Grimmer 2010
- Bail 2012 / Bail 2014
- DiMaggio et al. 2013
- Kulkarni et al. 2015 -> Word2Vec 설명할 때 나중
텍스트 마이닝 연구의 세 층위
Latent/Manifest Meaning
- Interaction, Dynamics, and Embeddedness
- 디지털 데이터가 갖는 장점을 활용
- Danescu-Niculescu-Mizil et al. 2013
- Goldberg et al. 2015b
텍스트 마이닝 연구의 세 층위
Social Relationships Through the Process of Communication
- Social States
- 인간의 감정이나 정치 성향
- 심리적 상태나 속성
- Yu et al. 2015
- Blackburn & Kwak 2014
텍스트 마이닝 연구의 세 층위
Underlying Social World

More Related Content

Viewers also liked

A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Line bot api trial을 사용해 보았다.
Line bot api trial을 사용해 보았다.Line bot api trial을 사용해 보았다.
Line bot api trial을 사용해 보았다.flashscope
 
On Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and BeyondOn Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and BeyondEunjeong (Lucy) Park
 
Introduction to Data Mining for Newbies
Introduction to Data Mining for NewbiesIntroduction to Data Mining for Newbies
Introduction to Data Mining for NewbiesEunjeong (Lucy) Park
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners홍배 김
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호NAVER D2
 
カード・ダイアローグ
カード・ダイアローグカード・ダイアローグ
カード・ダイアローグAyako Sato
 
Map reduce - simplified data processing on large clusters
Map reduce - simplified data processing on large clustersMap reduce - simplified data processing on large clusters
Map reduce - simplified data processing on large clustersCleverence Kombe
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용r-kor
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization홍배 김
 
Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기Gyuhyeon Jeon
 

Viewers also liked (15)

Secciones conicas
Secciones conicasSecciones conicas
Secciones conicas
 
아모레퍼시픽 -090430- 알고리즘 기업분석 보고서
아모레퍼시픽 -090430- 알고리즘 기업분석 보고서아모레퍼시픽 -090430- 알고리즘 기업분석 보고서
아모레퍼시픽 -090430- 알고리즘 기업분석 보고서
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Line bot api trial을 사용해 보았다.
Line bot api trial을 사용해 보았다.Line bot api trial을 사용해 보았다.
Line bot api trial을 사용해 보았다.
 
On Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and BeyondOn Semi-Supervised Learning and Beyond
On Semi-Supervised Learning and Beyond
 
Introduction to Data Mining for Newbies
Introduction to Data Mining for NewbiesIntroduction to Data Mining for Newbies
Introduction to Data Mining for Newbies
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
Actividad 2.2
Actividad 2.2Actividad 2.2
Actividad 2.2
 
カード・ダイアローグ
カード・ダイアローグカード・ダイアローグ
カード・ダイアローグ
 
Map reduce - simplified data processing on large clusters
Map reduce - simplified data processing on large clustersMap reduce - simplified data processing on large clusters
Map reduce - simplified data processing on large clusters
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization
 
Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기
 

Similar to Mathematical Sociology

2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료ChangeON@
 
기호학에 대한 기본 이해.
기호학에 대한 기본 이해. 기호학에 대한 기본 이해.
기호학에 대한 기본 이해. Hyunjin Yoo
 
A joint many task model
A joint many task modelA joint many task model
A joint many task model성재 최
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
 
220112 지승현 mauve
220112 지승현 mauve220112 지승현 mauve
220112 지승현 mauvessuser23ed0c
 
220804 지승현 CausaLM.pptx
220804 지승현 CausaLM.pptx220804 지승현 CausaLM.pptx
220804 지승현 CausaLM.pptxssuserf03c031
 

Similar to Mathematical Sociology (6)

2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료
 
기호학에 대한 기본 이해.
기호학에 대한 기본 이해. 기호학에 대한 기본 이해.
기호학에 대한 기본 이해.
 
A joint many task model
A joint many task modelA joint many task model
A joint many task model
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
220112 지승현 mauve
220112 지승현 mauve220112 지승현 mauve
220112 지승현 mauve
 
220804 지승현 CausaLM.pptx
220804 지승현 CausaLM.pptx220804 지승현 CausaLM.pptx
220804 지승현 CausaLM.pptx
 

Mathematical Sociology

  • 1. Evans, J. A., & Aceves, P. (2016). Machine translation: mining text for social theory. Annual Review of Sociology, 42, 21-50. Department of Sociology Yonsei Univ. Changdong Oh Mathematical Sociology
  • 2. 목차 - 텍스트 마이닝의 사회학적 의미(Social Games) - NLP와 텍스트 마이닝에 대한 간단한 소개 이걸로 뭘 할 수 있나요? / 한국어 / BoW, ngram - 비지도 학습 vs 지도 학습, 그리고 사회이론 Unsupervised / Supervised / The Curse of Dimensionality - 텍스트 마이닝 연구의 세 층위 Latent Meaning Constitutive Social Game Underlying Social World
  • 3. 텍스트 마이닝의 사회학적 의미 Social Game - 잘은 모르겠지만 부르디외의 개념 인간은 온전히 유희적 존재거나 게임이론적 합리 성을 가진 것이 아니다. 일련의 ‘장’에서 내기물을 놓고 규칙에 따라 내기를 벌이는 존재. - 언어, 그리고 텍스트를 통해 이 게임을 구성하는 다양한 층위를 추출해낼 수 있다.
  • 4. - 사회학에도 Content Analysis의 족보가 있다. 그러나 전통적 코딩 방식은 엄청난 시간과 노력 필 요 - 근래의 머신 러닝 기반의 방법론을 통해 이를 크게 절약할 수 있고, - 데이터에 가설이나 연구 문제를 끼워 맞추는 관행 텍스트 마이닝의 사회학적 의미 Social Game
  • 5. NLP와 텍스트 마이닝 이걸로 뭘 할 수 있나요?
  • 6. NLP와 텍스트 마이닝 이걸로 뭘 할 수 있나요?
  • 7. Bag of Words One-hot encoding: d1 𝑏𝑖𝑛𝑎𝑟𝑦 = 0 1 0 1 ⋮ Term Frequency: d1 𝑇𝐹 = 0 3 0 5 ⋮ NLP와 텍스트 마이닝 Traditional Representations of Text +TF-IDF and other applitcations
  • 8. - 특정한 Prior Distribution을 가정하거나(Bayesian), - Nonparametric Estimation Methods를 사용해서 - 연구자가 던진 데이터에서 구조나 패턴을 찾아낸 다. - 이러한 구조나 패턴은 연구자가 직접 해석. - 이렇게 추출한 구조, 패턴이 차원 축소에 기여 가 능 비지도학습, 지도학습, 그리고 사회이론 Unsupervised Learning
  • 9. - 모델에 들어갈 input(혹은 독립 변수)과 output(혹 은 종속 변수)가 모두 코딩되어 있고, - 이러한 input과 output의 관계를 반영하는 모델을 학습시키는 것이 목표. - Precision, recall, F-score, ROC Curve… 비지도학습, 지도학습, 그리고 사회이론 Supervised Learning
  • 10. - BoW 모델의 경우 차원이 너무너무너무너무 많음 발표자의 예시: 문서 4만 개, 단어 6261107개. - Lasso, Ridge(0에 가까운 것들은 제거) - SVM(많은 차원을 설명할 수 있는 다른 차원을 추 가) - Semi-supervised, PCA(차원 축소) 비지도학습, 지도학습, 그리고 사회이론 The Curse of Dimensionality
  • 11. - Content of communication - 표면에 드러난 의사 소통이나 담론의 내용 - 집합적 단위가 중심 - Grimmer & King 2011 / Grimmer & Stewart 2013 / Grimmer 2010 - Bail 2012 / Bail 2014 - DiMaggio et al. 2013 - Kulkarni et al. 2015 -> Word2Vec 설명할 때 나중 텍스트 마이닝 연구의 세 층위 Latent/Manifest Meaning
  • 12. - Interaction, Dynamics, and Embeddedness - 디지털 데이터가 갖는 장점을 활용 - Danescu-Niculescu-Mizil et al. 2013 - Goldberg et al. 2015b 텍스트 마이닝 연구의 세 층위 Social Relationships Through the Process of Communication
  • 13. - Social States - 인간의 감정이나 정치 성향 - 심리적 상태나 속성 - Yu et al. 2015 - Blackburn & Kwak 2014 텍스트 마이닝 연구의 세 층위 Underlying Social World

Editor's Notes

  1. 안녕하세요. 사회학과 석사과정 3학기 오창동입니다. 저는 Evans와 Aceves의 ARS 논문을 발표하게 됐습니다. Watts의 논문과 이 논문 모두 제가 추천해서 이 강의에서 다루게 된 셈인데, 제가 아는 범위 내에선 최대한 세심하게 설명할 수 있도록 노력해 볼게요.
  2. 논문에서 제시한 순서대로 논문 내용을 설명하고 요약하면서 중간 중간에 제가 메일로 받은 질문들에 대해서 제 나름대로 텍스트 자체를 읽고, 그리고 제가 스스로 공부하며 알게 된 부분까지 더해서 답변을 섞어가며 설명을 하겠습니다.
  3. 저자들이 텍스트 마이닝의 사회학적 의미를 설명하기 위해 가져오는게 부르디외입니다. 사실 저는 이론 잘 모르는 편이라 social game과 language game에 대한 해석이 맞는지는 모르겠지만, 제가 이 개념 가장 최근에 봤던 김경만 교수님의 책에서 봤던 내용에 따르면 social game과 부르디외의 장 개념의 핵심은 ‘인간은 온전히 유희적 존재거나 게임이론적 합리성을 가진 것이 아니다. 일련의 ‘장’에서 내기물을 놓고 규칙에 따라 내기를 벌이는 존재.’ 라고 볼 수 있을 것 같습니다. 저자들은 언어, 그리고 텍스트를 통해 이 게임에 참여하는 개인들이 공유하는 믿음이나 관습, 가치와 같은 다양한 층위를 추출해낼 수 있다고 말하고 있고요.
  4. 저자들이 말하는 것처럼 전통적으로 사회학, 그리고 언론학 같은 분야에서도 내용 분석 연구들이 많이 있었지만 대부분 엄청난 노가다를 필요로 합니다. 근래의 머신 러닝과 NLP 기반 방법론은 이걸 크게 절약할 수 있게 해주고, 나아가서 p-hacking처럼 부족한 데이터를 가지고 어떻게든 가설과 연구 문제를 끼워 맞춰서 연구를 생산하는 관행을 극복하는 데에도 도움이 될 수 있다고 주장합니다.
  5. 26페이지에 Stanford의 NLP랩에서 만든 CoreNLP라는 API를 사용해서 근래의 NLP가 도대체 무슨 일을 할 수 있는지 설명을 해 놨는데요, 어떤 문장 하나를 던져줬을 때 그 문장에 대한 POS 태깅이나 성분, 문장 구조 내부에서의 수식이나 의존 관계 분석까지 다 할 수 있다는걸 보여주고 있습니다. 엄청난 용량의 텍스트 데이터를 던져주면 모조리 이런 작업을 해서 분석이 가능하죠. 이와 비슷한 것으로는,
  6. 한국에서 나온 KoNLP라는 패키지가 있습니다. 한국어로도 기초적인 POS 태깅이나 명사 추출 이런 것들은 충분히 할 수 있고, 사실 NLP와 머신 러닝을 결합한 연구들의 경우 dependencies tags나 conferences tags와 같은 부분은 그렇게 중요하게 다뤄지는 경우는 거의 못 봤습니다. 영어가 아닌 언어에서 이런 문장 성분 분석을 사용하기 어렵기 때문이기도 하지만, 대부분 POS 태깅이나 심지어 명사만 뽑아내도 얼추 할 일 다 할 수 있기 때문이라고 생각합니다.
  7. 아무튼 이렇게 대단위 텍스트 데이터를 POS 태깅이건 명사 추출이건 뽑아 놓았다고 가정하면 이걸 바탕으로 어떻게 의미를 추출할 수 있는지가 문제가 됩니다. 우리는 단어나 문장을 보고 바로 그게 어떤 의미인지 알 수 있지만, 컴퓨터가 이해하려면 그걸 숫자의 형태로 바꿔줘야 하니까요. 그래서 등장하는게 저자가 얘기한 Bag of Words라는 개념, 혹은 업계인들이 말하는 co-occurrence matrix입니다. 만일 n개의 문서가 있고 그 문서에 m개의 단어가 있다고 가정하면 특정 단어가 특정 문서에 몇 번이나 등장했는지의 여부를 n * m 행렬로 나타낼 수 있습니다. 이 경우 문서는 m차원의 값을 갖는 벡터 형태로 표현할 수 있고, 문서는 n차원의 값을 갖는 벡터 형태로 표현할 수 있죠. 그리고 그 벡터 공간은 문서와 단어의 의미를 표현하고 있을테고요. 2013년 이전까지의 텍스트 마이닝 연구들 가운데 거의 대부분이 어떤 알고리즘으로 어떤 분석을 하건 일단 co-occurrence matrix는 무조건 만들고 본다고 생각하시면 될 정도로 많이 썼는데 아쉽게도 몇몇 문제가 있어요. 이건 일단 나중에 설명하도록 하죠. 어쨌건 벡터의 형태로 이걸 표현하면 정말 계산하기에도 편하고 온갖 재밌는 일을 할 수 있습니다. 어쨌건 이런 방식으로 문서나 단어의 의미를 일단 컴퓨터가 알아먹을 수 있는 방식으로 표현할 수 있고, 이런 matrix를 만드는 과정에서 발생하는 이런저런 문제를 해결하기 위해 정보검색론에서 TF, TF-IDF같은 다양한 것들이 나왔는데 이건 관심 있으신 분들이 찾아보시면 될 것 같습니다.
  8. 일단 Unsupervised Learning에 대해서 말씀드려야 할텐데, 이 방법론의 경우 토픽 모델링처럼 베이지안적인 사전 분포를 가정하거나 비모수 추정 방법론을 사용해서 데이터에서 구조나 패턴을 찾아내는 방식입니다. (LDA 예시 언급) 여기에서 보여드린 것처럼 구조나 패턴을 보여준다고 해서 그게 바로 답을 주는건 아니에요. 연구자가 그걸 활용해서 해석을 하거나, 아니면 그 데이터를 또 다른 supervised metho의 feature로 넣어줘야 합니다. 이런걸 보통 Semi-supervised Learning이라고 하는데, 이건 supervised 설명하고 말씀드릴게요.
  9. 반면 Supervised Learning의 경우 이미 모델에 들어갈 input features, 우리가 자주 쓰는 용어로 표현하면 독립 변수와 output, 종속 변수가 이미 코딩이 되어 있습니다. 그리고 이렇게 인풋, 아웃풋 사이의 관계를 가장 잘 반영하는 모델을 학습시키는 것이 목표라고 할 수 있어요. 대표적인 예시가 논문에서도 언급된 Sentiment Analysis 입니다. 여기서는 앞서 말한 BoW의 문서별 등장 단어 숫자를 독립 변수로 넣어서 모델을 만든다고 할 수 있겠죠. 저는 정확도만 살펴봤지만 좋은 모델을 평가하는 기준으로는 정확도, 재현율, 이 둘을 모두 반영한 F-score나 ROC Curve가 있어요. 이걸 최대화하는 모델이 가장 뛰어난 모델이라고 할 수 있는 것이죠.
  10. 논문 30페이지에 보면 High Dimensionality에 대한 얘기가 나오는데, 이게 Supervised Learning의 가장 중요한 화두이자 Unsupervised Learning이 크게 기여할 수 있는 부분이기도 해요. 간단히 설명하자면, 기존의 BoW 모델의 경우 모델에 들어가는 차원이 너무 많습니다. (파이썬 콘솔 직접 켜보기) 이렇게 차원이 지나치게 많으면 수학적으로도 여러가지 문제가 생기고, 그냥 직관적으로 생각해도 다양한 문제가 생깁니다. 그래서 이걸 극복하기 위한 다양한 방법론이 등장했고, 앞서 말한 unsupervised learnin에서 추출한 구조나 패턴을 supervised learnin에 활용함으로써 이런 차원의 저주 문제를 해결하는 경우도 많습니다. 지도학습 모델을 훈련할 때 단어 63만 개를 고스란히 넣는 것이 아니라, 비슷한 의미끼리 묶인 LDA의 토픽이나 클러스터링 군집을 feature로 넣어주면 훨씬 더 좋은 모델이 나오는 경우가 많이 있습니다. 이걸 semi-supervised learning이라 하고요, 비슷한 차원 축소 방법론으로 PCA라는 것도 있고 Vector Space에 기반한 word embedding 모델도 알고리즘은 다르지만 결국 차원 축소라는 본질은 동일합니다.
  11. 이런 복잡한 방법론적 문제를 넘어서 저자가 직접 이러한 지도/비지도 학습 방법론이 사회학적 주제를 어떻게 다룰 수 있는지 설명하려 하는데, 거기서 도입하는 세 가지 층위가 있습니다. 그 가운데 첫 번째로 나오는게 잠재된, 혹은 겉으로 드러난 의미를 이걸 통해 찾아낼 수 있다는 얘기인데요, 주로 이 쪽 연구가 최근 사회과학에서는 제일 활발하고 이미 많이 이뤄지고 있는 것 같습니다. 사실 Latent라고는 하지만 실제로는 별로 Latent한 meaning을 찾아내는 것 같지는 않고요, 대용량의 데이터를 바탕으로 사람들이 잘 캐치하지 못했던 새로운 경향을 발견하거나 unsupervised learning을 통해 드러난 군집이나 토픽 등을 연구자가 해석하면서 동향을 파악하는 논문들이 많은 것 같습니다. 물론 단순히 의미를 파악하는 것을 넘어서 그게 어떻게 시계열적으로, 그리고 행위자에 따라 변화할 수 있는지 보는 것도 가능하기 때문에 응용하는 것에 따라서는 다양한 적용이 가능하지만 실제로 그걸 잘 해낸 경우는 많이 못 본 것 같아요. 제가 지금 진행중인 연구(정당 분석, 원자력재단)도 그런 방향에 가깝습니다.
  12. 그 다음으로 나오는 것이 의사소통 과정에서의 사회적 관계를 추적할 수 있다는 것인데요, 상호작용이나 행위자 사이의 다이나믹스, 혹은 배태성 등을 연구할 수 있다고 이야기를 하고 있습니다. 사실 제가 생각하기에 이런 요소는 기존에 사회학에서 많이 다뤄져 왔고, 특히 네트워크 연구가 흥하던 시기에 오프라인에서 취득할 수 있는 observational data를 통해서 많이 다뤄진 주제인 것 같아요. 다만 기존의 관측 데이터가 상호작용이나 네트워크, 다이나믹스를 모두 포괄하기에는 비용과 시간이 너무 들었던 것에 비해 온라인 공론장이나 SNS, 혹은 Internet of Things를 통해 보편화될 데이터 셋을 통해 이렇게나 귀한 데이터를 너무 쉽게 구할 수 있다는 장점이 있는 것 같습니다. 강 교수님이 강조하시는 No Country for Old Members도 그렇고, 읽어보지는 못했지만 Goldberg 등의 논문도 여기에 소개된 것만 보면 굉장히 흥미로운 측면이 있다고 생각합니다. 조직 내부의 행위자들의 적응이나 배태성을 단순히 고전적인 네트워크 관계만으로 측정한 것이 아니라, 그들이 사용하는 ‘언어’를 바탕으로 분석했고, 그걸 실제 기업이나 조직 데이터셋을 바탕으로 쉽게 검증하고 예측 모델을 만들 수 있다는 점에서도 모범적인 연구가 될 수 있을 것 같네요.
  13. 마지막으로 나오는게 사회적 층위의 안쪽에 있는 인간 내면의 상태를 측정할 수 있다는 부분인데, 이건 머신 러닝의 감정 분석 관련 연구 아니면 심리학 계열 연구가 많은 것 같아요. 그렇기 때문에 앞의 두 층위와는 달리 Supervised Learning을 도입한 연구들도 상당히 많이 보이는데, 사실 ML이나 인포싸이 영역에서는 긍정/부정이나 심리 상태 카테고리 나눠서 측정하는 모델 만드는 연구들은 한 해에도 수백 개씩 쏟아져 나옵니다. 다만 본문에 소개된 연구들의 경우 텍스트를 바탕으로 심리적 속성이나 심리학적 근거에 기반한 여러 특성을 성공적으로 예측하거나 추출해낸 케이스인 것 같습니다. 온라인 마피아 게임 배신자를 언어만 가지고 잡아낸다거나, 롤에서 트롤링하는 유저들 예측하는 연구도 fancy하지만 분명 재밌는 측면이 있다고 생각합니다. 사실 사회학이나 정치학의 경우 심리적 요인을 바탕으로 연구를 진행하는 경우가 그리 많지 않은 것 같은데, 텍스트뿐만 아니라 facial recognition system을 사용해서 감정 상태를 측정하고 그걸 사회학/정치학적 토픽과 결합하면 재밌을 것 같다는 생각을 합니다. 예를 들어서 이런 것들이 있는데요, http://statkclee.github.io/deep-learning/ms-oxford-age.html MS에서 지원하는 Face API라는게 있는데, 여기서 그 사진의 인물의 나이를 추정할 수 있는 기능이 있습니다. 그걸 가지고 우리 대통령님을 한번 분석해 본거고요, http://statkclee.github.io/deep-learning/ms-oxford-video.html 나이 추정이 되면 당연히 감정도 추정이 되겠죠. 저는 정상회담이나 연설 같은 자리에서 정치 지도자의 얼굴에서 드러난 감정과 텍스트에서 드러난 감정 데이터를 함께 뽑아내서 외교 정책이나 리더십 관련 연구에 활용할 수 있지 않을까 기대해보게 되네요.