제2회 열린세미나 100도씨의 발표자료입니다.
Unique Count를 구하기위한 몇가지 특징과 자료구조등을 정리한 발표자료입니다.
* 열린세미나 그룹
https://www.facebook.com/groups/576473599127259/
* 블로그
http://blog.indf.net
제2회 열린세미나 100도씨의 발표자료입니다.
Unique Count를 구하기위한 몇가지 특징과 자료구조등을 정리한 발표자료입니다.
* 열린세미나 그룹
https://www.facebook.com/groups/576473599127259/
* 블로그
http://blog.indf.net
[제 8회 BOAZ 빅데이터 컨퍼런스]
해가 가도 줄어들지 않는 낚시성 기사! 기레기라는 단어를 만들어내고 언론 신뢰도를 낮춰가고 있다. 우리 조는 낚시성 기사 분류기로 이 문제를 해결하고자 한다. 텍스트마이닝 기법을 사용해 피쳐를 뽑았다. 뽑은 피쳐를 머신러닝 기법을 통해 학습시켜 낚시성 기사 분류기를 통해 낚시성 기사가 사전에 차단될 수 있는 효과를 기대한다.
7기 이지연 9기 김미성 방대영
****국내최초 빅데이터 대학생 연합동아리 BOAZ****
페이스북: https://www.facebook.com/BOAZbigdata/
블로그: http://blog.naver.com/boazbigdata
인스타그램: http://www.instagram.com/boaz_bigdata
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
[제 8회 BOAZ 빅데이터 컨퍼런스]
해가 가도 줄어들지 않는 낚시성 기사! 기레기라는 단어를 만들어내고 언론 신뢰도를 낮춰가고 있다. 우리 조는 낚시성 기사 분류기로 이 문제를 해결하고자 한다. 텍스트마이닝 기법을 사용해 피쳐를 뽑았다. 뽑은 피쳐를 머신러닝 기법을 통해 학습시켜 낚시성 기사 분류기를 통해 낚시성 기사가 사전에 차단될 수 있는 효과를 기대한다.
7기 이지연 9기 김미성 방대영
****국내최초 빅데이터 대학생 연합동아리 BOAZ****
페이스북: https://www.facebook.com/BOAZbigdata/
블로그: http://blog.naver.com/boazbigdata
인스타그램: http://www.instagram.com/boaz_bigdata
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
– Elastic stack과 Data pipeline의 개념
– 데이터의 종류와 형태 / Document 데이터 모델링 (mapping, data type)
– 분산 데이터 저장소 관점에서의 Elasticsearch (index, shard & replica, segment)
https://learningspoons.com/course/detail/elastic-stack/
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
100% Serverless big data scale production Deep Learning Systemhoondong kim
- BigData Sale Deep Learning Training System (with GPU Docker PaaS on Azure Batch AI)
- Deep Learning Serving Layer (with Auto Scale Out Mode on Web App for Linux Docker)
- BigDL, Keras, Tensorlfow, Horovod, TensorflowOnAzure
2. 1. 서울대에서 A+받는 법(https://goo.gl/R5XcX9)
2. 빅데이터가 세상을 바꾼다(https://goo.gl/kgrTUF)
3. 데이터 사이언티스트의 현실과 미래(https://goo.gl/6Tts8Y)
4. Ted, 수잔 이틀린저: 빅 데이터로 할 일(https://goo.gl/gXvx8C)
소감 : 빅 데이터를 통해서 여러가지 연구 보다 쉽게 할 수 있고
데이터 사이언티스트 라는 직업이 있다는 사실도 알게 되었다.
이도형
1. 빅데이터 정의
- 영상 소감
3. 이도형
1. 빅데이터 정의
빅 데이터 란?
과거에 비해 규모가 방대.
생성 주기가 짧다.
수치 데이터 및 문자,영상 데이터를
포함하는 대규모 데이터
빅 데이터 정의
3V
크기(Volume)
다양성(Variety)
속도(Velocity)
가치(Value)
4. 이도형
1. 빅데이터 정의
크기 (Volume) 다양성(Variety)
가치(Value)속도(Velocity)
• 데이터의 물리적 크기
• 기업 데이터, 웹 로그 데이터
등 대용량을 의미
• 데이터의 형태
• 정형 데이터, 반 정형 데이터,
• 비정형 데이터를 모두 포함
• 대부분 데이터들의 전체를 파악
• 가치 창출의 중요성이 강조 되는 시대
• 데이터의 생성 및 처리속도
• 생성 후 유통 및 활용되기까지의
시간을 초 단위 이하로 단축
5. 이도형
1.2 R studio를 이용한 프로그래밍
Source
R명령어를 입력하는 창
Console
명령문 실행 및 에러 메시지
Environment
할당된 변수와 데이터
6. 이도형
1.2 R studio를 이용한 프로그래밍 기본 / 벡터 생성
- 변수 z를 이용하여 2020을
표현하는 방법 (3가지)
- Console : 결과물
1) 2)
- y에 4개의 문자열을 할당함
1) 2)
3)
3)
- 함수 내에서 연산
7. 이도형
2. 텍스트마이닝 (textmining)
• 자연어로 구성된 비정형 데이터에서 패턴 또는 관계를
추출하여 의미 있는 정보를 찾아내는 기법
• 컴퓨터가 사람들이 말하는 언어를 이해할 수 있는
자연어 처리 기반을 둔 기술
• 웹 상에 존재하는 방대한 비정형 데이터를 실시간으로 수집,
분석하여 고객의 감성 및 의도 등을 분석해 내는 과정
• 비 정형화된 텍스트 문서에서 정보를 찾아내는 기법
8. 이도형
2.1 워드 클라우드
• 최근에 워드클라우드가 이용된 통계 자료 및 기사
(http://news.joins.com/article/20805049)
- 남고를
연상시키는 단어
- 여고를
연상시키는 단어
9. 이도형
2.2 텍스트 마이닝을 위한 함수 1
• 패키지란? : R에 내장되어 있지 않는 함수를 이용하게 하는 방법.
• Install.package(“ex:KoNLP”) : KoNLP라는 패키지를 설치하기 위한 함수
• Library(KoNLP) : 패키지를 작업 영역으로 불러오는 함수
• KoNLP 패키지 : 한글 텍스트 처리를 위한 패키지
-useSejongDic() : KoNLP에 있는 세종 사전을 사용하는 함수
-extractNoun(): 한글텍스트에서 명사만 추출하기 위한 함수
• nchar() : 글자의 수를 세는 함수
- ex) noun[nchar(nouns) >=2] : 2개 이상인 글자의 수를 센다
10. 이도형
2.2 텍스트 마이닝을 위한 함수 2
• gsub() : 문자열에서 패턴을 검색하여 지정된 문자로 대체하는 함수
-gsub(pattern, replacement, x)
-pattern : 대체할 문자열
-x : 문자열 벡터
- ex) nouns= gsub(“텍스트 바이닝“, “텍스트 마이닝“, nouns)
• wordcloud() : 워드 클라우드를 작성하기 위한 함수
• <빈도 분석을 위한 함수>
table() : 단어의 사용빈도를 알 수 있다.
sort() : 단어의 사용빈도를 내림차순 으로 정렬
11. 이도형
2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용)
코드 :
1. corpus 생성 (corpus = 컴퓨터가 이해할 수 있도록 모아둔 자료)
2. 공백 제거
3. 소문자 변환
4. 구두점 제거
# removewords , stopwords(“~”) 를 이용한다면 불용어 제거도 가능함.
“pr.txt”를 불러옴
C:/Desktop 폴더에 진입
#을 붙이면 주석으로 코드에 영향을 미치지 않음
- 워드 클라우드 모양에 대한 세부적 설정
12. 이도형
2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용)
결과물:
THE
AND
WORLD
PEOPLE
13. 이도형
2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (페이지 이용)
- 페이스북 HuffPostkorea 페이지를 이용.
포스트 순서에 따른 글 내용. 포스트 순서에 따른 좋아요, 댓글 공유 수
페이지 내용에서 30개의 내용만 가지고 오는 함수
14. 이도형
2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (친구 목록 이용)
페이스북 인증 문제 등 복잡한 인증 절차와 최근 강화된
개인정보 보호 문제로 인한 개발자 등록이 되어있는 친구의 목록만 나옴.
페이스북에서 나의 친구 목록을 볼 수 있는 함수