본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
코로나로 인해 촉발된 언택트 시대로 인해 우리 삶에 많은 변화가 일어나고 있습니다. 이러한 변화가 의료계에서는 어떤 모습으로 나타나고 있는지 살펴봅니다. | The untact era triggered by the corona is causing a lot of changes in our lives. Let's take a look at what these changes look like in the medical world.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-finalK data
머신러닝은 인공지능 내부 시스템 가운데 학습영역을 구체화한 기술로 데이터를 반복해서 기계를 학습시키는 알고리즘과 기술을 개발하는 분야이다. 머신러닝 알고리즘은 특성과 사용 분야를 기준으로 크게 유사성 베이스, 정보, 비지도, 신경망의 5가지 유형으로 분류된다. 이번 발표에서 머신러닝이 활용되는 산업별 세계 시장 규모와 실제 머신러닝이 어떻게 실생활에 적용되어 있는지 사례를 들어 설명할 예정이다. 특히 머신러닝 구현을 위해 필수적 요소인 도메인 지식 데이터의 중요성을 확인할 수 있다.
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안K data
빅데이터 시대에서 중요한 것은 의미 분석입니다. 통계분석에서 얻을 수 없는 가치를 빅데이터 분석을 통해 얻을 수 있습니다. 빅데이터는 정형데이터와 비정형데이터를 모두 포함하며, 기업 내부 문서, 이메일, ERP, CRM 같은 시스템에도 있고, 소셜 미디어, 웹블로그 같은 일반 인터넷에도 존재 합니다.
인공지능 알고리즘은 빅데이터를 활용하고 숨은 의미를 찾는데 중요한 역할을 합니다. 현재의 인공지능 기술은 아직 인간의 상식, 창의성, 도덕성을 담을 수 없는 한계를 안고 있습니다. 그러나 특정 분야에서, 예를 들어 고객 민원 자동 분류, 금융 상품 상담과 같은 영역에서 인간보다 뛰어난 처리 능력을 보일 수 있습니다. 궁극적으로 일처리에 효율과 효과를 높이는 방향으로 빅데이터와 인공지능이 활용되고 있습니다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
코로나로 인해 촉발된 언택트 시대로 인해 우리 삶에 많은 변화가 일어나고 있습니다. 이러한 변화가 의료계에서는 어떤 모습으로 나타나고 있는지 살펴봅니다. | The untact era triggered by the corona is causing a lot of changes in our lives. Let's take a look at what these changes look like in the medical world.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-finalK data
머신러닝은 인공지능 내부 시스템 가운데 학습영역을 구체화한 기술로 데이터를 반복해서 기계를 학습시키는 알고리즘과 기술을 개발하는 분야이다. 머신러닝 알고리즘은 특성과 사용 분야를 기준으로 크게 유사성 베이스, 정보, 비지도, 신경망의 5가지 유형으로 분류된다. 이번 발표에서 머신러닝이 활용되는 산업별 세계 시장 규모와 실제 머신러닝이 어떻게 실생활에 적용되어 있는지 사례를 들어 설명할 예정이다. 특히 머신러닝 구현을 위해 필수적 요소인 도메인 지식 데이터의 중요성을 확인할 수 있다.
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안K data
빅데이터 시대에서 중요한 것은 의미 분석입니다. 통계분석에서 얻을 수 없는 가치를 빅데이터 분석을 통해 얻을 수 있습니다. 빅데이터는 정형데이터와 비정형데이터를 모두 포함하며, 기업 내부 문서, 이메일, ERP, CRM 같은 시스템에도 있고, 소셜 미디어, 웹블로그 같은 일반 인터넷에도 존재 합니다.
인공지능 알고리즘은 빅데이터를 활용하고 숨은 의미를 찾는데 중요한 역할을 합니다. 현재의 인공지능 기술은 아직 인간의 상식, 창의성, 도덕성을 담을 수 없는 한계를 안고 있습니다. 그러나 특정 분야에서, 예를 들어 고객 민원 자동 분류, 금융 상품 상담과 같은 영역에서 인간보다 뛰어난 처리 능력을 보일 수 있습니다. 궁극적으로 일처리에 효율과 효과를 높이는 방향으로 빅데이터와 인공지능이 활용되고 있습니다.
6. 데이터 전처리
• Class MyTokenizer
기사 또는 카카오톡 텍스트 처리 -> 조사, 문장기호, 접두사 및 외국어를 제외
pos 라는 메소드를 이용하여 각 형태소의 품사를 추출한 후,
텍스트 처리에 불필요한 품사를 제외시키는 과정.
7. 데이터 전처리
• Word_Indexing
수집한 Labled Data를 Tokenizing 및 형태소 분석, 벡터 차원을 맞추기 위한 패딩 작업을 실행
형태소 분석
텍스트 -> 숫자로 변환
패딩 작업 실행하여 전처리 완료
8. 데이터 학습
• Model Traning (LSTM)
keras의 Sequential 함수로 Embedding층, Dense층, Bi-LSTM층을 쌓아 LSTM 모델을 구성
EMBEDDING_INDEX에 담아놓은 사전
훈련된 워드 임베딩(FastText)을 사용
딥러닝 모델(LSTM)의 입력층,
은닉층, 출력층을 구성
9. 데이터 학습
• Model Traning (LSTM)
손실 함수는 ‘binary crossentropy’, optimizer는 ‘adam’을 사용하여 모델 학습
전처리한 학습데이터로
model fit (모델 학습) 진행
11. 네이버 댓글 학습
네이버 댓글 추가 분석
Article Data
Article
Model
Comments
Model
[0.37, 0.86] [0.59, 0.62]
Comments Data
12. 모델 성능 비교
정치 경제 사회 기타
카테고리 세분화
(under sampling)
with Comments
53.2% 41.9% 64.5% 63.0%
카테고리 세분화
(under sampling)
53.2% 48.3% 60.7% 67.3%
전체
(under sampling)
50.6% 54.8% 55.6% 54.3%
14. 프로세스 효율성 개선
Schedule
Every 1 hour
Web scraping
Article
LSTM Model
Comments
LSTM Model Database
Web Server
일정 시간마다 딥러닝 모델 실행하여 데이터베이스에 결과 저장
사용자 요청 처리시간 1.7초에서 0.01초로 단축