Tableau 시각화 작성을 위해 데이터세트 준비에 많은 시간이 소요됩니다. 데이터 세트의 preparation 과 advanced analytic를 쉽게 할수 있게 합니다. 성공적인 Tableau data blending을 위한 6단계입니다. - by pikdata (www.pikdata.com)
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
Tableau 시각화 작성을 위해 데이터세트 준비에 많은 시간이 소요됩니다. 데이터 세트의 preparation 과 advanced analytic를 쉽게 할수 있게 합니다. 성공적인 Tableau data blending을 위한 6단계입니다. - by pikdata (www.pikdata.com)
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
최근 다양한 분야에서의 빅데이터 분석 시스템이 구축되어 활용되고 있으나, 대부분의 대상 데이터들이 텍스트 기반의 데이터를 한정하고 있다. 그러나, 현재 전 산업 분야에서 이미지(비디오) 데이터가 빅데이터의 핵심으로 부상하면서 이를 분석하기 위한 이미지 마이닝 기술에 대한 관심이 고조되고 있다. 이미지 마이닝 기술은 이미지 프로세싱 기술에 대한 연구가 시작된 시점 1960년대 이후인 1970년대부터 연구되기 시작하였다. 이와 관련된 많은 연구들이 의학적인 분야와 국방 분야에서 많이 연구되어 오다, 최근에는 마케팅 분야를 포함한 다양한 분야에서 연구되어 오고 있으며, 일부 산업 분야에서는 상용기술이 개발되어 실제 산업에 적용되고 있다. 이러한 기술들이 최근 빅데이터 기술에 대한 관심이 증가하면서 이미지(비디오) 데이터 분석에 적용하기 위한 연구들이 집중되고 있다. 이에 이에 이미지 마이닝을 위한 기존의 기술들의 연구 동향과 이러한 기술들을 활용하고 있는 산업 분야의 응용에 대한 동향을 조사 분석하고 향후 발전 방향에 대해 살펴보기로 한다.
최근 다양한 분야에서의 빅데이터 분석 시스템이 구축되어 활용되고 있으나, 대부분의 대상 데이터들이 텍스트 기반의 데이터를 한정하고 있다. 그러나, 현재 전 산업 분야에서 이미지(비디오) 데이터가 빅데이터의 핵심으로 부상하면서 이를 분석하기 위한 이미지 마이닝 기술에 대한 관심이 고조되고 있다. 이미지 마이닝 기술은 이미지 프로세싱 기술에 대한 연구가 시작된 시점 1960년대 이후인 1970년대부터 연구되기 시작하였다. 이와 관련된 많은 연구들이 의학적인 분야와 국방 분야에서 많이 연구되어 오다, 최근에는 마케팅 분야를 포함한 다양한 분야에서 연구되어 오고 있으며, 일부 산업 분야에서는 상용기술이 개발되어 실제 산업에 적용되고 있다. 이러한 기술들이 최근 빅데이터 기술에 대한 관심이 증가하면서 이미지(비디오) 데이터 분석에 적용하기 위한 연구들이 집중되고 있다. 이에 이에 이미지 마이닝을 위한 기존의 기술들의 연구 동향과 이러한 기술들을 활용하고 있는 산업 분야의 응용에 대한 동향을 조사 분석하고 향후 발전 방향에 대해 살펴보기로 한다.
The document is a repetitive list of the phrase "How to make word network?" appearing over 30 times. It ends with a short quote about data being collected by people rather than existing in a perfect, pre-organized form, followed by contact information.
The document is a repetitive list asking "How to make word cloud?" multiple times with no other context, until the 26th entry which is a quote about how data is ultimately collected by people, not existing in perfectly organized excel sheets as assumed. It ends with contact information.
최근 다양한 분야에서의 빅데이터 분석 시스템이 구축되어 활용되고 있으나, 대부분의 대상 데이터들이 텍스트 기반의 데이터를 한정하고 있다. 그러나, 현재 전 산업 분야에서 이미지(비디오) 데이터가 빅데이터의 핵심으로 부상하면서 이를 분석하기 위한 이미지 마이닝 기술에 대한 관심이 고조되고 있다. 이미지 마이닝 기술은 이미지 프로세싱 기술에 대한 연구가 시작된 시점 1960년대 이후인 1970년대부터 연구되기 시작하였다. 이와 관련된 많은 연구들이 의학적인 분야와 국방 분야에서 많이 연구되어 오다, 최근에는 마케팅 분야를 포함한 다양한 분야에서 연구되어 오고 있으며, 일부 산업 분야에서는 상용기술이 개발되어 실제 산업에 적용되고 있다. 이러한 기술들이 최근 빅데이터 기술에 대한 관심이 증가하면서 이미지(비디오) 데이터 분석에 적용하기 위한 연구들이 집중되고 있다. 이에 이에 이미지 마이닝을 위한 기존의 기술들의 연구 동향과 이러한 기술들을 활용하고 있는 산업 분야의 응용에 대한 동향을 조사 분석하고 향후 발전 방향에 대해 살펴보기로 한다.
최근 다양한 분야에서의 빅데이터 분석 시스템이 구축되어 활용되고 있으나, 대부분의 대상 데이터들이 텍스트 기반의 데이터를 한정하고 있다. 그러나, 현재 전 산업 분야에서 이미지(비디오) 데이터가 빅데이터의 핵심으로 부상하면서 이를 분석하기 위한 이미지 마이닝 기술에 대한 관심이 고조되고 있다. 이미지 마이닝 기술은 이미지 프로세싱 기술에 대한 연구가 시작된 시점 1960년대 이후인 1970년대부터 연구되기 시작하였다. 이와 관련된 많은 연구들이 의학적인 분야와 국방 분야에서 많이 연구되어 오다, 최근에는 마케팅 분야를 포함한 다양한 분야에서 연구되어 오고 있으며, 일부 산업 분야에서는 상용기술이 개발되어 실제 산업에 적용되고 있다. 이러한 기술들이 최근 빅데이터 기술에 대한 관심이 증가하면서 이미지(비디오) 데이터 분석에 적용하기 위한 연구들이 집중되고 있다. 이에 이에 이미지 마이닝을 위한 기존의 기술들의 연구 동향과 이러한 기술들을 활용하고 있는 산업 분야의 응용에 대한 동향을 조사 분석하고 향후 발전 방향에 대해 살펴보기로 한다.
The document is a repetitive list of the phrase "How to make word network?" appearing over 30 times. It ends with a short quote about data being collected by people rather than existing in a perfect, pre-organized form, followed by contact information.
The document is a repetitive list asking "How to make word cloud?" multiple times with no other context, until the 26th entry which is a quote about how data is ultimately collected by people, not existing in perfectly organized excel sheets as assumed. It ends with contact information.
This document discusses data scraping and contains contact information for data scraping services. It lists the topic "Data Scraping" multiple times and provides a Korean language phrase that translates to "data also fell from the sky a little." The document ends by listing an email address and blog URL for contacting someone about data scraping.
37. [37]
"데이터는 어느 날 갑자기 태어나는 것이 아닙니다.
우리는 깔끔하게 정리된 절대적인 데이터를 엑셀
시트로 분석할 수 있다고 착각하곤 합니다. 그러나
현실 세계에서 그런 일은 없습니다.
데이터는 결국 사람에 의해 수집됩니다.
- 네이트 실버(‘신호와 소음’저자)
newspeppermint.com/2014/06/09/piketty-data/
Data Analysis & Regex?