SlideShare a Scribd company logo
채용공고로 알아보는 IT 기술 트렌드 분석 서비스
STEC
이형남 이유진 유성호 민기홍 김정호
STEC
CONTENTS
01.
02.
03.
04.
프로젝트 소개
프로젝트 기획
데이터 파이프라인 구축
검색엔진
01 프로젝트 소개
01
STEC
인기 있는 기술이
기술 트렌드와
동일할까?
프로젝트 소개 STEC 이란?
기업이 생각하는
기술 트렌드는
채용공고 안에
들어있다!
STEC
01 프로젝트 소개 STEC 이란?
기술 “스택”
STACK + TECH
(쌓아올리다) (기술)
기술 트렌드 정보를
쌓아서 보여주자!
01
STEC
프로젝트 소개 STEC 이란?
01
STEC
쌓인 공고 개수
검색창
최근 공고
Link: http://stectoday.com/
프로젝트 소개 STEC 시연 메인 화면
01
STEC
공고명
회사명
기술명
Link: http://stectoday.com/
프로젝트 소개 STEC 시연 공고 검색창
01
STEC
Link: http://stectoday.com/
검색어
공고로
이동
검색어에 해당되는
공고 검색
프로젝트 소개 STEC 시연 공고 검색 결과
01
STEC
기술 스택
요약 정보 검색
Link: http://stectoday.com/
프로젝트 소개 STEC 시연 기술 정보 검색창
01
STEC
일주일, 1개월
기준으로 검색
기술
요약 정보
프로젝트 소개 STEC 시연 기술 요약 정보
01
STEC
Link: http://stectoday.com/
프로젝트 소개 STEC 시연 기술 요약 정보
02 프로젝트 기획
02
STEC
인터뷰 자동화
웹페이지 플로우
타겟유저 설정
저작권
운영비용
Google Analytics
광고
인력배분
기능추가
Business Model Canvas
Slack git lab
trello
프로젝트 기획 서비스 구체화
02
STEC
STEP2.
STEC Corpus 및
데이터 파이프라인 구축
STEP3.
데이터 파이프라인 자동화
STEP1.
흩어져 있는 구인 정보 수집 및
게시판 형태로 시각화
프로젝트 기획 로드맵
02
STEC
프로젝트 투입인원
비용 최소화
• Free tier 활용 ▲
• SaaS 활용 ▲
• 기술 스택 범위 ▼
• 프로젝트 범위 ▼
한국어 처리 어려움
$
ㄱㄴㄷ
프로젝트 기획 제약사항
02
STEC
프로젝트 기획 전체 아키텍쳐
03 데이터 파이프라인
구축
03
STEC
Elasticsearch
Crawler한국어 처리기
Data Pipeline
Data Source(Web)
데이터 파이프라인 구축 데이터 파이프라인 아키텍쳐
IT기업
IT
채용 공고
사이트
kakao
Naver
Nermarble
Nexon
Programmers
Rocketpunch
• 공고명
• 기업명
• 직군명
• 공고 날짜
• 경력여부
• URL
• 공고 내용
수집내용
03
STEC
데이터 파이프라인 구축 Crawler 수집 대상 정보
03
STEC
WEB
DATA
SOURSE
Crontab
CRAWLER
수집 파싱 반복
데이터 파이프라인 구축 Crawler 수집 방법
CrawlingCrawling
03
STEC
Crawling
추출
분류전처리
한국어 처리기
Search
Engine
데이터 파이프라인 구축 한국어 처리기
03
STEC
불필요한 공백 제거
불필요한 문자 제거
소문자로 변환
^?&
A→ a
“ “
연산 효율 / 정확도 ▲
동의어 정제 효과
데이터 파이프라인 구축 한국어 처리기 전처리
03
STEC
데이터 파이프라인 구축 한국어 처리기 기술명 추출
기술명
명사 외국어 외래어
한나눔
연산효율▲
정확도 ▲
03
STEC
기술명
후보
동의어 사전
기술명 사전
기술명
일반 단어
STEC Corpus
데이터 파이프라인 구축 한국어 처리기 기술명 분류
04 검색 엔진
04
STEC
Crawling Storage
Retrieval System
Search
Engine
검색엔진 검색 시스템 검색 시스템이란?
검
색
량
시간
역 인덱싱
The bright blue
butterfly
Hangs on the breeze.
On, the
Stopword list
1. Blue 1,2
2. butterfly 1
3. Bright 1,2
4. Breeze 1
5. Sunlight 2
Under blue sky, in
bright sunlight, one
need not search
around
Document 2Document 1
04
STEC
• 실시간성 달성
• 정보 저장/관리 용이
검색엔진 검색 시스템 역 인덱싱
TF-IDF
랭킹 알고리즘
1
2
3
BM25
TF-IDF
+ 문서의
길이 고려
04
STEC
검색엔진 검색 시스템 랭킹 알고리즘
Clients
Cache Service
ShardingCaching
+
-
Real-time
Searching
Non-strict
Ranking
04
STEC
검색엔진 검색 시스템 Caching & Sharding
Retrieval system
Crawling
Storage
Search
Engine
AWS Elasticsearch
04
STEC
DB Less
- • Data ACID 보장 X
• 고비용 저장소
• DB 운영 X+
검색엔진 STEC의 검색 기술 Elastic search
Querying
Aggregation
• Keyword
• 자동완성 지원
Text quering
평균, 개수 등 기술 통계량
04
STEC
검색엔진 STEC의 검색 기술 Querying & Aggregation
char_filter
자동완성 검색의 매핑문 일부
"completion":{
"type":"completion",
"analyzer": "completion_analyzer"
},
일반검색의 매핑문 일부
"title":{
"type":"text",
"analyzer": "hangeul_analyzer",
"copy_to":["title_completion"],
},
char_filter
filter
Analyzer
char_filter
char_filtertokenizer
04
STEC
검색엔진 Analyzer Analyzer 구성
제약사항 1
+ SaaS
사용
커스터마이징 어려움
시간 인력
한국어 처리 어려움
ex)
한글
자음
모음
자소분해
커스터마이징 필요
04
STEC
제약사항 2
검색엔진 Analyzer 제약사항 충돌
"analyzer":{
"hangeul_analyzer":{
"type":"custom",
"tokenizer":"hanguel_tokenizer",
"filter":[
"lowercase",
"trim",
],
},
"tokenizer":{
"hanguel_tokenizer":{
"type": "seunjeon_tokenizer",
"deniflect":"true",
"decompound":"false",
"index_eojeol":"false",
"index_poses":["N", "V", "M", "UNK"],
"pos_tagging":"false",
"max_unk_length":8,
},
},
선전
tokenizer
• AWS ESS 6.0 사용
• 버전 호환성 맞춤
04
STEC
검색엔진 Analyzer 의미 기준 검색
품사분해
의미기준
검색
"analyzer":{
"completion_analyzer":{
"type":"custom",
"char_filter":["jaso_char"],
"tokenizer":"icu_tokenizer"
},
},
"char_filter":{
"jaso_char":{
"type": "icu_normalizer",
"name":"nfkc_cf",
"mode":"decompose"
},
},
자소분해
UNICODE
분해KOR NLP
04
STEC
검색엔진 Analyzer 자동완성
자동완성
감사합니다

More Related Content

Similar to STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스

[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
Amazon Web Services Korea
 
[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람
[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람
[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람
OpenStack Korea Community
 
비즈니스 데이터 크롤링
비즈니스 데이터 크롤링비즈니스 데이터 크롤링
비즈니스 데이터 크롤링
완선 이
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Amazon Web Services Korea
 
[2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견!
[2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견![2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견!
[2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견!Nts Nuli
 
소프트웨어공학 프로젝트 최종발표.pptx
소프트웨어공학 프로젝트 최종발표.pptx소프트웨어공학 프로젝트 최종발표.pptx
소프트웨어공학 프로젝트 최종발표.pptx
Gwangho Kim
 
[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18
[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18
[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18
JEONG HAN Eom
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
Yunjeong Susan Hong
 
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
ABRC_DATA
 
Sw 아키텍처와 sw 공학
Sw 아키텍처와 sw 공학Sw 아키텍처와 sw 공학
Sw 아키텍처와 sw 공학
영온 김
 
시종설_최종.pptx
시종설_최종.pptx시종설_최종.pptx
시종설_최종.pptx
ssusere04900
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipeline
Jongho Woo
 
정보공학(IE) 방법론.pptx
정보공학(IE) 방법론.pptx정보공학(IE) 방법론.pptx
정보공학(IE) 방법론.pptx
Seong-Bok Lee
 
Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects
Ted Won
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
BOAZ Bigdata
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
hoondong kim
 
하루에 1시간을 벌 수 있는 10가지 방법
하루에 1시간을 벌 수 있는 10가지 방법하루에 1시간을 벌 수 있는 10가지 방법
하루에 1시간을 벌 수 있는 10가지 방법
Devgear
 
2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)
metamining
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
BOAZ Bigdata
 
옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?
옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?
옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?
Marcetto Co., Ltd
 

Similar to STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스 (20)

[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
 
[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람
[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람
[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람
 
비즈니스 데이터 크롤링
비즈니스 데이터 크롤링비즈니스 데이터 크롤링
비즈니스 데이터 크롤링
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
[2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견!
[2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견![2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견!
[2014널리세미나] 접근성 빅(?) 데이터, 새로운 법칙의 발견!
 
소프트웨어공학 프로젝트 최종발표.pptx
소프트웨어공학 프로젝트 최종발표.pptx소프트웨어공학 프로젝트 최종발표.pptx
소프트웨어공학 프로젝트 최종발표.pptx
 
[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18
[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18
[BLT] 아이디어 워크샵 소개자료 v1.0 2015.08.18
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
 
Sw 아키텍처와 sw 공학
Sw 아키텍처와 sw 공학Sw 아키텍처와 sw 공학
Sw 아키텍처와 sw 공학
 
시종설_최종.pptx
시종설_최종.pptx시종설_최종.pptx
시종설_최종.pptx
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipeline
 
정보공학(IE) 방법론.pptx
정보공학(IE) 방법론.pptx정보공학(IE) 방법론.pptx
정보공학(IE) 방법론.pptx
 
Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
하루에 1시간을 벌 수 있는 10가지 방법
하루에 1시간을 벌 수 있는 10가지 방법하루에 1시간을 벌 수 있는 10가지 방법
하루에 1시간을 벌 수 있는 10가지 방법
 
2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
 
옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?
옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?
옆에 다가 온 클라우드, 어떻게 같이 갈 것인가?
 

More from HYEONGNAM LEE

소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
HYEONGNAM LEE
 
REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?
HYEONGNAM LEE
 
계륵 같은 딥러닝, 실 서비스 적용기
계륵 같은 딥러닝, 실 서비스 적용기계륵 같은 딥러닝, 실 서비스 적용기
계륵 같은 딥러닝, 실 서비스 적용기
HYEONGNAM LEE
 
Rnn for seq
Rnn for seqRnn for seq
Rnn for seq
HYEONGNAM LEE
 
코딩은 문제해결이다 (도구로써 파이썬)
코딩은 문제해결이다 (도구로써 파이썬)코딩은 문제해결이다 (도구로써 파이썬)
코딩은 문제해결이다 (도구로써 파이썬)
HYEONGNAM LEE
 
Why game users drop out of blade & soul? - 2018 big contest
Why game users drop out of blade & soul? - 2018 big contestWhy game users drop out of blade & soul? - 2018 big contest
Why game users drop out of blade & soul? - 2018 big contest
HYEONGNAM LEE
 

More from HYEONGNAM LEE (6)

소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
 
REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?
 
계륵 같은 딥러닝, 실 서비스 적용기
계륵 같은 딥러닝, 실 서비스 적용기계륵 같은 딥러닝, 실 서비스 적용기
계륵 같은 딥러닝, 실 서비스 적용기
 
Rnn for seq
Rnn for seqRnn for seq
Rnn for seq
 
코딩은 문제해결이다 (도구로써 파이썬)
코딩은 문제해결이다 (도구로써 파이썬)코딩은 문제해결이다 (도구로써 파이썬)
코딩은 문제해결이다 (도구로써 파이썬)
 
Why game users drop out of blade & soul? - 2018 big contest
Why game users drop out of blade & soul? - 2018 big contestWhy game users drop out of blade & soul? - 2018 big contest
Why game users drop out of blade & soul? - 2018 big contest
 

STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스