STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스

채용공고로 알아보는 IT 기술 트렌드 분석 서비스
STEC
이형남 이유진 유성호 민기홍 김정호

STEC
CONTENTS
01.
02.
03.
04.
프로젝트 소개
프로젝트 기획
데이터 파이프라인 구축
검색엔진

01
STEC
인기 있는 기술이
기술 트렌드와
동일할까?
프로젝트 소개 STEC 이란?

기업이 생각하는
기술 트렌드는
채용공고 안에
들어있다!
STEC
01 프로젝트 소개 STEC 이란?

기술 “스택”
STACK + TECH
(쌓아올리다) (기술)
기술 트렌드 정보를
쌓아서 보여주자!
01
STEC
프로젝트 소개 STEC 이란?

01
STEC
쌓인 공고 개수
검색창
최근 공고
Link: http://stectoday.com/
프로젝트 소개 STEC 시연 메인 화면

01
STEC
공고명
회사명
기술명
프로젝트 소개 STEC 시연 공고 검색창

01
STEC
검색어
공고로
이동
검색어에 해당되는
공고 검색
프로젝트 소개 STEC 시연 공고 검색 결과

01
STEC
기술 스택
요약 정보 검색
프로젝트 소개 STEC 시연 기술 정보 검색창

01
STEC
일주일, 1개월
기준으로 검색
기술
요약 정보
프로젝트 소개 STEC 시연 기술 요약 정보

01
STEC
프로젝트 소개 STEC 시연 기술 요약 정보

02
STEC
인터뷰 자동화
웹페이지 플로우
타겟유저 설정
저작권
운영비용
Google Analytics
광고
인력배분
기능추가
Business Model Canvas
Slack git lab
trello
프로젝트 기획 서비스 구체화

02
STEC
STEP2.
STEC Corpus 및
데이터 파이프라인 구축
STEP3.
데이터 파이프라인 자동화
STEP1.
흩어져 있는 구인 정보 수집 및
게시판 형태로 시각화
프로젝트 기획 로드맵

02
STEC
프로젝트 투입인원
비용 최소화
• Free tier 활용 ▲
• SaaS 활용 ▲
• 기술 스택 범위 ▼
• 프로젝트 범위 ▼
한국어 처리 어려움
$
ㄱㄴㄷ
프로젝트 기획 제약사항

02
STEC
프로젝트 기획 전체 아키텍쳐

03 데이터 파이프라인
구축

03
STEC
Elasticsearch
Crawler한국어 처리기
Data Pipeline
Data Source(Web)
데이터 파이프라인 구축 데이터 파이프라인 아키텍쳐

IT기업
IT
채용 공고
사이트
kakao
Naver
Nermarble
Nexon
Programmers
Rocketpunch
• 공고명
• 기업명
• 직군명
• 공고 날짜
• 경력여부
• URL
• 공고 내용
수집내용
03
STEC
데이터 파이프라인 구축 Crawler 수집 대상 정보

03
STEC
WEB
DATA
SOURSE
Crontab
CRAWLER
수집 파싱 반복
데이터 파이프라인 구축 Crawler 수집 방법

CrawlingCrawling
03
STEC
Crawling
추출
분류전처리
한국어 처리기
Search
Engine
데이터 파이프라인 구축 한국어 처리기

03
STEC
불필요한 공백 제거
불필요한 문자 제거
소문자로 변환
^?&
A→ a
“ “
연산 효율 / 정확도 ▲
동의어 정제 효과
데이터 파이프라인 구축 한국어 처리기 전처리

03
STEC
데이터 파이프라인 구축 한국어 처리기 기술명 추출
기술명
명사 외국어 외래어
한나눔
연산효율▲
정확도 ▲

03
STEC
기술명
후보
동의어 사전
기술명 사전
기술명
일반 단어
STEC Corpus
데이터 파이프라인 구축 한국어 처리기 기술명 분류

04
STEC
Crawling Storage
Retrieval System
Search
Engine
검색엔진 검색 시스템 검색 시스템이란?

검
색
량
시간
역 인덱싱
The bright blue
butterfly
Hangs on the breeze.
On, the
Stopword list
1. Blue 1,2
2. butterfly 1
3. Bright 1,2
4. Breeze 1
5. Sunlight 2
Under blue sky, in
bright sunlight, one
need not search
around
Document 2Document 1
04
STEC
• 실시간성 달성
• 정보 저장/관리 용이
검색엔진 검색 시스템 역 인덱싱

TF-IDF
랭킹 알고리즘
1
2
3
BM25
TF-IDF
+ 문서의
길이 고려
04
STEC
검색엔진 검색 시스템 랭킹 알고리즘

Clients
Cache Service
ShardingCaching
+
-
Real-time
Searching
Non-strict
Ranking
04
STEC
검색엔진 검색 시스템 Caching & Sharding

Retrieval system
Crawling
Storage
Search
Engine
AWS Elasticsearch
04
STEC
DB Less
- • Data ACID 보장 X
• 고비용 저장소
• DB 운영 X+
검색엔진 STEC의 검색 기술 Elastic search

Querying
Aggregation
• Keyword
• 자동완성 지원
Text quering
평균, 개수 등 기술 통계량
04
STEC
검색엔진 STEC의 검색 기술 Querying & Aggregation

char_filter
자동완성 검색의 매핑문 일부
"completion":{
"type":"completion",
"analyzer": "completion_analyzer"
},
일반검색의 매핑문 일부
"title":{
"type":"text",
"analyzer": "hangeul_analyzer",
"copy_to":["title_completion"],
},
char_filter
filter
Analyzer
char_filter
char_filtertokenizer
04
STEC
검색엔진 Analyzer Analyzer 구성

제약사항 1
+ SaaS
사용
커스터마이징 어려움
시간 인력
한국어 처리 어려움
ex)
한글
자음
모음
자소분해
커스터마이징 필요
04
STEC
제약사항 2
검색엔진 Analyzer 제약사항 충돌

"analyzer":{
"hangeul_analyzer":{
"type":"custom",
"tokenizer":"hanguel_tokenizer",
"filter":[
"lowercase",
"trim",
],
},
"tokenizer":{
"hanguel_tokenizer":{
"type": "seunjeon_tokenizer",
"deniflect":"true",
"decompound":"false",
"index_eojeol":"false",
"index_poses":["N", "V", "M", "UNK"],
"pos_tagging":"false",
"max_unk_length":8,
},
},
선전
tokenizer
• AWS ESS 6.0 사용
• 버전 호환성 맞춤
04
STEC
검색엔진 Analyzer 의미 기준 검색
품사분해
의미기준
검색

"analyzer":{
"completion_analyzer":{
"type":"custom",
"char_filter":["jaso_char"],
"tokenizer":"icu_tokenizer"
},
},
"char_filter":{
"jaso_char":{
"type": "icu_normalizer",
"name":"nfkc_cf",
"mode":"decompose"
},
},
자소분해
UNICODE
분해KOR NLP
04
STEC
검색엔진 Analyzer 자동완성
자동완성

STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스

Recommended

Recommended

More Related Content

Similar to STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스

Similar to STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스 (20)

More from HYEONGNAM LEE

More from HYEONGNAM LEE (6)

STEC: 채용공고로 알아보는 IT 기술 트렌드 분석 서비스