목차
2
1. 개요
▪ 주제소개(4p)
▪ 도전 과제(5p)
2. 개념 설계
▪ 서비스 기능 도출(7p)
▪ 프로그램 구조도(8p)
▪ 분산 시스템 개념도(9p)
3. 데이터 처리 및 분석
▪ 뉴스 수집 및 처리(11p)
▪ 클러스터링(15p)
4. 추천 서비스 및 웹 서비스 구축
▪ 추천 알고리즘 구축(20p)
▪ 웹 개발(23p)
5. 서비스 시연
▪ 주제 소개
4
왜뉴스 추천을 하는가?
매 순간 새로운 뉴스가 쏟아짐
거대한 뉴스의 양과 이를 전달하는 수많은 미디어가 존재함
소비자는 성향에 맞는 뉴스를 선별하는데 많은 공을 들여야 함
왜 실시간인가?
흘러가는 시간 속에서 사용자의 관심사는 끊임없이 변해 감
최신의 이슈들 중 질 좋은 기사들을 선별해서 추천해야 함
Real Times
5.
▪ 도전 과제
5
데이터처리 및 분석
웹 크롤링을 통한 기사 수집
KONLP를 사용하여 형태소 분석 후 TF-IDF를 통해 핵심 키워드 선정
핵심 키워드를 통한 K-Means Clustering을 통해 클러스터 생성
추천 서비스 및 웹 서비스 구축
Oracle DB, Java Programming을 통한 추천 알고리즘 구축
Java Script, Bootstrap을 통한 웹 서비스 구축
11
▪ 뉴스 수집
및처리
수집할 기사 선정
내용이 충분히 검증되었다고 판단되는 네이버 뉴스 탭의 기사로 선정
형태소 분석
KoNLPy의 Komoran 분석기를 이용하여 명사단위로 기사를 쪼갬
핵심 키워드 도출을 위해 TF-IDF 기법 사용
파이썬의 gensim을 통해 TF-IDF 기법 사용
웹 크롤링
파이썬 코딩을 통해 기사 제목, 작성시간, 고유ID, URL, 기사 내용을 수집함
12.
12
▪ 뉴스 수집
및처리
클라우드 환경 – Google Cloud Platform
* CPU - vCPU 2개, RAM - 7.5GB 메모리, HDD – 500 GB
▪ 추천
알고리즘
구축
20
Topic Table및 뉴스 데이터를 RDBMS에 저장
정해놓은 schema 형식대로 RDBMS에 저장
각 테이블의 데이터를 통해 맞춤 뉴스 선정
최신 로그 10개를 통해 선호 Topic을 선정하고 맞춤 뉴스 6개 출력
사용자 로그를 Log Table에 저장
웹을 통해 얻은 사용자 로그 데이터를 schema 형식대로 저장
23
▪ 웹 개발
JavaScript와 BootStrap을 통해 웹 구축
사용자 편의를 고려하여 설계한 UI 구축
‘오늘의 이슈‘, Word Cloud 등 부가 기능 구축
효과적인 정보전달을 위해 기획한 부가 기능을 구축
추가 예정 기능 및 정확한 추천을 위해 회원 가입 기능 구축
스크랩 등의 추가 기능과 보다 정확한 추천을 위해 회원가입 기능 구축
뉴스 포털, 맞춤 뉴스 등 핵심 기능 구축
일반 뉴스 포털 기능 및 추천 알고리즘을 통한 맞춤 뉴스까지 핵심 기능을 구축