Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor ...bitnineglobal
Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor (그래프 데이터베이스 활용 사례_ 디시젼 튜터)
국내 유일 그래프 데이터베이스 연구 개발 전문 기업, <비트나인> 주최로 진행된
그래프 데이터베이스 밋업(Meetup) 8번째! "그래프 데이터베이스 5 Offerings_ DecisionTutor (디시젼 튜터)" 입니다.
그래프 데이터베이스가 제공하는 5가지 핵심 오퍼링(5 Offerings) 중 “DecisionTutor”의 이론 소개 및 적용 분야 등에 대하여 소개 드렸습니다.
DecisionTutor는 과거의 데이터 학습을 통한 #예측분석 으로 사용자 의사 결정을 지원하는 그래프 기반 AI 기술입니다. 직관이 아닌 데이터 기반 확률에 근거하여 보다 합리적이고 신속한 의사결정을 지원하기 위한 기술로, 주로 #추천시스템 / #인공지능 기반 모니터링 시스템 등에 활용되고 있습니다.
☞ 유튜브 발표영상 보기: https://www.youtube.com/watch?v=RRXJ_gTs0BU&t=1172s
☞ 밋업 참가 신청 하러가기: https://www.meetup.com/ko-KR/graphdatabase/
☞ 이메일 문의: hnkim@bitnine.net
☞ 그래프 데이터베이스 솔루션 AgensGraph 다운로드: https://bitnine.net/
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 MarketIN팀에서는 아래와 같은 프로젝트를 진행했습니다.
- 작은 가게를 운영하는 경우부터 온라인 쇼핑몰까지 비즈니스 운영 과정에선 수많은 의사 결정이 필요합니다. 데이터를 대시보드 템플릿에 연결하여 질문에 대한 답을 한눈에 찾을 수 있습니다.
- 마켓인을 통해 데이터 기반 비즈니스를 경험해보세요.
16기 강민주 (서울과학기술대학교 산업정보시스템전공)
16기 김서연 (숙명여자대학교 홍보광고학과)
16기 오지원 (세종대학교 경영학과)
16기 윤해림 (세종대학교 경영학과)
16기 임성아 (세종대학교 경영학과)
16기 한주리 (고려대학교 사회학과)
마케터들은 무슨 생각을 할까?
1543명의 현직 마케터들을 대상으로
디지털 마케팅 산업을 조사했습니다.
디지털 마케팅 업계 주요 플레이어들의 인터뷰와
다양한 설문 결과들을 기반으로
플레이어들이 서로에 대한 이해를 높여갔으면 하는 바램이 있습니다.
더욱더 건강한 광고생태계가 조성될 수 있도록
모비데이즈는 의미있는 서베이를 진행하고자 합니다.
◎ 스타트업 사업계획서 샘플 - O2O
1. 스타트업 사업계획서 작성 방법
2. 팀멤버 작성법
3. 서비스 콘셉트
4. 창업동기/고객니즈
5. 솔루션
6. 시장
7. 경쟁분석
8. 차별화
9. 수익모델
10. 재무계획
11. 마일스톤
12. 시스템 디자인
◎ 사업계획서 특징
- 사업계획서 작성 순서를 이해할 수 있다
- 스타트업 사업계획서 작성 시 유의할 점을 이해할 수 있다
- 사업계획서 샘플을 통해 쉽게 작성할 수 있다
- 복잡한 사업계획서를 단순화 할 수 있다.
가상의 스타트업 창업 사업계획서를 작성하였습니다.
사업계획서 작성에 어려워하는 분들이 참고용으로 활용하시길 바랍니다.
무단 전재 및 도용을 삼가하며 출처를 남겨주시기 바랍니다.
고명환의 스타트업 생존경영 http://lunch-alone.com/
고명환의 브런치 https://brunch.co.kr/@maru7091
고명환의 팟빵 http://www.podbbang.com/ch/17003
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안K data
빅데이터 시대에서 중요한 것은 의미 분석입니다. 통계분석에서 얻을 수 없는 가치를 빅데이터 분석을 통해 얻을 수 있습니다. 빅데이터는 정형데이터와 비정형데이터를 모두 포함하며, 기업 내부 문서, 이메일, ERP, CRM 같은 시스템에도 있고, 소셜 미디어, 웹블로그 같은 일반 인터넷에도 존재 합니다.
인공지능 알고리즘은 빅데이터를 활용하고 숨은 의미를 찾는데 중요한 역할을 합니다. 현재의 인공지능 기술은 아직 인간의 상식, 창의성, 도덕성을 담을 수 없는 한계를 안고 있습니다. 그러나 특정 분야에서, 예를 들어 고객 민원 자동 분류, 금융 상품 상담과 같은 영역에서 인간보다 뛰어난 처리 능력을 보일 수 있습니다. 궁극적으로 일처리에 효율과 효과를 높이는 방향으로 빅데이터와 인공지능이 활용되고 있습니다.
Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor ...bitnineglobal
Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor (그래프 데이터베이스 활용 사례_ 디시젼 튜터)
국내 유일 그래프 데이터베이스 연구 개발 전문 기업, <비트나인> 주최로 진행된
그래프 데이터베이스 밋업(Meetup) 8번째! "그래프 데이터베이스 5 Offerings_ DecisionTutor (디시젼 튜터)" 입니다.
그래프 데이터베이스가 제공하는 5가지 핵심 오퍼링(5 Offerings) 중 “DecisionTutor”의 이론 소개 및 적용 분야 등에 대하여 소개 드렸습니다.
DecisionTutor는 과거의 데이터 학습을 통한 #예측분석 으로 사용자 의사 결정을 지원하는 그래프 기반 AI 기술입니다. 직관이 아닌 데이터 기반 확률에 근거하여 보다 합리적이고 신속한 의사결정을 지원하기 위한 기술로, 주로 #추천시스템 / #인공지능 기반 모니터링 시스템 등에 활용되고 있습니다.
☞ 유튜브 발표영상 보기: https://www.youtube.com/watch?v=RRXJ_gTs0BU&t=1172s
☞ 밋업 참가 신청 하러가기: https://www.meetup.com/ko-KR/graphdatabase/
☞ 이메일 문의: hnkim@bitnine.net
☞ 그래프 데이터베이스 솔루션 AgensGraph 다운로드: https://bitnine.net/
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 MarketIN팀에서는 아래와 같은 프로젝트를 진행했습니다.
- 작은 가게를 운영하는 경우부터 온라인 쇼핑몰까지 비즈니스 운영 과정에선 수많은 의사 결정이 필요합니다. 데이터를 대시보드 템플릿에 연결하여 질문에 대한 답을 한눈에 찾을 수 있습니다.
- 마켓인을 통해 데이터 기반 비즈니스를 경험해보세요.
16기 강민주 (서울과학기술대학교 산업정보시스템전공)
16기 김서연 (숙명여자대학교 홍보광고학과)
16기 오지원 (세종대학교 경영학과)
16기 윤해림 (세종대학교 경영학과)
16기 임성아 (세종대학교 경영학과)
16기 한주리 (고려대학교 사회학과)
마케터들은 무슨 생각을 할까?
1543명의 현직 마케터들을 대상으로
디지털 마케팅 산업을 조사했습니다.
디지털 마케팅 업계 주요 플레이어들의 인터뷰와
다양한 설문 결과들을 기반으로
플레이어들이 서로에 대한 이해를 높여갔으면 하는 바램이 있습니다.
더욱더 건강한 광고생태계가 조성될 수 있도록
모비데이즈는 의미있는 서베이를 진행하고자 합니다.
◎ 스타트업 사업계획서 샘플 - O2O
1. 스타트업 사업계획서 작성 방법
2. 팀멤버 작성법
3. 서비스 콘셉트
4. 창업동기/고객니즈
5. 솔루션
6. 시장
7. 경쟁분석
8. 차별화
9. 수익모델
10. 재무계획
11. 마일스톤
12. 시스템 디자인
◎ 사업계획서 특징
- 사업계획서 작성 순서를 이해할 수 있다
- 스타트업 사업계획서 작성 시 유의할 점을 이해할 수 있다
- 사업계획서 샘플을 통해 쉽게 작성할 수 있다
- 복잡한 사업계획서를 단순화 할 수 있다.
가상의 스타트업 창업 사업계획서를 작성하였습니다.
사업계획서 작성에 어려워하는 분들이 참고용으로 활용하시길 바랍니다.
무단 전재 및 도용을 삼가하며 출처를 남겨주시기 바랍니다.
고명환의 스타트업 생존경영 http://lunch-alone.com/
고명환의 브런치 https://brunch.co.kr/@maru7091
고명환의 팟빵 http://www.podbbang.com/ch/17003
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안K data
빅데이터 시대에서 중요한 것은 의미 분석입니다. 통계분석에서 얻을 수 없는 가치를 빅데이터 분석을 통해 얻을 수 있습니다. 빅데이터는 정형데이터와 비정형데이터를 모두 포함하며, 기업 내부 문서, 이메일, ERP, CRM 같은 시스템에도 있고, 소셜 미디어, 웹블로그 같은 일반 인터넷에도 존재 합니다.
인공지능 알고리즘은 빅데이터를 활용하고 숨은 의미를 찾는데 중요한 역할을 합니다. 현재의 인공지능 기술은 아직 인간의 상식, 창의성, 도덕성을 담을 수 없는 한계를 안고 있습니다. 그러나 특정 분야에서, 예를 들어 고객 민원 자동 분류, 금융 상품 상담과 같은 영역에서 인간보다 뛰어난 처리 능력을 보일 수 있습니다. 궁극적으로 일처리에 효율과 효과를 높이는 방향으로 빅데이터와 인공지능이 활용되고 있습니다.
5. 어떻게 하면 돈을 벌 수 있을까?
분석배경
5
하나
창업에
관심이 있다
69%
45.9%
선호하는 창업방식
프랜차이즈
출처 프랜차이즈산업연구원
출처 LG Challengers
창업 선호 분야
음식점 15%
카페 36%
외식업
51%
출처 LG Challengers
대학생 대상
6. 6
출처 맥세스컨설팅 전수조사
외식 프랜차이즈 폐업수
매년 ‘증가’ 하는 폐업수
어려움과 실패
분석배경
하나
10500
11000
9000
7350
2017
2016
2014 2015
9. 프랜차이즈 데이터 수집 : 웹 크롤링
활용 데이터
둘
9
브랜드 DATA
출처
공정거래위원회
수집데이터
정보공개서
가맹본부별 비교정보
브랜드별 비교정보
기간
2017년
총 4332개
SNS DATA
출처
소상공인마당
수집데이터
인지도
감성분석
기간
최근 3개월
총 4332개
10. 상권 데이터 수집 : 공공데이터
활용 데이터
둘
10
상권 DATA
출처
서울 열린 데이터 광장
API
수집데이터
서울시 우리마을가게
상권분석 서비스
(14개 항목)
기간
17년 1월 ~ 18년 5월
약 30,000 개
업소 DATA
출처
공공데이터포탈
수집데이터
상가 업소 정보
기간
2018년 6월
약 100,000개
12. 데이터 활용 : 파생변수
데이터 처리 및 분석
셋
안정적인
시장 집입
해지율
매출액
증가율
개업률
창업비 대비
매출
본사
부채
비율
데이터 처리 및 분석
파생변수
1. 평판
=
긍정 언급수+1
소셜 언급수+1
2. 성장성
개업률 =
신규 점포수
전체 점포수
매출액 증가율
3. 본사의 신용도
부채비율
법 위반 유무
5. 창업비 대비 매출
=
평균 매출액
비용합계
본사의
안정성
4. 안정성
안정적인 시장진입 =
가맹점 수
60
해지율 =
계약 해지
신규 점포수
본사의 안정성 = 자기 자본 비율
부채비율
평판
12
본사
법위반
13. 13
데이터 탐색 : 분포
데이터 처리 및 분석
셋
평판 성장성
본사의
신용도
안정성
창업대비
매출
개월 수
mean 0.89 8.82 0.70 6.00 3.37 90.04
min 0.03 0.00 0.00 0.00 0.02 20.00
25% 0.86 0.26 0.04 4.02 1.74 45.00
50% 0.93 1.20 0.34 6.91 2.79 73.00
75% 1.00 5.95 0.79 8.00 4.05 115.50
max 1.00 69.50 2.71 10.20 142.62 493.00
안정성 : 전체적으로 고르지만 들쭉날쭉하게 분포함
성장성, 창업대비매출 : 분포가 고르지 않고 한쪽으로 치우친 모양
안정성 창업대비매출
성장성
14. 14
데이터 탐색 : 상관관계
데이터 처리 및 분석
셋
본사의신용도와 안정성
상관계수 : 0.45
scatterplot : 비선형적 상관관계
성장성과 개월수
상관계수 ; -0.43
scatterplot : 뚜렷한 관계확인
어려움
15. 전처리 : 활용 데이터 처리 및 통합
데이터 처리 및 분석
셋
* Naver와 Kakao API를 이용해 구한 각 프랜차이즈 별 실제 점포데이터와 주변시설(지하철, 병원 등)과 인구수(유동,상주)데이터를 결합해
각 점포별 매출액을 예측해보았으나 수도권 위주의 데이터가 수집되어 비수도권 프랜차이즈가 추천대상에 포함되지 않음
게다가 기존 데이터에 비해 개수의 차이가 미미함
하지만 ‘가맹점 수‘와 ‘가맹점 매출액’이 없어 누락되는 데이터 수가 많음
파생변수 생성에 사용되는 변수들 위주로 전처리
내용
재무제표 정보가 없고
‘부채’가 ‘0’보다 작은
데이터 삭제
‘가맹점 수’가
‘0’인 데이터 삭제
‘가맹점 매출액’이
‘0’인 데이터 삭제
데이터 수 4324개 -> 3303개 3303개 -> 2489개 2489개 -> 1555개
15
16. 프랜차이즈 데이터 분석 : K-means군집분석
데이터 처리 및 분석
셋
16
본사의 신용도
안정성
창업대비매출
성장성
사업개월수
평판
12개
17. 프랜차이즈 데이터 분석 : 군집분석
데이터 처리 및 분석
셋
17
N0.1 Long-run형 N0.2 슈퍼루키형
18. 프랜차이즈 데이터 분석 : 군집분석
데이터 처리 및 분석
셋
18
N0.3 본사신뢰형 N0.4 High risk High return형
19. 상권 추천 서비스
데이터 처리 및 분석
셋
19
10개의 업종별
상권 추천/비추천 분류 모델
서울시 주요 상권 총 1744길
상권 관련정보 68개
2017년 1월~ 2018년 5월
총 27005개 데이터
매출 건수를 A,B,C,F 평가 등급로 나누어 분류
B 등급 (안전) 초록색
F 등급 (위험) 빨간색
A 등급 (추천) 파란색
C 등급 (주의) 노란색
20. 상권 데이터 분석 : 랜덤 포레스트
데이터 처리 및 분석
셋
20
Why?
연령대_20_유동인구_수
연령대_10_유동인구_수
연령대_30_유동인구_수
남성_유동인구_수
연령대_60_이상_유동인구_수
연령대_50_유동인구_수
여성_유동인구_수
아파트_평균_시가
연령대_40_유동인구_수
숙박_시설_수
1 트리 개수
30개
2 Variable importance Top 10
• 모델에 대한 설명력을 위한 트리기반모형
변동감소
• 상권 분석에서 사용되는 독립변수 58개, 다중 공선성을 고려해야함
21. 상권 데이터 분석 : 랜덤 포레스트 성능
데이터 처리 및 분석
셋
훈련데이터 70% 분류 모델 적합
검증데이터 30% 분류 모델 평가
21
Grade A Grade B Grade C Grade F
Grade A 1521 207 12 0
Grade B 235 1898 315 7
Grade C 16 267 1885 163
Grade F 1 8 197 1370
훈련 accuracy 0.99
검증 accuracy 0.82
precision recall f1-score support
Grade A 0.86 0.87 0.87 1740
Grade B 0.8 0.77 0.79 2455
Grade C 0.78 0.81 0.8 2331
Grade F 0.89 0.87 0.88 1576
avg 0.82 0.82 0.82 8102
여러 성능 지표에서 준수한 성능을 보여줌
22. 상권 데이터 분석 : 딥러닝 다중분류
데이터 활용 및 분석
셋
22
Input_dim 58
Hidden layer node 3
Output layer node 1
Learning algorithm Gradient Descent
Transfer function Softmax
Loss function Categorical_Crossentropy
Optimizer Adam
향상된 모델을 만들기 위하여 딥러닝을 활용한 모델 구축
1 MLP Binary Classification 2 Loss
23. 상권 데이터 분석 : 딥러닝 성능
데이터 처리 및 분석
셋
훈련데이터 70% 분류 모델 적합
검증데이터 30% 분류 모델 평가
23
Grade A Grade B Grade C Grade F
Grade A 1495 234 9 20
Grade B 213 1874 359 90
Grade C 16 267 1880 1680
Grade F 4 3 234 1335
precision recall f1-score support
Grade A 0.87 0.86 0.86 1740
Grade B 0.79 0.76 0.78 2455
Grade C 0.76 0.81 0.78 2331
Grade F 0.88 0.85 0.86 1576
avg 0.81 0.81 0.81 8102
훈련 accuracy 0.832
검증 accuracy 0.8126
랜덤 포레스트와 비교할때
예측력에 큰 차이 無
34. 경쟁 업체와 비교분석
기대효과 및 한계
다섯
34
주요 특징
프랜차이즈 정보공개서를
바탕으로 필터링하여 상위에 있는
프랜차이즈를 추천해주는 서비스
예비창업자가 원하는 업종, 프랜차이즈
를 선택하고 가맹점 별 비용 등을
고려해 조건에 맞는
상권을 추천해주는 서비스
업종 선택부터 프랜차이즈 선택,
입지 추천까지 원스톱으로
진행되는 서비스
장 점
유망 창업 아이템 순위
신규 브랜드 랭킹 등 다양한 지표 활용한
랭킹시스템 제공
업종, 창업비용, 임대료,
희망 입지 등의 정보를 입력하면 해당
아이템의 종합적인
경쟁분석제공
정부에서 제공하는 무료서비스임
경쟁업체 서비스 제공 및
예비창업자가 최소한의
배경지식만 갖추어도
상황에 맞는
프랜차이즈를 선택가능
단 점
예비 창업자 자신이 어떤 프랜차이즈를 어떤 위치에 할 것인지,
비용은 얼마나 드는지. 사전에 알아야하는 정보가 많음
프랜차이즈와 예비창업자의 직접적인
매칭에는 관여하지 않음
BRANDEAT
창업경영신문 소상공인마당
35. 외식 프랜차이즈 창업 솔루션
기대효과 및 한계점
다섯
기대 효과
1.프랜차이즈 창업 정보의 격차 완화
→ 프랜차이즈 창업에 대한 장벽이 낮아짐
2.예비 창업자들의 실패율 감소
3. 일반 기업에서 제공하는 데이터에 대한
접근이 가능하다면 발전된 서비스 제공 가능
한계점
35
1. 결측데이터
2. 민간데이터 활용 불가
3. 소셜미디어 분석 신뢰도
36. 분석 Tool
분석 Tool
여섯
36
- 분석 tool
크롤링 및 전처리, 파생변수 생성
머신러닝(군집분석, 랜덤포레스트) 및 딥러닝(MLP)
EDA
- 분석 tool
R : 군집분석 최적화 및 시각화
Tableau : 서비스 활용 시연
- 분석 tool
서울특별시 지도 표시
업종별 추천등급, 프랜차이즈 매장 맵핑