4. 매력적인 사람들과의 만남을 위한 소셜 매칭 플랫폼
4
"본 프로젝트는 데이팅 서비스 글램의 운영사인 (주)큐피스트의 지원을
바탕으로 데잇걸즈가 (주)큐피스트와 협력하여 진행한 프로젝트입니다. "
5. 매칭 플랫폼에서 불량유저란 누구인가?
현재 글램에서는 연락처 기재 유저를 적발하기 위한 탐지 시스템을 구축하여 운영 중
글램 내 채팅 서비스를 이용하지 않고
자체적인 연결을 위해 연락처를 기재하는 유저들
유저들이 플랫폼 내의 매칭 서비스를 이용하지 않고 바로 이탈하게끔 부추기기 때문에
어플리케이션 내 클린 환경 조성에 바람직하지 않음
7. 데이터셋
bio school job company
0 안녕하세요~~ 공통된 관심사가 있는 분들 만나고 싶어요^^ 카톡으로 대뜸 연락하면 싫어요 데잇걸즈 3기
1
데이터 분석, 엔지니어링에 빠삭한 데이터 전략가 되고 싶은 야망있는 젊은 청년입니다.
카톡사절 메세지 주세요.
데잇걸즈3 데이터 전략가
https://www.linkedin.c
om/in/bomin-lee-4659
55190/
2
HWP driven data analyst. Nope, it’s not that but HaWaiian Pizza. Looking for
a decent developer who likes it too. Ask me out thr heeyawl@gmail.com
DataItGirls_3 Data Analyst Heeyawl, Inc
3
안녕하세요. 인생 희말라야같아서 빡치는 와중에 좋은 사람은 만나고 싶어요!
요즘 자연어처리 관심 많은데 NLP 전문가랑 만나고 싶어요! (과외 요청 X, 오해 X)
카톡 plznlpcomeon82
데잇걸즈 3 데이터 분석가
4 프로젝트만 보고 어떻게 판단해. 같이 일하면서 분석이든, 시각화든 시켜보는거지..(궁서체) 데잇걸스3 데이터 분석가 리디
5 쌍둥이처럼 생긴 고양이 강아지랑 같이 살아요. 우리 레오 같이 산책시킬 사람 구합니다. 데이터 분석가
6 코딩의신 유튜버, 개발자
7 여정, 도전, 기회, 회고 그리고 마무리.... 먼저 카톡 주시면 좋아요... PM 뉴로어소시에이츠
8 똑똑똑 통계 경찰입니다. 제 마음을 훔칠 범인 찾아요 국민대학교
9 같이 맛있는 고기 먹으러 갈 사람 찾습니다. 따뜻한 파인애플 사절. 개발자 카카오
10
카톡은 잘 못해요. 프로그래밍 언어로만 깃헙으로 소통해요~편하실 때 풀리퀘 주세요~
머지 항시 대기
소프트웨어 엔지니어 우동마켓
9. 수제 라벨링
bio school job company is_sns
0
안녕하세요~~ 공통된 관심사가 있는 분들 만나고 싶어요^^ 카톡으로 대뜸 연락하면 싫어
요
데잇걸즈 3기 0
1
데이터 분석, 엔지니어링에 빠삭한 데이터 전략가 되고 싶은 야망있는 젊은 청년입니다.
카톡사절 메세지 주세요.
데잇걸즈3 데이터 전략가
https://www.linkedin.c
om/in/bomin-lee-4659
55190/
1
2
HWP driven data analyst. Nope, it’s not that but HaWaiian Pizza. Looking for
a decent developer who likes it too. Ask me out thr heeyawl@gmail.com
DataItGirls_3 Data Analyst Heeyawl,Inc 1
3
안녕하세요. 인생 희말라야같아서 빡치는 와중에 좋은 사람은 만나고 싶어요!
요즘 자연어처리 관심 많은데 NLP 전문가랑 만나고 싶어요! (과외 요청 X, 오해 X)
카톡 plznlpcomeon82
데잇걸즈 3 데이터 분석가 1
4 프로젝트만 보고 어떻게 판단해. 같이 일하면서 분석이든, 시각화든 시켜보는거지..(궁서체) 데잇걸스3 데이터 분석가 리디 0
5 쌍둥이처럼 생긴 고양이 강아지랑 같이 살아요. 우리 레오 같이 산책시킬 사람 구합니다. 데이터 분석가 구글 0
6 코딩의신 유튜버, 개발자 0
7 여정, 도전, 기회, 회고 그리고 마무리.... 먼저 카톡 주시면 좋아요... PM 뉴로어소시에이츠 0
8 똑똑똑 통계 경찰입니다. 제 마음을 훔칠 범인 찾아요 국민대학교 0
9 같이 맛있는 고기 먹으러 갈 사람 찾습니다. 따뜻한 파인애플 사절. 개발자 카카오 0
10
카톡은 잘 못해요. 프로그래밍 언어로만 깃헙으로 소통해요~편하실 때 풀리퀘 주세요~
머지 항시 대기
소프트웨어 엔지니어 우동마켓 0
17. Count Vectorization | 텍스트 토큰 one_hot encoding 빈도수 높은 토큰에 가중치 부여
TF-IDF Vectorization | 여러 유저의 프로필에 중복으로 출현하는, 빈도수 높은 토큰에 패널티 부여
분류 모델을 학습시키기 위한 텍스트 데이터 수치화
18. 글자 단위 토크나이징(feat. n-gram)
수치화를 하기 위해서는 문장 단위의 데이터를 더 작은 단위로 쪼개야 함
프로필 데이터의 특성상 오탈자, 신조어 등이 많이 존재하므로 형태소 분석기 사용 X
1,2 글자 기준으로 쪼개는 방식 사용
"똑똑똑 통계 경찰입니다.
제 마음 훔칠 범인 찾아요"
'경', '경찰', '계', '계', '니', '니다',
'다', '다', '똑', '똑', '똑똑', '마', '마음',
'범', '범인', '아', '아요', '요', ...
19. 지표 설정
서비스 자체에서 중요한 지표 : Precision
우리 모델에서는 Precision이 기본적으로 70% 이상이었기 때문
모델 개선 시 기준으로 보았던 지표 : F1_score
Precision을 유지하면서 Recall 값이 높은 모델 발견!
Precision : 모델이 불량유저로 예측한 값 중에 실제로 불량유저였던 비율
Recall : 실제 불량유저들 중에 우리 모델이 불량유저로 잘 예측한 비율
35. + 여기서 잠깐 Precision Recall을 배워봅시다
실제값
실제 불량유저 실제 일반유저
예측값
불량유저로 예측 47 1271
일반유저로 예측 12 132
Precision = 47 / (47 + 1271)
3.5%
Precision : 모델이 불량유저로 예측한 값 중에 실제로 불량유저였던 비율
36. + 여기서 잠깐 Precision Recall을 배워봅시다
실제값
실제 불량유저 실제 일반유저
예측값
불량유저로 예측 47 1271
일반유저로 예측 12 132
Recall = 47 / (47 + 12)
79%
Recall : 실제 불량유저들 중에 우리 모델이 불량유저로 잘 예측한 비율
37. + 시각화를 통한 성능 비교
Model : Logistic Regression CV
Vectorizer : TF-IDF Vectorizer