데이터 분석 프로젝트를 진행한 Secret X 팀에서는 아래와 같은 프로젝트를 진행했습니다.
비밀집단에서는 영어 문제를 풀고 XAI를 이용해 이를 해설합니다.
17기 권강미 연세대학교 문헌정보학과
17기 김지수 고려대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스전공
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 개미야 뭐하니? 팀에서는 아래와 같은 프로젝트를 진행했습니다.
[Web 발신] 5분 후, 당신이 투자한 주식이 떨어집니다!
실시간으로 내 주식의 등락을 알려주는 ai가 있다?
이것만 있으면 나도 주린이 탈출
개미와 함께하는 최적의 매도 매수 타이밍
지금 이 순간, 내 주식의 미래를 볼 수 있다
(신청: https://github.com/jayleenym/AYOA)
16기 강지수 동덕여자대학교 정보통계학과
16기 김서민 숙명여자대학교 컴퓨터과학과
16기 김윤기 한양대학교 대학원 컴퓨터소프트웨어학과
16기 문예진 서강대학교 경제학과 / 빅데이터 사이언스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
데이터 분석 프로젝트를 짆애한 쇼미더뮤직 팀에서는 아래와 같은 프로젝트를 진행했습니다.
내 하루의 감정을 통해 노래를 추천받을 수 있다면 얼마나 좋을까?
자연어처리와 추천시스템 기법의 collaboration..
여러분의 감정을 추출하고, 어울리는 노래를 추천해드립니다.
**쇼미더뮤직!**
16기 김양경 건국대학교 기술경영학과
15기 김은선 세종대학교 데이터사이언스학과
16기 유수빈 동덕여자대학교 정보통계학과
16기 이상민 경희대학교 소프트웨어융합학과
16기 조하늘 동덕여자대학교 국제경영학과, 정보통계학과
16기 최 리 건국대학교 응용통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 마페터 팀에서는 아래와 같은 프로젝트를 진행했습니다.
데이터 시각화 프로젝트를 진행한 Marpeter 팀에서는 마케팅 대시보드를 제작하였습니다.
저희의 대시보드는 고객 생애 주기, 광고 성과 분석, 페르소나 도출 페이지로 구성되어 있습니다.
먼저 고객 생애 주기 페이지는 AARRR 퍼널을 통해 고객 생애 주기를 분석할 수 있습니다. 사전에 군집화가 이루어진 고객 그룹별로, 유입부터 재구매에 이르기까지 고객의 생애 주기를 분석하여 각 생애 주기 단계별 주요 지표들을 통해 각 단계의 전환율을 높일 수 있는 마케팅 전략을 수립할 수 있습니다.
광고 성과 분석 페이지에서는 고객들이 홈페이지에 남긴 흔적 데이터를 종합적으로 분석하여 비용 대비 최고의 성과를 내는 채널 별 최적의 마케팅 프로세스를 찾습니다. 원하는 채널을 클릭하면 퍼포먼스 마케팅의 KPI를 파악하고 ‘cost’와 ‘action’을 기준으로 광고 성과를 분석할 수 있습니다. 또한 해당 채널에 접근한 고객의 특성과 추천 페르소나를 확인할 수 있습니다.
마지막으로 페르소나 도출 페이지에서는 타깃 시장에 속한 사람들 간의 공통점을 가지고 실존하는 인물처럼 구체적인 정보를 가진 페르소나를 제시하여 더욱 생산적인 구매자 참여를 유도하는 마케팅 전략 정보를 제공합니다. 구체화된 페르소나의 이름을 클릭하면 나이, 직업, 가족 정보 등의 인구통계학적 정보뿐만 아니라 특징, 소비습관, 취향 등을 확인할 수 있습니다. 이를 통해 이상적인 타깃과 부정적인 타깃을 파악하고 페르소나 별 마케팅 전략을 기획할 수 있습니다.
17기 변강준 동국대학교 산업시스템공학과
17기 윤성원 이화여자대학교 통계학과 석사
17기 이소정 숙명여자대학교 통계학과
17기 이승권 건국대학교 응용통계학과
17기 이현지 이화여자대학교 통계학과 석사
17기 조세연 연세대학교 의류환경학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 개미야 뭐하니? 팀에서는 아래와 같은 프로젝트를 진행했습니다.
[Web 발신] 5분 후, 당신이 투자한 주식이 떨어집니다!
실시간으로 내 주식의 등락을 알려주는 ai가 있다?
이것만 있으면 나도 주린이 탈출
개미와 함께하는 최적의 매도 매수 타이밍
지금 이 순간, 내 주식의 미래를 볼 수 있다
(신청: https://github.com/jayleenym/AYOA)
16기 강지수 동덕여자대학교 정보통계학과
16기 김서민 숙명여자대학교 컴퓨터과학과
16기 김윤기 한양대학교 대학원 컴퓨터소프트웨어학과
16기 문예진 서강대학교 경제학과 / 빅데이터 사이언스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
데이터 분석 프로젝트를 짆애한 쇼미더뮤직 팀에서는 아래와 같은 프로젝트를 진행했습니다.
내 하루의 감정을 통해 노래를 추천받을 수 있다면 얼마나 좋을까?
자연어처리와 추천시스템 기법의 collaboration..
여러분의 감정을 추출하고, 어울리는 노래를 추천해드립니다.
**쇼미더뮤직!**
16기 김양경 건국대학교 기술경영학과
15기 김은선 세종대학교 데이터사이언스학과
16기 유수빈 동덕여자대학교 정보통계학과
16기 이상민 경희대학교 소프트웨어융합학과
16기 조하늘 동덕여자대학교 국제경영학과, 정보통계학과
16기 최 리 건국대학교 응용통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 마페터 팀에서는 아래와 같은 프로젝트를 진행했습니다.
데이터 시각화 프로젝트를 진행한 Marpeter 팀에서는 마케팅 대시보드를 제작하였습니다.
저희의 대시보드는 고객 생애 주기, 광고 성과 분석, 페르소나 도출 페이지로 구성되어 있습니다.
먼저 고객 생애 주기 페이지는 AARRR 퍼널을 통해 고객 생애 주기를 분석할 수 있습니다. 사전에 군집화가 이루어진 고객 그룹별로, 유입부터 재구매에 이르기까지 고객의 생애 주기를 분석하여 각 생애 주기 단계별 주요 지표들을 통해 각 단계의 전환율을 높일 수 있는 마케팅 전략을 수립할 수 있습니다.
광고 성과 분석 페이지에서는 고객들이 홈페이지에 남긴 흔적 데이터를 종합적으로 분석하여 비용 대비 최고의 성과를 내는 채널 별 최적의 마케팅 프로세스를 찾습니다. 원하는 채널을 클릭하면 퍼포먼스 마케팅의 KPI를 파악하고 ‘cost’와 ‘action’을 기준으로 광고 성과를 분석할 수 있습니다. 또한 해당 채널에 접근한 고객의 특성과 추천 페르소나를 확인할 수 있습니다.
마지막으로 페르소나 도출 페이지에서는 타깃 시장에 속한 사람들 간의 공통점을 가지고 실존하는 인물처럼 구체적인 정보를 가진 페르소나를 제시하여 더욱 생산적인 구매자 참여를 유도하는 마케팅 전략 정보를 제공합니다. 구체화된 페르소나의 이름을 클릭하면 나이, 직업, 가족 정보 등의 인구통계학적 정보뿐만 아니라 특징, 소비습관, 취향 등을 확인할 수 있습니다. 이를 통해 이상적인 타깃과 부정적인 타깃을 파악하고 페르소나 별 마케팅 전략을 기획할 수 있습니다.
17기 변강준 동국대학교 산업시스템공학과
17기 윤성원 이화여자대학교 통계학과 석사
17기 이소정 숙명여자대학교 통계학과
17기 이승권 건국대학교 응용통계학과
17기 이현지 이화여자대학교 통계학과 석사
17기 조세연 연세대학교 의류환경학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Hands-on 팀에서는 아래와 같은 프로젝트를 진행했습니다.
'수어 번역 프로젝트'는 재난 상황 속 소외되는 농인들에게 소통의 문을 열어주자는 목표를 가지고 시작되었습니다. Hands-on팀의 수어 번역 모델을 통해 농인들은 위험 상황 속에서 도움을 요청하는 등 소통의 한계를 극복할 수 있습니다.
16기 곽민지 (동덕여자대학교 정보통계학과)
16기 김영민 (인천대학교 경제학/컴퓨터공학)
16기 김영은 (건국대학교 응용통계학과)
16기 이다인 (이화여자대학교 휴먼기계바이오공학)
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Find Your Style 팀] : 사용자 이미지 라벨링을 통한 의류 추천 시스템BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Find Your Style 팀에서는 사용자가 좋아하는 룩의 사진을 올리면 이에 맞는 스타일을 찾아 어울리는 여성 패션 상품을 추천해주는 프로젝트를 진행했습니다.
16기 강하영 동덕여자대학교 정보통계학과
16기 김지수 성신여자대학교 통계학과
16기 남유지 숙명여자대학교 컴퓨터과학전공
15기 김희현 성균관대학교 데이터사이언스융합전공
16기 박은지 숙명여자대학교 소비자경제학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템BOAZ Bigdata
데이터 분석 프로젝트를 진행한 SiZoAH 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 기반 의류 사이즈 추천시스템
18기 박태남 고려대학교 산업경영공학과
18기 김주은 성균관대학교 문헌정보학과
18기 문다정 단국대학교 응용통계학과
18기 박희준 명지대학교 산업공학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [힐링세포들] : MHTI (Mental Health Type Indicator)BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 힐링세포들 팀에서는 아래와 같은 프로젝트를 진행했습니다.
정신건강 정보를 전달하고, 관리할 수 있는 대시보드 제작
18기 최유진 숙명여자대학교 소비자경제학과
18기 김주은 성균관대학교 문헌정보학과
18기 김혜연 고려대학교 통계학과
18기 홍주리 숙명여자대학교 통계학과
18기 황인정 숙명여자대학교 일반대학원 경영학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 ztyle 팀에서는 아래와 같은 프로젝트를 진행했습니다.
손그림 의류 검색 서비스
18기 조현정 고려대학교 일반대학원 통계학과
18기 김혜연 고려대학교 통계학과
18기 최유진 숙명여자대학교 소비자경제학과
18기 한상범 경기대학교 컴퓨터공학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
시각화 프로젝트를 진행한 Cm:)e팀에서는 고객의 입장에서 고객이 원하는 방식으로 소통할 수 있도록 기존 고객 관리 방식의 터치포인트에 관한 분석과 고객의 소리를 함께 분석할 수 있는 통합 대시보드를 구상했습니다.
16기 김수민 숙명여자대학교 경영학부
16기 김정아 고려대학교 통계학과
16기 이지혜 숙명여자대학교 소비자경제학과
14기 유가연 한양대학교 관광학부 빅데이터 융합 전공
16기 전유정 세종대학교 호텔관광경영학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 MarketIN팀에서는 아래와 같은 프로젝트를 진행했습니다.
- 작은 가게를 운영하는 경우부터 온라인 쇼핑몰까지 비즈니스 운영 과정에선 수많은 의사 결정이 필요합니다. 데이터를 대시보드 템플릿에 연결하여 질문에 대한 답을 한눈에 찾을 수 있습니다.
- 마켓인을 통해 데이터 기반 비즈니스를 경험해보세요.
16기 강민주 (서울과학기술대학교 산업정보시스템전공)
16기 김서연 (숙명여자대학교 홍보광고학과)
16기 오지원 (세종대학교 경영학과)
16기 윤해림 (세종대학교 경영학과)
16기 임성아 (세종대학교 경영학과)
16기 한주리 (고려대학교 사회학과)
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 6시내고양포CAT몬 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Cat Anti-aging Project based StyleGAN2
18기 박규연 국민대학교 소프트웨어학부
18기 김가영 숙명여자대학교 통계학과
18기 서은유 동덕여자대학교 정보통계학과
18기 이기원 고려대학교 식품자원경제학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 '나만 없어 범고래' 팀에서는 아래와 같은 프로젝트를 진행했습니다.
스니커즈를 중심으로 현재 리셀 트렌드와 리셀 플랫폼 KREAM 을 분석하고, 기업, 서비스 등을 비교해주는 대시보드를 만들었습니다.
18기 강채현 고려대학교 산업경영공학부
17기 김민채 한국외국어대학교 스페인어과
17기 이서영 이화여자대학교 통계학과
18기 백은수 인하대학교 경영학과
18기 이해림 동덕여자대학교 정보통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Hands-on 팀에서는 아래와 같은 프로젝트를 진행했습니다.
'수어 번역 프로젝트'는 재난 상황 속 소외되는 농인들에게 소통의 문을 열어주자는 목표를 가지고 시작되었습니다. Hands-on팀의 수어 번역 모델을 통해 농인들은 위험 상황 속에서 도움을 요청하는 등 소통의 한계를 극복할 수 있습니다.
16기 곽민지 (동덕여자대학교 정보통계학과)
16기 김영민 (인천대학교 경제학/컴퓨터공학)
16기 김영은 (건국대학교 응용통계학과)
16기 이다인 (이화여자대학교 휴먼기계바이오공학)
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Find Your Style 팀] : 사용자 이미지 라벨링을 통한 의류 추천 시스템BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Find Your Style 팀에서는 사용자가 좋아하는 룩의 사진을 올리면 이에 맞는 스타일을 찾아 어울리는 여성 패션 상품을 추천해주는 프로젝트를 진행했습니다.
16기 강하영 동덕여자대학교 정보통계학과
16기 김지수 성신여자대학교 통계학과
16기 남유지 숙명여자대학교 컴퓨터과학전공
15기 김희현 성균관대학교 데이터사이언스융합전공
16기 박은지 숙명여자대학교 소비자경제학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템BOAZ Bigdata
데이터 분석 프로젝트를 진행한 SiZoAH 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 기반 의류 사이즈 추천시스템
18기 박태남 고려대학교 산업경영공학과
18기 김주은 성균관대학교 문헌정보학과
18기 문다정 단국대학교 응용통계학과
18기 박희준 명지대학교 산업공학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [힐링세포들] : MHTI (Mental Health Type Indicator)BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 힐링세포들 팀에서는 아래와 같은 프로젝트를 진행했습니다.
정신건강 정보를 전달하고, 관리할 수 있는 대시보드 제작
18기 최유진 숙명여자대학교 소비자경제학과
18기 김주은 성균관대학교 문헌정보학과
18기 김혜연 고려대학교 통계학과
18기 홍주리 숙명여자대학교 통계학과
18기 황인정 숙명여자대학교 일반대학원 경영학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 ztyle 팀에서는 아래와 같은 프로젝트를 진행했습니다.
손그림 의류 검색 서비스
18기 조현정 고려대학교 일반대학원 통계학과
18기 김혜연 고려대학교 통계학과
18기 최유진 숙명여자대학교 소비자경제학과
18기 한상범 경기대학교 컴퓨터공학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
시각화 프로젝트를 진행한 Cm:)e팀에서는 고객의 입장에서 고객이 원하는 방식으로 소통할 수 있도록 기존 고객 관리 방식의 터치포인트에 관한 분석과 고객의 소리를 함께 분석할 수 있는 통합 대시보드를 구상했습니다.
16기 김수민 숙명여자대학교 경영학부
16기 김정아 고려대학교 통계학과
16기 이지혜 숙명여자대학교 소비자경제학과
14기 유가연 한양대학교 관광학부 빅데이터 융합 전공
16기 전유정 세종대학교 호텔관광경영학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 MarketIN팀에서는 아래와 같은 프로젝트를 진행했습니다.
- 작은 가게를 운영하는 경우부터 온라인 쇼핑몰까지 비즈니스 운영 과정에선 수많은 의사 결정이 필요합니다. 데이터를 대시보드 템플릿에 연결하여 질문에 대한 답을 한눈에 찾을 수 있습니다.
- 마켓인을 통해 데이터 기반 비즈니스를 경험해보세요.
16기 강민주 (서울과학기술대학교 산업정보시스템전공)
16기 김서연 (숙명여자대학교 홍보광고학과)
16기 오지원 (세종대학교 경영학과)
16기 윤해림 (세종대학교 경영학과)
16기 임성아 (세종대학교 경영학과)
16기 한주리 (고려대학교 사회학과)
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 6시내고양포CAT몬 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Cat Anti-aging Project based StyleGAN2
18기 박규연 국민대학교 소프트웨어학부
18기 김가영 숙명여자대학교 통계학과
18기 서은유 동덕여자대학교 정보통계학과
18기 이기원 고려대학교 식품자원경제학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 '나만 없어 범고래' 팀에서는 아래와 같은 프로젝트를 진행했습니다.
스니커즈를 중심으로 현재 리셀 트렌드와 리셀 플랫폼 KREAM 을 분석하고, 기업, 서비스 등을 비교해주는 대시보드를 만들었습니다.
18기 강채현 고려대학교 산업경영공학부
17기 김민채 한국외국어대학교 스페인어과
17기 이서영 이화여자대학교 통계학과
18기 백은수 인하대학교 경영학과
18기 이해림 동덕여자대학교 정보통계학과
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...Ingeol Baek
본 논문은 conversational search 에서 query rewriting 을 진행한 논문 각 new query의 dense retireval 을 통과 시켜 나온 ranking을 바탕으로 query rewriting 모델을 학습시킨 논문
Open domain QA task에서와 달리 Conversational search 에서는 dialogue 에서의 뉘양스까지 확장된 버전이다. 본 저자는 RETPO라는 방식을 제안했다. conversation에서 follow-up question에 대해서 retrieval-preference를 align시켜 학습된 LLM을 사용했다. 이전 방식들은 rewrite then retrieve 방식을 사용했고 이는 retrieval performance가 향상되지만 크게 영향을 주진 못했다고 한다. 이런 문제점을 바탕으로 retrievers’ preference를 완전히 사용할 수 있는 방식을 제안한다.
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 무드등 팀에서는 아래와 같은 프로젝트를 진행했습니다.
무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
20기 이호림 숙명여자대학교 경영학부
20기 노승혜 숙명여자대학교 소비자경제학과
20기 정다인 성신여자대학교 통계학과
20기 홍나연 숭실대학교 정보통계보험수리학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 섬유유연제 팀에서는 아래와 같은 프로젝트를 진행했습니다.
어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
20기 정강민 세종대학교 경영학과
20기 김기수 광운대학교 데이터사이언스전공
20기 김세연 이화여자대학교 기후에너지시스템공학전공
20기 윤여빈 성신여자대학교 수리통계데이터사이언스학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 SPOAZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Spotify 기반 개인화 음악 추천 서비스 프로젝트
20기 이해현 서울여자대학교 소프트웨어융합학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 임혁 중앙대학교 응용통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 다함께 레벨업! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
학식 예약 서비스 yammi CRM 대시보드
20기 조성배 중앙대학교 공공인재학부
20기 김윤지 숙명여자대학교 경영학부
20기 김지연 연세대학교 심리학과
20기 한은빈 세종대학교 경영학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 HAUL의 움직이는 리포트 팀에서는 아래와 같은 프로젝트를 진행했습니다.
투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
20기 이준희 건국대학교 응용통계학과
20기 김지후 고려대학교 통계학과
19기 김청환 건국대학교 응용통계학과
19기 백지영 한양대학교 경영대학원 비즈니스인포매틱스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성BOAZ Bigdata
데이터 분석 프로젝트를 진행한 BEARS 팀에서는 아래와 같은 프로젝트를 진행했습니다.
이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
20기 최영우 인하대학교 중국학과
20기 김주은 성신여자대학교 정보시스템공학과
20기 이시내 한국외국어대학교 바이오메디컬공학과
18기 전혜주 숙명여자대학교 독일언어문화학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측BOAZ Bigdata
데이터 분석 프로젝트를 진행한 낭만젊음사람 팀에서는 아래와 같은 프로젝트를 진행했습니다.
UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
20기 서동혁 국민대학교 AI빅데이터융합경영학과
20기 권정을 명지대학교 산업경영공학과
20기 정재원 숙명여자대학교 통계학과
20기 황재성 세종대학교 데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇BOAZ Bigdata
데이터 분석 프로젝트를 진행한 레시피를 보아즈 팀에서는 아래와 같은 프로젝트를 진행했습니다.
영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
20기 박진영 숙명여자대학교 경영학부
20기 서민진 경희대학교 통계학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 윤선영 서울과학기술대학교 데이터사이언스학과
20기 이민선 한국공학대학교 산업경영학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 전진4드론 팀에서는 아래와 같은 프로젝트를 진행했습니다.
RAD(Reinforcement learning method for Autonomous Drone)
20기 정재준 한양대학교 에리카캠퍼스 프랑스학과
20기 이영현 한양대학교 대학원 인공지능학과
20기 이찬 경희대학교 컴퓨터공학과
20기 정원준 건국대학교 컴퓨터공학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 REC 팀에서는 아래와 같은 프로젝트를 진행했습니다.
캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
20기 김민혜 한양대학교 경영대학원 비즈니스 인포메틱스
20기 송여진 이화여자대학교 휴먼기계바이오공학부
20기 이은효 이화여자대학교 대학원 통계학과
20기 임세은 숙명여자대학교 사회심리학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 4부터7 팀에서는 아래와 같은 프로젝트를 진행했습니다.
공방 301 데이터를 활용한 마케팅 방안 제시
19기 김동하 고려대학교 미디어학부
19기 고현서 동덕여자대학교 경영학과
19기 노근혜 이화여자대학교 통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 유쾌한 반란 팀에서는 아래와 같은 프로젝트를 진행했습니다.
일 단위 화훼 경매 데이터를 화훼소매업자들에게 제공하여 적정가에 사입할 수 있도록 돕는 서비스 기획
19기 송우석 연세대학교 컴퓨터과학과
19기 박선홍 한국외국어대학교 국제통상학과
19기 이 은 홍익대학교 산업공학과
19기 정성윤 국민대학교 경영정보학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 이탈리안 BMT 팀에서는 아래와 같은 프로젝트를 진행했습니다.
지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
19기 김보겸 중앙대학교 사회학과
19기 김가경 동덕여자대학교 정보통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박재은 숙명여자대학교 컴퓨터과학전공
19기 이재준 명지대학교 융합소프트웨어 데이터테크놀로지전공
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크BOAZ Bigdata
데이터 분석 프로젝트를 진행한 분모자 팀에서는 아래와 같은 프로젝트를 진행했습니다.
로고 자동 감지 및 모자이크 서비스 제안
19기 오효근 건국대학교 일반대학원 기계설계학과
19기 김보겸 중앙대학교 사회학과
19기 송예진 서울여자대학교 소프트웨어융합학과
19기 우아라 서울여자대학교 소프트웨어융합학과
19기 임서현 성균관대학교 글로벌리더학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 link-us(링커즈) 팀에서는 아래와 같은 프로젝트를 진행했습니다.
링키드(linkid)를 위한 비즈니스 대시보드 제작
19기 정소영 숙명여자대학교 통계학과
19기 유나현 중앙대학교 응용통계학과
19기 이세연 성신여자대학교 빅데이터사이언스전공
19기 정다운 숙명여자대학교 통계학과
데이터 분석 프로젝트를 진행한 뉴진스 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Multi-modal Fake News Detection
19기 장우솔 단국대학교 일반대학원 응용통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박명규 한양대학교 ERICA 로봇공학과
19기 성재혁 고려대학교 컴퓨터학과
19기 신은빈 건국대학교 응용통계학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발BOAZ Bigdata
데이터 분석 프로젝트를 진행한 추적24시 팀에서는 아래와 같은 프로젝트를 진행했습니다.
완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
19기 민경원 고려대학교 산업경영공학부
19기 신재욱 연세대학교 산업공학과
19기 이유빈 서울여자대학교 소프트웨어융합학과
19기 최가희 국립공주대학교 산업시스템공학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 AutoCar죠 팀에서는 아래와 같은 프로젝트를 진행했습니다.
자율주행 로봇 층간 이동을 위한 인지 기능 구현
18기 강용구 세종대학교 무인이동체공학과
18기 전효진 건국대학교 응용통계학과
18기 백채은 숙명여자대학교 컴퓨터과학전공
18기 이가은 가천대학교 의용생체공학과
18기 이소연 이화여자대학교 일반대학원 통계학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
1. 2023학년도 여름 보아즈 컨퍼런스 발표
XAI를 이용한 수능 영어 문제 풀이
제 3 교시
팀명 비밀집단 수험번호 2 0 2 2 - 0 7 2 3
팀장: 이수경 (분석 17기), 팀원: 김지수 (분석 17기), 권강미 (분석 17기)
답안지의 필적 확인란에 다음의 문구를 정자로 기재하시오.
비밀집단만큼 사랑스러운 팀을 본 일이 없다 …
2. 목차
① 주제선정 배경
1 2 3 4 5
② XAI란? ③ 프로젝트 목표 ① SHAP ② IG ③ LRP
① 평가지표 ② 문법 모델링 ③ 맥락 모델링
④ 평가결과
① 최종모델 ② Pipeline ③ XAI시연
④ 의의 및 한계
① 데이터수집 ② 문법 데이터 ③ 맥락 데이터
3. 1. 소개 1 2 3 4 5
밈 1 밈 3
17기 분석 이수경 17기 분석 김지수 17기 분석 권강미
비밀집단..
성균관대학교 데이터사이언스 고려대학교 통계학과 연세대학교 문헌정보학과
크롤링, 전처리, 문법 모델링 보조,
맥락 모델링 총괄, XAI 총괄
크롤링, 문법 모델링 총괄,
맥락 모델링 보조, XAI 보조
크롤링, 문법 모델링 보조,
맥락 모델링 보조, XAI 보조
1 2 3 4 5
5. 1. 소개 1 2 3 4 5
주제선정 배경
AI기술이 발전함에 따라 AI를 활용한 교육 또한 활성화되고 있음
수학 학습에서 학습자의 개념 단위
학습 과정을 파악하고 적절한 피드백과
힌트를 제공해주는 학습지원 시스템
MATHia
AI 진단을 통해 자신의 실력을 분석하고
취약한 파트를 알려줌으로써 토익
학습에 도움을 주는 서비스
산타토익
데이터 베이스 내의 문제 풀이를 물어보
면 그를 알려주는 소프트웨어. 해당 풀이
가 DB내에 없다면 유사 문제를 제공
QUANDA
사용자의 수준에 맞춘 문제와 풀이를
제공하며 사용자의 학습 속도와 수준에
따라 적절한 동영상 강의를 추천해줌
KHAN ACADEMY
6. 1. 소개 1 2 3 4 5
주제선정 배경
현재 교육현장에서의 AI는 학습 수준 진단, 학습 솔루션 제공 등
학습 방향성의 보조자 역할을 하고 있음
수학 학습에서 학습자의 개념 단위
학습 과정을 파악하고 적절한 피드백과
힌트를 제공해주는 학습지원 시스템
AI 진단을 통해 자신의 실력을 분석하고
취약한 파트를 알려줌으로써 토익
학습에 도움을 주는 서비스
산타토익
데이터 베이스 내의 문제 풀이를 물어보
면 그를 알려주는 소프트웨어. 해당 풀이
가 DB내에 없다면 유사 문제를 제공
QUANDA
사용자의 수준에 맞춘 문제와 풀이를
제공하며 사용자의 학습 속도와 수준에
따라 적절한 동영상 강의를 추천해줌
KHAN ACADEMY
MATHia
7. 1. 소개 1 2 3 4 5
주제선정 배경
현재 교육현장에서의 AI는 학습 수준 진단, 학습 솔루션 제공 등
학습 방향성의 보조자 역할을 하고 있습니다.
수학 학습에서 학습자의 개념 단위
학습 과정을 파악하고 적절한 피드백과
힌트를 제공해주는 학습지원 시스템
AI 진단을 통해 자신의 실력을 분석하고
취약한 파트를 알려줌으로써 토익
학습에 도움을 주는 서비스
산타토익
데이터 베이스 내의 문제 풀이를 물어보
면 그를 알려주는 소프트웨어. 해당 풀이
가 DB내에 없다면 유사 문제를 제공
QUANDA
사용자의 수준에 맞춘 문제와 풀이를
제공하며 사용자의 학습 속도와 수준에
따라 적절한 동영상 강의를 추천해줌
KHAN ACADEMY
MATHia
학습 방향성이 아닌 학습 자체를 보조한다면
보다 자기주도 학습에 도움을 줄 수 있지 않을까?
8. 1. 소개 1 2 3 4 5
주제선정 배경
학습에 있어서 문제 풀이는 자신이 모르는 개념을 확인할 수 있는 필수적인 과정임
올바른 공부의 흐름
개념 공부
문제 풀이
틀렸다
맞았다!
문제 풀이의 중요성
9. 1. 소개 1 2 3 4 5
주제선정 배경
학습에 있어서 문제 풀이는 자신이 모르는 개념을 확인할 수 있는 필수적인 과정임
올바른 공부의 흐름
개념 공부
문제 풀이
틀렸다
맞았다!
문제 풀이의 중요성
선생님이 해 주는 문제 풀이처럼
답과 답의 근거를 함께 알려주는 AI를 통해
자기주도 학습자들의 학습을 돕고자 함
10. 1. 소개 1 2 3 4 5
XAI란?
eXplainable Artificial Intelligence, XAI
인공지능 모델이 특정 결론을 내리기까지 어떤 근거로 의사 결정을 내렸는지를 알 수 있게
설명 가능성을 추가하는 기법으로, 인공지능에 설명 능력을 부여해
기계와 인간의 상호작용에 합리성을 확보할 수 있도록 함
출처: XAI 설명가능한 인공지능, 인공지능을 해부하다
11. 1. 소개 1 2 3 4 5
XAI란?
XAI는 단순히 ‘왜’이런 결과를 냈는지 알려주는 데 그치는 것이 아니라
기존 인공지능이 어떠한 체제로 동작하고 동작하지 않는지,
시스템이 왜 실패하고 성공하는지를 파악할 수 있도록 합니다!
저는 제 모델이 왜 이런 결과를 냈는지 별로 안 궁금한데요??
오전 1:23
오전 1:26
아하!
오전 1:38
12. 1. 소개 1 2 3 4 5
해당 데이터를 각 라벨로 분류할 확률에 기여한 픽셀들을 확인할 수 있음
XAI란?
이미지 데이터에서의 XAI
13. 1. 소개 1 2 3 4 5
XAI란?
해당 데이터를 각 라벨로 분류할 확률에 기여한 단어들을 확인할 수 있음
텍스트 데이터에서의 XAI
14. 1. 소개 1 2 3 4 5
프로젝트 목표
XAI를 이용해 해답의 근거까지
설명할 수 있는 모델을 구현하자!
목표 1
목표 2
수능 영어 문제를 풀 수 있는 모델 구현
XAI 기법을 이용해 해답의 근거 밝히기
데이터 수집 전처리 모델링
문법
맥락
XAI
SHAP
IG
LRP
최종 모델 선정
유형별 모델링 결과와 함께
XAI 결과를 정성평가해
최종 모델 선정
16. 2. 데이터 1 2 3 4 5
데이터 선정
총 16개의 문제 유형 중 선지와 본문 모두 영어이고 그림, 도표 없이
텍스트로만 이루어져 있는 문제유형 다섯 가지를 선정
대학수학능력시험 영어 영역 문제 유형
듣기
글의 목적
글의 주제
함의 추론
글의 분위기/심경 파악
내용 일치/불일치
실용문 일치/불일치
단어의 적절성 판단
도표 이해
요약문 완성
장문 독해
문법
빈칸 추론
무관한 문장 고르기
문장 삽입
문단 순서
17. 2. 데이터 1 2 3 4 5
데이터 선정
문제 풀이 방식에 따라 두 가지 유형으로 분류
맥락에 대한 이해가
필요 없는 유형
맥락에 대한 이해가
필요한 유형
VS
a.k.a 흐름
빈칸추론
문법 무관한 문장 고르기 문장삽입 문단순서
18. 2. 데이터 1 2 3 4 5
문제유형 본문 선지1 선지2 선지3 선지4 선지5 문제번호 답 출처_년도 출처_월 출처_학년
문법
Despite all
the high-te
ch devices
that seem
has that using dependently did 29 4 2022 6월 고1
빈칸추론
Such _____
are likely to
stretch part
icipants be
yond.
restrictions
responsibili
ties
memories coincidences traditions 31 1 2022 6월 고1
데이터 수집
모의고사, EBS 연계교재로부터 문제 유형별로 데이터 수집
모의고사 EBS
- 대상: 고1, 고2, 고3
- 기간: 2011년~2022년도 3, 4, 6, 7, 9, 10, 11월
- 수능특강, 수능완성 : 2012년~2023년도
- 영어독해연습 : 2016~2020년도
*
* 고3 11월 수능 문제는 TEST 데이터로 사용
손으로 3명이서 4007개 ^^
19. 2. 데이터 1 2 3 4 5
문법 데이터
어법 상 틀린 부분이 있는 문장을 고르는 문제로,
글 전체를 읽을 필요 없이 선지가 있는 문장만 확인한다
문법 문제 특징
9%
전체 유형 중 문법 유형 데이터 비율 문장의 단어 개수 분포
최솟값 평균 최댓값
19 141.6 409
12개
TRAIN / TEST 분포
358개
20. 2. 데이터 1 2 3 4 5
문법 데이터
• 23개 언어학 출판물의 10657개 문장
• 문장들의 문법 적합 여부 라벨링
• 구성: In-domain & out-domain
• TOEIC의 Part 5. 단문 빈칸 채우기
• 어법 문제와 어휘문제로 구성되어 있음
• 4지선다형
문장의 길이 분포
Mean 41
문장의 길이 분포
Mean 106
CoLA TOEIC
21. 2. 데이터 1 2 3 4 5
문법 데이터
[2021학년도 수능 영어영역 29번]
다음 글의 밑줄 친 부분 중, 어법상 틀린 것은?
Scientists who experiment on themselves can, functionally
if not legally, avoid the restrictions ①associated with exper
imenting on other people. They can also sidestep most of t
he ethical issues involved: nobody, presumably, is more aw
are of an experiment’s potential hazards than the scientist
who devised ②it. Nonetheless, experimenting on oneself re
mains ③deeply problematic. One obvious drawback is the d
anger involved; knowing that it exists ④does nothing to red
uce it. A less obvious drawback is the limited range of data
that the experiment can generate. Human anatomy and phy
siology vary, in small but significant ways, according to gen
der, age, lifestyle, and other factors. Experimental results d
erived from a single subject are, therefore, of limited value;
there is no way to know ⑤what the subject’s responses are
typical or atypical of the response of humans as a group.
* consent: 동의 ** anatomy: (해부학적) 구조 *** physiology: 생리적 현상
< 문법 전처리 하는 법 >
: 선지가 들어 있는 문장만 추출한다!
22. 2. 데이터 1 2 3 4 5
문법 데이터
[2021학년도 수능 영어영역 29번]
다음 글의 밑줄 친 부분 중, 어법상 틀린 것은?
* consent: 동의 ** anatomy: (해부학적) 구조 *** physiology: 생리적 현상
< 문법 전처리 하는 법 >
: 선지가 들어 있는 문장만 추출한다!
Scientists who experiment on themselves can, fun
ctionally if not legally, avoid the restrictions ①ass
ociated with experimenting on other people.
1번
Scientists who experiment on themselves can, functionally
if not legally, avoid the restrictions ①associated with exper
imenting on other people. They can also sidestep most of t
he ethical issues involved: nobody, presumably, is more aw
are of an experiment’s potential hazards than the scientist
who devised ②it. Nonetheless, experimenting on oneself re
mains ③deeply problematic. One obvious drawback is the d
anger involved; knowing that it exists ④does nothing to red
uce it. A less obvious drawback is the limited range of data
that the experiment can generate. Human anatomy and phy
siology vary, in small but significant ways, according to gen
der, age, lifestyle, and other factors. Experimental results d
erived from a single subject are, therefore, of limited value;
there is no way to know ⑤what the subject’s responses are
typical or atypical of the response of humans as a group.
23. 2. 데이터 1 2 3 4 5
문법 데이터
[2021학년도 수능 영어영역 29번]
다음 글의 밑줄 친 부분 중, 어법상 틀린 것은?
* consent: 동의 ** anatomy: (해부학적) 구조 *** physiology: 생리적 현상
< 문법 전처리 하는 법 >
: 선지가 들어 있는 문장만 추출한다!
Scientists who experiment on themselves can, fun
ctionally if not legally, avoid the restrictions ①ass
ociated with experimenting on other people.
1번
2번 They can also sidestep most of the ethical issues inv
olved: nobody, presumably, is more aware of an expe
riment’s potential hazards than the scientist who de
vised ②it.
.
.
.
총 다섯개의 문장 데이터
Scientists who experiment on themselves can, functionally
if not legally, avoid the restrictions ①associated with exper
imenting on other people. They can also sidestep most of t
he ethical issues involved: nobody, presumably, is more aw
are of an experiment’s potential hazards than the scientist
who devised ②it. Nonetheless, experimenting on oneself re
mains ③deeply problematic. One obvious drawback is the d
anger involved; knowing that it exists ④does nothing to red
uce it. A less obvious drawback is the limited range of data
that the experiment can generate. Human anatomy and phy
siology vary, in small but significant ways, according to gen
der, age, lifestyle, and other factors. Experimental results d
erived from a single subject are, therefore, of limited value;
there is no way to know ⑤what the subject’s responses are
typical or atypical of the response of humans as a group.
24. 2. 데이터 1 2 3 4 5
문법 데이터
TOEIC의 데이터 비중이 가장 높으며
문법적으로 옳지 않은 문장의 비율 또한 TOEIC이 가장 높음
< 총 문장 개수 >
TOEIC
14500개
CoLA
8550개
수집데이터
1735개
24,785개
< 유형 별 틀린 문장 비율 >
TOEIC
CoLA
수집데이터
20% 34% 75%
25. 2. 데이터 1 2 3 4 5
맥락 데이터
맥락 데이터는 모의고사 및 EBS 연계교재로부터 추출한 문제로만 구성
총
3641개
총
113개
< TRAIN SET > < TEST SET >
46%
빈칸추론
문단순서
문장삽입
20%
14% 흐름
20%
문단순서
문장삽입
20%
50%
빈칸추론
흐름
20%
10%
26. 2. 데이터 1 2 3 4 5
맥락 데이터 - 빈칸추론
빈칸이 등장하는 문장 순서
빈칸에 들어갈 적절한 단어, 구 등을 고르는 문제로
전체적인 맥락 파악이 중요하다
본문 전체 문장 개수
빈칸추론 문제 특징
첫번째 문장 또는 본문 중간에서
빈칸이 등장하는 경우가 많음
최솟값 평균 최댓값
3 7.3 18
27. 2. 데이터 1 2 3 4 5
맥락 데이터 - 빈칸추론
[2021학년도 수능 영어영역 31번]
다음 빈칸에 들어갈 말로 가장 적절한 것을 고르시오.
In the classic model of the Sumerian economy, the temple fun
ctioned as an administrative authority governing commodity p
roduction, collection, and redistribution. The discovery of adm
inistrative tablets from the temple complexes at Uruk suggest
s that token use and consequently writing evolved as a tool of
centralized economic governance. Given the lack of archaeolo
gical evidence from Uruk-period domestic sites, it is not clear
whether individuals also used the system for _____. For that
matter, it is not clear how widespread literacy was at its begi
nnings. The use of identifiable symbols and pictograms on th
e early tablets is consistent with administrators needing a lex
icon that was mutually intelligible by literate and nonliterate
parties. As cuneiform script became more abstract, literacy m
ust have become increasingly important to ensure one unders
tood what he or she had agreed to.
< 빈칸추론 전처리 하는 법 >
: 주어진 선지를 빈칸에 각각 대입한다!
① religious events ② personal agreements
③ communal responsibilities ④ historical records
⑤ power shifts
[2021학년도 수능 영어영역 31번]
다음 빈칸에 들어갈 말로 가장 적절한 것을 고르시오.
In the classic model of the Sumerian economy, the temple functi
oned as an administrative authority governing commodity produ
ction, collection, and redistribution. The discovery of administrat
ive tablets from the temple complexes at Uruk suggests that tok
en use and consequently writing evolved as a tool of centralized
economic governance. Given the lack of archaeological evidence
from Uruk-period domestic sites, it is not clear whether individu
als also used the system for _____. For that matter, it is not clea
r how widespread literacy was at its beginnings. The use of iden
tifiable symbols and pictograms on the early tablets is consisten
t with administrators needing a lexicon that was mutually intelli
gible by literate and nonliterate parties. As cuneiform script bec
ame more abstract, literacy must have become increasingly imp
ortant to ensure one understood what he or she had agreed to.
① religious events
② personal agreements
③ communal responsibilities
④ historical records
⑤ power shifts
28. 2. 데이터 1 2 3 4 5
맥락 데이터 - 빈칸추론
[2021학년도 수능 영어영역 31번]
다음 빈칸에 들어갈 말로 가장 적절한 것을 고르시오.
< 빈칸추론 전처리 하는 법 >
: 주어진 선지를 빈칸에 각각 대입한다!
In the classic model of the Sumerian economy, the temple functi
oned as an administrative authority governing commodity produ
ction, collection, and redistribution. The discovery of administrat
ive tablets from the temple complexes at Uruk suggests that tok
en use and consequently writing evolved as a tool of centralized
economic governance. Given the lack of archaeological evidence
from Uruk-period domestic sites, it is not clear whether individu
als also used the system for _____. For that matter, it is not clea
r how widespread literacy was at its beginnings. The use of iden
tifiable symbols and pictograms on the early tablets is consisten
t with administrators needing a lexicon that was mutually intelli
gible by literate and nonliterate parties. As cuneiform script bec
ame more abstract, literacy must have become increasingly imp
ortant to ensure one understood what he or she had agreed to.
1번 (전략) … Given the lack of archaeological evide
nce from Uruk-period domestic sites, it is not c
lear whether individuals also used the system f
or religious events. For that matter, it is not cle
ar how widespread literacy was at its beginnin
gs. The use of identifiable symbols and pictogr
ams on the early tablets is consistent with adm
inistrators needing a lexicon that was … (후략)
① religious events
② personal agreements
③ communal responsibilities
④ historical records
⑤ power shifts
29. 2. 데이터 1 2 3 4 5
[2021학년도 수능 영어영역 31번]
다음 빈칸에 들어갈 말로 가장 적절한 것을 고르시오.
In the classic model of the Sumerian economy, the temple functi
oned as an administrative authority governing commodity produ
ction, collection, and redistribution. The discovery of administrat
ive tablets from the temple complexes at Uruk suggests that tok
en use and consequently writing evolved as a tool of centralized
economic governance. Given the lack of archaeological evidence
from Uruk-period domestic sites, it is not clear whether individu
als also used the system for _____. For that matter, it is not clea
r how widespread literacy was at its beginnings. The use of iden
tifiable symbols and pictograms on the early tablets is consisten
t with administrators needing a lexicon that was mutually intelli
gible by literate and nonliterate parties. As cuneiform script bec
ame more abstract, literacy must have become increasingly imp
ortant to ensure one understood what he or she had agreed to.
맥락 데이터 - 빈칸추론
< 빈칸추론 전처리 하는 법 >
: 주어진 선지를 빈칸에 각각 대입한다!
2번
총 다섯개의 문단 데이터
(전략) … Given the lack of archaeological evide
nce from Uruk-period domestic sites, it is not c
lear whether individuals also used the system f
or personal agreements. For that matter, it is n
ot clear how widespread literacy was at its beg
innings. The use of identifiable symbols and pi
ctograms on the early tablets … (후략)
① religious events
② personal agreements
③ communal responsibilities
④ historical records
⑤ power shifts
30. 2. 데이터 1 2 3 4 5
맥락 데이터 – 흐름
글 앞부분만 읽어서는 답을 찾을 수 없고
글 전체를 모두 읽어 주제를 파악해야 함
전체적인 글의 흐름과 무관한 문장을 고르는 문제로
글의 전반적인 주제 및 흐름 파악이 중요하다
흐름 문제 특징
본문 내 단어 개수
선지 별 정답 빈도
최솟값 평균 최댓값
90 148.4 197
14%
전체 유형 중 흐름 유형 데이터 비율
31. 2. 데이터 1 2 3 4 5
맥락 데이터 - 흐름
[2021학년도 수능 영어영역 35번]
다음 글에서 전체 흐름과 관계 없는 문장은?
Workers are united by laughing at shared events, even ones
that may initially spark anger or conflict. Humor reframes pot
entially divisive events into merely “laughable” ones which ar
e put in perspective as subservient to unifying values held by
organization members. Repeatedly recounting humorous incid
ents reinforces unity based on key organizational values. ① O
ne team told repeated stories about a dumpster fire, somethi
ng that does not seem funny on its face, but the reactions of
workers motivated to preserve safety sparked laughter as the
stories were shared multiple times by multiple parties in the
workplace. ② Shared events that cause laughter can indicate
a sense of belonging since “you had to be there” to see the hu
mor in them, and non-members were not and do not. ③ Since
humor can easily capture people’s attention, commercials ten
d to contain humorous elements, such as funny faces and ges
tures. ④ Instances of humor serve to enact bonds among orga
nization members. ⑤ Understanding the humor may even be r
equired as an informal badge of membership in the organizati
on.
< 흐름 전처리 하는 법 >
: 주어진 선지를 전체 문단에서 삭제한다!
32. 2. 데이터 1 2 3 4 5
맥락 데이터 - 흐름
[2021학년도 수능 영어영역 35번]
다음 글에서 전체 흐름과 관계 없는 문장은?
< 흐름 전처리 하는 법 >
: 주어진 선지를 전체 문단에서 삭제한다!
1번
Workers are united by laughing at shared events, even ones
that may initially spark anger or conflict. Humor reframes pot
entially divisive events into merely “laughable” ones which ar
e put in perspective as subservient to unifying values held by
organization members. Repeatedly recounting humorous incid
ents reinforces unity based on key organizational values. ① O
ne team told repeated stories about a dumpster fire, somethi
ng that does not seem funny on its face, but the reactions of
workers motivated to preserve safety sparked laughter as the
stories were shared multiple times by multiple parties in the
workplace. ② Shared events that cause laughter can indicate
a sense of belonging since “you had to be there” to see the hu
mor in them, and non-members were not and do not. ③ Since
humor can easily capture people’s attention, commercials ten
d to contain humorous elements, such as funny faces and ges
tures. ④ Instances of humor serve to enact bonds among orga
nization members. ⑤ Understanding the humor may even be r
equired as an informal badge of membership in the organizati
on.
(전략) … Repeatedly recounting humorous incid
ents reinforces unity based on key organization
al values. Shared events that cause laughter ca
n indicate a sense of belonging since “you had
to be there” to see the humor in them, and non
-members were not and do not. … (후략)
33. 2. 데이터 1 2 3 4 5
맥락 데이터 - 흐름
[2021학년도 수능 영어영역 35번]
다음 글에서 전체 흐름과 관계 없는 문장은?
< 흐름 전처리 하는 법 >
: 주어진 선지를 전체 문단에서 삭제한다!
2번
.
.
.
총 다섯개의 문단 데이터
(전략) … safety sparked laughter as the stories
were shared multiple times by multiple parties
in the workplace. Since humor can easily captu
re people’s attention, commercials tend to con
tain humorous elements … (후략)
Workers are united by laughing at shared events, even ones
that may initially spark anger or conflict. Humor reframes pot
entially divisive events into merely “laughable” ones which ar
e put in perspective as subservient to unifying values held by
organization members. Repeatedly recounting humorous incid
ents reinforces unity based on key organizational values. ① O
ne team told repeated stories about a dumpster fire, somethi
ng that does not seem funny on its face, but the reactions of
workers motivated to preserve safety sparked laughter as the
stories were shared multiple times by multiple parties in the
workplace. ② Shared events that cause laughter can indicate
a sense of belonging since “you had to be there” to see the hu
mor in them, and non-members were not and do not. ③ Since
humor can easily capture people’s attention, commercials ten
d to contain humorous elements, such as funny faces and ges
tures. ④ Instances of humor serve to enact bonds among orga
nization members. ⑤ Understanding the humor may even be r
equired as an informal badge of membership in the organizati
on.
34. 2. 데이터 1 2 3 4 5
맥락 데이터 – 문장삽입
주어진 문장이 들어갈 적절한 위치를 고르는 문제
흐름 유형과 마찬가지로 맥락 파악이 중요하다
문장삽입 문제 특징
본문 내 단어 개수
주어진 문장 단어개수
20%
전체 유형 중 문장삽입 유형 데이터 비율
최솟값 평균 최댓값
5 21 47
최솟값 평균 최댓값
82 134.4 187
35. 2. 데이터 1 2 3 4 5
맥락 데이터 - 문장삽입
[2021학년도 수능 영어영역 38번]
글의 흐름으로 보아, 주어진 문장이 들어가기에 가장 적절한 곳은?
Imagine I tell you that Maddy is bad. ( ① ) However, you might
not get a more detailed sense of the particular sorts of way in
which Maddy is bad, her typical character traits, and the like,
since people can be bad in many ways. ( ② ) In contrast, if I sa
y that Maddy is wicked, then you get more of a sense of her t
ypical actions and attitudes to others. ( ③ ) The word ‘wicked
’ is more specific than ‘bad’. ( ④ ) But there is more detail ne
vertheless, perhaps a stronger connotation of the sort of pers
on Maddy is. ( ⑤ ) In addition, and again assuming typical ling
uistic conventions, you should also get a sense that I am disa
pproving of Maddy, or saying that you should disapprove of he
r, or similar, assuming that we are still discussing her moral c
haracter.
< 문장삽입 전처리 하는 법 >
: 각 선지에 주어진 문장을 삽입한다!
I have still not exactly pinpointed Maddy’s character
since wickedness takes many forms.
36. 2. 데이터 1 2 3 4 5
맥락 데이터 - 문장삽입
[2021학년도 수능 영어영역 38번]
글의 흐름으로 보아, 주어진 문장이 들어가기에 가장 적절한 곳은?
< 문장삽입 전처리 하는 법 >
: 각 선지에 주어진 문장을 삽입한다!
I have still not exactly pinpointed Maddy’s character
since wickedness takes many forms.
1번
Imagine I tell you that Maddy is bad. ( ① ) However, you might
not get a more detailed sense of the particular sorts of way in
which Maddy is bad, her typical character traits, and the like,
since people can be bad in many ways. ( ② ) In contrast, if I sa
y that Maddy is wicked, then you get more of a sense of her t
ypical actions and attitudes to others. ( ③ ) The word ‘wicked
’ is more specific than ‘bad’. ( ④ ) But there is more detail ne
vertheless, perhaps a stronger connotation of the sort of pers
on Maddy is. ( ⑤ ) In addition, and again assuming typical ling
uistic conventions, you should also get a sense that I am disa
pproving of Maddy, or saying that you should disapprove of he
r, or similar, assuming that we are still discussing her moral c
haracter.
Imagine I tell you that Maddy is bad. I have
still not exactly pinpointed Maddy’s charac
ter since wickedness takes many forms.
However, you might not get a more detaile
d sense of the particular sorts of way in w
hich Maddy is bad, her typical character tr
aits, and the like, since people can be bad i
n many ways. … (후략)
37. 2. 데이터 1 2 3 4 5
맥락 데이터 - 문장삽입
[2021학년도 수능 영어영역 38번]
글의 흐름으로 보아, 주어진 문장이 들어가기에 가장 적절한 곳은?
< 문장삽입 전처리 하는 법 >
: 각 선지에 주어진 문장을 삽입한다!
I have still not exactly pinpointed Maddy’s character
since wickedness takes many forms.
2번
총 다섯개의 문단 데이터
Imagine I tell you that Maddy is bad. ( ① ) However, you might
not get a more detailed sense of the particular sorts of way in
which Maddy is bad, her typical character traits, and the like,
since people can be bad in many ways. ( ② ) In contrast, if I sa
y that Maddy is wicked, then you get more of a sense of her t
ypical actions and attitudes to others. ( ③ ) The word ‘wicked
’ is more specific than ‘bad’. ( ④ ) But there is more detail ne
vertheless, perhaps a stronger connotation of the sort of pers
on Maddy is. ( ⑤ ) In addition, and again assuming typical ling
uistic conventions, you should also get a sense that I am disa
pproving of Maddy, or saying that you should disapprove of he
r, or similar, assuming that we are still discussing her moral c
haracter.
(전략) … Maddy is bad, her typical characte
r traits, and the like, since people can be b
ad in many ways. I have still not exactly pi
npointed Maddy’s character since wickedn
ess takes many forms. In contrast, if I say t
hat Maddy is wicked, then you get more of
a sense of her typical actions … (후략)
38. 2. 데이터 1 2 3 4 5
맥락 데이터 – 문단순서
주어진 문단 뒤에 이어질 문단의 순서를 적절히 배치하는
문제로 전체적인 글의 흐름 파악이 중요한 문제 유형
문단순서 문제 특징
20%
전체 유형 중 문단순서 유형 데이터 비율 선지 별 단어 개수 box plot
given A B C
39. 2. 데이터 1 2 3 4 5
맥락 데이터 - 문단순서
< 문단순서 전처리 하는 법 >
: 선지의 모든 조합을 고려하여 데이터를 만들자!
문법 외 유형
빈칸
[2021학년도 수능 영어영역 36번]
주어진 글 다음에 이어질 글의 순서로 가장 적절한 것을 고르시오.
(A) To be political, a political entity or a representative of a p
olitical entity, whatever its constitutional form, has to hav
e an intention, a will. That intention has to be clearly expr
essed.
(B) In the real world, war’s larger purpose is always a politica
l purpose. It transcends the use of force. This insight was
famously captured by Clausewitz’s most famous phrase, “
War is a mere continuation of politics by other means.”
(C) And one side’s will has to be transmitted to the enemy at
some point during the confrontation (it does not have to b
e publicly communicated). A violent act and its larger poli
tical intention must also be attributed to one side at some
point during the confrontation. History does not know of a
cts of war without eventual attribution.
The objective of battle, to “throw” the enemy and to make him
defenseless, may temporarily blind commanders and even strat
egists to the larger purpose of war. War is never an isolated act,
nor is it ever only one decision.
40. 2. 데이터 1 2 3 4 5
맥락 데이터 - 문단순서
< 문단순서 전처리 하는 법 >
: 선지의 모든 조합을 고려하여 데이터를 만들자!
Given-A
1번
Given-B
2번
Given-C
3번
A-B
4번
A-C
5번
B-A
6번
두 문단을 엮은 총 아홉개 문단 데이터
문법 외 유형
빈칸
[2021학년도 수능 영어영역 36번]
주어진 글 다음에 이어질 글의 순서로 가장 적절한 것을 고르시오.
(A) To be political, a political entity or a representative of a p
olitical entity, whatever its constitutional form, has to hav
e an intention, a will. That intention has to be clearly expr
essed.
(B) In the real world, war’s larger purpose is always a politica
l purpose. It transcends the use of force. This insight was
famously captured by Clausewitz’s most famous phrase, “
War is a mere continuation of politics by other means.”
(C) And one side’s will has to be transmitted to the enemy at
some point during the confrontation (it does not have to b
e publicly communicated). A violent act and its larger poli
tical intention must also be attributed to one side at some
point during the confrontation. History does not know of a
cts of war without eventual attribution.
The objective of battle, to “throw” the enemy and to make him
defenseless, may temporarily blind commanders and even strat
egists to the larger purpose of war. War is never an isolated act,
nor is it ever only one decision.
B-C
7번
C-A
8번
C-B
9번
41. 2. 데이터 1 2 3 4 5
맥락 데이터
전처리 과정에서 일부분만 바뀐 채 라벨이 달라지는 데이터가 n개 생성됨
이에 따라 유사한 데이터에 라벨이 1인 데이터가 많아져 애매할 때 1으로 예측하는 경우가 많다고 판단
[2021학년도 수능 영어영역 31번]
다음 빈칸에 들어갈 말로 가장 적절한 것을 고르시오.
[2021학년도 수능 영어영역 31번]
다음 빈칸에 들어갈 말로 가장 적절한 것을 고르시오.
Given the lack of archaeological evidence from Uruk-period dom
estic sites, it is not clear whether individuals also used the syst
em for _____.
① religious events
② personal agreements
③ communal responsibilities
④ historical records
⑤ power shifts
1
0
1
1
1
Label
… use the system for religious events.
… use the system for personal agreements.
… the system for communal responsibilities.
… use the system for historical records.
… use the system for power shifts.
… use the system for religious events.
42. 2. 데이터 1 2 3 4 5
맥락 데이터
Easy Data Augmentation
자연어 처리 과정에서 데이터를 쉽게 증강하기 위한 테크닉
SR
Synonym Replacement
: 특정 단어를 유의어로 교체
RS
Random Swap
: 임의의 두 단어 위치 변경
RI
Random Insertion
: 임의의 단어를 삽입
RD
Random Deletion
: 특정 확률로 임의의 단어 삭제
43. 2. 데이터 1 2 3 4 5
맥락 데이터
Easy Data Augmentation
자연어 처리 과정에서 데이터를 쉽게 증강하기 위한 테크닉
SR
Synonym Replacement
: 특정 단어를 유의어로 교체
RS
Random Swap
: 임의의 두 단어 위치 변경
RI
Random Insertion
: 임의의 단어를 삽입
RD
Random Deletion
: 특정 확률로 임의의 단어 삭제
44. 2. 데이터 1 2 3 4 5
맥락 데이터
Label==0인 데이터와 Label==1인 데이터의 비율을 비슷하게 맞춤
Original Data
Augmented Data
Label 0 Label 1
13724
13724
6387
12774
2배
46. 3. 모델링 1 2 3 4 5
평가지표
Specificity
Grammar
Context
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
𝑇𝑁
𝑇𝑁 + 𝐹𝑃
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑁 + 𝐹𝑁 + 𝑇𝑁
실제 label==1인 값 중
모델이 1이라 예측한 비율
Sensitivity
실제 label==0인 값 중
모델이 0이라 예측한 비율
accuracy
label==1인 값 중 1이라 예측하고
label==0인 값 중 0이라 예측하는 비율
47. 3. 모델링 1 2 3 4 5
문법 모델링
문법 모델 최종 TRAIN 데이터셋
문장 라벨
Paper is not the only resource that we are using more of. 0
Technological advances often come with the promise of
using fewer materials. 0
However, the reality is that they have historically caused
more materials use, making us dependently on more
natural resources.
1
We use twenty-seven times more industrial minerals,
such as gold, copper, and rare metals, than we did just
over a century ago.
0
(24785, 2)
48. 3. 모델링 1 2 3 4 5
문법 모델링
문법적으로 옳은 문장인지 여부를 분류하는 모델을 구현
Classification
IsGrammarticallyCorrect==0 GrammarticallyNotCorrect==1
Bert-base-uncased
Bert-base-cased
ALBERT
GRU
Bi-LSTM
CNN
51. 3. 모델링 1 2 3 4 5
맥락 모델링
맥락 모델 최종 TRAIN 데이터셋
Next Sentence Prediction Classification
(20111, 3) (20111, 2)
문장1 문장2 라벨
Face-to-face interaction is a
uniquely powerful ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
natural talent ……
1
Face-to-face interaction is a
uniquely powerful – and ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
regular practice ……
1
Face-to-face interaction is a
uniquely powerful – and ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
personal contact ……
0
Face-to-face interaction is a
uniquely powerful – and ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
complex knowledge ……
1
문장 라벨
Face-to-face interaction is a
uniquely powerful ……
1
Face-to-face interaction is a
uniquely powerful – and ……
1
Face-to-face interaction is a
uniquely powerful – and ……
0
Face-to-face interaction is a
uniquely powerful – and ……
1
52. 3. 모델링 1 2 3 4 5
맥락 모델링
맥락 모델 최종 TRAIN 데이터셋
Next Sentence Prediction Classification
문장1 문장2 라벨
Face-to-face interaction is a
uniquely powerful ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
natural talent ……
1
Face-to-face interaction is a
uniquely powerful – and ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
regular practice ……
1
Face-to-face interaction is a
uniquely powerful – and ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
personal contact ……
0
Face-to-face interaction is a
uniquely powerful – and ……
Psychologist Mihàly
Csikszentmihàlyi found, ……
complex knowledge ……
1
문장 라벨
Face-to-face interaction is a
uniquely powerful ……
1
Face-to-face interaction is a
uniquely powerful – and ……
1
Face-to-face interaction is a
uniquely powerful – and ……
0
Face-to-face interaction is a
uniquely powerful – and ……
1
(26498, 3) (26498, 2)
Augmented Augmented
53. 3. 모델링 1 2 3 4 5
맥락 모델링
Sentence1 다음에 sentence2가 오기 적절한지 여부를 예측하는
Next Sentence Prediction task를 이용해
두 문장 사이의 내용적 연관성과 통일성, 맥락을 확인하고자 함
BERT가 아닌 모델들의 경우 입력 값이
하나이기 때문에 글의 흐름이 자연스러운지를
분류하는 모델로 구현
Next Sentence Prediction Classification
IsNextSentence==0 NotNextSentence==1 IsOneArticle==0 NotOneArticle==1
Bert-base-uncased
Bert-large-uncased
Bert-base-uncased
Augmented
ALBERT
Augmented
Bi-LSTM Text CNN
Text CNN
Augmented
CNN
54. 3. 모델링 1 2 3 4 5
맥락 모델링
Model Params Test acc Test specificity epoch
Bert-base-uncased
lr: 1e-5
Batch size:8
0.7025 0.7044 5
Bert-base-uncased
lr: 1e-5
Batch size: 8
0.4974 - 5
BERT-large-uncased
lr: 1e-5
Batch size: 8
0.7025 0.7055 5
ALBERT
lr : 1e-5
batch size: 32
0.7444 0.7629 5
CNN
lr : 1e-2
batch size : 16
0.7025 0 10
Bi-LSTM
lr : 1e-2
batch size : 32
0.7025 0 10
Text CNN
lr : 1e-2
batch size : 64
0.7025 0.6323 10
Text CNN
lr : 1e-2
batch size : 64
0.7025 0.7528 10
Augmented
Augmented
Augmented
55. 3. 모델링 1 2 3 4 5
맥락 모델링
Model Params Test acc Test specificity epoch
Bert-base-uncased
lr: 1e-5
Batch size:8
0.7025 0.7044 5
Bert-base-uncased
lr: 1e-5
Batch size: 8
0.4974 - 5
BERT-large-uncased
lr: 1e-5
Batch size: 8 0.7025 0.7055 5
ALBERT
lr : 1e-5
batch size: 32 0.7444 0.7629 5
CNN
lr : 1e-2
batch size : 16
0.7025 0 10
Bi-LSTM
lr : 1e-2
batch size : 32
0.7025 0 10
Text CNN
lr : 1e-2
batch size : 64
0.7025 0.6323 10
Text CNN
lr : 1e-2
batch size : 64 0.7025 0.7528 10
Augmented
Augmented
Augmented 2.
1.
3.
57. 4. XAI 1 2 3 4 5
SHAP
Bert-base-uncased
IG
Bert-base-uncased
ALBERT
Bert-large-uncased
ALBERT
Text CNN
LRP
Bert-base-uncased
ALBERT
Bert-large-uncased
ALBERT
58. 4. XAI 1 2 3 4 5
SHAP
SHAP
게임이론 중 Shapley value에 기초하여 만들어진 기법으로,
Shapley value를 기반으로 샘플에 가중치를 부여해 블랙박스 모델을 사후해석하기 위해 이용함
Shapley
value
∅𝑖 𝑣 =
𝑆∈𝑁{𝑖}
𝑆 ! 𝑛 − 𝑆 − 1 !
𝑛!
(𝑣 𝑆 ∪ 𝑖 − 𝑣(𝑆)
단점
장점
Model-agnostic
피처들이 서로 영향을 미칠 가능성 고려
단점
아웃라이어 값에 취약함
데이터가 많은 경우 오랜 시간이 걸림
59. 4. XAI 1 2 3 4 5
SHAP
모델이 label==0이라고 예측하는데 도움을 준 단어들은 붉은색,
Label==1이라고 예측하는데 도움을 준 단어들은 푸른색으로 칠해져 결과가 반환됨
Bert-base-uncased
2021년 대학수학능력시험 29번 1번 선지
60. 4. XAI 1 2 3 4 5
IG
Integrated Gradient
최종 출력의 기울기에 따라 input의 중요도 값을 부여하기 위해 사용되는 기법
Baseline
Input
Baseline과 Input을 대비시켜
특정 피처가 없을 때와 있을 때
예측에 미치는 영향을 계산한다
61. 4. XAI 1 2 3 4 5
IG
Bert-base-uncased
2019년 대학수학능력시험 29번 1번 선지
ALBERT
63. 4. XAI 1 2 3 4 5
LRP
Layer-wise Relevance Propagation
딥러닝 모델의 결과를 역추적하여 입력 이미지에 히트맵을 출력하는 기법으로
SA 기법의 한계를 극복하기 위해 등장
Key
Point
1 타당성 전파
특정 결과가 나오게 된 원인을 분해하고 비중을 분배
각 은닉층이 결괏값 출력에 어떻게 기여하는지 타당성 계산
2 분해
타당성 전파 과정에서 얻어낸 원인을 가중치로 환원하고 해부
각 은닉층의 결과 기여도 판단
64. 4. XAI 1 2 3 4 5
LRP
Bert-base-uncased
2021년 대학수학능력시험 29번 1번 선지
ALBERT
66. 4. XAI 1 2 3 4 5
평가지표
위 표를 기준으로 정성평가를 진행
1 2 3 4 5
수능 해설지와 유사한가? 매우 그렇지 않다 그렇지 않다 보통 그렇다 매우 그렇다
진하게 색칠된 단어가 답
이해에 도움이 되는가?
매우 그렇지 않다 그렇지 않다 보통 그렇다 매우 그렇다
색칠되지 않았거나 연하게
색칠된 단어 중 색칠된 단
어보다 답 이해에 더 도움
이 되는 단어가 있는가?
매우 그렇다 그렇다 보통 그렇지 않다 매우 그렇지 않다
진하게 색칠된 단어 중 답
이해에 필요 없는 단어가
얼마나 있는가?
70% 이상 50% 이상 30% 이상 10% 이상 10% 미만
67. 4. XAI 1 2 3 4 5
평가 결과
평가자 SHAP_BERT LRP_BERT LRP_ALBERT IG_BERT IG_ALBERT
A 4.4 3.6 4.2 3.8 4
B 4 3 3.8 3.6 3.8
C 4.2 3.6 3.6 3.6 3.6
평균 4.2 (84) 3.4 (68) 3.87 (77.3) 3.67 (73.3) 3.8 (76)
Grammar 최근 5개년 문제 확인
* 괄호 안은 백분위 수
68. 4. XAI 1 2 3 4 5
평가 결과
평가자 IG_BERT IG_ALBERT IG_TEXTCNN LRP_BERT LRP_ALBERT
A 4.64 3.6 4.12 3.44 4.4
B 4.4 3.88 3.92 4.04 4.12
C 4.12 3.92 4.4 3.76 3.88
평균 4.387 (87.7) 3.8 (76) 4.147 (82.9) 3.747 (74.9) 4.13 (82.7)
Context 유형별로 5문제 확인
* 괄호 안은 백분위 수
70. 5. 결론 1 2 3 4 5
최종 모델 선정
Grammar
Context
SHAP
Bert-base-uncased
IG
ALBERT
71. 5. 결론 1 2 3 4 5
Pipeline
데이터 입력 전처리 모델링 XAI 최종 결과 반환
선지 하나가
하나의 input이
되도록 전처리
문법 모델
BERT
맥락 모델
ALBERT
SHAP
IG
답: ①
72. 5. 결론 1 2 3 4 5
Pipeline
데이터 입력 전처리 모델링 XAI 최종 결과 반환
선지 하나가
하나의 input이
되도록 전처리
문법 모델
BERT
맥락 모델
ALBERT
SHAP
IG
답: ①
모델을 이용해 수능 문제를 풀고,
그 근거가 되는 단어를 살펴보자!
73. 5. 결론 1 2 3 4 5
XAI 시연
선지 producing이 현재분사 형태가 올바른지 판단하기 위해서는 →
콤마 앞 문장의 완전한 문장 여부가 중요한데 이를 판단하는데 핵심적인 역할을 하는 동사 is가 가장 붉게 표시됨
A cell is “born” as a twin when its mother cell divides,
producing two daughter cells.
74. 5. 결론 1 2 3 4 5
의의 및 한계
의의
블랙박스라고 불리는 딥러닝,
머신러닝 모델을 XAI 기법을 사용하여
설명하려고 시도
한계
학습에 조금 더 적극적으로 개입
할 수 있는 AI를 시도함
컴퓨팅 파워의 한계
수능 영어영역 모든 문제 유형을
다루지 못했음
다양한 XAI기법을 이용해 모델을
설명하고자 함
75. 이수경 : 다들 컨퍼 한달 전에 주제 바꾸기 금지
김지수 : 어드브는 미리미리
권강미 : 블랙박스는 블랙박스인 이유가 있다
감사합니다
2023학년도 여름 보아즈 컨퍼런스 발표