Mining the Modern Code Review Repositories: A Dataset of People, Process and ...Norihiro Yoshida
Slides for the data paper "Mining the Modern Code Review Repositories: A Dataset of People, Process and Product" in the proceedings of the 13th International Conference on Mining Software Repositories (MSR 2016), Austin, TX, May 2016.
Mining the Modern Code Review Repositories: A Dataset of People, Process and ...Norihiro Yoshida
Slides for the data paper "Mining the Modern Code Review Repositories: A Dataset of People, Process and Product" in the proceedings of the 13th International Conference on Mining Software Repositories (MSR 2016), Austin, TX, May 2016.
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 두 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 온라인 서비스 개선을 위한 데이터 활용법
연사 : 마이크로소프트 김진영 데이터과학자
Mining public datasets using opensource tools: Zeppelin, Spark and Jujuseoul_engineer
There are plenty of public datasets out there available and the number is growing. Few recent and most useful of BigData ecosystem tools are showcased: Apache Zeppelin (incubating), Apache Spark and Juju.
이번 슬라이드는 Graph mining의 기초에 대한 것이다.
고전 문제인 Graph cut에 대한 개념과 수학적인 배경을 설명하고, 이 개념이 clustering (클러스터링)에서 어떻게 사용되는지를 설명한다.
Graph mining, cut, clustring의 기초를 알기에 매우 적합한 자료이다.
Creating and Analyzing Source Code Repository Models - A Model-based Approach...Markus Scheidgen
With mining software repositories (MSR), we analyze the rich data created during the whole evolution of one or more software projects. One major obstacle in MSR is the heterogeneity and complexity of source code as a data source. With model-based technology in general and reverse engineering in particular, we can use abstraction to overcome this obstacle. But, this raises a new question: can we apply existing reverse engineering frameworks that were designed to create models from a single revision of a software system to analyze all revisions of such a system at once? This paper presents a framework that uses a combination of EMF, the reverse engineering framework Modisco, a NoSQL-based model persistence framework, and OCL-like expressions to create and analyze fully resolved AST-level model representations of whole source code repositories. We evaluated the feasibility of this approach with a series of experiments on the Eclipse code-base.
세상에 정보는 많다. 인터넷만 보아도 시시각각 뉴스가 올라온다. 뉴스 중 특정 단어 중심의 데이터를 텍스트 마이닝 할 수 있다. 메르스가 창궐했다면 뉴스기사 중 '메르스-불안-염려'라는 연관키워드의 빈도를 뽑아 그 해석을 할 수 있을 것이다. 또는 세월호 사건에서 '안타까움 등'의 연관검색어를 통해 세월호는 타자에 대한 아픔이라면 메르스는 나 자신에 대한 염려가 아닐까란 분석도 가능하다.
반면, 공개되지 않는다는 것을 전제로 시작된 폐쇄형 SNS(밴드, 카카오톡 등)은 API로 그 내용을 볼 수 없지만, 그 어느때보다 지금 폐쇄형에서 소통되는 내용이 국민의 진짜 속마음일 것이다.
당분간 폐쇄형과 개방형이 공존할 것이다.
근래들어 웨어러블, 사물인터넷 등 low level에서 솟구쳐 오르는 센싱 값이 늘어날 것이다. 굳이 이 비정형데이터를 분석하는 빅데이터의 프로그래밍 방식과 비주얼라이징 툴 그리고 하둡 등 분산처리 시스템을 논하지 않더라도 분명, 이 자료들이 분석될 것이다.
그렇다면 묻는다. 이들 날것의 정보들을 학생들과 선생님들에게 그냥 확 줄 것인가? 오늘날 큐레이션, 관계 서비스, 로컬라이제이션 서비스 그리고 LBS 등으로 상업적으로 이용될 때, 분명 돈을 벌고 광고를 얻고 플랫폼이 되고자 유인하고 선별하여 개인화시키는 정보 필터링 기술이 있을 것이다. 교육분야는 어떤가? 누가 이 정보를 필터링하여 학생, 선생님, 교육 관계자에게 시의적절하게 문맥을 읽고 추론하여 제공하는가? 큰 플랫폼을 설명하지 않아도 된다. 큰 교육 시스템을 그려내지 않아도 좋다. 아주 구체적이고 무척 작고 섬세한 교육의 한 부분을 그려보자. 예를 들면, '메르스가 창궐하고 학교 정문에서 학생들의 귀에 온도계를 꽃아 일일이 확인하고 있다' ..만약 웨어러블이 일상화된다면 학생 안전과 관련된 정보가 어느 수준에서 어떤 방식으로 어떻게 왜 언제 선생님, 학부모 등에게 전달되거나 공유되거나 저장되거나 때론 짧게 저장된 후 삭제되거나 등이 필요한가? 메르스라는 사태에서 의료정보가 어떤 수준에서 교육정보로 활용될 수 있을까? 학교 안에 안전이라는 측면에서 기존의 모든 이머징 기술을 이야기 구조 식으로 구체적으로 나열하면 어떤 방법으로 학생-선생님-학부모 등이 소통하기에 제일 좋을까? 교육 시스템 중 일부 모듈(안전 부문, 학생 질병 관리, 건강 기록 등)에 정보 공유를 고려할 때 어떻게 이해당사자 간의 거버넌스를 생각해볼 수 있을까? 예를 들어 의료정보와 교육적 가치가 상충할 때, 프라이버시와 교육의 효율성
로봇, 교육에 대한 한 꼭지와 소셜, 지도, 관심지도, 힐링, 의료 정보, 관광 등의 한 꼭지로 나누어져 구성되었습니다.
본 강의는 교육정보특론의 13-14주에 해당하는 뒷부분으로서 그간 배운 소셜 네트워크와 웨어러블 그리고 빅데이터 등의 기반 기술을 연결하여 사고하고 응용하는 능력을 배우는 시간이 될 것입니다.
고려대학교 대학원 교육정보 시스템 특론 과정의 12주차 교안입니다. 주요 내용은 서두에 융합에 내포된 오류를 검토하고 융합 또는 창의적 발상의 사례를 검토합니다.
구체적인 본 강의에서는 융합의 사례로서 인문학적 가치 중 몇몇 역사, 미술 등의 가치를 메타화하는 과정에 설명하고 이를 통해 얻을 수 있는 구체적 서비스 내용까지 검토합니다.
자세한 내용은 고려대학교 Mooc 에서 추후 소개될 예정입니다.
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 두 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 온라인 서비스 개선을 위한 데이터 활용법
연사 : 마이크로소프트 김진영 데이터과학자
Mining public datasets using opensource tools: Zeppelin, Spark and Jujuseoul_engineer
There are plenty of public datasets out there available and the number is growing. Few recent and most useful of BigData ecosystem tools are showcased: Apache Zeppelin (incubating), Apache Spark and Juju.
이번 슬라이드는 Graph mining의 기초에 대한 것이다.
고전 문제인 Graph cut에 대한 개념과 수학적인 배경을 설명하고, 이 개념이 clustering (클러스터링)에서 어떻게 사용되는지를 설명한다.
Graph mining, cut, clustring의 기초를 알기에 매우 적합한 자료이다.
Creating and Analyzing Source Code Repository Models - A Model-based Approach...Markus Scheidgen
With mining software repositories (MSR), we analyze the rich data created during the whole evolution of one or more software projects. One major obstacle in MSR is the heterogeneity and complexity of source code as a data source. With model-based technology in general and reverse engineering in particular, we can use abstraction to overcome this obstacle. But, this raises a new question: can we apply existing reverse engineering frameworks that were designed to create models from a single revision of a software system to analyze all revisions of such a system at once? This paper presents a framework that uses a combination of EMF, the reverse engineering framework Modisco, a NoSQL-based model persistence framework, and OCL-like expressions to create and analyze fully resolved AST-level model representations of whole source code repositories. We evaluated the feasibility of this approach with a series of experiments on the Eclipse code-base.
세상에 정보는 많다. 인터넷만 보아도 시시각각 뉴스가 올라온다. 뉴스 중 특정 단어 중심의 데이터를 텍스트 마이닝 할 수 있다. 메르스가 창궐했다면 뉴스기사 중 '메르스-불안-염려'라는 연관키워드의 빈도를 뽑아 그 해석을 할 수 있을 것이다. 또는 세월호 사건에서 '안타까움 등'의 연관검색어를 통해 세월호는 타자에 대한 아픔이라면 메르스는 나 자신에 대한 염려가 아닐까란 분석도 가능하다.
반면, 공개되지 않는다는 것을 전제로 시작된 폐쇄형 SNS(밴드, 카카오톡 등)은 API로 그 내용을 볼 수 없지만, 그 어느때보다 지금 폐쇄형에서 소통되는 내용이 국민의 진짜 속마음일 것이다.
당분간 폐쇄형과 개방형이 공존할 것이다.
근래들어 웨어러블, 사물인터넷 등 low level에서 솟구쳐 오르는 센싱 값이 늘어날 것이다. 굳이 이 비정형데이터를 분석하는 빅데이터의 프로그래밍 방식과 비주얼라이징 툴 그리고 하둡 등 분산처리 시스템을 논하지 않더라도 분명, 이 자료들이 분석될 것이다.
그렇다면 묻는다. 이들 날것의 정보들을 학생들과 선생님들에게 그냥 확 줄 것인가? 오늘날 큐레이션, 관계 서비스, 로컬라이제이션 서비스 그리고 LBS 등으로 상업적으로 이용될 때, 분명 돈을 벌고 광고를 얻고 플랫폼이 되고자 유인하고 선별하여 개인화시키는 정보 필터링 기술이 있을 것이다. 교육분야는 어떤가? 누가 이 정보를 필터링하여 학생, 선생님, 교육 관계자에게 시의적절하게 문맥을 읽고 추론하여 제공하는가? 큰 플랫폼을 설명하지 않아도 된다. 큰 교육 시스템을 그려내지 않아도 좋다. 아주 구체적이고 무척 작고 섬세한 교육의 한 부분을 그려보자. 예를 들면, '메르스가 창궐하고 학교 정문에서 학생들의 귀에 온도계를 꽃아 일일이 확인하고 있다' ..만약 웨어러블이 일상화된다면 학생 안전과 관련된 정보가 어느 수준에서 어떤 방식으로 어떻게 왜 언제 선생님, 학부모 등에게 전달되거나 공유되거나 저장되거나 때론 짧게 저장된 후 삭제되거나 등이 필요한가? 메르스라는 사태에서 의료정보가 어떤 수준에서 교육정보로 활용될 수 있을까? 학교 안에 안전이라는 측면에서 기존의 모든 이머징 기술을 이야기 구조 식으로 구체적으로 나열하면 어떤 방법으로 학생-선생님-학부모 등이 소통하기에 제일 좋을까? 교육 시스템 중 일부 모듈(안전 부문, 학생 질병 관리, 건강 기록 등)에 정보 공유를 고려할 때 어떻게 이해당사자 간의 거버넌스를 생각해볼 수 있을까? 예를 들어 의료정보와 교육적 가치가 상충할 때, 프라이버시와 교육의 효율성
로봇, 교육에 대한 한 꼭지와 소셜, 지도, 관심지도, 힐링, 의료 정보, 관광 등의 한 꼭지로 나누어져 구성되었습니다.
본 강의는 교육정보특론의 13-14주에 해당하는 뒷부분으로서 그간 배운 소셜 네트워크와 웨어러블 그리고 빅데이터 등의 기반 기술을 연결하여 사고하고 응용하는 능력을 배우는 시간이 될 것입니다.
고려대학교 대학원 교육정보 시스템 특론 과정의 12주차 교안입니다. 주요 내용은 서두에 융합에 내포된 오류를 검토하고 융합 또는 창의적 발상의 사례를 검토합니다.
구체적인 본 강의에서는 융합의 사례로서 인문학적 가치 중 몇몇 역사, 미술 등의 가치를 메타화하는 과정에 설명하고 이를 통해 얻을 수 있는 구체적 서비스 내용까지 검토합니다.
자세한 내용은 고려대학교 Mooc 에서 추후 소개될 예정입니다.
9 주; 2015.4.29. 수
교육정보서비스에서 정형/반정형/비정형 데이터 처리는 어떤 의미를 갖는가?
(교육정보에서 핵심 가중치를 두어야 할 데이터는 무엇인가?
몇 가지 추천하고 그 이유를 논한다.)
키워드 : 교육정보, 교육 데이터 마이닝, 교육 빅데이터
위에 대한 내용으로 고려대 정보대학 컴퓨터학과의 강장묵 교수 (연구)의 정규 교과목 교안 입니다.
'공공정보의 개방과 API'가 의미하는 바와 정책적 함의가 무엇인지에 대하여, 동국대학교 최고위과정 중 '빅데이터와 공공정보'라는 주제로 강장묵 교수(고려대)의 강의 교안입니다.
특강형식을 빌었으나, 본 강의는 2015년 3월에 있었던 경찰본청의 '공공정보 공유' 등에 대한 3일 연속 강의의 내용을 재사용하였음을 밝힙니다.
인용을 달고 PPT를 활용하시기 바랍니다.
고려대학교 교육정보 전공 대학원 수업 7주차
클라우드 기술과 교육정보 특론
2015년 4월 15일 수요일 강장묵 교수 강의 교안
클라우드 기술과 서비스 전반을 사례 중심으로 설명
클라우드의 구현 사례(에어비앤비 등)를 소개
클라우드 교육 시스템 구현 사례와 관련 연구 논문 분석
고려대학교 대학원 교육정보서비스 특론 수업 4-5주 교안
고려대학교 정보대학 컴퓨터학과 강장묵 교수 강의
본 교안은 빅데이터 기술을 활용한 교육정보서비스에 대한 것임
강의는 교육정보에서 활용될 수 있는 여타 ICT 기술의 원리 중 정보공유와 API, 빅데이터 정보처리 과정과 하둡 프로그래밍의 이해, 구글 지도와 크레이그리스트의 매쉬업 사례 등을 다룸
고려대학교 정보대학 컴퓨터학과 강장묵 교수의 '교육정보서비스 특론' 2주차 강의 교안
교육정보에 대한 원리를 이해하고 교육정보 서비스를 학습
강의 내용은 국내 대학들 간의 KOCW(Korea Open Course Ware)조직인 OCW에서 영상 서비스 제공
고려대 OCW 홈페이지(http://ocw.korea.edu)등을 통해 운영
지혜 구성 방법 및 기술 프로젝트 수행의 일환으로 진행된 워크샵입니다. 그 중 데이터 마이닝 기술과 언어 처리 기술을 이용하여 교육정보의 데이터마이닝을 연구하고 있습니다.
연구실에 여러 석.박사 학생들과 졸업생 이하 여러 교수들과 협업하는 지혜 구성 마켓을 구축하고 있습니다.
모바일 시대에 민주주의와 저널리즘 가치를 지켜낼 수 있는가? 신자본주의에 저널리즘은 조회수와 광고에 의존하여 황색으로 변색되고 있지는 않는가? 무한경쟁시대에 저널리즘은 효율성이라는 이름으로 중립적 가치보다는 시장가치, 지배자의 가치가 지배적이지 않는가?
국정원 등의 댓글 사건 이후 국내 트위터는 신뢰를 상실하였다. 그러나 한국주류언론의 현주소 역시 신뢰에 금이 가고 있는 작금에, 뉴미디어는 새로운 대안언론인가? 삐딱이들의 대안 채널일 뿐인가? 공론장은 인터넷 즉 PC alone에서 모바일로 진화하고 있다. 반면 숙의모델 등 공론이 이루어질 수 있는 최소한의 글자수, 이미지, 연결, 화면 사이즈 등 인터페이스와 글쓰기는 여전히 쉽지 않은 모바일 환경이다.
이 환경에서 비단 글쓰기를 통한 숙의만 가능한가를 묻고 그 대안적 보조적 또는 전환 기술과 메커니즘을 찾는다.
소셜 미디어의 발전이 저널리즘의 가치를 보장하는가?
소셜 미디어는 다양해진 관계망 서비스를 통해 저널리즘의 영향력을 중앙집중에서 분권화하는가?
소셜 미디어는 저널리즘을 황색저널리즘에서 품격있고 신뢰할 수 있는 저널리즘으로 변화시켰는가?
그렇지 못하였다면, 현재 대한민국의 저널리즘과 소셜 미디어의 관계와 진형은 무엇인가?
그리고 이용자들이 참여율과 보이지 않는 이용자(조직) 등의 영향력은 실제로 존재하는가?
SNA로 이 관계를 어디까지 실증적 조망이 가능한가?
저널리즘의 역사와 맥락 속에서 소셜 미디어를 고찰한다.
7. 이런 아이디어?
나 책 읽을 때, 줄 쳐? 형광펜으로..
그 형광펜으로 줄 친 책을 아는 선배에게 선물 줬어
8. 이런 아이디어?
그 선배 책 읽다가 내가 줄 친 내용을 자신도 치고 싶었던 지라, 그때 기분이 좋아지고 공감
그 선배가 책 읽다가 자신이 공감한 내용에 내가 미리 줄 쳐서 기쁨
인용: http://blog.ohmynews.com/sodofogo/360544
9. 자 그렇다면?
이미 줄치고 형광펜을 주는 서비스는 널렸는데, 어떻게 특허를 내지
인용: http://organicmedialab.com/2013/08/01/4-types-of-mediation/
10. 나는 그렇게 생각하지 않아~
형광펜 또는 밑줄 또는 포스트잇을 통한 감성 교감 지수 개발, 공감 및 소통 지수 개발, 관심도 측정값이 가능할 듯해.
또는 그 분야의 전문가가 중요하다고 줄 친 내용에 나도 줄이 쳐진다면(이 경우 시나리오는 저명한 전문가가 친 줄은 보이지 않고 독자가 줄
을 치면서 누가 친 줄과 일치하는지를 맞추는 게임 방식으로 스토리텔리되는거야), 이건 게임 기반의 공감지수 개발 특허가 되는 거지
인용: http://organicmedialab.com/2013/08/01/4-types-of-mediation/
11. 자 그럼 이제
여러분의 연구 주제와 문제점 그리고 주제 선정 이유에 대해
아직 발표 못한 대학원 생의 질문을 받을께?
그리고 위 아이디어는 내가 곧 특허로 출원할테니, 관심가지고 보길~~
12. 1. 10월 30일 공개 강의
2. Discover KU2014
(강의 날 다소 늦어질 수 있으니
조교 확인 바람)
2. 학생 아이디어 발표 마치고
11월 부터 목차 및 세부 방법론
발표