누구도 알려주지 않는 크롤링의 함정

누구도 알려주지 않는
크롤링의 함정
(주)헤렌
1타강사 Hong3

크롤링(Crawling)
크롤링이란 단어는 웹 크롤러(crawler)라는 단어
에서 시작
크롤러란 조직적, 자동화된 방법으로 웹을 탐색,
수집하는 행위 또는 프로그램
ex) 구글,네이버등의 검색엔진 결과 데이터를 수
집하기 위한 봇(bot)

스크래핑(Scraping)
웹 사이트의 내용을 긁어다 원하는 형태로 가공
하는 것.
웹 사이트에서 정보를 추출하는 행위 또는 프로
그램
ex) 상품별 가격을 알기 위해 해당 상품을 파는
페이지 들의 가격을 추출 하는 행위

크롤링과 스크래핑은 다릅니다.
하지만 우리는 보편적으로 크롤링 = 스크래핑 으
로 이해하고 사용합니다.
이번 자료에서는 설명을 위해 크롤링 = 스크래핑
으로 통칭합니다.

이번 스터디에서는 누구도 알려주지 않는 크롤
링의 함정
합법적인 크롤링과 불법적인 크롤링에 대해
사례를 통해 알아보겠습니다.

합법적인 크롤링과 불법적인 크
롤링

합법? 불법?
합법의 부정어는 불법
합법 : 법령이나 규범에 적합 -> 비범죄
불법 : 법에 어긋남 -> 범죄
TMI)
합법과 불법의 사이에는 탈법이라는게 존재

합법적인 크롤링
사이트 운영자의 의사에 반하지 않은 크롤링을
의미

불법적인 크롤링
불법적인 크롤링은 사이트 운영자의 의사에 반
하거나 또는 실정법을 어긴 크롤링을 의미

그럼 구분은 어떻게?웹 사이트에서 웹서버의 홈디렉토리에 위치한 robots.txt 파일에 포괄
적인 크롤링 금지 또는 특정 검색엔진의 크롤링 금지, 특정 디렉토리
에 대한 크롤링 금지 등을 표시하였음에도 불구하고, 그 표시를 무시
하고 크롤링을 하였다면 이는 사이트 운영자의 의사에 반한 크롤링에
해당함
웹사이트 운영자는 robots.txt 외에 메인페이지의 하단, 약관 등에 크롤
링 금지를 표시할 수도 있다.
이를 무시하고 크롤링이 이루어졌다면 이 역시 사이트 운영자의 의사
에 반한 크롤링이라고 할 수 있다.

크롤링으로 인한 분쟁1.엠파스 열린검색 (검색하면 다 검색엔진의 결과도 다 나왔음 ->
robots.txt 를 무시) -> 법적 분쟁 X
2.리그베다위키와 엔하위키의 법적 분쟁 (엔하위키가 리그베다위키
를 미러링 하여 정보를 수집) -> 리그베다위키 승소
3. 잡코리아와 사람인의 법적 분쟁 -> 사람인 승소
4. 여기어때와 야놀자의 니가가라 2위싸움 -> 19년 현재 진행중
TMI) 2,3번의 승소를 이끈건 법무법인 민후
여러분도 법적분쟁에 말리게 된다면…

잡코리아와 사람인의 법적
분쟁
사건의 개요

분쟁
1.사람인은 잡코리아의 정보를 크롤링하여 정보를 수집
수집도중 사람인에 게시되지 않은 정보를 발견하였을 때
해당 회사에 연락하여 자신의사이트에 게시해도 되냐고 물어보고
허락했을 경우 해당 구인공고를 자신의 사이트에 등록함

분쟁
2. 잡코리아는 기분이 너무 나쁨
x나 힘들게 구했는데 경쟁사는 너무나도 쉽게 구인공고를 구함
코리아는 robots.txt에 네이버,구글등의 검색엔진에게는 크롤링을 허가한 상
모든정보를 가져가라고 허락하지는 않았다고함

분쟁
3. 문제는 사람인의 크롤러는 잡코리아의 robots.txt에 접근 한적이 없었음
다지를 캐는 사람인의 크롤러를 보다 못한 잡코리아는 사람인의 IP를 차단
하지만 사람인은 VPN을 사용하여 또 다시 크롤링을 함

분쟁
법적분쟁

분쟁
잡코리아는 2008년 사람인을 고소함
그리고 9년이 지난 2017년에 법적분쟁은 마무리되었음

분쟁
결과는 잡코리아의 승소
법정은 사람인의 행위는 부정경쟁행위에 해당
구인공고 396건을 폐기하고
건당 50만원씩 1억9천800만원을 배상하라고 판결
사람인은 항소 했으나
오히려 죄와 벌금만 늘어나고 또 패배
물론 3심도 신청했지만 기각 되어 법적분쟁이 종료됨

분쟁
사람인의 주장
1. 웹크롤링은 불법이 아님
2. 수집한 정보를 무작정 올린것도 아니고 구인회사의 허락을 받았음
3. 목적글은 사이트 운영자가 저작권 행사할 수 없음
의 저작권행사는 글을 작성한 사람이 본문내용에 저작권 권리 행사글을 첨부
따라서 저작권 권리 행사글이 없는 목적글은 긁어도 불법이 되지 않음

분쟁
당시 법원의 판례(1심)
“원고(잡코리아)는 자신의 정체를 명시하고 원고 웹사이트를 출처로 표시하는 아웃링크 기능을 통해 이용자를 원고 웹
“피고는 가상사설망을 쓰는 VPN 업체를 통해 IP를 여러 개 로 분산한 뒤 검색로봇의 User-Agent에 피고의 정체를 명
“피고가 원고 웹사이트의 HTML 소스를 기계적인 방법 을 사용해 대량복제하여 피고 웹사이트에 게재하고 자신의 영

분쟁
2심에서 사람인은 네임드 법무법인 김앤장을 데리고옴
하지만 잡코리아는 데이터베이스권 침해라는 내용을 추가하여 대응

분쟁
사람인은 1심에서 끝나면 약 2억원에 퉁칠수 있었으나
데이터베이스권 침해까지 포함하여 4억5천만원을 배상하게 됨

분쟁
소송을 담당한 법무법인 민후 김경환 대표변호사는 "이번 사건은 사용자제

결론
1. 덮어놓고 긁다보면 거지꼴을 못면한다.
2. 법적분쟁이 발생한다면(했다면) 법무법인 민후를 찾아가자

출처
1.https://byline.network/2016/02/1-64/
2. http://m.ddaily.co.kr/m/m_article/?no=151940
3.https://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=092&aid=
4.http://biz.newdaily.co.kr/site/data/html/2017/11/09/2017110910056.html

누구도 알려주지 않는 크롤링의 함정

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 누구도 알려주지 않는 크롤링의 함정

Similar to 누구도 알려주지 않는 크롤링의 함정 (7)

More from Herren

More from Herren (15)

누구도 알려주지 않는 크롤링의 함정