Web Archiving Project<br />IIPC Standard and NLKs’ OASIS<br />2010. 12. 23. 박진호, 국립중앙도서관 전문연구관<br />
IIPC<br />1<br />웹 사이트는 복잡한 속성을 갖는 정보객체<br />- 다양한 포맷들과 <br />- 밀접한 상관 관계를 갖는 요소들과<br />- 광범위하고 분산된 저자(정보생산자)들과<br />- 불분명...
IIPC<br />2<br />2003년 <br />12개 기관을 중심으로 <br />International Internet Preservation Consortium (IIPC) 시작<br />- Australia ...
IIPC 2010<br />3<br />2003년 <br />12개 기관을 중심으로 <br />International Internet Preservation Consortium (IIPC) 시작<br />Austral...
4<br />공통된 툴(Software Tools)과, 기술, 표준<br />
Software Tools of IIPC<br />5<br /><ul><li>웹 아카이빙 소프트웨어 툴
  IIPC 회원들이 직접 개발한 오픈소스 소프트웨어
공통 적용 사양
크롤링과하베스팅(Crawling and harvesting)
웹 아카이브 디스플레이(Display/view web archive)
분석(Analytics)IIPC기반으로 시스템을 구성하려면 최소한 위 3개 영역 모두에 대한공통 소프트웨어 적용이 필요함</li></li></ul><li>WARC: Web Archive Data Format<br />6...
 DNS lookups(도메인 -> IP, IP -> 도메인)
 HTTP 요청과 응답
메타데이터 : 수집(Crawl 환경, 포맷 변환 등)
IIPC에서 개발하여 ISO 28500:2009 표준으로 채택된 유연하고 확장가능 한 포맷</li></li></ul><li>Software: WARC Tools<br />7<br /><ul><li> IIPC에서 지원한 ...
 Hanzo Archives에서 개발하여 보급하고 있는 오픈소스로 C기반으로 구현되었으며, JAVA, Python 외 다른 언어와도 바인딩 가능함
 WARC 레코드를 읽고, 쓰고, 인증, 추출함
기존 데이터 포맷을 WARC 포맷으로 컨버전</li></li></ul><li>Web Harvesting: Heritrix<br />8<br /><ul><li>Heritrix는 오픈소스 기반으로 확장성을 갖춘 웹 계층구조...
  1,000,000,000 URLs을 초과하지 않는 범위에서 도메인 크롤링 가능
수집한 자료는 WARC 포맷으로 쓸 수 있음</li></li></ul><li>Web Harvesting: Heritrix<br />9<br /><ul><li>Heritrix는 자바로 구현되었음
Upcoming SlideShare
Loading in …5
×

(2010.12.23)iipc oasis

1,109 views

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,109
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

(2010.12.23)iipc oasis

  1. 1. Web Archiving Project<br />IIPC Standard and NLKs’ OASIS<br />2010. 12. 23. 박진호, 국립중앙도서관 전문연구관<br />
  2. 2. IIPC<br />1<br />웹 사이트는 복잡한 속성을 갖는 정보객체<br />- 다양한 포맷들과 <br />- 밀접한 상관 관계를 갖는 요소들과<br />- 광범위하고 분산된 저자(정보생산자)들과<br />- 불분명한 소유권들로 구성되고,<br /> - 막대한 양의 콘텐츠가 존재하고 (생산되고, 소멸되고)<br /> - 웹과 관련된 기술들은 지속적으로 변화하고 있음<br />
  3. 3. IIPC<br />2<br />2003년 <br />12개 기관을 중심으로 <br />International Internet Preservation Consortium (IIPC) 시작<br />- Australia – Canada - Denmark – Finland - France – Iceland - Italy – Norway - Sweden - British Library - Library of Congress - Internet Archive<br />12개 기관은 공통된 툴과, 기술, 표준을 사용해서 아카이빙 시작<br />
  4. 4. IIPC 2010<br />3<br />2003년 <br />12개 기관을 중심으로 <br />International Internet Preservation Consortium (IIPC) 시작<br />Australia – Canada - Denmark – Finland - France – Iceland - Italy – Norway - Sweden - British Library - Library of Congress - Internet Archive<br />12개 기관은 공통된 툴과, 기술, 표준을 사용해서 아카이빙 시작<br />2010년 현재 28개국 39개 기관이 참여하고 있으며, 3개의 작업반과 14명의 운영위원으로 IIPC 운영<br />
  5. 5. 4<br />공통된 툴(Software Tools)과, 기술, 표준<br />
  6. 6. Software Tools of IIPC<br />5<br /><ul><li>웹 아카이빙 소프트웨어 툴
  7. 7. IIPC 회원들이 직접 개발한 오픈소스 소프트웨어
  8. 8. 공통 적용 사양
  9. 9. 크롤링과하베스팅(Crawling and harvesting)
  10. 10. 웹 아카이브 디스플레이(Display/view web archive)
  11. 11. 분석(Analytics)IIPC기반으로 시스템을 구성하려면 최소한 위 3개 영역 모두에 대한공통 소프트웨어 적용이 필요함</li></li></ul><li>WARC: Web Archive Data Format<br />6<br /><ul><li>데이터란(Data) : HTTP 트랜잭션이 일어나는 모든 캡처 된 것들
  12. 12. DNS lookups(도메인 -> IP, IP -> 도메인)
  13. 13. HTTP 요청과 응답
  14. 14. 메타데이터 : 수집(Crawl 환경, 포맷 변환 등)
  15. 15. IIPC에서 개발하여 ISO 28500:2009 표준으로 채택된 유연하고 확장가능 한 포맷</li></li></ul><li>Software: WARC Tools<br />7<br /><ul><li> IIPC에서 지원한 프로젝트로 개발
  16. 16. Hanzo Archives에서 개발하여 보급하고 있는 오픈소스로 C기반으로 구현되었으며, JAVA, Python 외 다른 언어와도 바인딩 가능함
  17. 17. WARC 레코드를 읽고, 쓰고, 인증, 추출함
  18. 18. 기존 데이터 포맷을 WARC 포맷으로 컨버전</li></li></ul><li>Web Harvesting: Heritrix<br />8<br /><ul><li>Heritrix는 오픈소스 기반으로 확장성을 갖춘 웹 계층구조에 맞는 크롤러로써IIPC 회원사인 Internet Archive 사에 의해서 개발되었음
  19. 19. 1,000,000,000 URLs을 초과하지 않는 범위에서 도메인 크롤링 가능
  20. 20. 수집한 자료는 WARC 포맷으로 쓸 수 있음</li></li></ul><li>Web Harvesting: Heritrix<br />9<br /><ul><li>Heritrix는 자바로 구현되었음
  21. 21. XML 파일과 웹 인터페이스 사아에서 운영과 환경 설정이 가능함
  22. 22. 현재 버전
  23. 23. Legacy(과거개발, 현재사용): 1.14.3
  24. 24. Latest(가장 최근): 3.0
  25. 25. 3.0으로 마이그레이션 진행 중
  26. 26. 2년 마다 Heritrix포럼 개최</li></li></ul><li>Viewing web archives: Wayback<br />10<br /><ul><li>Wayback Machine
  27. 27. Internet Archive사가 개발한 가장 일반적으로 사용되는 오픈소스
  28. 28. 자바 애플리케이션 형태로 10억개 이상의 URL 처리가 가능하며, HTML, 이미지, 오디오, 비디오 등 모든 형태의 웹 아카이브에 대한 서비스 제공이 가능함
  29. 29. 용도에 맞게 커스터마이징과 확장이 가능함
  30. 30. IIPC의 거의 모든 조직이 활용 중</li></li></ul><li>시스템 통합(Integrated Systems)<br />11<br /><ul><li>웹 아카이빙(하베스트)를 관리(동작설정, 스케쥴링 등)
  31. 31. 하베스팅 정책에 긱반해서 수행됨
  32. 32. 하베스팅 범위와 접근 설정 등
  33. 33. 품질 보증
  34. 34. 누락 콘텐츠에 대한 테스트 및 피드백 제공
  35. 35. 사서 등 기술적 배경지식 없는 사람에 의해서도 운영이 가능함</li></li></ul><li>NetarchiveSuite<br />12<br /><ul><li>덴마크 왕립도서관과 덴마크 주립대학 도서관이 공동 개발
  36. 36. 도메인(특정영역) 하베스팅과 이벤트, 선택 등 기능을 담고 있으며, 최소한의 기술적 배경 지식을 갖고 있는 사서에 의해서 운영가능 한 툴로 설치가 쉽고 Heritrix와Wayback를 콤포넌트로 활용함</li></li></ul><li>Web Curator Tool<br />13<br /><ul><li>뉴질랜드 국립도서관과 영국 국립도서관이 공동 개발
  37. 37. 주로 선택적인 웹 아카이빙에 활용
  38. 38. 아카이빙 허용, 작업 스케쥴, 하베스팅, 품질관리와 기술메타데이터(DC 등) 수집 등 작업 수행
  39. 39. 사서등비기술자가 활용하기에 친화적임
  40. 40. Heritrix와 Watbacks를 콤포넌트로 활용함</li></li></ul><li>Full-text search, analytics, etc.<br />14<br /><ul><li>NutchWAX
  41. 41. 웹 아카이브에 대한 전문검색엔진
  42. 42. Apache Nutch project에기반하고 있음
  43. 43. JHOVE
  44. 44. 디지털 객체 포맷 유효성 검사 도구
  45. 45. 이미지, PDF, HTML 등 확인
  46. 46. JSTOR, 하바드 대학 개발
  47. 47. Analytics: Lewis Crawford (BL) Thursday
  48. 48. 대규모 데이터 처리를 위한 툴</li></li></ul><li>IIPC 향후 계획<br />15<br /><ul><li>웹의 변화를 반영하여 툴 업그레이드
  49. 49. Web 2.0, Flash, 비디오등의 스트리밍 미디어
  50. 50. 규모 확대
  51. 51. 도메인 하베스트: 1,000,000,000+ URLs
  52. 52. 규모 축소
  53. 53. 선택적, 수동적 하베스트</li></li></ul><li>References<br />16<br /><ul><li>WARC: ISO 28500:2009
  54. 54. http://archive-access.sourceforge.net/warc/
  55. 55. WARC Tools
  56. 56. http://code.google.com/p/warc-tools/
  57. 57. Heritrix, Wayback, NutchWAX
  58. 58. http://crawler.archive.org/
  59. 59. http://archive-access.sourceforge.net/projects/wayback/
  60. 60. http://archive-access.sourceforge.net/projects/nutchwax/
  61. 61. NetarchiveSuite
  62. 62. http://netarchive.dk/suite
  63. 63. Web Curator Tool
  64. 64. http://webcurator.sourceforge.net/
  65. 65. JHOVE
  66. 66. http://hul.harvard.edu/jhove/</li></li></ul><li>일본 국립국회도서관 현황<br />crawler<br />indexer<br />lucene<br />index<br />db<br />Web<br />NutchWAX<br />0.12.9<br />(with patches)<br />nutchwax import<br />nutch updatedb<br />nutch invertlinks<br />nutch index<br />Heritrix<br />1.14.4/3.0.0<br />nutch-1.0-dev<br />content<br />front-end<br />storage<br />ARC<br />apache-tomcat-5.5.30<br />Wayback<br />1.4.2<br />Nutch-1.0-dev.war<br />WARC<br />wayback.war<br />
  67. 67. 18<br />Memento<br />
  68. 68. 19<br />논의 사항<br /><ul><li>IIPC 표준 기반으로 시스템 구축은 최소한 크롤링 엔진, Wayback머신 두 가지의 적용이 필요하며 나머지는 선택사항(색인, 검색을 위한 NetchWAX고려도 필요)
  69. 69. 우리도서관은 IIPC에 참여해서 활동을 하고 있으나 IIPC 프로젝트로 인정하고 있지 않음
  70. 70. 웹 아카이빙에 대한 선도/주도는 불가능하나 각 국의 도서관들보다 앞설 수 있는 부분은 현재 활용하고 있는 툴들을 자체적으로 업데이트나 기능개선을 하거나(일본의 사례)
  71. 71. 동일한 기능을 갖고 있으나 좀 더 편리하게 활용이 가능한 오픈소스 엔진을 개발하여 공개하는 것임</li>

×