MarkLogic: Deep Dive
㈜ 엠오에스에이
Nov 12, 2012
Slide 1

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
Agenda

 MarkLogic 개요
 MarkLogic 서버 개요
 MarkLogic 서버 이해
 구축 사례

Slide 2

Copyright © 2012 MarkLogic® Corporation. All ...
MarkLogic
솔루션 개요

Slide 3

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
데이터 처리의 새로운 영역을 제공합니다.

Unstructured Era
“For all your data!”

Relational Era

“For all your structured data!”
• Normalize...
정보 콘티
RDBMS

NoSQL

Information Continuum
Video
Metadata
Relational
(Rows and Columns)

Sparse
Hierarchical

Structured

S...
MarkLogic 솔루션

엔터프라이즈
데이터 영역

통합
저장소

운영 데이터 저장소

검색

어느 때 보다 빠르고 쉽게
 기존 Silo 에 분리되어 있는 데이터의 재활용

 접근성과 더 많은 정보와의 연관성을 현...
MarkLogic는 빅 데이터를 처리할 수 있게 하는 획기적인 접근
방법을 제공합니다.
전통적인 방식
 통합적 UI 구현

20
개월

MarkLogic 방식
1. AS-IS의 데이터 수용

 데이터 변형
 데이터...
MarkLogic 솔루션의 특징
전통적인 데이터베이스 & 검색 엔진
검색, 저장 및 Query 프로세스의 조율의
정교한 개발이 요구됨.

단일 플랫폼에서 검색, ETL, Data
Warehouse, 분석을 통하여 빠른 ...
MarkLogic 솔루션의 특징
업계 최고 상용화 NoSQL 데이터베이스
 ACID 준수
 고 가용성
Database
 백업
 Point-In-Time 복구
 정부 등급의 보안
Application
Server...
The Enterprise NoSQL Database
BI Tools

Real-time Big Data Applications

NoSQL Database

Application Services

Universal I...
NoSQL DB를 활용하고 싶은 이유는?
Enterprise
NoSQL
DataBase

Documents
Big Data
Refinery
Hadoop

Big Data
Repository
HDFS
Slide 4
Sli...
MarkLogic 서버 개요

Slide 12

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
MarkLogic은 세계 주요 Big Data
어플리케이션의 심장 입니다
 조직이 보유한 모든 데이터를 사용하여 조직의 능력을 극대화 합니다.
 다양한 실용적인 통찰력을 얻기 위해 정형, 반정형 및 비정형 데이터를
...
일반적인 Big Data Platform의 요소들

Analytic DB

Operational DB

Search

Metadata

Event
Processing

Data Mining /
Analytics

Vis...
일반적인 Big Data Platform의 형태

BI Tools

여러 기술의 짜집기:

Applications

• 각 라인의 처리 지연, ETL 버그
Search

Stream / Event
Processing

...
MarkLogic - Big Data를 위한 통합 플랫폼

BI Tools

MarkLogic 서버는 :

Applications

Search

Stream / Event
Processing

Search
Index
...
MarkLogic 아키텍쳐

Slide 17

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
아키텍쳐
아키텍처
MarkLogic은 빅 데이터 애플리케이션에 대한 첫 운영 데이터베이스
기술입니다. 그 기능과 사용 방법에 대해 소개합니다.

애플리케이션 서비스
검색 용 API
하나의 API에, 검색, 검색 파싱, ...
아키텍쳐

평가 층
계산기
XSLT | XPath | XQuery
문서에 액세스하거나 수정할 외부의 요청을 평가하고 처리합니다.
쿼리 캐시
문서와 논리 구조를 메모리에 저장하여 빠른 반응을 제공하고 IO의 효율성을 개선...
아키텍쳐

데이터 계층
트랜잭션 컨트롤러
멀티 버전 공존 컨트롤러
로드시 제로 레이턴시를 실현.
시스템의 순간적인 쿼리에 대응.
데이터 캐시쿼리 해결뿐만 아니라 메모리에 인덱스를 저장하는 데에도 대응
백그라운드에서 다시...
MarkLogic 작동 원리
스키마에 상관없는 디자인

Slide 21

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
Data 모델
 MarkLogic 서버는 문서 중심의 데이터베이스입니다.
 계층 (XML) 데이터 모델을 통해 모든 구조화 된 데이터를 지원합니다.
Document

Title

fpML

Trade

Author
...
특정 스키마에 구애받지 않는 MarkLogic
XML is 자기 문서화
<article>
<title>MarkLogic Server: . . .</title>
<author>
<first-name>Dale</first-...
특정 스키마에 구애받지 않는 MarkLogic
XML 은 설명을 내장합니다.
<article>
<article>
<title>MarkLogic Server: .....</title>
<title> MarkLogic Se...
MarkLogic 작동 원리
인덱싱과 쿼리

Slide 25

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
MarkLogic’s Universal 인덱스
Alerting

Words and phrases
... Semantic Web is a collaborative
movement led by the World Wide W...
Universal 인덱스
Universal 인덱스
Term

Term List

“data”

123, 127, 129, 152, 344, 791 . . .

문서

“base”

122, 125, 126, 129, 1...
스칼라
2005년 이후 발행된 기사를 쿼리
UNIVERSAL 인덱스
“data”

123, 127, 129, 152, 344, 791 . . .

“base”

122, 125, 126, 129, 130, 167 . ....
Range 인덱스
DOC ID와 Value 맵, Value맵과 DOC ID 를 소형 메모리에 표현 합니다
DOC ID

VALUE

VALUE

DOC ID

1

2002

3

3

2002

2003

10

4
...
지리 지수: 2차원 Range 인덱스
솔루션이 내장되어 지원 :








점
사각형
원
다각형
복잡한 다각형
다각형 교차로
다각형 봉쇄

다른 인덱스와 완전히 구성 가능.

Slide 31

Copyr...
MarkLogic 작동 원리
이벤트 처리

Slide 32

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
Reverse 인덱스 (경고)

1.
2.

쿼리 문서에서 직렬화된 쿼리를 로드 합니다.
주어진 데이터 문서에 대해 일치하는 모든 쿼리를 찾습니다.

 더 큰 성능의 영향 없이 로드 중 실시간 알람을 제공 할 수
있습...
MarkLogic 작동 원리
시스템 확장

Slide 34

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
데이터베이스 규모 확장
 문서 데이터베이스
 분리된 파티션에 저장

Forest1

Slide 35

Database

Forest2

Copyright © 2012 MarkLogic® Corporation. All...
Shared-Nothing 아키텍쳐
E-Node

E-Node

D-Node1

D-Node2

Forest1

Forest2

Slide 36

Copyright © 2012 MarkLogic® Corporation....
MarkLogic HA/DR 기능

Slide 37

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
MarkLogic 서버 작동 분석
분석

Slide 38

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
Range 인덱스: 내장된 In-Memory 컬럼
소형 메모리에 문서 ID와 Value의 맵 저장, 그리고 Value와 문서 ID의 저장.
DOC ID

VALUE

VALUE

DOC ID

1

2002

3

3
...
Scalar 쿼리 및 집계

Slide 40

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
데이터 베이스 내의 MapReduce
E-Node

D-Node1

D-Node2

Forest1

Forest2

Slide 41

Copyright © 2012 MarkLogic® Corporation. All ri...
양방향 Hadoop 커넥터 를 통한
Hadoop MapReduce

운영
응용 프로그램

Raw Data

?

1

중급
지능
MarkLogic
3
Hadoop

대량으로 로드
2

Slide 42

Copyright...
Co-Occurrence - 동시 발생

Slide 43

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
SQL 과 BI 툴

ODBC
SQL
범위 인덱스
Slide 44

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
MarkLogic 서버 작동 원리
트랜잭션

Slide 45

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
MVCC
/articles/codd.xml

/articles/codd.xml

Document
Title
First
Section

Document
Title

Author
Last

Section

Section

...
MVCC 혜택

/articles/codd.xml

 매우 높은 처리량 (Throughput)
 읽기 Query의 Lock 불필요
 Query 및 Update는 충돌하지 않음

 ACID 트랜잭션
 서버간의 내...
Conclusion

Slide 50

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
MarkLogic 서버는…
 운영 DBMS
 …MVCC기반의 Transaction 모델과 및 높은 처리량이 가능

 분석 DBMS
 …In-Memory 칼럼 저장과 In-Database Map-Reduce

 ...
구축 사례

Slide 52

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
운용
Data Store

JP 모건 체이스, 거래 분석의 단일 창구 구현
목표
여러 데이터베이스에
걸쳐 금융 거래 정보
식별의 여러움

 매일 파생 금융 거래 내역을 쉽게 확인
 운용의 간소화 및 파생 상품 거래 ...
Operational
Data Store

JP 모건 체이스, 거래 분석의 단일 창구 구현
결

과

 MarkLogic을 통하여 20개의 Sybase 상품계약
데이터베이스를 단일 파생 상품 계약
데이터베이스로 간소화...
Social
Applications

Xplana는 협력을 통해 교육의 수준 극대화
목

 학생들이 새로운 방법으로 학습 할 수 있는
시스템 구축
 협업 및 소셜 미디어를 통해 학생들의 학업과
사회 생활을 통합

학...
원유 선물을 거래 할 때 "(주)글로벌 석유 "는
거래시 가격의 이점을 극대화 할 수 있습니다.

Goals

이익을 극대화하기 위해 석유 · 가스 시장의
영향력의 전체 이미지를 얻고자 함.

Solution
Chall...
Social
Applications

Xplana는 협력을 통해 교육의 수준 극대화
기능

 다양한 기존 컨텐츠, 신규 업로드, 신규
사용자 생성 콘텐츠, 외부 링크등의 집합.
 공부 가이드, 강의 노트, 플레시
카...
사이먼 & 슈스터는 새로운 수익원으로 사업을 변환

목

표

 12,000 도서 를 디지털화 하여 검색하고 다른
활용 목적으로 컨텐츠 제공
 여러 채널으로 쉽게 디지털 책으로 컨텐츠
제공

도

전

 개별 파트...
사이먼 & 슈스터 새로운 수익원으로 사업을 변환

파트너

유통사

저작자

솔 루 션
 Syndication 서버 : 책 제목과 함께 메타
데이터가 저장된 개인 사이트 및 파트너
사이트.
 Contract 서버 :...
향상 고객에게 깊이 소비자 및 시장 분석을 제공함으로써 소셜 미디어
인텔리전스 시장에서 경쟁우위를 확보
목

 높은 볼륨 및 쿼리 부하 및 복잡한
쿼리를 처리 할 수있는 검색 및
데이터베이스 기술
 새로운 제품 및 ...
향상 고객에게 깊이 소비자 및 시장 분석을 제공함으로써 소셜 미디어
인텔리전스 시장에서 경쟁우위를 확보
솔 루 션
 250TB로 확장된 단일 MarkLogic
시스템은 사내 검색 및 데이터베이스
기술을 대체
 실시간...
매일 거래되는 금융거래에서 수백만의 수익을 창출

목

모바일 게임머

 연가 수십억 단위의 게임 시스템 거래
안정적 처리
 수백만의 사용자의 직불 / 신용 거래
추적

도

무료
게임

모바일 게임 플렛폼

가상 ...
매일 거래되는 금융거래에서 수백만의 수익을 창출

솔 루 션
 "The Bank"라고 불리는 MarkLogic 의
Mission-critical 시스템
 금융 거래 및 계정의 관리 (매우 구조화 된
데이터)
 지출...
마크로직의 이슈
이기종 DB 분석

검색 속도의 우위가
필요한 작업

빅데이터 프로젝트
새로운/리뉴얼
포털작업

Slide 64

Copyright © 2012 MarkLogic® Corporation. All righ...
제안 사례

XX증권

기존 국내 기술로 문서 검색 사용 중
내부 문서 검색 및 분석-> 영업직이 자료를
활용못함
기존 데모했던 기술은 인덱싱만 한달이
걸리고 단어검색만 됨
10T이상의 문서도 즉석 검색
빠른 인덱싱 속...
제안 사례

XX이노

기존 검색 엔진 대체할 빅데이터 기반 검색
기술 수요
그룹웨어, 지식관리시스템, 내부 문서 검색
엔진
공급가격과 검색속도, 개발 및 외부
프로그램, API연동 고려
PB급 데이터 검색 및 처리
기...
제안 사례

XX은행

마케팅 및 내부 비정형 데이터 분석
고객메일, 내부메신저, 리포트, 부서별 문서
검색 및 분석
정형의 데이터를 다시 분석하는 것은
빅데이터의 의미가 아님
비정형 데이터를 수집하고 데이터 선 분석
...
제안 사례

정책 자료 및 지역 민원 내용 분석
소셜 데이터 분석
기존 단순 웹 로그 분석에서 탈피
XXX청

Slide 68

비정형 데이터를 수집하고 데이터 선 분석
내부 정책 수립 및 우선순위 설정에 활용

Cop...
제안 사례

CCTV 검색
대용량 미디어 검색
메타데이터
XXX테크

Slide 69

미디어화일의 메타데이어 검색
원본과 인덱싱 서버 별도

Copyright © 2012 MarkLogic® Corporation. A...
제안 사례

GIS 데이터 검색
대용량 데이터
검색속도 이슈
XXX부

Slide 70

수십억건 이상의 문서에서 1-2초 내 검색속도
요구
GIS 서비스에 엔진으로 제안

Copyright © 2012 MarkLogi...
MarkLogic 기능 요약
Powerful

Everything you
need to deliver
business value

Accessible

Leverage existing
tools, knowledge,
s...
Marklogic 7.0 - New

Tiered Storage

Runs on HDFS

Runs on Amazon S3

Cloud Ready

Elasticity

Cluster
Monitoring Tools

C...
Marklogic 7.0 - New
Search Enhancements

Requiring Less Disk Space

REST & Java API Improvements
Fast data ingestion

Secu...
빅데이터= 엄청난 기회

Slide 74

Copyright © 2012 MarkLogic® Corporation. All rights reserved.
질의응답?
Lee Seung Hoon
lsh@mobile-os.com
kosena21@naver.com
010-9338-6400
Slide 75

Copyright © 2012 MarkLogic® Corporation....
Upcoming SlideShare
Loading in …5
×

빅데이터 통합 플랫폼 마크로직(Marklogic) 2014

1,626 views

Published on

Published in: Technology
  • Be the first to comment

빅데이터 통합 플랫폼 마크로직(Marklogic) 2014

  1. 1. MarkLogic: Deep Dive ㈜ 엠오에스에이 Nov 12, 2012 Slide 1 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  2. 2. Agenda  MarkLogic 개요  MarkLogic 서버 개요  MarkLogic 서버 이해  구축 사례 Slide 2 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  3. 3. MarkLogic 솔루션 개요 Slide 3 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  4. 4. 데이터 처리의 새로운 영역을 제공합니다. Unstructured Era “For all your data!” Relational Era “For all your structured data!” • Normalized, tabular model • Application-independent query • User control Navigational Era “For your application data!” • Hierarchical • Application- and hardwarespecific Slide 4 Copyright © 2012 MarkLogic® Corporation. All rights reserved. • • • • • Schema-agnostic Massive scale Query and search Analytics Application services
  5. 5. 정보 콘티 RDBMS NoSQL Information Continuum Video Metadata Relational (Rows and Columns) Sparse Hierarchical Structured Slide 5 Geospatial Emails Tweets Semi-structured Copyright © 2012 MarkLogic® Corporation. All rights reserved. Graph Documents SMS Images Free text Audio Unstructured
  6. 6. MarkLogic 솔루션 엔터프라이즈 데이터 영역 통합 저장소 운영 데이터 저장소 검색 어느 때 보다 빠르고 쉽게  기존 Silo 에 분리되어 있는 데이터의 재활용  접근성과 더 많은 정보와의 연관성을 현실화  미 개척 및 미 예측 정보의 처리와 활용 Slide 6 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 10 소셜 프로그램
  7. 7. MarkLogic는 빅 데이터를 처리할 수 있게 하는 획기적인 접근 방법을 제공합니다. 전통적인 방식  통합적 UI 구현 20 개월 MarkLogic 방식 1. AS-IS의 데이터 수용  데이터 변형  데이터베이스 최적화 16 개월 빅 데이터 시스템 개발  최적화 및 조정 데이터베이스를 작성  쿼리 분석 / 구성 12 개월  데이터 주입 3. 확장  변환, 추출 및 데이터 정규화 6 개월 Slide 7 구축 기간 = 4 - 6 주  데이터 모델과 계획 작성 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 11 2. 개발
  8. 8. MarkLogic 솔루션의 특징 전통적인 데이터베이스 & 검색 엔진 검색, 저장 및 Query 프로세스의 조율의 정교한 개발이 요구됨. 단일 플랫폼에서 검색, ETL, Data Warehouse, 분석을 통하여 빠른 수익 창출 가능한 최적의 데이터베이스. 애플리케이션 서버 애플리케이션 서버 ETL RDBMS REST/SQL/XQuery PL/SQL JVM 검색 엔진 (indexes) 문서 및 데이터 Tables NFS, NTFS Slide 8 NFS, NTFS, HDFS Copyright © 2012 MarkLogic® Corporation. All rights reserved. 22
  9. 9. MarkLogic 솔루션의 특징 업계 최고 상용화 NoSQL 데이터베이스  ACID 준수  고 가용성 Database  백업  Point-In-Time 복구  정부 등급의 보안 Application Server  입증된 고객 성공 사례  Hadoop을 위한 최고의 Database Slide 9 Copyright © 2012 MarkLogic® Corporation. All rights reserved. Search Engine
  10. 10. The Enterprise NoSQL Database BI Tools Real-time Big Data Applications NoSQL Database Application Services Universal Index ACID Repository NoSQL Database Slide 10 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  11. 11. NoSQL DB를 활용하고 싶은 이유는? Enterprise NoSQL DataBase Documents Big Data Refinery Hadoop Big Data Repository HDFS Slide 4 Slide 11 Map/Reduce Processing Big Data Apps Analytical/DS/etc Richness & Complexity Big Data Toolset Text Mining & Semantics Copyright © 2012 MarkLogic Corporation. All rights reserved. Copyright© 2012 MarkLogic® ® Corporation. All rights reserved. RDF Data Ontologies Entity Enrichment Concept Extraction Classification Business Intelligence Tableau Cognos Etc
  12. 12. MarkLogic 서버 개요 Slide 12 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  13. 13. MarkLogic은 세계 주요 Big Data 어플리케이션의 심장 입니다  조직이 보유한 모든 데이터를 사용하여 조직의 능력을 극대화 합니다.  다양한 실용적인 통찰력을 얻기 위해 정형, 반정형 및 비정형 데이터를 자유롭게 분석 합니다.  실시간 빅 데이터 응용 프로그램을 통해 운영 비즈니스 프로세스에 이러한 통찰력을 향상합니다.  분석 및 응용 프로그램에 대한 통합된 빅 데이터 플랫폼 입니다.  실시간으로 모든 데이터, 볼륨, 구조 수용  예) 파생 상품 계약, 고객 정보, 소셜 미디어, 의료 기록, 정보 자산, 저널 기사, 등등. Slide 13 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  14. 14. 일반적인 Big Data Platform의 요소들 Analytic DB Operational DB Search Metadata Event Processing Data Mining / Analytics Visualization Tools / APIs Unstructured Content Ingest / Batch Analytics / Enrichment Archive / Warm “Long Tail” Data Store Slide 14 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  15. 15. 일반적인 Big Data Platform의 형태 BI Tools 여러 기술의 짜집기: Applications • 각 라인의 처리 지연, ETL 버그 Search Stream / Event Processing Search Index Stats (SPSS, SAS, R, … ) Metadata Analytic DB Unstructured Content Store Operational DB • 각 구성 요소는 개별 관리,지원, 확장 • 개별 컴포넌트는 여러 다른 기술, 대부분 다른 조직의 관리 범위의 컴포턴트와 연계 되어 있음 결론 : • 데이터 관리의 손실 • 실시간 반응 불가 Batch Analytics (Hadoop MR) Slide 15 Archive (HDFS) Copyright © 2012 MarkLogic® Corporation. All rights reserved. • 민첩성 손실
  16. 16. MarkLogic - Big Data를 위한 통합 플랫폼 BI Tools MarkLogic 서버는 : Applications Search Stream / Event Processing Search Index Stats (SPSS, SAS, R, … ) Metadata Analytic DB Unstructured Content Store Operational DB  운영 DBMS  분석 DBMS  비정형 DBMS  검색 엔진  이벤트 처리 엔진 위의 모든 기술이 하나로… Batch Analytics (Hadoop MR) Slide 16 Archive (HDFS) Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  17. 17. MarkLogic 아키텍쳐 Slide 17 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  18. 18. 아키텍쳐 아키텍처 MarkLogic은 빅 데이터 애플리케이션에 대한 첫 운영 데이터베이스 기술입니다. 그 기능과 사용 방법에 대해 소개합니다. 애플리케이션 서비스 검색 용 API 하나의 API에, 검색, 검색 파싱, 검색 문법 패싯 화, 조각 만들기, 검색어 자동 완성 등 검색 응용 프로그램의 다양한 기능을 정리했습니다. Information Studio API Content Processing Framework를 활용하여 문서로드를 관리 할 수​​ 있으며, 사용자의 문서 수집 기능, 변환 기능,로드 규칙을 쉽게 관리합니다. 라이브러리 서비스 APIh4>문서 관리 서비스를 제공합니다. 체크인 / 체크 아웃, 문서 버전 18 Copyright © 2012 MarkLogic Corporation. All rights reserved. 관리 등. Slide ®
  19. 19. 아키텍쳐 평가 층 계산기 XSLT | XPath | XQuery 문서에 액세스하거나 수정할 외부의 요청을 평가하고 처리합니다. 쿼리 캐시 문서와 논리 구조를 메모리에 저장하여 빠른 반응을 제공하고 IO의 효율성을 개선합니다. 브로드 캐스터 | 수집기 문서가 메모리에없는 경우, 여러 데이터 노드에 존재하는 문서에 대한 액세스 및 수정에 대한 요구를 정리합니다. 필요에 따라 반환 된 결과를 처리 · 변환 용으로 집계 (집계)합니다. Slide 19 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  20. 20. 아키텍쳐 데이터 계층 트랜잭션 컨트롤러 멀티 버전 공존 컨트롤러 로드시 제로 레이턴시를 실현. 시스템의 순간적인 쿼리에 대응. 데이터 캐시쿼리 해결뿐만 아니라 메모리에 인덱스를 저장하는 데에도 대응 백그라운드에서 다시 색인과 결합하여 IO의 효율성을 유지. 트랜잭션 저널 가져온 문서가 즉각적인 액세스를 지원하도록 메모리에 저장된 경우에도 시스템 장애에 대비하여 모든 작업을 디스크에 저장함으로써 트랜잭션의 일관성을 유지합니다. 인덱스 값 | 구조 | 텍스트 | 스칼라 | 메타 데이터 | 보안 | 지리 정보 | 역 다양한 정보 (값, 구조, 텍스트, 스칼라, 메타 데이터, 권한, 지리 정보)를 결합, 정교한 기능을 제공합니다. 리버스 인덱스를 사용하면 경고 표시 규칙에 따라 분류, 또한 지정된 기준에 따라 매치 메이킹이 가능합니다. 압축 저장 XML | 이진 | 텍스트 가져온 문서를 XML 형식에서 압축 된 바이너리 조각으로 변환하여 필요한 용량을 줄이고 IO의 효율성을 개선합니다. Slide 20 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  21. 21. MarkLogic 작동 원리 스키마에 상관없는 디자인 Slide 21 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  22. 22. Data 모델  MarkLogic 서버는 문서 중심의 데이터베이스입니다.  계층 (XML) 데이터 모델을 통해 모든 구조화 된 데이터를 지원합니다. Document Title fpML Trade Author Product Metadata Cashflow Section Trade ID TradeLeg Last Amount First ID TradeLeg TradeLeg Section Section Slide 22 Section Section Copyright © 2012 MarkLogic® Corporation. All rights reserved. Event Event Event Event
  23. 23. 특정 스키마에 구애받지 않는 MarkLogic XML is 자기 문서화 <article> <title>MarkLogic Server: . . .</title> <author> <first-name>Dale</first-name> <last-name>Kim</last-name> </author> <abstract> . . . . <company>Mark Logic</company> </abstract> <body> <section> <section> . . .</section> </section> <section> . . . index . . . </section> </body> <copyright>Copyright© . . . </copyright> </article> Copyright © 2012 MarkLogic Corporation. All rights reserved. Slide 23 ®
  24. 24. 특정 스키마에 구애받지 않는 MarkLogic XML 은 설명을 내장합니다. <article> <article> <title>MarkLogic Server: .....</title> <title> MarkLogic Server: . <author> <first-name> Dale <first-name>Dale</first-name> <last-name>Kim</last-name> <last-name> Kim </author> <author> <title> <abstract> <abstract> . . . . <company>MarkLogic</company> <company> MarkLogic "MarkLogic Server: . . ." </abstract> <body> <section> " . . . " <company> " . . . " <first-name> <section> . . .</section> <section> </section><last-name> <section> . . . index . . .. . </section> . index. "Dale" "MarkLogic" </body> "Kim" <copyright>Copyright© . . . </copyright> <copyright> </article> Copyright © 2012 MarkLogic Corporation. All rights reserved. Slide 24 ® 스키마 불필요! <body> <section> <section> "..." <copyright> <section> “..." " . . . index. . . "
  25. 25. MarkLogic 작동 원리 인덱싱과 쿼리 Slide 25 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  26. 26. MarkLogic’s Universal 인덱스 Alerting Words and phrases ... Semantic Web is a collaborative movement led by the World Wide Web Consortium (W3C) ... Structure <Rule> <Rule>Image over 10MB</Rule> <Rule>Image restricted</Rule> <Rule> Label Author Ing Comp Org Data/Metadata Universal Index ID Para name:sorbitol date:2012-06-04 company:Roche Entities in Context ... ACE inhibitors, since the risk of lithium toxicity is very high in such patients... Geospatial Security <User>James</User> <Role>Admin</Role> <Role>Editor</Role> Slide 26 <location> <lat>46.946584</lat> <lng>93.076172</lng> </location> Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  27. 27. Universal 인덱스 Universal 인덱스 Term Term List “data” 123, 127, 129, 152, 344, 791 . . . 문서 “base” 122, 125, 126, 129, 130, 167 . . . “data base” 123, 126, 130, 142, 143, 167 . . . 참조 STEM “be” 123, 130, 131, 135, 162, 177 . . . STEM “data be” 126, 130, 167, … 126, 130, 167, 212, 219, 377 . . .  MarkLogic 데이터 인덱스 <article> ... <article>/<abstract> ...  단어 <section>/<product> ...  구문 <product>IMS</product> ...  형태 분석  구조 <title> contains "data" ... Collection(Red) ...  수집 Role:Editor + Action:Read ...  보안 권한 Slide 27 Copyright © 2012 MarkLogic® Corporation. All rights reserved.  값
  28. 28. 스칼라 2005년 이후 발행된 기사를 쿼리 UNIVERSAL 인덱스 “data” 123, 127, 129, 152, 344, 791 . . . “base” 122, 125, 126, 129, 130, 167 . . . “data base” 123, 126, 130, 142, 143, 167 . . . STEM “be” 123, 130, 131, 135, 162, 177 . . . STEM “data be” 126, 130, 167, 212, 219, 377 . . . <article> ... <section>/<product> ... <product>IMS</product> ... 문서 참조 ... <article>/<abstract> 연도 <title> contains "data" ... Collection(Red) ... Role:Editor + Action:Read ... Slide 29 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 126, 130, 167, … 볼룸
  29. 29. Range 인덱스 DOC ID와 Value 맵, Value맵과 DOC ID 를 소형 메모리에 표현 합니다 DOC ID VALUE VALUE DOC ID 1 2002 3 3 2002 2003 10 4 2007 2004 5 5 2004 2004 11 8 2011 2007 4 10 2003 2007 17 11 2004 2009 1 17 2007 2011 8 … Slide 30 2009 … ... … Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  30. 30. 지리 지수: 2차원 Range 인덱스 솔루션이 내장되어 지원 :        점 사각형 원 다각형 복잡한 다각형 다각형 교차로 다각형 봉쇄 다른 인덱스와 완전히 구성 가능. Slide 31 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  31. 31. MarkLogic 작동 원리 이벤트 처리 Slide 32 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  32. 32. Reverse 인덱스 (경고) 1. 2. 쿼리 문서에서 직렬화된 쿼리를 로드 합니다. 주어진 데이터 문서에 대해 일치하는 모든 쿼리를 찾습니다.  더 큰 성능의 영향 없이 로드 중 실시간 알람을 제공 할 수 있습니다.  문서의 값을 Range로 저장.  도시들의 자체정의 영역 경계에 대한 문서  범위와 순서로 생일을 정의한 사람의 문서  온라인 사람 찿기 의 핵심 엔진으로도 적합 Slide 33 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  33. 33. MarkLogic 작동 원리 시스템 확장 Slide 34 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  34. 34. 데이터베이스 규모 확장  문서 데이터베이스  분리된 파티션에 저장 Forest1 Slide 35 Database Forest2 Copyright © 2012 MarkLogic® Corporation. All rights reserved. Forest3
  35. 35. Shared-Nothing 아키텍쳐 E-Node E-Node D-Node1 D-Node2 Forest1 Forest2 Slide 36 Copyright © 2012 MarkLogic® Corporation. All rights reserved. E-Node D-Node3 Forest3 Forest4 ••• D-Nodek ••• Forestm
  36. 36. MarkLogic HA/DR 기능 Slide 37 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  37. 37. MarkLogic 서버 작동 분석 분석 Slide 38 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  38. 38. Range 인덱스: 내장된 In-Memory 컬럼 소형 메모리에 문서 ID와 Value의 맵 저장, 그리고 Value와 문서 ID의 저장. DOC ID VALUE VALUE DOC ID 1 2002 3 3 2002 2003 10 4 2007 2004 5 5 2004 2004 11 8 2011 2007 4 10 2003 2007 17 11 2004 2009 1 17 2007 2011 8 … Slide 39 2009 … ... … Copyright © 2012 MarkLogic® Corporation. All rights reserved. 범위 인덱스는 내장된 In-Memory 칼럼 저장소에 해당합니다.
  39. 39. Scalar 쿼리 및 집계 Slide 40 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  40. 40. 데이터 베이스 내의 MapReduce E-Node D-Node1 D-Node2 Forest1 Forest2 Slide 41 Copyright © 2012 MarkLogic® Corporation. All rights reserved. D-Node3 Forest3 시작 인코드 디코드 Reduce 종료 디코드 Map Reduce 인코드 Forest4 ••• D-Nodek ••• Forestm
  41. 41. 양방향 Hadoop 커넥터 를 통한 Hadoop MapReduce 운영 응용 프로그램 Raw Data ? 1 중급 지능 MarkLogic 3 Hadoop 대량으로 로드 2 Slide 42 Copyright © 2012 MarkLogic® Corporation. All rights reserved. + Hadoop을 위한 커넥터 진보적인 향상
  42. 42. Co-Occurrence - 동시 발생 Slide 43 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  43. 43. SQL 과 BI 툴 ODBC SQL 범위 인덱스 Slide 44 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  44. 44. MarkLogic 서버 작동 원리 트랜잭션 Slide 45 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  45. 45. MVCC /articles/codd.xml /articles/codd.xml Document Title First Section Document Title Author Last Section Section Metadata First Section Section 523 ∞ Section 628 ∞ c d Slide 46 생성 시간 기록 삭제 기록 Copyright © 2012 MarkLogic® Corporation. All rights reserved. Section Author Last Section Metadata Year Section Section Section Section 628 ∞ ∞  타임 스탬스는 :  Interger (정수) 증가 - MarkLogic 5 전  Wall 시간 증가 - MarkLogic 5 시작
  46. 46. MVCC 혜택 /articles/codd.xml  매우 높은 처리량 (Throughput)  읽기 Query의 Lock 불필요  Query 및 Update는 충돌하지 않음  ACID 트랜잭션  서버간의 내부 2 phase commit  (Forest 파티션) Document Title First Section 628  데이터 흡수 및 색인의 Zero-latency 무 지연 Slide 47 Copyright © 2012 MarkLogic® Corporation. All rights reserved. Author Last Section Metadata Year Section Section Section Section ∞
  47. 47. Conclusion Slide 50 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  48. 48. MarkLogic 서버는…  운영 DBMS  …MVCC기반의 Transaction 모델과 및 높은 처리량이 가능  분석 DBMS  …In-Memory 칼럼 저장과 In-Database Map-Reduce  비정형 DBMS  …XML 데이터 모델과 ad-hoc 스키마  고 성능의 검색엔진  … 트랜잭션 Universal 인덱스  이벤트 프로세서  … 시리얼 쿼리 및 알람  통합된 Big Data 플랫폼 Slide 51 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  49. 49. 구축 사례 Slide 52 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  50. 50. 운용 Data Store JP 모건 체이스, 거래 분석의 단일 창구 구현 목표 여러 데이터베이스에 걸쳐 금융 거래 정보 식별의 여러움  매일 파생 금융 거래 내역을 쉽게 확인  운용의 간소화 및 파생 상품 거래 비용 최소화 현재 상황  거대한 금융거래의 노출 : 수 조 달러, 수백만 개의 금융 파생상품  파생 상품 서비스가 노출된 위험의 인지 불가  데이터 20개의 복사본이 저장되는 복잡 구조 … 분산, 중복 및 분리되어 있는 다수 파생 상품서비스의 거래 정보 Slide 53 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 16
  51. 51. Operational Data Store JP 모건 체이스, 거래 분석의 단일 창구 구현 결 과  MarkLogic을 통하여 20개의 Sybase 상품계약 데이터베이스를 단일 파생 상품 계약 데이터베이스로 간소화 하나의 데이터베이스에 모든 계약을 분석  글로벌하게 실시간으로 (24/7/365) 통합된 데이터 스토어를 통한 정확한 기업 파생 위험 인지  거래 분석 시 초 단위 미만의 응답 구현 혜 택  실시간으로 정확한 글로벌 위치를 인지를 통한 금융 위험 감소  거래당 평균 비용을 감소 …  유지 보수 운용비 절감 :  20개의 Sybase 데이터베이스를 1개의 MarkLogic 데이터 베이스로 축소 20 개 데이터베이스 복사본을 제거 Slide 54  10명의 DBA에서 5명의 DBA로 축소 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 17
  52. 52. Social Applications Xplana는 협력을 통해 교육의 수준 극대화 목  학생들이 새로운 방법으로 학습 할 수 있는 시스템 구축  협업 및 소셜 미디어를 통해 학생들의 학업과 사회 생활을 통합 학생 커뮤니티 + 현재 상황 기존 무료 교육서적과 프리미엄 교육서적  기존 시스템이 아닌 신규 프로젝트  끊임없는 변화를 수용하는 혁신적의 시스템의 기대  많은 사용자와 방대한 컨텐츠 볼륨을 수용 기대 + 외부 교육 자료 Slide 55 표 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 20
  53. 53. 원유 선물을 거래 할 때 "(주)글로벌 석유 "는 거래시 가격의 이점을 극대화 할 수 있습니다. Goals 이익을 극대화하기 위해 석유 · 가스 시장의 영향력의 전체 이미지를 얻고자 함. Solution Challenges 실시간의 정치, 날씨, 선박 데이터, 위치, 단말기 데이터와 거래 데이터를 가져 오면 주목할만한 문제점을 알리는 상인에게 경고를 보냅니다. 빠른 결정을 내릴수 있도록 한다 다음을 알리도록 설정  원유 "MMM"배럴 이상이 아라비아 만에서 전송 중  강도 8 이상의 험악한 날씨가 멕시코만을 덮친 것을 경고 Slide 56 Copyright © 2012 MarkLogic® Corporation. All rights reserved. Benefits 상인들은 시장에서 최고의 가격을 얻을 수 있는지 확인하기 위해 시스템을 사용하고 있습니다. 75 %의 총 소유 비용 절감 (TCO)의 절감했습니다.
  54. 54. Social Applications Xplana는 협력을 통해 교육의 수준 극대화 기능  다양한 기존 컨텐츠, 신규 업로드, 신규 사용자 생성 콘텐츠, 외부 링크등의 집합.  공부 가이드, 강의 노트, 플레시 카드, 공유된 메모등의 생성 기능.  페이스 북 / 트위터 / 다른 사람과의 연계.  수백만의 사용자와 Tera Byte급의 데이터 처리하는 확장성. 기존 무료 교육서적과 프리미엄 교육서적 혜택  교육을 강화하기 위해 혁신적인 서비스를 제공  빠른 개발주기를 통한 낮은 TCO 보장 (4개월)  새로운 요구에 빠르게 적응 할 수 있는 민첩성 확보. 학생들 사이 협력 외부 교육 자료 Slide 57 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 21
  55. 55. 사이먼 & 슈스터는 새로운 수익원으로 사업을 변환 목 표  12,000 도서 를 디지털화 하여 검색하고 다른 활용 목적으로 컨텐츠 제공  여러 채널으로 쉽게 디지털 책으로 컨텐츠 제공 도 전  개별 파트너를 위해 구축된 유연하지 못한 시스템은 관리의 어려움 및 많은 관리비용을 요구되었습니다.  분산된 데이터 사일로에서 검색하던 어렵고 느린 자산 정보 호출은 수익 손실로 이어 졌습니다. … 서로 다른 자산의 저장소 Slide 58 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  56. 56. 사이먼 & 슈스터 새로운 수익원으로 사업을 변환 파트너 유통사 저작자 솔 루 션  Syndication 서버 : 책 제목과 함께 메타 데이터가 저장된 개인 사이트 및 파트너 사이트.  Contract 서버 : 고유 한 권리를 포함한 저작자 계약서 저장  Layout 서버 : 웹의 jacket 텍스트 콘텐츠를 XML로 변환 하는 노동 집약적 인 프로세스를 자동화 혜 택 Syndication Contracts Layout 모든 Business Critical 콘텐츠의 중앙 집중화 Slide 59 Copyright © 2012 MarkLogic® Corporation. All rights reserved.  디지털 공급 체인에서의 새로운 수익 창출  수동 프로세스 제거를 통한 대폭적인 비용 절감  자동 Delivery와 함께 디지털 자산을 검색하고 선택함으로 사업 관계자들의 능력 제공  영업 및 마케팅 계약 위반의 법적 의미 제거
  57. 57. 향상 고객에게 깊이 소비자 및 시장 분석을 제공함으로써 소셜 미디어 인텔리전스 시장에서 경쟁우위를 확보 목  높은 볼륨 및 쿼리 부하 및 복잡한 쿼리를 처리 할 수있는 검색 및 데이터베이스 기술  새로운 제품 및 기능과 함께 신속하게 시장을 점유하는 민첩성. 고객 소셜 미디어의 폭발적인 성장과 확장의 수용 도 Intellectual Property In-House 기술 내부 분석가 … 소셜 미디어의 Inputs Slide 60 표 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 전  현재 검색 및 데이터베이스 기술은 소셜 미디어 세트의 성장 볼륨과 복잡성을 유지 할 수 없습니다.  실시간으로 모든 해당 고객 데이터를 집계 할 수 없습니다  결과에 개개인의 지적 재산을 통합하기가 어렵습니다.
  58. 58. 향상 고객에게 깊이 소비자 및 시장 분석을 제공함으로써 소셜 미디어 인텔리전스 시장에서 경쟁우위를 확보 솔 루 션  250TB로 확장된 단일 MarkLogic 시스템은 사내 검색 및 데이터베이스 기술을 대체  실시간으로 필수적인 데이터를 고객에게 제공합니다  개개인의 지적 재산권을 포함한 결과 혜 택  백만가지 이상의 데이터 소스를 처리 할 수 있는 보다 완전하고 다각면의 360° 소셜 미디어 뷰.  30억건 이상의 기록을 1초 미만의 검색. (이전 15억건)  분석 및 조치에 최적화 속도 - 최대 10 배 개선된 성능 Slide 61 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  59. 59. 매일 거래되는 금융거래에서 수백만의 수익을 창출 목 모바일 게임머  연가 수십억 단위의 게임 시스템 거래 안정적 처리  수백만의 사용자의 직불 / 신용 거래 추적 도 무료 게임 모바일 게임 플렛폼 가상 아이템 구매 Slide 62 표 RDBMS? MarkLogic Copyright © 2012 MarkLogic® Corporation. All rights reserved. 전  볼륨 및 속도의 거래를 위한 완벽한 확장성의 필요성  시스템이 장애의 경우 많은 사업의 손실 발생  높은 가동 시간 요구
  60. 60. 매일 거래되는 금융거래에서 수백만의 수익을 창출 솔 루 션  "The Bank"라고 불리는 MarkLogic 의 Mission-critical 시스템  금융 거래 및 계정의 관리 (매우 구조화 된 데이터)  지출 동향의 실시간 분석을 지원하는 indatabase 기반의 플랫폼 혜 택  쉬운 확장성, 높은 가동 시간 / 신뢰성, 빠르고 실시간 적인 응답 - 기존 RDBMS 기반의 Prototype 대비 분명한 장점  NoSQL을 활용의 기술 철학 활용 MarkLogic 이 iOS / Android에서 최상위 수익률을 자랑하는 게임의 플렛폼 역할 수행 (6/12/12) Slide 63 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  61. 61. 마크로직의 이슈 이기종 DB 분석 검색 속도의 우위가 필요한 작업 빅데이터 프로젝트 새로운/리뉴얼 포털작업 Slide 64 Copyright © 2012 MarkLogic® Corporation. All rights reserved. 그룹웨어/KMS/CMS
  62. 62. 제안 사례 XX증권 기존 국내 기술로 문서 검색 사용 중 내부 문서 검색 및 분석-> 영업직이 자료를 활용못함 기존 데모했던 기술은 인덱싱만 한달이 걸리고 단어검색만 됨 10T이상의 문서도 즉석 검색 빠른 인덱싱 속도와 리포트 제공 빠른 구축 시간 및 유지보수 용이 Slide 65 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  63. 63. 제안 사례 XX이노 기존 검색 엔진 대체할 빅데이터 기반 검색 기술 수요 그룹웨어, 지식관리시스템, 내부 문서 검색 엔진 공급가격과 검색속도, 개발 및 외부 프로그램, API연동 고려 PB급 데이터 검색 및 처리 기존 시스템과의 호환성 빠른 구축 시간 및 유지보수 용이 Slide 66 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  64. 64. 제안 사례 XX은행 마케팅 및 내부 비정형 데이터 분석 고객메일, 내부메신저, 리포트, 부서별 문서 검색 및 분석 정형의 데이터를 다시 분석하는 것은 빅데이터의 의미가 아님 비정형 데이터를 수집하고 데이터 선 분석 내부 교육 및 마케팅에 활요할 분석이?? 구축 비용 및 유지 보수 비용이 오픈소스에 비해 ROI가 나옴 Slide 67 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  65. 65. 제안 사례 정책 자료 및 지역 민원 내용 분석 소셜 데이터 분석 기존 단순 웹 로그 분석에서 탈피 XXX청 Slide 68 비정형 데이터를 수집하고 데이터 선 분석 내부 정책 수립 및 우선순위 설정에 활용 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  66. 66. 제안 사례 CCTV 검색 대용량 미디어 검색 메타데이터 XXX테크 Slide 69 미디어화일의 메타데이어 검색 원본과 인덱싱 서버 별도 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  67. 67. 제안 사례 GIS 데이터 검색 대용량 데이터 검색속도 이슈 XXX부 Slide 70 수십억건 이상의 문서에서 1-2초 내 검색속도 요구 GIS 서비스에 엔진으로 제안 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  68. 68. MarkLogic 기능 요약 Powerful Everything you need to deliver business value Accessible Leverage existing tools, knowledge, skills Trusted Enterpriseready for mission-critical apps Slide 71 Flexible Indexes Full Text Search Hadoop Distribution Alerting & Event Processing REST & Java APIs JSON Storage Content Pump BI Integratio n Transactions Role-based Security Point-intime Recovery Database Rollback Copyright © 2012 MarkLogic® Corporation. All rights reserved. SchemaAgnostic Scalable Analytic Functions Geospatial Query Indatabase MapReduce Visualization Widgets Application Builder Information Studio Hadoop Connector SQL Support Monitoring & Management OS Support Automated Failover Replication Journal Archiving Backup/ Restore Distributed Transactions Superclusters
  69. 69. Marklogic 7.0 - New Tiered Storage Runs on HDFS Runs on Amazon S3 Cloud Ready Elasticity Cluster Monitoring Tools Configuration Management Enhancements Slide 72 Copyright © 2012 MarkLogic® Corporation. All rights reserved. Semantics
  70. 70. Marklogic 7.0 - New Search Enhancements Requiring Less Disk Space REST & Java API Improvements Fast data ingestion Security (LDAP / Kerberos) Slide 73 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  71. 71. 빅데이터= 엄청난 기회 Slide 74 Copyright © 2012 MarkLogic® Corporation. All rights reserved.
  72. 72. 질의응답? Lee Seung Hoon lsh@mobile-os.com kosena21@naver.com 010-9338-6400 Slide 75 Copyright © 2012 MarkLogic® Corporation. All rights reserved.

×