Deview2013 SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom

1. SQL-on-Hadoop

2. with

3. Apache

4. Tajo,

6. and

7. application

8. case

10. SK

11. Telecom

12. 정재화

13. 책임

15. 그루터

17. About

18. me

19. • 

20. 그루터

21. 책임

22. 개발자

24. 아파치

25. 타조

26. 커미터

27. • 

28. 전)

29. 큐릭스,

30. NHN,

31. 엔씨소프트

32. • 

33. E-mail:

34. jhjung@gruter.com

36. • 

37. Homepage:

38. http://blrunner.com

39. • 

40. Twitter:

41. @blrunner78

42. • 

43. 저서:

44. 시작하세요!하둡

45. 프로그래밍

46. (위키북스)

48. CONTENTS

49. 1.

50. Hadoop

52. MapReduce

53. 2.

54. SQL-On-Hadoop

55. 3.

56. Apache

57. Tajo

59. 1.

60. Hadoop

62. MapReduce

64. 1.1

65. Hadoop

66. 대규모

67. 데이터의

68. 분산처리를

69. 위한

70. 오픈

71. 소스

72. 프레임워크

73. à 

74. HDFS(데이터

75. 저장)

77. MapReduce(분산

78. 처리)

79. • 

80. 유연성

82. 다양한

83. 데이터

84. 포맷

85. 지원

86. (구조적,

87. 비구조적

88. 데이터,

89. 텍스트)

91. 범용

92. 프로그래밍

93. 언어를

94. 이용하여

95. 다양한

96. 알고리즘

97. 적용

98. 가능

99. • 

100. 확장성

101. -

102. 노드

103. 증가에

104. 따른

105. 선형적인

106. (성능,

107. 용량)

108. 확장

109. 가능

110. • 

111. 비용

112. -

113. 다수의

114. 범용

115. 서버

116. 클러스터에서

117. 동작하도록

118. 설계

119. -

120. 노드

121. 증가를

122. 통한

123. 용량

124. 증설

125. 및

126. 처리

127. 성능

128. 향상

129. 비용이

130. 저렴

132. 1.2

133. MapReduce

134. 동작방식

135. k v map k v k v k v k v Sorted key-value pairs k v k v k v v v v reduce k v map k v k v k v k v Sorted key-value pairs k v k v v k v k v map k v k v k v Sorted key-value pairs k v k v v v v reduce k v map k v k v k v k v k v v Sorted key-value pairs input map function sort k v hash partition sort and merge reduce function

136. 1.3

137. 기존

138. MapReduce

139. 기반

140. 분석

141. 시스템

142. • 

143. Hive:

144. 하둡

145. 기반의

146. DW

147. 시스템

148. -

149. HiveQL지원

150. (SQL과

151. 유사)

152. -

153. HiveQL을

154. MapReduce로

155. 변환해서

156. 질의

157. 수행

158. -

159. 쉽고,

160. 편리함

161. -

162. 높은

163. 반응

164. 시간

165. (High

166. Latency)

167. • 

168. Pig:

169. MapReduce용

170. 프로그래밍

171. 및

172. 데이터

173. 플로우

174. 인터페이스

175. -

176. 스크립트언어인

177. PigLatin

178. 지원

179. -

180. PigLatin을

181. MapReduce로

182. 변환해서

183. 질의

184. 수행

186. 1.4

187. MapReduce의

188. 문제점

189. • 

190. Map과

191. Reduce간의

192. 셔플의

193. 한계

194. :

203. merge

204. sort

205. à

206. hashing

207. à

208. merge

209. sort

210. -

211. 관계형

212. 데이터

213. 베이스에

214. 부적합

215. -

216. Job간의

217. 데이터

218. 교환

219. 오버헤드

220. Job 1 write read HDFS

221. - 고정된

222. 데이터

223. 흐름

224. Job 2 write HDFS read Job 3

225. 1.5

226. Hive

227. 의

228. 문제점

229. • 

230. 높은

231. 지연

232. 시간

233. - 

234. MapReduce

235. Job별

236. 5~15초에

237. 달하는

238. 시동

239. 시간

240. • 

241. SQL

242. 표준

243. 미지원

244. - SQL과

245. 유사하지만

246. 많은

247. 부분이

248. 상이함

250. 1.5

251. Hive

252. 의

253. 문제점

254. • 

255. 낮은

256. 노드당

257. 처리

258. 성능

259. - 

260. 튜플(Tuple)

261. 단위

262. 처리

263. 모델

264. SELECT

265. Emp.name

266. AS

267. employee,

268. bonus

269. =

270. (Emp. age

271. -

272. 30)

273. *

274. 50

275. Departments.name

276. AS

277. dep_name,Mng.name

278. AS

279. dep_manager,

280. FROM

281. Employees

282. AS

283. Emp

284. JOIN

285. Departments

286. ON

287. Emp.dept_id

288. =

289. Departmen ts.id

290. JOIN

291. Employees

292. AS

293. Mng

294. ON

295. Mng.id

296. =

297. Departme nts.mngr_id

298. WHERE

299. Emp.age

301. 30

303. 1.5

304. Hive

305. 의

306. 문제점

307. • 

308. 셔플로

309. 인한

310. 오버헤드

311. - 

312. 중간

313. 데이터

314. materialization

315. - 

316. Pull

317. 방식으로

318. 인한

319. Random

320. Access

321. *

322. 이미지

323. 출처:

324. http://kb.sandisk.com/euf/assets/images/faqs/8150/id8150_Random_vs_sequential_access.png

326. 2.

327. SQL-on-Hadoop

329. 2.1

330. SQL-on-Hadoop

331. 이란?

332. Hadoop

333. 기반의

334. 차세대

335. 분석

336. 엔진을

337. 지칭

338. • 

339. SQL

340. 표준

341. 지원

342. -

343. 기존

344. 시스템과

345. 통합

346. 또는

347. 대체

348. 용이

349. • 

350. 높은

351. 처리

352. 성능

353. - MapReduce의

354. 한계를

355. 극복하는 분산 처리 프레임워크 - 

356. CPU와 메모리를 보다 잘 활용하는 처리 방식

358. • 

359. 낮은

360. 반응

361. 시간

362. (low

363. latency)

364. -

365. 100

366. msec

367. ~

369. 2.2

370. 왜

371. SQL-on-Hadoop

372. 인가?

373. • 

374. Needs의

375. 변화

376. -

377. 과거에는

378. 투자대비

379. 저렴한

380. 가격으로

381. 대용량

382. 데이터

383. 처리에

384. 만족

385. à

386. 보다

387. 높은

388. 처리

389. 성능

390. 및

391. 빠른

392. 반응

393. 요구

394. -

395. 지속적인

396. 서버증설에

397. 대한

398. 비용

399. 및

400. 관리

401. 부담

402. 증가

403. -

404. Ad-hoc질의를

405. 위한

406. DB

407. 병행

408. 사용

409. 불만

410. • 

411. 대화형

412. 질의

413. (Interactive

414. Query)

415. - 

416. 데이터

417. 분석:

418. 질의

419. à

420. 결과

421. 분석과

422. 사고

423. à

424. 질의

425. à

426. 시스템의

427. 빠른

428. 반응

429. 속도가

430. 데이터

431. 분석의

432. 생산성 - 

433. 빠른

434. 의사

435. 결정

436. 가능

438. 2.2

439. 왜

440. SQL-on-Hadoop

441. 인가?

442. • 

443. 성능

444. 보장

445. 및

446. 사람에

447. 의한

448. 오류

449. 방지

450. - 

451. MapReduce

453. - 

454. 개발자

455. 역량에

456. 의존적

457. - 

458. 버그

459. 가능성

460. 높음

461. - 

462. 질의

463. 언어

464. - 

465. 적절한

466. 성능은

467. 시스템이

468. 보장

469. - 

470. 버그

471. 가능성

472. 낮음

474. 2.3

475. SQL-on-Hadoop

476. 솔루션

477. • 

478. Impala

479. - 

480. Low

481. latency

482. 질의

483. 처리에

484. 특화된

485. 설계

486. - 

487. Block-at-a-time

488. 방식

489. 엔진

490. - 

491. 고성을

492. 위한

493. C++

494. 적용,

495. SIMD와

496. LLVM을

497. 이용한

498. String

499. 처리

500. -

501. 인메모리

502. 구조로

503. 인한

504. 결과

505. 값이

506. 큰

507. 데이터

508. 처리에

509. 한계

510. - 

511. 소스는

512. Open,

513. 참여는

514. Closed

515. • 

516. Stinger

517. - 

518. Hive

519. 기반

520. 시스템

521. - 

522. Vectorized

523. 엔진

524. 도입으로

525. 기존

526. 튜플

527. 단위

528. 처리

529. 엔진

530. 대체

531. 작업

532. 중

533. - 

534. Tez

535. (apache

536. incubating):

537. MapReduce

538. 대체

540. 3.

541. Apache

542. Tajo

544. 3.1

545. Tajo란?

546. Hadoop

547. 기반의

548. DW

549. 시스템이며,

550. HDFS

551. 및

552. 다양한

553. 소스의

555. 대용량

556. 데이터에

557. 대한

559. ETL,

560. 집계,

561. 연산,

562. 조인,

563. 정렬

564. 제공

565. • 

566. 호환성

567. - 

568. 표준

569. SQL

570. 지원,

571. UDF

572. 지원

574. - 

575. JDBC,

576. ODBC

577. (추후

578. 계획)

579. • 

580. 고성능

581. 및

582. 낮은

583. 반응

584. 시간

585. - 

586. 유연하고

587. 효율적인

588. 분산

589. 처리

590. 엔진

591. - 

592. 비용

593. 기반

594. 최적화

595. 엔진

596. (cost-based

597. optimization)

598. - 

599. JIT

600. Query

601. Compliation

602. 및

603. Vectorized

604. 질의

605. 엔진

606. • 

607. 오픈

608. 소스

609. (http://tajo.incubator.apache.org)

611. - 

612. 소스도,

613. 참여도

614. 모두

615. Open

617. 3.2

618. Tajo

619. 설계

620. 동기

621. 레거시

622. 시스템에서

623. 얻은

624. 교훈

625. 및

626. 중요

627. 우선

628. 순위

629. • 

630. 잘못된

631. 질의

632. 계획에

633. 대한

634. 최적화

635. - 

636. 잘못된

637. 질의

638. 계획은

639. 수

640. 분짜리

641. 질의를

642. 수

643. 시간이

644. 걸리게

645. 할

646. 수

647. 있음

648. • 

649. 분산

650. 처리

651. 프레임워크

652. - 

653. Map/Reduce

654. 태스크

655. 시작

656. 오버헤드

657. (노드당

658. 낮은

659. 처리량)

660. - 

661. 각

662. 태스크당

663. 수십

664. msec

665. ~

666. 1초

667. 이상

668. 소요

669. - 

670. 64MB

671. 데이터

672. 기준

673. task

674. 처리

675. 속도는

676. 1초

677. - 

678. 중간

679. 데이터

680. 전달

681. 부하가

682. 분산

683. 처리의

684. 주

685. 병목

686. 지점

687. - 

688. Pull

689. 방식으로

690. 인하여

691. 네트워크

692. 대역폭

693. 활용도

694. 낮음

695. - 

696. 고정된

697. Map,

698. Reduce

699. 단계,

700. Hash

701. Shuffle로

702. 인한

703. 최적화

704. 기회

705. 감소

707. 3.2

708. Tajo

709. 설계

710. 동기

711. • 

712. 워커

713. 레벨의

714. 데이터

715. 처리

716. 엔진

717. - 

718. 낮은

719. 처리

720. 성능

721. - 

722. CPU-friendly

723. 하지

724. 않은

725. 구현

726. - 

727. Scale-up에

728. 대한

729. 교려가

730. 거의

731. 없음

732. • 

733. 하드웨어의

734. 발전

735. - 

736. Many

737. Cores

738. - 

739. 단일

740. 범용

741. 서버가

742. 8

743. ~

744. 24

745. 코어

746. 보유

747. - 

748. 빠른

749. 스토리지

750. - 

751. 향후

752. 3~5년

753. 내

754. SSD

755. 서버

756. 스토리지가

757. 대중화

758. 예상

759. - 

760. SSD의

761. 순차

762. 읽기

763. 속도:

764. 500

765. ~

766. 1500MB/S

768. 3.2

769. Tajo

770. 설계

771. 동기

772. - 

773. CPU

774. Core

775. 당

776. 처리

777. 속도

778. 2GB/s

779. - 

780. Disk

781. I/O

782. à

783. CPU

784. 병목

785. 예상

786. • 

787. SIMD

788. (Sing

789. Instruction

790. Multiple

791. Data)

792. 의

793. 발전

794. - 

795. 최신

796. CPU들은

797. String

798. 비교나

799. Hashing을

800. 위한

801. 명령어까지

802. 제공

803. - 

804. 단일

805. 명령어

806. 처리

807. 데이터

808. 증가

809. (향후

810. 256bit

811. à

812. 1024

813. bit)

814. 이미지 출처 http://origin.arstechnica.com/cpu/1q00/simd/figure6.gif

815. 3.3

816. Tajo

817. 아키텍처

818. • 

819. Master-Worker

820. 모델

821. -

822. RPC

823. 기반:

824. Protocol

825. Buffer,

826. Netty,

827. Boost

828. ASIO

829. • 

830. Tajo

831. Master

832. - 

833. 클라이언트

834. 및

835. 어플리케이션

836. 요청

837. 처리

838. - 

839. 카탈로그

840. 서버

841. - 

842. 테이블

843. 스키마,

844. 물리적인

845. 정보,

846. 각종

847. 통계

848. - 

849. JDBC

850. 이용

851. 외부

852. RDBMS를

853. 저장소로

854. 사용

855. - 

856. Query

857. 파서,

858. 플래너,

859. 최적화,

860. 클러스터

861. 자원

862. 관리,

863. Query

864. Master

865. 관리

867. 3.3

868. Tajo

869. 아키텍처

870. • 

871. Query

872. Master

873. - 

874. 질의별

875. 동작

876. - 

877. Execution

878. Block

879. (질의

880. 실행

881. 단계)

882. 제어

883. - 

884. 태스크

885. 스케쥴링

886. • 

887. Tajo

888. Worker

889. - 

890. 스토리지

891. 매니저

892. - 

893. 로컬

894. 질의

895. 엔진

896. - 

897. 기존

898. 자바

899. 구현

900. 모듈을

901. C++로

902. 대체

903. 중

906. 3.3

907. Tajo

908. 아키텍처

909. Hive

910. Meta

911. Database

912. Hive

913. Catalog

914. TajoCli

915. TajoClient

916. Catalog

917. Database

918. TajoMaster

919. Catalog

920. Server

921. TajoWorker

922. HCatalog

923. Interface

924. TajoMaster

925. Client

926. Protocol

927. Service

928. (Netty)

929. YARN

930. ResourceManager

931. Logical

932. Planner

933. Tajo

934. ResourceManager

935. Global

936. Planner

937. Resource

938. Manager

939. (자체)

940. YARN

941. RM

942. Proxy

943. QueryMaster

944. Manager

945. QueryMaster

946. Manager

947. ProtocolService

948. (Netty)

949. TajoWorker

950. TajoWorker

951. TajoWorker

952. Query

953. Physical

955. Engine

956. TajoWorker

957. Planner

958. Vectorized

959. Engine

960. QueryMaster

961. Query

962. Master

963. Client

964. Protocol

965. Service

966. (netty)

967. Query

968. Master

969. Protocol

970. Service

971. (netty)

972. Storage

973. Manager

974. File

975. Reader/

976. Writer

977. YARN

978. NodeManager

979. DataNode

981. 3.4

982. 질의

983. 계획

984. 및

985. 최적화

986. 엔진

987. • 

988. 비용

989. 기반

990. 최적화

991. (Cost-based

992. optimization)

993. - 

994. 시스템이

995. 최적의

996. 조인

997. 순서를

998. 탐색

999. 및

1000. 선택

1001. - 

1002. 사용자에게

1003. 의존하지

1004. 않음

1005. • 

1006. 확장

1007. 가능한

1008. Rewrite

1009. Rule

1010. 엔진

1011. - 

1012. 기존

1013. 상용

1014. DB

1015. 수준의

1016. 다양한

1017. Rewrite

1018. rule로

1019. 확장

1020. 가능

1021. • 

1022. 적응형

1023. 최적화

1024. (Progressive

1025. query

1026. reoptimization)

1027. - 

1028. 질의

1029. 실행

1030. 시간에

1031. 통계

1032. 정보를

1033. 기반으로

1034. 질의의

1035. 남은

1036. 부분

1037. 최적화

1038. - 

1039. 나쁜

1040. 질의

1041. 계획

1042. 회피

1043. 가능

1045. 3.5

1046. 데이터

1047. 셔플(Shuffle)

1048. 매커니즘

1049. • 

1050. 데이터

1051. Shuffle

1052. 방법

1053. - 

1054. Hash

1055. - 

1056. 노드들에게

1057. 할당된

1058. hash

1059. key

1060. 값에

1061. 만족하도록

1062. 데이터

1063. 재분배

1064. - 

1065. Range

1066. - 

1067. 노드들에게

1068. 할당된

1069. 값

1070. 범위에

1071. 만족하도록

1072. 데이터

1073. 재분배

1075. 3.5

1076. 데이터

1077. 셔플(Shuffle)

1078. 매커니즘

1079. • 

1080. 데이터

1081. 전송

1082. 방법

1083. - 

1084. Pull

1085. - 

1086. 중간

1087. 데이터를

1088. 저장하고

1089. 다른

1090. 워커가

1091. 끌어가는

1092. 방식

1093. - 

1094. 데이터에

1095. 비해

1096. 자원이

1097. 충분치

1098. 않아

1099. 단계별

1100. 데이터

1101. 처리

1102. 시

1103. 이용

1104. - 

1105. Push

1106. - 

1107. 중간

1108. 데이터의

1109. 디스크

1110. 저장

1111. 없이

1112. 데이터를

1113. 다른

1114. 워커에게

1115. 전송

1116. - 

1117. 자원이

1118. 충분하고

1119. 여러

1120. 데이터

1121. 처리를

1122. 동시에

1123. 파이프

1124. 라이닝이

1128. 가능할

1129. 때

1130. 사용

1132. 3.6

1133. 분산

1134. 질의

1135. 수행

1136. 플랜

1138. (A

1139. join-groupby-sort

1140. query

1141. plan)

1142. (A

1143. distributed

1144. query

1145. execution

1146. plan)

1147. select

1148. col1,

1149. sum(col2)

1150. as

1151. total,

1152. avg(col3)

1153. as

1154. average

1155. fro m

1156. r1,

1157. r2

1158. where

1159. r1.col1

1160. =

1161. r2.col2

1162. group

1163. by

1164. col1

1165. order

1166. by

1167. average;

1169. 3.7

1170. Vectorized

1171. Engine

1172. • 

1173. 칼럼

1174. 방식으로

1175. 데이터

1176. 처리

1177. • 

1178. 데이터를

1179. CPU

1180. 캐시

1181. 크기에

1182. 맞춘

1183. Vector들로

1184. 유지

1185. • 

1186. Vector

1187. 단위

1188. (원시

1189. 타입

1190. 배열)

1191. 데이터

1192. 처리

1193. • 

1194. 각

1195. Vector

1196. 마다

1197. 작은

1198. loop를

1199. 반복하여

1200. 데이터

1201. 처리

1202. • 

1203. CPU

1204. 파이프

1205. 라이닝

1206. 향상,

1207. SIMD

1208. 적용

1209. 가능,

1210. 높은

1211. CPU

1212. 캐시

1213. 적중률

1216. 3.7

1217. Vectorized

1218. Engine

1219. aggregation primitives multiaggr_max multiaggr_sum Filter filter primitives sel_ sel_ Projection groupids map_hash vector chunk 0 vector chunk 1 vector chunk 2 customer quantity shipdate Table columns extprice tax

1220. 3.8

1221. JIT

1222. (Just

1223. In

1224. Time)

1225. 코드

1226. 생성기

1227. • 

1228. LLVM:

1230. 언어

1231. 컴파일러

1232. 집합으로,

1233. 컴파일

1234. 시간이나

1235. 런타임

1236. 시간

1237. 등

1238. 다양한

1239. 상황에서

1240. 최적화를

1241. 쉽게

1242. 구현할

1243. 있도록

1244. 구성

1245. • 

1246. 질의

1247. 처리를

1248. 위한

1249. 주요

1250. primitive를

1251. 미리

1252. 만들지

1253. 않고,

1254. LLVM을

1255. 이용해

1256. 런타 임에

1257. 실시간으로

1258. 생성

1259. -

1260. 각

1261. 머신

1262. 별

1263. 최적화된

1264. 코드

1265. 생성

1266. 가능

1267. - 

1268. 인터프리트

1269. 오버헤드

1270. 제거

1271. 참고

1272. 문헌:

1273. http://ko.wikipedia.org/wiki/LLVM

1275. 3.8

1276. JIT

1277. (Just

1278. In

1279. Time)

1280. 코드

1281. 생성기

1282. SCAN const float vec_num = 1000; float l_extended_price[vec_num], l_discount[vec_num] long l_shipdate[vec_num], l_quantity[vec_num] int selected[vec_num]; date date1 = date(“1994-01-01”); date date2 = date(“1995-01-01”); float val1 = 0.05; val2= 0.07; double output1[vec_num]; double output2[vec_num]; do { fetch_vectors(l_extended_price, l_discount, l_shipdate, l_quantity); FILTER GROUP BY bool_geq_date_col_date_val(l_ship_date, date1, selected); bool_lt_date_col_date_val(l_ship_date, date2, selected); bool_geq_float_col_float_val(l_discount, 0.05, selected); bool_lt_float_col_float_val(l_discount, 0.07, selected); bool_gt_float_col_float_val(l_quantity, 24, selected); map_mul_float_col_float_col(output1, l_discount, l_quantity, selected); agg_sum_float(output2, output1, selected); write_outputbuffer(output2); } while (hasNext()); Output An example of runtime generated physical execution plan

1283. 3.9

1284. 로드맵

1286. • 

1287. 2013.10월

1288. :

1289. Apache

1290. Tajo

1291. 0.2

1292. Release

1293. - 

1294. 차세대

1295. 분산

1296. 처리

1297. 엔진

1298. - 

1299. 기존

1300. Java

1301. 기반

1302. 처리

1303. 엔진

1304. - 

1305. 대부분의

1306. 표준

1307. SQL

1308. 지원

1309. - 

1310. HiveQL

1311. 모드

1312. 지원

1313. - 

1314. Query

1315. Rewrite

1316. Rule

1317. 엔진

1318. 탑재

1319. +

1320. 기본

1321. Rewrite

1322. Rule

1323. • 

1324. 2014.1

1325. 월:

1326. Apache

1327. Tajo

1328. 1.0

1329. Release

1330. - 

1331. 다수

1332. Rewrite

1333. Rule

1334. 탑재

1335. - 

1336. Cost-based

1337. Optimization

1338. - 

Deview2013 SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Deview2013 SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom

Similar to Deview2013 SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom (20)

More from NAVER D2

More from NAVER D2 (20)

Deview2013 SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom