BigData, Hadoop과 Node.js

3,345 views

Published on

숭실대학교 미디어학부 오픈소스 소프트웨어 실습 4차 강의로, Bigdata에 대한 이해를 해보고, 필요한 구성요소와 Hadoop에 대해 소개합니다. 그리고 2,3차에 진행한 node.js와 연계할 수 있는 기본적인 실습을 포함하고 있습니다.

Published in: Technology
5 Comments
17 Likes
Statistics
Notes
No Downloads
Views
Total views
3,345
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
229
Comments
5
Likes
17
Embeds 0
No embeds

No notes for slide

BigData, Hadoop과 Node.js

  1. 1. • 
  2. 2.  BigData의
  3. 3.  개요
  4. 4.  • 
  5. 5.  Hadoop
  6. 6.  이용
  7. 7.  • 
  8. 8.  Streaming
  9. 9.  with
  10. 10.  Node.js
  11. 11.  • 
  12. 12.  VERSION
  13. 13.  1.0
  14. 14.  • 
  15. 15.  Release
  16. 16.  Date
  17. 17.  :
  18. 18.  2013.5
  19. 19.  오픈소스
  20. 20.  실습
  21. 21.  
  22. 22.  
  23. 23.  
  24. 24.  
  25. 25.  
  26. 26.  
  27. 27.  
  28. 28.  
  29. 29.  BigData
  30. 30.  소개
  31. 31.  고
  32. 32.  강
  33. 33.  태
  34. 34.  010-8269-3535
  35. 35.  
  36. 36.  gangtai.goh@gmail.com@gtkohttp://goo.gl/9V3H6http://www.facebook.com/gangtai.goh
  37. 37. 오픈소스
  38. 38.  실습
  39. 39.  강의
  40. 40.  •  자료의
  41. 41.  출처는
  42. 42.  슬라이드
  43. 43.  하단에
  44. 44.  표기했습니다.
  45. 45.  •  2013년
  46. 46.  숭실대학교
  47. 47.  미디어
  48. 48.  학부의
  49. 49.  오픈소스
  50. 50.  소프트웨어
  51. 51.  실습과정의
  52. 52.  일환으로
  53. 53.  제작되었습니다.
  54. 54.  
  55. 55. • 3목차
  56. 56.  1. 
  57. 57.  Big
  58. 58.  Data
  59. 59.  개요
  60. 60.  2. 
  61. 61.  BigData
  62. 62.  분석
  63. 63.  3. 
  64. 64.  Big
  65. 65.  Data
  66. 66.  활용사례
  67. 67.  4. 
  68. 68.  Hadoop
  69. 69.  
  70. 70. • 41.
  71. 71.  Big
  72. 72.  Data의
  73. 73.  개요
  74. 74.  01.
  75. 75.  BigData?
  76. 76.  02.
  77. 77.  BigData
  78. 78.  기술요소
  79. 79.  03.
  80. 80.  BigData
  81. 81.  처리
  82. 82.  기법
  83. 83.  
  84. 84.  
  85. 85. 1.
  86. 86.  Big
  87. 87.  Data의
  88. 88.  개요
  89. 89.  
  90. 90.  01.
  91. 91.  Big
  92. 92.  Data란?
  93. 93.  
  94. 94. • 6Big
  95. 95.  Data란?
  96. 96.  기존
  97. 97.  데이터에
  98. 98.  비해
  99. 99.  너무
  100. 100.  커서
  101. 101.  기존
  102. 102.  방법,
  103. 103.  도구로
  104. 104.  수집/저장/검색/분석/시각화
  105. 105.  등이
  106. 106.  어려운
  107. 107.  정형,
  108. 108.  반정형
  109. 109.  및
  110. 110.  비정형
  111. 111.  데이터의
  112. 112.  집합
  113. 113.  
  114. 114.  
  115. 115.  -
  116. 116.  하드웨어,
  117. 117.  소프트웨어적
  118. 118.  저장,
  119. 119.  분석의
  120. 120.  어려움을
  121. 121.  Grid
  122. 122.  computing,
  123. 123.  Cloud
  124. 124.  computing
  125. 125.  등
  126. 126.  기술로
  127. 127.  극복
  128. 128.  
  129. 129.  -
  130. 130.  전통적
  131. 131.  데이터
  132. 132.  분석
  133. 133.  기법을
  134. 134.  개선
  135. 135.  
  136. 136.  Big
  137. 137.  Data의
  138. 138.  개요
  139. 139.  
  140. 140. • 7왜?
  141. 141.  2011년에
  142. 142.  새롭게
  143. 143.  생성,
  144. 144.  복제되는
  145. 145.  정보의
  146. 146.  양은
  147. 147.  1.8ZB(1조8000억
  148. 148.  GigaByte)를
  149. 149.  넘어선다.
  150. 150.  향후
  151. 151.  5년간
  152. 152.  9배
  153. 153.  증가
  154. 154.  예상
  155. 155.  
  156. 156.  
  157. 157.  -
  158. 158.  1.8ZB는
  159. 159.  약
  160. 160.  4900만
  161. 161.  국민이
  162. 162.  18만년
  163. 163.  동안
  164. 164.  쉬지
  165. 165.  않고
  166. 166.  1분에
  167. 167.  트위터에
  168. 168.  3개의
  169. 169.  글을
  170. 170.  게시하는
  171. 171.  양과
  172. 172.  같다
  173. 173.  
  174. 174.  
  175. 175.  -
  176. 176.  2시간짜리
  177. 177.  HD영화
  178. 178.  2000억개와
  179. 179.  맞먹는다.
  180. 180.  
  181. 181.  
  182. 182.  -
  183. 183.  2011,
  184. 184.  IDC
  185. 185.  
  186. 186.  
  187. 187.  이렇듯
  188. 188.  전세계
  189. 189.  디지털
  190. 190.  정보량은
  191. 191.  매
  192. 192.  2년마다
  193. 193.  2배씩
  194. 194.  증가
  195. 195.  Big
  196. 196.  Data의
  197. 197.  개요
  198. 198.  KT종합기술원:
  199. 199.  http://goo.gl/nVyre
  200. 200.  
  201. 201. • 8어디에?
  202. 202.  SKT
  203. 203.  LTE
  204. 204.  가입자
  205. 205.  하루
  206. 206.  데이터
  207. 207.  1PB
  208. 208.  시대
  209. 209.  
  210. 210.  
  211. 211.  -
  212. 212.  5메가바이트(MB)
  213. 213.  분량의
  214. 214.  노래
  215. 215.  2억
  216. 216.  1474만8364곡을
  217. 217.  내려받거나
  218. 218.  영화
  219. 219.  153만3916편을
  220. 220.  내려받은
  221. 221.  셈.
  222. 222.  
  223. 223.  
  224. 224.  
  225. 225.  -
  226. 226.  http://goo.gl/v5bHN
  227. 227.  
  228. 228.  
  229. 229.  -
  230. 230.  3000만
  231. 231.  가입자의
  232. 232.  분석
  233. 233.  
  234. 234.  
  235. 235.  미국,
  236. 236.  싱가포르
  237. 237.  등
  238. 238.  정부
  239. 239.  차원에서
  240. 240.  테러,
  241. 241.  범죄
  242. 242.  방지를
  243. 243.  위한
  244. 244.  빅데이터
  245. 245.  수집/분석
  246. 246.  및
  247. 247.  예측
  248. 248.  체계를
  249. 249.  도입
  250. 250.  사례
  251. 251.  
  252. 252.  EU는
  253. 253.  금융위기
  254. 254.  극복,
  255. 255.  사회
  256. 256.  복잡성
  257. 257.  이해를
  258. 258.  위해
  259. 259.  Future
  260. 260.  ICT
  261. 261.  프로젝트
  262. 262.  …⋯
  263. 263.  Big
  264. 264.  Data의
  265. 265.  개요
  266. 266.  
  267. 267. • 9어떻게?
  268. 268.  빅
  269. 269.  데이터의
  270. 270.  데이터는
  271. 271.  다양한
  272. 272.  분석
  273. 273.  기술,
  274. 274.  인프라를
  275. 275.  기반으로
  276. 276.  데이터
  277. 277.  안에서
  278. 278.  데이터를
  279. 279.  발견하는데
  280. 280.  중점.
  281. 281.  Big
  282. 282.  Data의
  283. 283.  개요
  284. 284.  http://goo.gl/97PRT
  285. 285.  
  286. 286. • 10데이터베이스의
  287. 287.  진화
  288. 288.  데이터들이
  289. 289.  빠르게
  290. 290.  증가하는
  291. 291.  만큼
  292. 292.  노이즈
  293. 293.  데이터라고
  294. 294.  불리우는
  295. 295.  쓸모
  296. 296.  없는
  297. 297.  데이터들도
  298. 298.  많이
  299. 299.  생성
  300. 300.  이런
  301. 301.  비정형화된
  302. 302.  노이즈
  303. 303.  데이터의
  304. 304.  중요성이
  305. 305.  증대,
  306. 306.  분석
  307. 307.  요구
  308. 308.  Big
  309. 309.  Data의
  310. 310.  개요
  311. 311.  http://goo.gl/97PRT
  312. 312.  
  313. 313. • 11데이터
  314. 314.  종류
  315. 315.  빅
  316. 316.  데이터의
  317. 317.  데이터는
  318. 318.  정형화
  319. 319.  정도에
  320. 320.  따라,
  321. 321.  Big
  322. 322.  Data의
  323. 323.  개요
  324. 324.  KT종합기술원:
  325. 325.  http://goo.gl/nVyre
  326. 326.  
  327. 327. • 12Data
  328. 328.  storage
  329. 329.  데이터
  330. 330.  저장
  331. 331.  비용의
  332. 332.  감소
  333. 333.  Big
  334. 334.  Data의
  335. 335.  개요
  336. 336.  http://www.deepspar.com/wp-data-loss.html
  337. 337.  
  338. 338. • 13분산컴퓨팅
  339. 339.  진화
  340. 340.   Big
  341. 341.  Data의
  342. 342.  개요
  343. 343.  
  344. 344. • 14요소기술
  345. 345.  진화
  346. 346.  다중
  347. 347.  분산
  348. 348.  시스템
  349. 349.  변화
  350. 350.  à
  351. 351.  가상화
  352. 352.  à
  353. 353.  서비스화
  354. 354.  On DemandComputing 사용자가
  355. 355.  필요로
  356. 356.  할
  357. 357.  때
  358. 358.  언제
  359. 359.  어디서지
  360. 360.  컴퓨팅
  361. 361.  및
  362. 362.  서비스를
  363. 363.  이용할
  364. 364.  수
  365. 365.  있는
  366. 366.  주문형
  367. 367.  기반
  368. 368.  컴퓨팅
  369. 369.  Grid Computing 주어진
  370. 370.  문제를
  371. 371.  풀기
  372. 372.  위해서
  373. 373.  네트워크
  374. 374.  상의
  375. 375.  수
  376. 376.  많은
  377. 377.  컴퓨터의
  378. 378.  자원을
  379. 379.  이용하는
  380. 380.  컴퓨팅.
  381. 381.  서로
  382. 382.  상이한
  383. 383.  컴퓨터들이
  384. 384.  가상의
  385. 385.  대형
  386. 386.  컴퓨터를
  387. 387.  구헝à
  388. 388.  고도의
  389. 389.  연산,
  390. 390.  대용량
  391. 391.  연산
  392. 392.  처리
  393. 393.  (
  394. 394.  SETI)
  395. 395.  
  396. 396.  
  397. 397.  Virtualization 물리적
  398. 398.  시스템
  399. 399.  개체들을
  400. 400.  논리적
  401. 401.  하드웨어
  402. 402.  단위로
  403. 403.  분리.
  404. 404.  컴퓨팅
  405. 405.  자원의
  406. 406.  물리적
  407. 407.  특징을
  408. 408.  숨기고
  409. 409.  이들
  410. 410.  자원을
  411. 411.  사용하는
  412. 412.  다른
  413. 413.  시스템,
  414. 414.  애플리케이션
  415. 415.  및
  416. 416.  사용자에게
  417. 417.  단일한
  418. 418.  시스템
  419. 419.  이미지를
  420. 420.  제공하는
  421. 421.  개념.
  422. 422.  또한
  423. 423.  단일
  424. 424.  자원이
  425. 425.  여러개의
  426. 426.  논리
  427. 427.  단위로
  428. 428.  혹은
  429. 429.  반대를
  430. 430.  포함한다.
  431. 431.  à
  432. 432.  LVM,
  433. 433.  VMWare
  434. 434.  Utility Computing 사용자가
  435. 435.  필요한
  436. 436.  만큼
  437. 437.  시스템
  438. 438.  자원을
  439. 439.  사용하고
  440. 440.  그
  441. 441.  사용량에
  442. 442.  따라
  443. 443.  비용을
  444. 444.  지불하는
  445. 445.  개념의
  446. 446.  컴퓨팅
  447. 447.  
  448. 448.  à
  449. 449.  SaaS;
  450. 450.  Salesforce.com
  451. 451.  Cloud Computing 가상화되고
  452. 452.  Privisioning을
  453. 453.  포함해
  454. 454.  상업적으로
  455. 455.  Utility-computing
  456. 456.  서비스를
  457. 457.  시행
  458. 458.  
  459. 459.  à
  460. 460.  E2C,
  461. 461.  AppEngine,
  462. 462.  Cloud
  463. 463.  hosting
  464. 464.  Big
  465. 465.  Data의
  466. 466.  개요
  467. 467.  
  468. 468. • 15Don’t
  469. 469.  buy,
  470. 470.  be
  471. 471.  use!
  472. 472.  HW,
  473. 473.  SW의
  474. 474.  물리적
  475. 475.  제약을
  476. 476.  가상화로
  477. 477.  해결
  478. 478.  http://www.slideshare.net/CiscoSP360/vmworld-2009-vmworld-data-centerBig
  479. 479.  Data의
  480. 480.  개요
  481. 481.  
  482. 482. • 16BigData
  483. 483.  story
  484. 484.  Database,
  485. 485.  Dataware
  486. 486.  House,
  487. 487.  Data
  488. 488.  mart
  489. 489.  등의
  490. 490.  정적
  491. 491.  데이터
  492. 492.  기반은
  493. 493.  대규모
  494. 494.  메모리,
  495. 495.  SAN
  496. 496.  Storage
  497. 497.  등을
  498. 498.  대용량
  499. 499.  파일시스템
  500. 500.  마운트를
  501. 501.  기반으로
  502. 502.  고가용성을
  503. 503.  유지
  504. 504.  
  505. 505.  -
  506. 506.  단,
  507. 507.  scale-up
  508. 508.  기반의
  509. 509.  성능
  510. 510.  향상
  511. 511.  
  512. 512.  구글은
  513. 513.  검색기반
  514. 514.  광고에
  515. 515.  Tera
  516. 516.  -
  517. 517.  Peta
  518. 518.  규모의
  519. 519.  데이터
  520. 520.  분석등을
  521. 521.  위핸
  522. 522.  MapRedue
  523. 523.  라는
  524. 524.  모델을
  525. 525.  구글파일시스템(GFS)에서
  526. 526.  활용
  527. 527.  이런
  528. 528.  MapReduce
  529. 529.  솔루션
  530. 530.  중에서
  531. 531.  오픈소스로
  532. 532.  주목
  533. 533.  받는
  534. 534.  기술이
  535. 535.  Java기반의
  536. 536.  Apache
  537. 537.  Hadoop
  538. 538.  이다.
  539. 539.  Hadoop은
  540. 540.  야후
  541. 541.  더그커킹이
  542. 542.  개발/배포하다
  543. 543.  오픈소스화.
  544. 544.  
  545. 545.  페이스북,트위터,링크드인,
  546. 546.  이베이,
  547. 547.  아마존
  548. 548.  등
  549. 549.  이용
  550. 550.  국내
  551. 551.  NexR이
  552. 552.  hadoop
  553. 553.  및
  554. 554.  클라우드
  555. 555.  기반
  556. 556.  솔루션,
  557. 557.  이후
  558. 558.  KT크라우드웨어에서
  559. 559.  R+Hive
  560. 560.  솔루션
  561. 561.  RHive
  562. 562.  제공.
  563. 563.  Big
  564. 564.  Data의
  565. 565.  개요
  566. 566.  미래사회와 빅 데이터(Big Data)기술
  567. 567. • 17BigData와
  568. 568.  Cloud
  569. 569.  
  570. 570.  
  571. 571.  
  572. 572.  
  573. 573.  
  574. 574.  http://www.citsoft.net/?page_id=336
  575. 575.  
  576. 576.  
  577. 577.  
  578. 578.  
  579. 579.  Big
  580. 580.  Data의
  581. 581.  개요
  582. 582.  
  583. 583. 1.
  584. 584.  Big
  585. 585.  Data의
  586. 586.  개요
  587. 587.  
  588. 588.  02.
  589. 589.  Big
  590. 590.  Data
  591. 591.  요소
  592. 592.  기술
  593. 593.  
  594. 594. • 19V
  595. 595.  V
  596. 596.  V
  597. 597.  3대
  598. 598.  요소
  599. 599.  Big
  600. 600.  Data의
  601. 601.  개요
  602. 602.  
  603. 603. • 20Volume
  604. 604.  웹
  605. 605.  로그,
  606. 606.  지메일
  607. 607.  서버
  608. 608.  등의
  609. 609.  데이터는
  610. 610.  수
  611. 611.  PB
  612. 612.  이상
  613. 613.  트위터의
  614. 614.  메시징
  615. 615.  정보량
  616. 616.  GB
  617. 617.  미만
  618. 618.  등…⋯
  619. 619.  안정적
  620. 620.  데이터와
  621. 621.  분석,
  622. 622.  처리에
  623. 623.  중점을
  624. 624.  두는
  625. 625.  데이터의
  626. 626.  차별이
  627. 627.  필요하다.
  628. 628.  물리적
  629. 629.  크기보다
  630. 630.  데이터의
  631. 631.  속성에
  632. 632.  따라
  633. 633.  중요성을
  634. 634.  판단하고
  635. 635.  처리하는데
  636. 636.  중점
  637. 637.  
  638. 638.  Big
  639. 639.  Data의
  640. 640.  개요
  641. 641.  http://goo.gl/aXm24
  642. 642.  
  643. 643. • 21Velocity
  644. 644.  데이터를
  645. 645.  처리하는
  646. 646.  속도
  647. 647.  배치
  648. 648.  분석
  649. 649.  실시간
  650. 650.  분석
  651. 651.  결과에
  652. 652.  대한
  653. 653.  가시화
  654. 654.  기능도
  655. 655.  중요
  656. 656.  
  657. 657.  -
  658. 658.  단,
  659. 659.  가시화가
  660. 660.  처리를
  661. 661.  능가하면
  662. 662.  안됨
  663. 663.  Big
  664. 664.  Data의
  665. 665.  개요
  666. 666.  
  667. 667. • 22Variety
  668. 668.  전통적
  669. 669.  데이터는
  670. 670.  기업내부의
  671. 671.  ERP,
  672. 672.  SCM,
  673. 673.  MES,
  674. 674.  CRM
  675. 675.  등은
  676. 676.  RDBMS
  677. 677.  기반의
  678. 678.  정형화된
  679. 679.  데이터를
  680. 680.  구축해서
  681. 681.  운영하고
  682. 682.  있다.
  683. 683.  기업
  684. 684.  외부의
  685. 685.  데이터인
  686. 686.  마케팅,
  687. 687.  평판,
  688. 688.  기사
  689. 689.  등의
  690. 690.  데이터는
  691. 691.  데이터웨어하우스를
  692. 692.  통해
  693. 693.  유지,
  694. 694.  분석했다.
  695. 695.  그러나
  696. 696.  인터넷
  697. 697.  시대에
  698. 698.  모든
  699. 699.  데이터를
  700. 700.  정형/반정형화
  701. 701.  해서
  702. 702.  이용하는데
  703. 703.  한계에
  704. 704.  직면
  705. 705.  Big
  706. 706.  Data의
  707. 707.  개요
  708. 708.  http://goo.gl/MTKST
  709. 709.  
  710. 710. • 23http://goo.gl/80Hb4
  711. 711.  d
  712. 712.  Big
  713. 713.  Data의
  714. 714.  개요
  715. 715.  
  716. 716. • 24주요
  717. 717.  업체
  718. 718.  Hortonworks
  719. 719.  ­–
  720. 720.  야후분사,
  721. 721.  Hadoop
  722. 722.  코어
  723. 723.  지원,
  724. 724.  아치텍쳐
  725. 725.  Cloudera
  726. 726.  ­–
  727. 727.  야후분사,
  728. 728.  기술지원,
  729. 729.  교육
  730. 730.  및
  731. 731.  배포판
  732. 732.  제공
  733. 733.  IBM
  734. 734.  ­–
  735. 735.  Apache
  736. 736.  hadoop
  737. 737.  기반
  738. 738.  basic,
  739. 739.  enterprise
  740. 740.  배포판
  741. 741.  EMC
  742. 742.  ­–
  743. 743.  DW
  744. 744.  Greenplum에
  745. 745.  MapR
  746. 746.  통합해
  747. 747.  제공,
  748. 748.  Apache
  749. 749.  Hadoop
  750. 750.  기반
  751. 751.  community
  752. 752.  edition
  753. 753.  Oracle
  754. 754.  ­–
  755. 755.  HW
  756. 756.  +
  757. 757.  Cloudera
  758. 758.  DataStax
  759. 759.  ­–
  760. 760.  Hadoop
  761. 761.  +
  762. 762.  Hive
  763. 763.  +
  764. 764.  Cassandra
  765. 765.  Datameer
  766. 766.  ­–
  767. 767.  Analytic
  768. 768.  solution
  769. 769.  Hadapt
  770. 770.  ­–
  771. 771.  Analytic
  772. 772.  platform
  773. 773.  HStreaming
  774. 774.  ­–
  775. 775.  Real
  776. 776.  tie
  777. 777.  processing
  778. 778.  
  779. 779.  Big
  780. 780.  Data의
  781. 781.  개요
  782. 782.  미래사회와 빅 데이터(Big Data)기술
  783. 783. • 25솔루션간
  784. 784.  관계
  785. 785.   Big
  786. 786.  Data의
  787. 787.  개요
  788. 788.  미래사회와 빅 데이터(Big Data)기술
  789. 789. • 262.
  790. 790.  BigData의
  791. 791.  분석기법
  792. 792.  01.
  793. 793.  BigData
  794. 794.  처리
  795. 795.  02.
  796. 796.  BigData
  797. 797.  분석기법
  798. 798.  03.
  799. 799.  BigData
  800. 800.  
  801. 801.  
  802. 802. 1.
  803. 803.  Big
  804. 804.  Data의
  805. 805.  개요
  806. 806.  
  807. 807.  01.
  808. 808.  Big
  809. 809.  Data
  810. 810.  처리
  811. 811.  
  812. 812. • 28빅데이터
  813. 813.  처리는
  814. 814.  빠른
  815. 815.  의사결정이
  816. 816.  상대적으로
  817. 817.  덜
  818. 818.  요구된다
  819. 819.  처리
  820. 820.  복잡도가
  821. 821.  높다
  822. 822.  처리할
  823. 823.  데이터
  824. 824.  양이
  825. 825.  방대하다
  826. 826.  비정형
  827. 827.  데이터
  828. 828.  비중이
  829. 829.  높다
  830. 830.  처리/분석
  831. 831.  유연성이
  832. 832.  높다
  833. 833.  동시처리량이
  834. 834.  낮다
  835. 835.  BigData
  836. 836.  처리
  837. 837.  가트너
  838. 838.  11년
  839. 839.  보고서
  840. 840.  
  841. 841. • 29처리
  842. 842.  방식
  843. 843.  다양한
  844. 844.  스토리지,
  845. 845.  컴퓨팅
  846. 846.  기술
  847. 847.  과
  848. 848.  분석
  849. 849.  기술을
  850. 850.  이용한다.
  851. 851.  그래서
  852. 852.  빅
  853. 853.  데이터
  854. 854.  기술은
  855. 855.  크게
  856. 856.  분석
  857. 857.  기법과
  858. 858.  분석
  859. 859.  인프라로
  860. 860.  구성
  861. 861.  Big
  862. 862.  Data의
  863. 863.  개요
  864. 864.  KT경제연구소,
  865. 865.  Big
  866. 866.  Data,
  867. 867.  미래를
  868. 868.  여는
  869. 869.  비밀의
  870. 870.  열쇠
  871. 871.  
  872. 872. BigData의
  873. 873.  분석기법
  874. 874.  
  875. 875.  02.
  876. 876.  주요
  877. 877.  분석
  878. 878.  기법
  879. 879.  
  880. 880. • 31TextMining
  881. 881.  텍스트마이닝은
  882. 882.  비/반정형
  883. 883.  텍스트
  884. 884.  데이터에서
  885. 885.  자연어처리Natural
  886. 886.  Language
  887. 887.  Processing
  888. 888.  기반
  889. 889.  추출/가공을
  890. 890.  목적
  891. 891.  
  892. 892.  -
  893. 893.  방대한
  894. 894.  텍스트
  895. 895.  내용
  896. 896.  안에서
  897. 897.  의미
  898. 898.  있는
  899. 899.  정보를
  900. 900.  추출해
  901. 901.  다른
  902. 902.  정보와의
  903. 903.  연계성을
  904. 904.  파악해
  905. 905.  텍스트의
  906. 906.  분류화
  907. 907.  
  908. 908.  -
  909. 909.  단순
  910. 910.  키워드
  911. 911.  검색
  912. 912.  이상의
  913. 913.  결과를
  914. 914.  얻는다.
  915. 915.  
  916. 916.  다양한
  917. 917.  텍스트마이닝
  918. 918.  기술
  919. 919.  요소
  920. 920.  참조
  921. 921.  
  922. 922.  
  923. 923.  -
  924. 924.  http://goo.gl/VeBGL
  925. 925.  
  926. 926.  예)
  927. 927.  Hadoop의
  928. 928.  Mahout
  929. 929.  서브
  930. 930.  시스템
  931. 931.  
  932. 932.  BigData
  933. 933.  분석기법
  934. 934.  
  935. 935. • 32Opinion
  936. 936.  Mining
  937. 937.  텍스트마이닝
  938. 938.  분야로
  939. 939.  일명
  940. 940.  평판분석
  941. 941.  Sentiment
  942. 942.  Analysis
  943. 943.  소셜미디어
  944. 944.  등의
  945. 945.  정형/비정형
  946. 946.  텍스트의
  947. 947.  긍정Positive,
  948. 948.  부정Negative,
  949. 949.  중립Neutral
  950. 950.  의
  951. 951.  선호도를
  952. 952.  판별
  953. 953.  
  954. 954.  예)
  955. 955.  소셜네트워크에서
  956. 956.  서비스/상품의
  957. 957.  
  958. 958.  시장규모
  959. 959.  예측,
  960. 960.  소비자의
  961. 961.  반응,
  962. 962.  
  963. 963.  입소문
  964. 964.  분석
  965. 965.  등을
  966. 966.  위해
  967. 967.  활용.
  968. 968.  
  969. 969.  
  970. 970.  SNS에서
  971. 971.  오피니언마이닝
  972. 972.  
  973. 973.  -
  974. 974.  http://www.slideshare.net/hyummoki/sns-12894995
  975. 975.  
  976. 976.  BigData
  977. 977.  분석기법
  978. 978.  연구데이터
  979. 979.  지원
  980. 980.  /
  981. 981.  오피니언마이닝을
  982. 982.  위해
  983. 983.  데이터
  984. 984.  제공
  985. 985.  http://lab.naver.com/research/
  986. 986.  
  987. 987. • 33SNS
  988. 988.  Analytics
  989. 989.  소셜네트워크의
  990. 990.  연결구조,
  991. 991.  강도
  992. 992.  등의
  993. 993.  분석은
  994. 994.  그래프
  995. 995.  이론을
  996. 996.  기반으로
  997. 997.  한다.
  998. 998.  
  999. 999.  소셜네트워크
  1000. 1000.  사용자의
  1001. 1001.  명성,
  1002. 1002.  영향력
  1003. 1003.  등을
  1004. 1004.  측정
  1005. 1005.  가능하다.
  1006. 1006.  
  1007. 1007.  소셜네트워크
  1008. 1008.  내에서
  1009. 1009.  입소문의
  1010. 1010.  
  1011. 1011.  중심,
  1012. 1012.  허브
  1013. 1013.  역할
  1014. 1014.  사용자
  1015. 1015.  검색
  1016. 1016.  이런
  1017. 1017.  영향력있는
  1018. 1018.  Influencer의
  1019. 1019.  
  1020. 1020.  모니터링,
  1021. 1021.  관리를
  1022. 1022.  목적
  1023. 1023.  
  1024. 1024.  
  1025. 1025.  소셜
  1026. 1026.  네트워크
  1027. 1027.  분석
  1028. 1028.  사례
  1029. 1029.  
  1030. 1030.  -
  1031. 1031.  http://www.slideshare.net/webscikorea/ss-2659452
  1032. 1032.  BigData
  1033. 1033.  분석기법
  1034. 1034.  http://cyram.tistory.com/35
  1035. 1035.  
  1036. 1036. • 34Cluster
  1037. 1037.  Analysis
  1038. 1038.  군집분석
  1039. 1039.  Cluster
  1040. 1040.  Analysis는
  1041. 1041.  비슷한
  1042. 1042.  개체를
  1043. 1043.  합쳐가며
  1044. 1044.  최종적으로
  1045. 1045.  유사
  1046. 1046.  특성의
  1047. 1047.  군Group을
  1048. 1048.  발굴하는데
  1049. 1049.  사용
  1050. 1050.  예로
  1051. 1051.  소셜네트워크에서
  1052. 1052.  영화,
  1053. 1053.  정치
  1054. 1054.  등을
  1055. 1055.  주로
  1056. 1056.  이야기
  1057. 1057.  하는
  1058. 1058.  사용자군,
  1059. 1059.  자동차에
  1060. 1060.  관심있는
  1061. 1061.  군을
  1062. 1062.  추출
  1063. 1063.  
  1064. 1064.  BigData
  1065. 1065.  분석기법
  1066. 1066.  http://cyram.tistory.com/72
  1067. 1067.  
  1068. 1068. BigData의
  1069. 1069.  분석기법
  1070. 1070.  
  1071. 1071.  03.
  1072. 1072.  주요
  1073. 1073.  분석
  1074. 1074.  Infra
  1075. 1075.  기술
  1076. 1076.  
  1077. 1077. BigData의
  1078. 1078.  분석기법
  1079. 1079.  
  1080. 1080.  03.
  1081. 1081.  주요
  1082. 1082.  분석
  1083. 1083.  Infra
  1084. 1084.  기술
  1085. 1085.  
  1086. 1086. • 37Infra
  1087. 1087.  structure
  1088. 1088.  테라,
  1089. 1089.  페타,
  1090. 1090.  제타
  1091. 1091.  바이트
  1092. 1092.  이상의
  1093. 1093.  데이터를
  1094. 1094.  저장,
  1095. 1095.  분석을
  1096. 1096.  위한
  1097. 1097.  인프라
  1098. 1098.  기술
  1099. 1099.  개발이
  1100. 1100.  중요.
  1101. 1101.  BigData
  1102. 1102.  분석기법
  1103. 1103.  http://goo.gl/VT5Z4
  1104. 1104.  
  1105. 1105. • 38Hadoop
  1106. 1106.  테라,
  1107. 1107.  페타,
  1108. 1108.  제타
  1109. 1109.  바이트
  1110. 1110.  이상의
  1111. 1111.  데이터를
  1112. 1112.  저장,
  1113. 1113.  분석을
  1114. 1114.  위한
  1115. 1115.  인프라
  1116. 1116.  기술
  1117. 1117.  개발이
  1118. 1118.  중요.
  1119. 1119.  Hadoop
  1120. 1120.  
  1121. 1121.  -
  1122. 1122.  오픈소스
  1123. 1123.  분산데이터
  1124. 1124.  처리
  1125. 1125.  기술
  1126. 1126.  
  1127. 1127.  -
  1128. 1128.  HDFS과
  1129. 1129.  Hbase,
  1130. 1130.  MapReduce
  1131. 1131.  등
  1132. 1132.  
  1133. 1133.  서브
  1134. 1134.  시스템의
  1135. 1135.  집합
  1136. 1136.  
  1137. 1137.  -
  1138. 1138.  HDFS,
  1139. 1139.  Hbase는
  1140. 1140.  각각
  1141. 1141.  구글
  1142. 1142.  GFS,
  1143. 1143.  
  1144. 1144.  Big
  1145. 1145.  Table
  1146. 1146.  영향받아
  1147. 1147.  비용효율적인
  1148. 1148.  
  1149. 1149.  x86
  1150. 1150.  서버로
  1151. 1151.  가상화된
  1152. 1152.  
  1153. 1153.  대형스토리지
  1154. 1154.  구성,
  1155. 1155.  저장된
  1156. 1156.  
  1157. 1157.  데이터셋을
  1158. 1158.  간편하게
  1159. 1159.  분산처리할
  1160. 1160.  
  1161. 1161.  수
  1162. 1162.  있는
  1163. 1163.  Java기반의
  1164. 1164.  MapReduce
  1165. 1165.  프레임워크
  1166. 1166.  제공
  1167. 1167.  BigData
  1168. 1168.  분석기법
  1169. 1169.  
  1170. 1170. • 39R
  1171. 1171.  오픈소스
  1172. 1172.  프로젝트로
  1173. 1173.  통계계산
  1174. 1174.  및
  1175. 1175.  시각화를
  1176. 1176.  위한
  1177. 1177.  언어
  1178. 1178.  및
  1179. 1179.  개발환경
  1180. 1180.  
  1181. 1181.  -
  1182. 1182.  통계기법,
  1183. 1183.  모델링,
  1184. 1184.  데이터마이닝
  1185. 1185.  기법의
  1186. 1186.  구현
  1187. 1187.  /
  1188. 1188.  계산
  1189. 1189.  
  1190. 1190.  -
  1191. 1191.  결과는
  1192. 1192.  그래프
  1193. 1193.  등의
  1194. 1194.  시각화
  1195. 1195.  기능
  1196. 1196.  
  1197. 1197.  -
  1198. 1198.  Java,
  1199. 1199.  C,
  1200. 1200.  Python과
  1201. 1201.  연계
  1202. 1202.  
  1203. 1203.  -
  1204. 1204.  Windows,
  1205. 1205.  Mac,
  1206. 1206.  Linux,
  1207. 1207.  Unix
  1208. 1208.  등
  1209. 1209.  지원
  1210. 1210.  
  1211. 1211.  -
  1212. 1212.  하둡
  1213. 1213.  상에서
  1214. 1214.  분산처리
  1215. 1215.  지원
  1216. 1216.  라이브러리를
  1217. 1217.  통해서
  1218. 1218.  구글,
  1219. 1219.  페이스북,
  1220. 1220.  아마존
  1221. 1221.  등
  1222. 1222.  빅데이터
  1223. 1223.  분석이
  1224. 1224.  필요한
  1225. 1225.  기업에서
  1226. 1226.  사용
  1227. 1227.  
  1228. 1228.  
  1229. 1229.  -
  1230. 1230.  http://www.r-project.org/
  1231. 1231.  BigData
  1232. 1232.  분석기법
  1233. 1233.  
  1234. 1234. • 40NoSQL
  1235. 1235.  Not-Only
  1236. 1236.  SQL,
  1237. 1237.  No
  1238. 1238.  SQL!
  1239. 1239.  테이블
  1240. 1240.  스키마가
  1241. 1241.  고정되지
  1242. 1242.  않고,
  1243. 1243.  테이블
  1244. 1244.  조인
  1245. 1245.  없어
  1246. 1246.  수평적
  1247. 1247.  확장이
  1248. 1248.  용이하다.
  1249. 1249.  
  1250. 1250.  RDB가
  1251. 1251.  관계에
  1252. 1252.  중점되어
  1253. 1253.  일관성이
  1254. 1254.  중요시
  1255. 1255.  된다면,
  1256. 1256.  NoSQL은
  1257. 1257.  분산
  1258. 1258.  가능성에

×