https://www.youtube.com/watch?v=YbSVstX7xvk
4월 7일 데이터 비주얼라이제이션 컨퍼런스에서 발표했던 내용입니다.
고성능 빅데이터 솔루션 회사가 비주얼라이제이션 컨퍼런스에서 할 수 있는 얘기가 뭘까를 고민하다가 시각화를 위해서 대용량 데이터가 가공될 때 가장 중요한 것은 무엇일까로 초점을 맞추었습니다.
이 이야기를 보다 이해하기 쉽게 풀어내기 위해 음식을 만드는 과정을 차용하였습니다. 그랬더니 자연스럽게 음식이 식탁 앞에 차려지기 전까지로 주제가 변하더군요.
맛있는 음식을 식탁에 차린 것을 시각화라고 한다면 데이터 수집은 식자재를 모으는 것, 가공은 재료를 다지는 것, 그리고 분석은 레시피로 바로 짝을 이루게 되더라구요.
사실 빅데이터에서도 분석은 전략입니다. 어떤 결과를 어떻게 만들지를 정하게 되면 이에 따라 모아야 하는 데이터와 가공하는 방법이 규정되죠. 하지만 요리와 빅데이터가 다른 점이 하나 있습니다.
빅데이터에서는 데이터에서 레시피를 끌어내기를 원하기도 하기 때문입니다. 그래서 시각화를 레시피를 만들기 위한 목적으로도 사용하게 됩니다. 그래서 시각화가 과정이냐 결과냐 하는 질문이 나오게 되는 것이지요.
결국 어떤 요리냐를 규정하는 것은 레시피이고 빅데이터에서도 결국 우리 눈에 시각화할 것이 무엇인지는 데이터 레시피가 규정하게 됩니다.
또 한 가지 중요한 것은 좋은 요리를 만들기 위해 계속 요리를 만들어 보고 레시피를 보완해 나가는 것 처럼 데이터 레시피도 가공, 분석을 반복하면서 보완해 나가게 됩니다.
이를 위해서는 데이터를 올려놓고 작업하는 솔루션이 사용하기 쉽고, 성능이 뛰어나며, 유연할수록 반복 작업도 효율적이겠지요. 그런 관점에서 로그프레소는 이상적인 빅데이터 솔루션이라 할 수 있겠습니다.
7. - 7 -
시각화된 데이터는 먹음직한 요리
좋은
데이터의
획득
데이터의
손질
패턴
시나리오
Rule
명품
시각화
8. - 8 -
DATA RECIPE, PATTERN
이미지 출처 : http://notquiteamishliving.com/2012/12/31-days-of-cookbooks-the-mennonite-treasury/
http://statistical-solutions-software.com/images/Comprehensive%20Meta%20Analysis.jpg
9. - 9 -
시각화의 두 가지 종류
정지해 있는 것 움직이는 것
이미지 출처 : http://m.dbguide.net/about.db?cmd=view&boardConfigUid=19&boardUid=176436
http://mundoepm.com.br/2015/02/07/new-power-bi-features-available-for-preview/
10. - 10 -
정지해 있는 시각화
200G의 데이터를 드릴테니 내게 Infographic을 넘기시오.
이미지 출처 : http://m.inven.co.kr/board/powerbbs.php?come_idx=2778&l=29789
11. - 11 -
데이터 정제가 필요
정지해 있는 시각화
이미지 출처 : http://blog.bigml.com/2012/12/10/filtering-filtering-and-filtering/
13. - 13 -
누군가 계속해서 데이터를 가공해 주어야 함
움직이는 시각화
이미지 출처 : https://www.behance.net/gallery/1505597/Busy-Office-Worker
14. - 14 -
시각화는 결과인가 과정인가?
과정
결과
이미지 출처 : http://nybull.tistory.com/115
15. - 15 -
데이빗 맥칸들리스 : 정보시각화의 아름다움(TED)
이미지 출처 : http://www.everystockphoto.com/photo.php?imageId=12445877
우리 대다수는 지나치게 많은 정보 때문에 버거워합니다.
그런데 이를 간단히 해결할 방법이 있습니다.
그건 우리가 눈을 더 많이 사용하는 것입니다.
그렇게 정보를 시각화함으로써 우리는 패턴 사이의 의미 있는 관계를 알아낼 수 있습니다.
16. - 16 -
빅데이터 시각화의 전설 : 맥주와 기저귀의 상관관계
보면 알 수 있다.
이미지 출처 : http://www.birst.com/blog/marketing-all-things-human%E2%80%93-beers-and-diapers-life-insurance-and-games
17. - 17 -
상관관계는 인과관계가 아니다.
빅데이터 인사이트는 인과관계가 아닌 상관관계를 포착
상관관계
이미지 출처 : http://mooseburger.com/moose/sweat-summer/
http://www.realfoods.co.kr/realfoods/view.php?ud=20140409000667&sec=01-75-06
http://www.breakingnews.ie/ireland/dublin-burglar-sold-190000-of-jewellery-for-500-worth-of-heroin-663770.html
18. - 18 -
각 요소별 n:n 상관관계 분석을 반복하는 것
상관관계 패턴 추출법
이미지 출처 : http://www.bloomberg.com/bw/magazine/correlation-or-causation-12012011-gfx.html
19. - 19 -
사례 : VOC를 통한 해지 패턴 비교
이미지 출처 : http://www.actualinsights.com/category/voice-of-the-customer-2/
http://www.the-chiefexecutive.com/projects/custvox-act-upon-the-voice-of-your-customer-federico-cesconi-and-jukka-hekanaho
/custvox-act-upon-the-voice-of-your-customer-federico-cesconi-and-jukka-hekanaho3.html
20. - 20 -
좋은 도구는 패턴을 쉽고 빠르게 찾게 해줌
수작업 : 1주일
Logpresso : 2시간
21. - 21 -
빅데이터 고급 분석 기술
이미지 출처 : http://www.zdnet.com/article/why-data-scientists-are-in-demand-and-how-they-enable-big-data/
비즈니스 상황을 예측하고 효율적인 의사결정을 지원하기 위해 대용량의 데이터에
서 요인들 간의 상관관계와 의미 있는 데이터의 패턴을 식별하고 예측하기
위한 모든 기법과 기술들을 의미
- James Kobielus, Forrester
22. - 22 -
데이터가 우리 눈 앞에 펼쳐지기 까지…
수집 가공 분석 시각화
Data Recipe
23. - 23 -
蛇足 : 목적이 무엇인가?
시각화
심미적?
의미전달?
빅데이터
Hadoop?
Insight?
음식
만드는 것?
먹는 것?
24. - 24 -
蛇足 : DATA RECIPE에 집중하라.
이미지 출처 : https://bobgillis.wordpress.com/page/4/