R 속도 향상을 위한 소소한 팁

R 속도 향상을
위한 소소한
팁
Enterprise분석1팀
채규병

목차
1. 들어가며
2. R vs Python
3. TIP 1 : 컴퓨터를 바꾸자
4. TIP 2 : 필요한 연산만 하자
5. TIP 3 : 병렬 처리시 주의 할점
6. TIP 4 : R한테 잘하는것만 시키고 나머지는 다른 툴한테 시키자
7. 결론

들어가며: 12시간 → 2시간의 비밀?
2020년 10월
U+ CRM 2.0에서 거리를 계산
전국 1900 개 U+매장 X 80만 개 RN장비 X 400만개 영업 대상(소상공인)
= 6,080,000,000,000,000????

우리 팀 선호도는?
R vs Python 설문조사 결과
총 32명
17 대 15로 R 승리!!
그러나???

R vs Python
어떤 언어가 더 빠를까요?
10000 이상
R은 lapply 함수를 사용할 때 Python을 능가!!
R에서 for 루프는 느리다
그러나 R이 Python보다 언제나 느
린 것은 아니다!
R을 이해하고 조금만 신경 써주면
훌륭한 퍼포먼스를 낼 수 있다!!
반복 횟수가 1000 회 미만인 경우
Python > R
100 단계 미만
Python이 R보다 최대 8 배 빠름
물론 Python이 대부분의 경우 빠름
출처: https://datascienceplus.com/loops-in-r-and-python-who-is-faster/

R은 왜 느릴까?
Call by Value VS Call by Reference
깊은 복사 VS 얕은 복사
객체 생성을 많이 하면 R이 느려지는 주된 이유!!
R은 분석가에게 친절하다! 컴퓨터에겐 차갑다…
주소값만 복사하는 것과 값 자체를 복사해오는 것은 컴퓨터에겐 천지차이!!

R은 왜 느릴까?
list vs environment
둘 다 key와 value를 갖는 Map 구조
객체만 바꿨을 뿐인데??

R 속도 향상 방법 1 : 컴퓨터를 바꾸자
요새 딥러닝 덕분에 GPU, RAM, CPU코어 수 등에 관심 높아졌으나,
보통 분석가들은 하드웨어에 관심이 없는 경우가 많음.
QUIZ!!!
현재 클라우드 PC의 RAM의 크기는?
코어 수는?
오창 분석 서버(117)의 RAM 크기는? 코어 수는?

R 속도 향상 방법 1 : 컴퓨터를 바꾸자

TIP 2 : 필요한 연산만 하자
사실 대부분의 연산이 낭비되고 있다!

TIP 2 : 필요한 연산만 하자
U+ 매장별로 가까운 거리를 기준으
로 ‘영업 대상’을 지정하려면?
1,900 개의 매장 X 4,000,000 개의
SOHO
= 7,600,000,000 (76억번 연산)
1,900 개의 매장 X 1,250,000 개의
건물
= 2,375,000,000 (23.75억번 연산)
약 68% 연산량 감소

TIP 3 : 병렬 처리시 주의 할 점
병렬처리는 쪼개고 합치는 작업, 즉 오버헤드를 고려해야 합니다.

코어1
코어2
코어3
작업
코어가 3개라면 작업을 몇 개로 나누어야 할까?

코어1 코어2 코어3
작업 결과

코어1 코어2 코어3
작업 결과
오
버
헤
드

TIP 4 : 다른 도구와 함께
조인 연산은 DBMS가 잘한다.
잘하는 애에게 잘하는 것만 시키자
열1 열2 열3 열4
R에서
880만 건
열1 열2 열3 열4 ... ... …. ...
다른 테이블
과 조인 후
2700만 건

결론 : 약간만 신경 쓰자
“조기 최적화는 모든 악의 근원입니다.
97%의 시간 동안 작은 효율성은 잊어야합니다.
그러나 우리는 그 중요한 3 %의 기회를 포기해서는 안됩니다.
훌륭한 프로그래머라면 중요한 코드를 주의 깊게 살펴 보아야 합니다.
하지만 그 코드가 제대로 돌아간 후에 말이죠”
— Donald Knuth.

참고
1. Getting Started with doMC and foreach (https://cran.r-project.org/web/packages/doMC/vignettes/gettingstartedMC.pdf)
2. R에서 병렬처리 하기([https://cinema4dr12.tistory.com/entry/Data-Science-Data-Mining-with-R-R%EC%97%90%EC%84%9C-
%EB%B3%91%EB%A0%AC%EC%B2%98%EB%A6%AC-%ED%95%98%EA%B8%B0#6)
3. R에서 코드를 병렬처리 하는 방법 [https://devlab.neonkid.xyz/2019/02/10/R/R%EC%97%90%EC%84%9C-
%EC%BD%94%EB%93%9C%EB%A5%BC-%EB%B3%91%EB%A0%AC%EC%B2%98%EB%A6%AC-%ED%95%98%EB%8A%94-
%EB%B0%A9%EB%B2%95/]
4. High performance computing in R using doSNOW package
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/MinchunZhou/HPC_SNOW.rwn.pdf
5. 사용자 관점에서의 R 병렬 컴퓨팅 https://cinema4dr12.tistory.com/1024
6. https://sodocumentation.net/ko/r/topic/1677/%EB%B3%91%EB%A0%AC-%EC%B2%98%EB%A6%AC
7. cores 개수의 결정 https://thebook.io/006723/ch05/07/01-01/
8. https://arxiv.org/pdf/1503.00855.pdf
9. http://adv-r.had.co.nz/Environments.html
10. https://cran.r-project.org/doc/manuals/R-lang.html#Environment-objects
11. https://www.r-bloggers.com/2013/04/faster-higher-stonger-a-guide-to-speeding-up-r-code-for-busy-people/
12. https://stackoverflow.com/questions/2908822/speed-up-the-loop-operation-in-r
13. http://www.burns-stat.com/pages/Tutor/R_inferno.pdf

R 속도 향상을 위한 소소한 팁

Recommended

Recommended

More Related Content

What's hot

What's hot (12)

R 속도 향상을 위한 소소한 팁

Editor's Notes