Visual C++10을 활용한 병렬 프로그래밍

Visual Studio 2010을활용한 C++ 병렬 프로그래밍 마이에트 엔터테인먼트 Server Programmer 최흥배 Microsoft Visual C++ MVP Twitter : @jacking75

목차 1. Multi-Core 시대 2. 어려운 병렬 프로그래밍 3. 진화 4. Concurrency Runtime 5. 병렬 패턴 라이브러리 ( PPL )

Multi-Core 컴퓨터는 이미 일반화

throughput 컴퓨팅 시대 ,[object Object]

멀티 코어 CPU로 방향을 바꿈.

throughput가 최대 중요 요소가 됨.

Intel, AMD의 CPU 아키텍처는 Multi-Core를 넘어서 heterogeneous(헤테로지니아스)로 가고 있음.,[object Object]

AMD - Bulldozer 아키텍처 ,[object Object]

「Bulldozer Module」이라고 부른다.

2개의 스레드를 병렬로 실행할 수 있는 모듈이 Bulldozer의 기본 단위. 기본은 하나가 아니고 두 개다 !!!

4 코어의 Bulldozer CPU라면 두 개의 Bulldozer Module을 탑재.

Hyper-Threading이 아니다 !!!,[object Object]

Bulldozer에서는 CPU의 자원 중 정수 연산 파이프는 2개의 스레드가 각각 전용 파이프를 가진다.

그러나 명령 디코더나 부동 소수점 연산 유닛 등은 2개의 스레드에서 공유한다.

정수 연산에서는 스레드간의 경합이 없기 때문에 throughput가 높다,,[object Object]

Intel - Larrabee아키텍처 ,[object Object]

그러나Intel이 CPU에 통합하기 위한 데이터 병렬 중시형 프로세서 코어의 아키텍처를 긴급하게 필요로 하고 있는 점은 변화지 않음.

Larrabee의 목적은 어떻게 하면 유연하고 고효율이면서 프로그램 하기 쉬운 아키텍처로 할 수 있을지를 추구하는 것.

Intel의 간부들은 Larrabee와 같은 범용 데이터 병렬 코어를 CPU로 통합하는 것을 전망.,[object Object]

왜냐하면 지금부터 퍼포먼스를 늘리고 싶은 것은 데이터 병렬로 부동 소수점 연산 중심의 작업 부담량이기 때문.

Amdahl의 법칙은 여전히 살아 있기 때문에 Intel은 대형 슈퍼 스칼라 코어를 버리고 가는 것도 할 수 없다. 필연적으로 헤테로지니아스가 된다. ,[object Object]

어려운 병렬 프로그래밍

병렬 프로그래밍? Multi-Core? 그거 먹는 건가요? 우걱우걱

void SetReUseSocket() { ……… if( flase == m_bUsed ) { LOG(“SetReUseSocket() | Failed”); return; } LOG(“SetReUseSocket()”); m_bUsed = true; ……… }

OS – 2001년과 2009년 Windows 7 Windows XP

Visual Studio – 2002년과 2010년 Visual Studio.NET( 2002) Visual Studio 2010

2008년 10월 Microsoft의 최고 연구 전략 책임자를 맡은 Craig Mundie씨 ,[object Object]

Windows를 보다 뛰어난 병렬/비동기프로세싱 플랫폼화 하기 위한 최초의 씨앗은 2009년부터 뿌려지기 시작.,[object Object]

UMS - Completion List ,[object Object]

대응하는 유저 모드 스레드는Completion List에 등록되어

코어에서 실행 중인 스레드가 종료하는 것을 기다린 후 다시 실행한다.,[object Object]

Concurrency Runtime Tools Native Libraries Intel ® TBB Parallel Pattern Library Asynchronous AgentsLibrary Intel®OpenMP Visual Studio 2010 Parallel Debugger Profiler Concurrency Analysis Data Structures Intel Parallel Studio Parallel Composer Task Scheduler Parallel Inspector Resource Manager Parallel Amplifier Native Concurrency Runtime Operating System Threads UMS Threads 그림 출처 : PDC 09

Parallel Patterns Library Asynchronus Agents Library Synchronization Data Structures Task Scheduler Resource Manager OS

Parallel Patterns Library(PPL) ,[object Object]

Imperative parallelism – parallel_for, parallel_for_each등

Task parallelisn – task_group, structured_task_group,[object Object]

AAL은 다른 컴포넌트의 데이터를 기다리면서 작업을 처리 할 수 있다.

AAL은 복수의 엔티티가 서로간에 비동기로 통신을 할 때 사용한다.,[object Object]

class GameLogic : public agent { ..... void run() { // Send the request. ...... send(_target, wstring(L"request")); // Read the response. int response = receive(_source); } private: ISource<int>& _source; ITarget<wstring>& _target; }; class GameAI : public agent { ..... void run() { // Send the request. ...... send(_target, wstring(L"request")); // Read the response. int response = receive(_source); } private: ISource<int>& _source; ITarget<wstring>& _target; };

Synchronization Data Structures ,[object Object]

동기 오브젝트는 크리티컬 섹션과 같이 다른 스레드로부터 공유 데이터를 사용할 수 있을 때까지 기다린다.

critical_section, reader_writer_lock, event,[object Object]

cooperative 스케쥴링과 work-stealing 알고리즘을 사용하여 최대한 효율이 좋게 리소스를 처리하도록 한다.

Concurrency Runtime은 기본적인 스케쥴러를 제공하므로 직접 관리할 필요는 없다.

다만 우리가 만든 애플리케이션에 최적화 시켜 더 높은 성능을 얻고 싶을 때는 스케줄러의 정책을 변경하거나 특별한 task, 특별한 스케줄러와 제휴할 수 있다.,[object Object]

실행 시에 작업 부하에 변경이 일어나면 가장 효율이 좋게 처리할 수 있도록 리소스를 할당.

컴퓨팅 리소스를 추상화하여 Task Scheduler와 주로 대화.

더 높은 성능을 얻기 위해서 Resource Manager를 세밀하게 조정할 수 있다.

다른 병렬 라이브러리의 병행 런타임과 컴퓨팅 리소스 관리를 통합 할 수 있다.,[object Object]

코어 증가와 Resource Management ,[object Object],[object Object]

이유는 Task Scheduler와 Resource Manage가 파괴되기 전에 프로그램이 종료 되기 때문.,[object Object]

병렬 패턴 라이브러리 ( PPL )

PPL의 세 가지 features ,[object Object]

Parallel containers and objects ,[object Object]

Task Parallelism 실제적인 task의 실행은 task_group에서 한다. unstructured_task_group(task_group) 와 structured_task_group로나누어진다. task_group : 스레드 세이프structured_task_group : 스레드 세이프 하지 않음.

Main Thread Main Thread task_group1.run( task1) structured_task_group1.run( task1) Thread A task_group1.run( task2) Thread B task_group1.run( task3) Thread A structured_task_group1.run( task2)

초 간단!!! task 사용 방법 ppl.h파일을 포함합니다.#include <ppl.h> Concurrency Runtime의 네임 스페이를 선언합니다.using namespace Concurrency; 태스크 그룹을 정의합니다.structured_task_groupstructured_tasks; 태스크를 정의합니다.auto structured_task1 = make_task([&] { Plus(arraynum1, true); } ); 태스크를 태스크 그룹에 추가한 후 실행합니다. structured_tasks.run( structured_task1 ); 태스크 그룹에 있는 태스크가 완료될 때까지 기다립니다.structured_tasks.wait();

for( i = 0; i < 1000000; ++i ) { ………… ………… }

Parallel Algorithms 데이터컬렉션을 대상으로 쉽게 병렬 작업을 할 수 있게 해주는 알고리즘들. STL에서 제공하는 알고리즘과 비슷한 모양과 사용법. paeallel_for, parallel_for_each, parallel_invoke가 구현되어 있음.parallel_accumulate, parallel_partial_sum는 다음 버전?

parallel_for for 문을 병렬화. for 문과 사용 방법이 흡사하여 쉽게 변환. step 값을 지정하는 버전과 지정하지 않는 버전 두 개가 있음(지정하지 않으면 1). index 조사는 ‘<‘만 지원.

초 간단!!! parallel_for사용 법 ppl.h파일을 포함합니다.#include <ppl.h> Concurrency Runtime의 네임 스페이를 선언합니다.using namespace Concurrency; parallel_for에서 호출할 함수 정의 parallel_for에서 사용할 data set 정의. parallel_for사용.

parallel_for_each STL의 for_each알고리즘을 병렬화. for_each와 사용 방법이 같음.

초 간단!!! parallel_for_each사용 법 ppl.h파일을 포함합니다.#include <ppl.h> Concurrency Runtime의 네임 스페이를 선언합니다.using namespace Concurrency; parallel_for_each에서 호출할 함수 정의 parallel_for_each에서 사용할 data set 정의. parallel_for_each사용.

Visual C++10을 활용한 병렬 프로그래밍

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Similar to Visual C++10을 활용한 병렬 프로그래밍

Similar to Visual C++10을 활용한 병렬 프로그래밍 (20)

More from 흥배 최

More from 흥배 최 (20)

Visual C++10을 활용한 병렬 프로그래밍