Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
WYKONYWANIE SKRYPTÓW R WŚRODOWISKU ROZPROSZONYM    Barbara Uszczyńska     Damian Kaliszan      Poznań, 11 maja 2012
WIRTUALNE LABORATORIUM      GENOMICZNE
ŚRODOWISKO ROZPROSZONERozproszony system komputerowy (ang. distributed system) to zbiór samodzielnychkomputerów połączonyc...
KLASTER KOMPUTEROWYKlaster komputerowy (ang. cluster) to system stworzony w wynikupołączenia jednostek komputerowych. Jedn...
POZNAŃSKIE CENTRUM    SUPERKOMPUTEROWO-SIECIOWEDział Komputerów Dużej Mocy: https://hpc.man.poznan.pl/
KLASTER REEF   Dostęp do R możliwy jest jedynie z pozycji    klastra reef (reef.man.poznan.pl).   Warunkiem niezbędnym d...
WYKONYWANIE SKRYPTÓW R                       Plik „opakowujący”, cechy:                          Służy do zdefiniowania z...
SKRYPT TESTOWY-R                   Prosty przykład wykorzystania algorytmu                   grupowania pojęciowego oparte...
SKRYPT TESTOWY                 1 procesor na jednym węźle obliczeniowym oraz pamięć                 wielkości 4GB są wysta...
WYKONYWANIE SKRYPTÓW R
SKŁADANIE WNIOSKU
GRANTY OBLICZENIOWE->ZŁÓŻ WNIOSEK
SKŁADANIE WNIOSKU
SKŁADANIE WNIOSKU
SKŁADANIE WNIOSKU
PAKIETY R NA KLASTRZE REEFNa klastrze reef zdeponowane są następujące pakiety R:         affy               fda         ...
SYSTEM PRZETWARZANIA-GRIDGRID to system zrzeszający wiele jednostek komputerowych w jedną, potoczniezwaną superkomputerem....
GRID
PL-GRIDPL-Grid to projekt, dzięki któremu powstała ogólnopolska infrastruktura superkomputeróworaz łączący je system grido...
PL-GRID DOSTĘPNE OPROGRAMOWANIE        Oprogramowanie R jest zainstalowana w Poznaniu        (PCSS), Wrocławiu (WCSS) i Wa...
PL-GRID REJESTRACJA             Użytkownikiem PL-Grid może być każda osoba             prowadząca działalność naukową, zwi...
PODSUMOWANIE-PCSSZalety                                Wady                                      Aplikacja R dostępna jest...
Upcoming SlideShare
Loading in …5
×

Wykonywanie skryptów R w środowisku rozproszonym

2,593 views

Published on

  • Be the first to comment

  • Be the first to like this

Wykonywanie skryptów R w środowisku rozproszonym

  1. 1. WYKONYWANIE SKRYPTÓW R WŚRODOWISKU ROZPROSZONYM Barbara Uszczyńska Damian Kaliszan Poznań, 11 maja 2012
  2. 2. WIRTUALNE LABORATORIUM GENOMICZNE
  3. 3. ŚRODOWISKO ROZPROSZONERozproszony system komputerowy (ang. distributed system) to zbiór samodzielnychkomputerów połączonych za pomocą sieci z zaimplementowanym rozproszonymoprogramowaniem systemowymRównoległy system komputerowy- zespół co najmniej dwóch procesorów zdolnychdo wspólnego rozwiązywania złożonego zadania obliczeniowego.Celem środowiska rozproszonego jest zwiększenie wydajności obliczeń oraz ichdokładności.Przed rozpoczęciem obliczeń w środowisku rozproszonym należy sprawdzić, czy: badany problem może być podzielony na relatywnie niezależne zadania prędkość obliczeń wzrasta wraz ze zwiększającą się liczbą procesorów
  4. 4. KLASTER KOMPUTEROWYKlaster komputerowy (ang. cluster) to system stworzony w wynikupołączenia jednostek komputerowych. Jednostki współpracując zesobą, tworzą zintegrowane środowisko pracy.W skład komputerów obliczeniowych PCSS wchodzą: Fangorn- Klaster Opteron64 Sherwood-Klaster IA-64 Guarana-Altix 3700 Altix-Sgi Origin 3000 Reef-klaster Intel Xeon Chimera-SGI Altix UVR dostępny jest z klastra Reef.
  5. 5. POZNAŃSKIE CENTRUM SUPERKOMPUTEROWO-SIECIOWEDział Komputerów Dużej Mocy: https://hpc.man.poznan.pl/
  6. 6. KLASTER REEF Dostęp do R możliwy jest jedynie z pozycji klastra reef (reef.man.poznan.pl). Warunkiem niezbędnym do uruchamiania aplikacji R w środowisku rozproszonym jest posiadanie grantu obliczeniowego. Użytkownikiem klastra reef może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce. Warunkiem niezbędnym do rejestracji jest posiadanie konta email w macierzystej jednostce naukowej.
  7. 7. WYKONYWANIE SKRYPTÓW R Plik „opakowujący”, cechy:  Służy do zdefiniowania zapotrzebowania na moc obliczeniową (liczby procesorów oraz wielkość pamięci).  Pozwala na ustalenie priorytetu obliczeń i ulokowanie zadania w systemie kolejkowym.  Format .shObudowanie skryptu: Powyższy skrypt rezerwuje dla zadania 2 procesory na jednym węźle obliczeniowym oraz pamięć wielkości 3GB.Wykonywanie skryptu: Zlecanie zadania: qsub Status zadania: qstat
  8. 8. SKRYPT TESTOWY-R Prosty przykład wykorzystania algorytmu grupowania pojęciowego opartego na modelu probabilistycznym (EM) w analizie danych uzyskiwanych za pomocą mikromacierzy DNA.
  9. 9. SKRYPT TESTOWY 1 procesor na jednym węźle obliczeniowym oraz pamięć wielkości 4GB są wystarczające do przeprowadzenia obliczeń testowych Im bardziej wymagające parametry obliczeniowe tym większy czas oczekiwania na realizację zadania. Nazwa skryptu R zlecanego do wykonania w środowisku rozproszonym
  10. 10. WYKONYWANIE SKRYPTÓW R
  11. 11. SKŁADANIE WNIOSKU
  12. 12. GRANTY OBLICZENIOWE->ZŁÓŻ WNIOSEK
  13. 13. SKŁADANIE WNIOSKU
  14. 14. SKŁADANIE WNIOSKU
  15. 15. SKŁADANIE WNIOSKU
  16. 16. PAKIETY R NA KLASTRZE REEFNa klastrze reef zdeponowane są następujące pakiety R:  affy  fda  org.Hs.eg.db  affydata  foreign  parallel  affyio  gcrma  preprocessCore  affyPLM  genefilter  RColorBrewer  affyQCReport  geneplotter  ROC  annaffy  GO.db  rpart  annotate  graphics  RSQLite  AnnotationDbi  grDevices  simpleaffy  base  grid  smoothSurv  bayesSurv  hgu95av2.db  spatial  Biobase  IRanges  splines  BiocInstaller  KEGG.db  stats  Biostrings  KernSmooth  stats4  boot  lattice  survival  class  limma  tcltk  cluster  marray  tools  coda  MASS  utils  codetools  Matrix  VGAM  compiler  methods  vsn  CSAR  mgcv  xtable  datasets  multtest  zlibbioc  DBI  nlme  zoo  DynDoc  nnet
  17. 17. SYSTEM PRZETWARZANIA-GRIDGRID to system zrzeszający wiele jednostek komputerowych w jedną, potoczniezwaną superkomputerem. Komputery połączone są ze sobą siecią komputerową(internet).Cechy systemu GRID: Stworzony jest w celu obliczania tego samego zadania Hosty GRID mogą być rozmieszczone na całym świecie Dostępny dla większości systemów operacyjnych (Windows, Linux, Mac OS) Sercem systemu GRID stanowi serwer z systemem Linux, który koordynuje proces wykonywania zadań. Ogromna moc obliczeniowa Kontrola obliczeń Zapotrzebowanie na energię elektryczną oraz problem chłodzenia, rozłożone jest na każdą składową systemu Relatywnie niski koszt utrzymania
  18. 18. GRID
  19. 19. PL-GRIDPL-Grid to projekt, dzięki któremu powstała ogólnopolska infrastruktura superkomputeróworaz łączący je system gridowy pozwalający na ich efektywne wykorzystanie.Projektu PL-Grid obejmuje pięć ośrodków superkomputerowych w Polsce: Gdańsk Kraków Poznań Warszawa WrocławŁącznie infrastruktura dostarcza ponad20 tysięcy procesorów (rdzeni) oraz 2500terabajtów przestrzeni dyskowej.https://portal.plgrid.pl/web/guest/wiki-pl-grid
  20. 20. PL-GRID DOSTĘPNE OPROGRAMOWANIE Oprogramowanie R jest zainstalowana w Poznaniu (PCSS), Wrocławiu (WCSS) i Warszawie (ICM).
  21. 21. PL-GRID REJESTRACJA Użytkownikiem PL-Grid może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce. Konieczna jest rejestracja w bazie „Ludzie nauki” prowadzonej przez Ośrodek Przetwarzania Informacji – OPI. gLite:  używany jest od wielu lat w środowisku gridowym  szczególnie przez naukowców skupionych wokół CERN i zagadnień fizyki wysokich energii.  wymaga pewnej znajomości systemu linux, a większość poleceń wydaje się w trybie tekstowym. UNICORE:  bardziej przyjazne rozwiązanie dla początkujących użytkowników.  Zadania zleca się w większości w trybie graficznym, przez aplikację działającą w systemie operacyjnym Windows/UNIX/Mac.
  22. 22. PODSUMOWANIE-PCSSZalety Wady Aplikacja R dostępna jest jedynie na klastrze reef. Skrócenie czasu obliczeń. Proces składania wniosku o grant obliczeniowy jest wymagający czasowo. Zapis skryptu w sposób umożliwiający podział na poszczególne zadania Lepsza jakość wyników. (opcjonalnie). Przygotowanie skryptu opakowującego (.sh). Wymagająca obsługa interfejsu. Stały kontakt z administratorem. Brak informacji na temat uruchamiania R na stronie KDM.

×