Pertemuan 13 penanganan masalah jaringanjumiathyasiz
Dokumen tersebut membahas tentang penyimpanan data dan backup data. Terdapat beberapa metode penyimpanan data seperti network attached storage dan storage area network. Dibahas pula dampak kegagalan penyimpanan data dan pentingnya memiliki backup dan recovery plan.
Sistem operasi berfungsi sebagai perantara antara pengguna dan komponen komputer dengan mengelola sumber daya sistem dan menyediakan layanan kepada pengguna. Sistem operasi terdiri dari kernel, file sistem, dan antarmuka pengguna yang bekerja bersama untuk menjalankan program, mengontrol akses I/O, dan mengelola memori serta sumber daya komputer lainnya.
Sistem Jaringan Terdistribusi adalah sekumpulan komputer otonom yang terhubung ke jaringan untuk berkoordinasi, berbagi sumber daya, dan terlihat sebagai satu komputer oleh pengguna. Sistem ini memiliki keuntungan seperti kinerja yang lebih baik, ketersediaan yang lebih tinggi, dan fleksibilitas pertumbuhan. Akan tetapi, sistem ini juga menghadapi tantangan seperti kesulitan pengembangan perangkat lunak, masalah
Dokumen tersebut membahas tentang Disaster Recovery Center (DRC) dan Disaster Recovery Plan (DRP). DRC merupakan infrastruktur untuk memulihkan operasi secepat mungkin setelah terjadi bencana besar. Dokumen ini menjelaskan fungsi, arsitektur, lokasi, dan konfigurasi DRC. Selain itu, dibahas pula komponen-komponen DRP seperti analisis dampak bisnis, penilaian risiko, dan strategi pemulihan. Dokumen ini memberikan panduan unt
Pertemuan 13 penanganan masalah jaringanjumiathyasiz
Dokumen tersebut membahas tentang penyimpanan data dan backup data. Terdapat beberapa metode penyimpanan data seperti network attached storage dan storage area network. Dibahas pula dampak kegagalan penyimpanan data dan pentingnya memiliki backup dan recovery plan.
Sistem operasi berfungsi sebagai perantara antara pengguna dan komponen komputer dengan mengelola sumber daya sistem dan menyediakan layanan kepada pengguna. Sistem operasi terdiri dari kernel, file sistem, dan antarmuka pengguna yang bekerja bersama untuk menjalankan program, mengontrol akses I/O, dan mengelola memori serta sumber daya komputer lainnya.
Sistem Jaringan Terdistribusi adalah sekumpulan komputer otonom yang terhubung ke jaringan untuk berkoordinasi, berbagi sumber daya, dan terlihat sebagai satu komputer oleh pengguna. Sistem ini memiliki keuntungan seperti kinerja yang lebih baik, ketersediaan yang lebih tinggi, dan fleksibilitas pertumbuhan. Akan tetapi, sistem ini juga menghadapi tantangan seperti kesulitan pengembangan perangkat lunak, masalah
Dokumen tersebut membahas tentang Disaster Recovery Center (DRC) dan Disaster Recovery Plan (DRP). DRC merupakan infrastruktur untuk memulihkan operasi secepat mungkin setelah terjadi bencana besar. Dokumen ini menjelaskan fungsi, arsitektur, lokasi, dan konfigurasi DRC. Selain itu, dibahas pula komponen-komponen DRP seperti analisis dampak bisnis, penilaian risiko, dan strategi pemulihan. Dokumen ini memberikan panduan unt
Ringkasan dokumen tersebut adalah:
(1) Dokumen tersebut membahas konsep-konsep kinerja dalam manajemen infrastruktur TI, termasuk kinerja yang dirasakan pengguna, kinerja selama desain infrastruktur, dan pola-pola untuk meningkatkan kinerja sistem seperti caching, proksi web, dan basis data dalam memori.
Dokumen ini membahas pengertian sistem operasi dan peranannya dalam sistem komputer. Sistem operasi merupakan program yang mengatur eksekusi program dan bertindak sebagai antarmuka antara aplikasi dan perangkat keras dengan tujuan kemudahan, efisiensi, dan kemampuan untuk berkembang. Dokumen ini juga menjelaskan sejarah evolusi sistem operasi mulai dari proses serial, sistem batch sederhana, multiprogramming batch system, hingga time-sharing system.
Dokumen tersebut membahas tentang struktur sistem operasi modern yang terdiri dari 5 komponen utama yaitu managemen proses, managemen memori utama, managemen penyimpanan sekunder, managemen sistem I/O, dan managemen berkas. Dokumen ini juga menjelaskan tanggung jawab sistem operasi dalam mengelola sumber daya komputer seperti proses, memori, penyimpanan, perangkat keras, dan berkas.
Sistem operasi terdiri atas beberapa lapisan yang saling berhubungan, dimulai dari lapisan perangkat keras hingga lapisan aplikasi. Struktur sistem operasi meliputi struktur sederhana, sistem berlapis, kernel mikro, modular, dan lainnya. Setiap struktur memiliki kelebihan dan kekurangan tertentu dalam merancang sistem operasi.
Sistem operasi modern terdiri dari 5 komponen utama yaitu manajemen proses, memori, penyimpanan sekunder, I/O, dan berkas. Dokumen ini juga menjelaskan tanggung jawab sistem operasi dalam mengelola sumber daya komputer dan menyediakan layanan untuk pengguna dan program.
1. Dokumen tersebut membahas berbagai konsep dasar sistem operasi mulai dari komponen, layanan, system calls, pemrograman sistem, struktur sistem, mesin virtual, hingga perancangan sistem.
2. Secara khusus dibahas manajemen proses, memori, berkas, I/O, penyimpanan sekunder, jaringan, sistem proteksi.
3. Sistem operasi bertanggung jawab mengelola sumber daya komputer dan memfasilitasi interaksi antara perang
Konsep dasar sistem operasi meliputi beberapa macam yaitu:
Komponen Sistem Operasi
Layanan Sistem Operasi
System Calls
Pemrograman Sistem
Struktur Sistem
Mesin Virtual
System Generation
Rancangan Sistem
Untuk lebih lengkapnya bisa dibaca pada slide share dibawah ini
Konsep dasar sistem operasi meliputi beberapa macam yaitu:
Komponen Sistem Operasi
Layanan Sistem Operasi
System Calls
Pemrograman Sistem
Struktur Sistem
Mesin Virtual
System Generation
Rancangan Sistem
Untuk lebih lengkapnya bisa dibaca pada slide share dibawah ini
Sistem operasi membahas konsep-konsep dasar seperti manajemen proses, memori, file, I/O, penyimpanan sekunder, dan proteksi. Sistem operasi bertanggung jawab mengelola sumber daya komputer dan menyediakan layanan untuk program dan pengguna.
Sistem operasi terdistribusi memungkinkan sharing sumber daya dan file di jaringan. Komponen utamanya mencakup layanan file, direktori, dan penamaan yang memungkinkan akses terhadap file secara independen dari lokasi. Layanan antarmuka bertanggung jawab untuk protokol jaringan, format data, keamanan, dan perjanjian tingkat layanan untuk memastikan kinerja dan keamanan sistem.
Sistem operasi membahas konsep proses, input output, manajemen memori dan sistem file. Sistem operasi berperan sebagai penyedia interface yang sesuai berupa perluasan mesin atau mesin semu. Sistem operasi juga berperan untuk mengatur, mengorganisasikan, dan mengontrol alokasi sumberdaya sistem komputer untuk berbagai program.
Ringkasan dokumen tersebut adalah:
(1) Dokumen tersebut membahas konsep-konsep kinerja dalam manajemen infrastruktur TI, termasuk kinerja yang dirasakan pengguna, kinerja selama desain infrastruktur, dan pola-pola untuk meningkatkan kinerja sistem seperti caching, proksi web, dan basis data dalam memori.
Dokumen ini membahas pengertian sistem operasi dan peranannya dalam sistem komputer. Sistem operasi merupakan program yang mengatur eksekusi program dan bertindak sebagai antarmuka antara aplikasi dan perangkat keras dengan tujuan kemudahan, efisiensi, dan kemampuan untuk berkembang. Dokumen ini juga menjelaskan sejarah evolusi sistem operasi mulai dari proses serial, sistem batch sederhana, multiprogramming batch system, hingga time-sharing system.
Dokumen tersebut membahas tentang struktur sistem operasi modern yang terdiri dari 5 komponen utama yaitu managemen proses, managemen memori utama, managemen penyimpanan sekunder, managemen sistem I/O, dan managemen berkas. Dokumen ini juga menjelaskan tanggung jawab sistem operasi dalam mengelola sumber daya komputer seperti proses, memori, penyimpanan, perangkat keras, dan berkas.
Sistem operasi terdiri atas beberapa lapisan yang saling berhubungan, dimulai dari lapisan perangkat keras hingga lapisan aplikasi. Struktur sistem operasi meliputi struktur sederhana, sistem berlapis, kernel mikro, modular, dan lainnya. Setiap struktur memiliki kelebihan dan kekurangan tertentu dalam merancang sistem operasi.
Sistem operasi modern terdiri dari 5 komponen utama yaitu manajemen proses, memori, penyimpanan sekunder, I/O, dan berkas. Dokumen ini juga menjelaskan tanggung jawab sistem operasi dalam mengelola sumber daya komputer dan menyediakan layanan untuk pengguna dan program.
1. Dokumen tersebut membahas berbagai konsep dasar sistem operasi mulai dari komponen, layanan, system calls, pemrograman sistem, struktur sistem, mesin virtual, hingga perancangan sistem.
2. Secara khusus dibahas manajemen proses, memori, berkas, I/O, penyimpanan sekunder, jaringan, sistem proteksi.
3. Sistem operasi bertanggung jawab mengelola sumber daya komputer dan memfasilitasi interaksi antara perang
Konsep dasar sistem operasi meliputi beberapa macam yaitu:
Komponen Sistem Operasi
Layanan Sistem Operasi
System Calls
Pemrograman Sistem
Struktur Sistem
Mesin Virtual
System Generation
Rancangan Sistem
Untuk lebih lengkapnya bisa dibaca pada slide share dibawah ini
Konsep dasar sistem operasi meliputi beberapa macam yaitu:
Komponen Sistem Operasi
Layanan Sistem Operasi
System Calls
Pemrograman Sistem
Struktur Sistem
Mesin Virtual
System Generation
Rancangan Sistem
Untuk lebih lengkapnya bisa dibaca pada slide share dibawah ini
Sistem operasi membahas konsep-konsep dasar seperti manajemen proses, memori, file, I/O, penyimpanan sekunder, dan proteksi. Sistem operasi bertanggung jawab mengelola sumber daya komputer dan menyediakan layanan untuk program dan pengguna.
Sistem operasi terdistribusi memungkinkan sharing sumber daya dan file di jaringan. Komponen utamanya mencakup layanan file, direktori, dan penamaan yang memungkinkan akses terhadap file secara independen dari lokasi. Layanan antarmuka bertanggung jawab untuk protokol jaringan, format data, keamanan, dan perjanjian tingkat layanan untuk memastikan kinerja dan keamanan sistem.
Sistem operasi membahas konsep proses, input output, manajemen memori dan sistem file. Sistem operasi berperan sebagai penyedia interface yang sesuai berupa perluasan mesin atau mesin semu. Sistem operasi juga berperan untuk mengatur, mengorganisasikan, dan mengontrol alokasi sumberdaya sistem komputer untuk berbagai program.
2. Buku Acuan 1
IT Infrastructure Architecture
Infrastructure Building Blocks and Concepts
Third Edition
Sjaak Laan
Lulu Press Inc, 2017
https://s.id/itia3ed
http://www.sjaaklaan.com/
2
4. 3.1 Pendahuluan
Infrastruktur TI menyediakan layanan untuk aplikasi. Beberapa layanan infrastruktur ini
dapat didefinisikan dengan baik sebagai fungsi, seperti menyediakan ruang disk, atau
merutekan pesan jaringan.
Atribut non-fungsional, di sisi lain, menggambarkan perilaku kualitatif dari suatu sistem,
daripada fungsi tertentu.
Beberapa contoh atribut non-fungsional adalah:
Ketersediaan (Availability)
Skalabilitas (Scalability)
Keandalan (Reliability)
Stabilitas (Stability)
Kemudahan untuk diuji (Testability)
Kemudahan dipulihkan (Recoverability)
4
5. 3.1 Pendahuluan
Dalam pengalaman penulis, atribut non-fungsional yang
paling penting untuk sebagian besar infrastruktur TI adalah
keamanan, kinerja, dan ketersediaan.
Atribut non-fungsional sangat penting untuk keberhasilan
implementasi dan penggunaan infrastruktur TI, tetapi dalam
proyek, atribut tersebut jarang mendapatkan perhatian yang
sama dengan layanan fungsional.
5
6. 3.2 Persyaratan Non-fungsional
Adalah tugas arsitek TI atau insinyur persyaratan untuk menemukan persyaratan implisit
pada atribut non-fungsional (persyaratan non-fungsional -NFR).
Ini bisa sangat sulit, karena apa yang jelas atau diterima begitu saja oleh pelanggan atau
pengguna akhir suatu sistem tidak selalu jelas bagi perancang dan pembuat sistem.
Dan tidak ketinggalan persyaratan non-fungsional yang dimiliki pemangku kepentingan
lainnya, seperti keberadaan jendela layanan atau kemampuan pemantauan, yang
merupakan persyaratan penting bagi manajer sistem.
Penting untuk diingat bahwa penerimaan suatu sistem sebagian besar tergantung pada
persyaratan non-fungsional yang diterapkan. Sebuah situs web bisa sangat indah dan
fungsional, tetapi jika memuat situs (kinerja, persyaratan non-fungsional) membutuhkan
waktu 30 detik, sebagian besar pelanggan hilang!
6
7. 4 KONSEP KETERSEDIAAN
4.1 Pendahuluan
4.2 Menghitung ketersediaan
4.3 Sumber ketidaktersediaan
4.4 Pola ketersediaan
7
9. Menghitung ketersediaan (availability)
Ketersediaan tidak dapat dihitung, atau dijamin dimuka
Ketersediaan hanya dapat dilaporkan setelahnya, ketika sistem telah
berjalan selama beberapa tahun
Selama bertahun-tahun, banyak pengetahuan dan pengalaman
diperoleh tentang bagaimana merancang sistem yang tersedia
tinggi (high available systems)
Menghindari kegagalan (failover)
Redundansi
Pemrograman terstruktur
Menghindari Titik Kegagalan Tunggal (Single Points of Failures, SPOFs)
Menerapkan manajemen sistem 9
10. Menghitung ketersediaan (availability)
Ketersediaan sistem biasanya dinyatakan sebagai
persentase waktu aktif dalam periode waktu tertentu
Biasanya satu tahun atau satu bulan
Contoh untuk waktu henti (downtime) yang dinyatakan
dalam persentase per tahun:
Availability %
Downtime
per year
Downtime
per month
Downtime
per week
99.8% 17.5 hours 86.2 minutes 20.2 minutes
99.9% ("three nines") 8.8 hours 43.2 minutes 10.1 minutes
99.99% ("four nines") 52.6 minutes 4.3 minutes 1.0 minutes
99.999% ("five nines") 5.3 minutes 25.9 seconds 6.1 seconds
11. Menghitung ketersediaan (availability)
Persyaratan umum yang digunakan dalam perjanjian tingkat
layanan (service level agreements, SLA) saat ini adalah
ketersediaan 99,8% atau 99,9% per bulan untuk sistem TI
lengkap
Ketersediaan infrastruktur harus jauh lebih tinggi
Biasanya di kisaran 99,99% atau lebih tinggi
Waktu aktif 99,999% juga dikenal sebagai ketersediaan tingkat
operator
Untuk satu komponen
Tingkat ketersediaan yang lebih tinggi untuk sistem yang lengkap sangat
jarang, karena hampir tidak mungkin dicapai
12. Menghitung ketersediaan (availability)
Adalah praktik yang baik untuk menyepakati frekuensi
maksimum ketidaktersediaan
Unavailability
(minutes)
Number of events
(per year)
0 – 5 <= 35
5 – 10 <= 10
10 – 20 <= 5
20 – 30 <=2
> 30 <= 1
13. MTBF dan MTTR
Waktu Rata-Rata Antara Kegagalan
(Mean Time Between Failures, MTBF)
Waktu rata-rata yang berlalu di antara kegagalan
Waktu Rata-Rata Untuk Perbaikan
(Mean Time To Repair, MTTR)
Waktu yang dibutuhkan untuk pulih dari kegagalan
14. MTBF dan MTTR
Beberapa komponen memiliki MTBF lebih tinggi
daripada yang lain
Beberapa MTBF yang khas:
Component MTBF (hours)
Hard disk 750,000
Power supply 100,000
Fan 100,000
Ethernet Network Switch 350,000
RAM 1,000,000
15. MTTR
MTTR dapat dijaga tetap rendah dengan:
Memiliki kontrak layanan dengan pemasok
Memiliki suku cadang di tempat
Redundansi dan failover otomatis
16. MTTR
Langkah-langkah untuk menyelesaikan perbaikan:
Pemberitahuan kegagalan (waktu sebelum melihat pesan
alarm)
Memproses alarm
Menemukan akar penyebab kesalahan
Mencari informasi perbaikan
Mendapatkan komponen cadangan dari penyimpanan
Menginstruksikan teknisi datang ke pusat data dengan
komponen cadangan
Memperbaiki kesalahan secara fisik
Memulai ulang (restarting) dan menguji komponen
17. Quiz Interaktif
Tuliskan formula perhitungan ketersediaan (availability) jika
diketahui nilai MTBF dan MTTR.
17
19. Contoh perhitungan
Komponen serial: Satu cacat menyebabkan waktu
henti
Contoh: ketersediaan sistem di atas adalah:
0.9999200 × 0.9999200 × 0.9999733 × 0.9999920
× 0.9999840 × 0.9999680 = 0.99977 = 𝟗𝟗. 𝟗𝟕𝟕%
(ketersediaan setiap komponen setidaknya 99,99%)
20. Contoh perhitungan
Komponen paralel: Satu yang gagal: tidak ada waktu henti!
Tapi hati-hati adanya SPOF!
Hitung ketersediaan:
𝐴 = 1 − (1 − 𝐴1)𝑛
Total ketersediaan = 1 − (1 − 0.99)2 = 99.99%
21. Sumber ketidaktersediaan –
kesalahan manusia
80% pemadaman (outages) yang berdampak pada layanan mission-
critical disebabkan oleh orang dan masalah proses
Contoh:
Melakukan tes di lingkungan produksi
Mematikan komponen yang salah untuk keperluan perbaikan
Menukar disk yang berfungsi baik dalam kumpulan RAID alih-alih
yang rusak
Memulihkan tape cadangan yang salah ke produksi
Tidak sengaja menghapus file
Folder email, file konfigurasi
Tidak sengaja menghapus entri basis data
Hapus tabel x alih-alih hapus tabel y
22. Sumber ketidaktersediaan –
bug perangkat lunak
Karena kerumitan sebagian besar perangkat lunak, hampir
tidak mungkin (dan sangat mahal) untuk membuat
perangkat lunak bebas bug
Bug perangkat lunak aplikasi dapat menghentikan seluruh
sistem
Sistem operasi juga perangkat lunak
Sistem operasi yang mengandung bug dapat menyebabkan
sistem file rusak, kegagalan jaringan, atau sumber
ketidaktersediaan lainnya
23. Sumber ketidaktersediaan –
pemeliharaan terencana
Terkadang diperlukan untuk melakukan tugas manajemen
sistem:
Meningkatkan (upgrade) perangkat keras atau perangkat lunak
Menerapkan perubahan perangkat lunak
Migrasi data
Pembuatan cadangan
Hanya boleh dilakukan pada bagian infrastruktur di mana
bagian lain tetap melayani klien
Selama pemeliharaan terencana, sistem lebih rentan terhadap
waktu henti daripada dalam keadaan normal
SPOF sementara dapat terjadi
Manajer sistem bisa membuat kesalahan
24. Sumber ketidaktersediaan –
cacat fisik
Semuanya hancur pada akhirnya
Bagian mekanis kemungkinan besar akan rusak terlebih
dahulu
Contoh:
Kipas untuk peralatan pendingin biasanya rusak karena debu di
bantalan
Disk drive berisi bagian yang bergerak
Pita (tape) sangat rentan terhadap cacat karena pita diputar dan
dimatikan sepanjang waktu
Tape drive berisi bagian mekanik yang sangat sensitif yang
dapat dengan mudah rusak
25. Sumber ketidaktersediaan –
kurva bak mandi
Kegagalan komponen kemungkinan besar terjadi ketika komponen
masih baru
Ketika sebuah komponen masih berfungsi setelah bulan pertama,
kemungkinan besar komponen tersebut akan terus bekerja tanpa
kegagalan hingga akhir masa pakainya
26. Sumber ketidaktersediaan –
masalah lingkungan
Masalah lingkungan dapat menyebabkan waktu henti:
Fasilitas yang gagal
Daya listrik
Pendinginan
Bencana
Api / kebakaran
Gempa bumi
Banjir
27. Sumber ketidaktersediaan –
kompleksitas infrastruktur
Menambahkan lebih banyak komponen ke desain sistem secara
keseluruhan dapat merusak ketersediaan tinggi
Bahkan jika komponen tambahan diterapkan untuk mencapai
ketersediaan tinggi
Sistem yang kompleks
Memiliki lebih banyak titik kegagalan potensial
Lebih sulit untuk diterapkan dengan benar
Lebih sulit untuk dikelola
Terkadang lebih baik memiliki sistem cadangan ekstra di lemari
daripada menggunakan sistem redundan yang rumit
28. Redundansi
(Redundancy)
Redundansi adalah duplikasi komponen kritis dalam satu
sistem, untuk menghindari satu titik kegagalan (single point of
failure, SPOF)
Contoh:
Satu komponen yang memiliki dua catu daya; jika satu gagal, yang
lain mengambil alih
Antarmuka jaringan ganda
Kabel redundan
29. Kegagalan (Failover)
Failover adalah peralihan (semi) otomatis ke sistem atau
komponen siaga
Contoh:
Windows Server failover clustering
VMware High Availability
Oracle Real Application Cluster (RAC) database
30. Berbalik (Fallback)
Fallback adalah peralihan manual ke sistem komputer siaga
yang identik di lokasi yang berbeda
Biasanya digunakan untuk pemulihan bencana
Tiga bentuk dasar solusi fallback:
Situs panas (Hot site)
Situs dingin (Cold site)
Situs hangat (Warm site)
31. Fallback – hot site
Sebuah situs panas (hot site) adalah
Pusat data fallback yang terkonfigurasi sepenuhnya
Dilengkapi dengan catu daya dan pendingin
Aplikasi diinstal di server
Data tetap up-to-date untuk sepenuhnya mencerminkan sistem
produksi
Memerlukan pemeliharaan terus-menerus atas perangkat
keras, perangkat lunak, data, dan aplikasi untuk memastikan
lokasi secara akurat mencerminkan keadaan lokasi produksi
setiap saat
32. Fallback - cold site
Disiapkan untuk penempatan peralatan yang dapat dibawa
selama keadaan darurat, tetapi tidak ada perangkat keras
komputer yang tersedia di lokasi
Aplikasi perlu diinstal dan data saat ini sepenuhnya dipulihkan
dari cadangan
Jika sebuah organisasi memiliki anggaran yang sangat sedikit
untuk situs fallback, situs yang dingin mungkin lebih baik
daripada tidak sama sekali
33. Fallback - warm site
Fasilitas komputer yang tersedia dengan daya, pendingin,
dan komputer, tetapi aplikasi mungkin tidak diinstal atau
dikonfigurasi
Campuran antara situs panas dan situs dingin
Aplikasi dan data harus dipulihkan dari media cadangan dan
diuji
Ini biasanya memakan waktu satu hari
34. Kelangsungan Bisnis
(Business Continuity)
Bencana TI didefinisikan sebagai masalah yang tidak dapat
diperbaiki di pusat data, membuat pusat data tidak dapat
digunakan
Bencana alam:
Banjir
Badai
Tornado
Gempa bumi
Bencana akibat perbuatan manusia:
Tumpahan bahan berbahaya
Kegagalan infrastruktur
Bio-terorisme
35. Kelangsungan Bisnis
(Business Continuity)
Dalam kasus bencana, infrastruktur bisa menjadi tidak
tersedia, dalam beberapa kasus untuk jangka waktu yang
lebih lama
Manajemen Kontinuitas Bisnis meliputi:
TI (teknologi informasi)
Mengelola proses bisnis
Ketersediaan orang dan tempat kerja dalam situasi bencana
Perencanaan pemulihan bencana (Disaster recovery
planning, DRP) berisi serangkaian tindakan yang harus
diambil jika terjadi bencana, ketika (bagian dari) infrastruktur
TI harus diakomodasi di lokasi alternatif
36. RTO and RPO
RTO dan RPO adalah tujuan/target jika terjadi bencana
Tujuan Waktu Pemulihan (Recovery Time Objective,
RTO)
Durasi waktu maksimum di mana proses bisnis harus
dipulihkan setelah bencana, untuk menghindari konsekuensi
yang tidak dapat diterima (seperti kebangkrutan)
37. RTO dan RPO
Tujuan Titik Pemulihan (Recovery Point Objective, RPO)
Titik waktu di mana data harus dipulihkan mengingat beberapa
"kehilangan yang dapat diterima" dalam situasi bencana
RTO dan RPO adalah tujuan yang berbeda
Keduanya tidak berhubungan
Editor's Notes
3 INTRODUCTION TO NON-FUNCTIONAL ATTRIBUTES
3.1 Introduction
3.2 Non-functional Requirements
IT infrastructures provide services to applications. Some of these infrastructure services can be well defined as a function, like providing disk space, or routing network messages. Non-functional attributes, on the other hand, describe the qualitative behavior of a system, rather than specific functionalities. Some examples of non-functional attributes are:
· Availability
· Scalability
· Reliability
· Stability
· Testability
· Recoverability
In my experience, the most important non-functional attributes for most IT infrastructures are security, performance, and availability.
Non-functional attributes are very important for the successful implementation and use of an IT infrastructure, but in projects, they rarely get the same attention as the functional services.
It is the IT architect or requirements engineer’s job to find implicit requirements on non-functional attributes (the non-functional requirements -NFRs). This can be very hard, since what is obvious or taken for granted by the customers or end users of a system is not always obvious to the designers and builders of the system. And not to forget the non-functional requirements that other stakeholders have, like the existence of service windows or monitoring capabilities, which are important requirements for systems managers.
It is important to remember that the acceptance of a system is largely dependent on the implemented non-functional requirements. A website can be very beautiful and functional, but if loading the site (performance, a non-functional requirement) takes 30 seconds, most customers are gone!
Everyone expects their infrastructure to be available all the time
A 100% guaranteed availability of an infrastructure is impossible
Calculating availability
Availability can neither be calculated, nor guaranteed upfront
It can only be reported on afterwards, when a system has run for some years
Over the years, much knowledge and experience is gained on how to design high available systems
Failover
Redundancy
Structured programming
Avoiding Single Points of Failures (SPOFs)
Implementing systems management
The availability of a system is usually expressed as a percentage of uptime in a given time period
Usually one year or one month
Example for downtime expressed as a percentage per year:
Typical requirements used in service level agreements today are 99.8% or 99.9% availability per month for a full IT system
The availability of the infrastructure must be much higher
Typically in the range of 99.99% or higher
99.999% uptime is also known as carrier grade availability
For one component
Higher availability levels for a complete system are very uncommon, as they are almost impossible to reach
It is good practice to agree on the maximum frequency of unavailability
Mean Time Between Failures (MTBF)
The average time that passes between failures
Mean Time To Repair (MTTR)
The time it takes to recover from a failure
Waktu Rata-Rata Antara Kegagalan (MTBF)
Waktu rata-rata yang berlalu di antara kegagalan
Waktu Rata-Rata Untuk Perbaikan (MTTR)
Waktu yang dibutuhkan untuk pulih dari kegagalan
Some components have higher MTBF than others
Some typical MTB’s:
MTTR can be kept low by:
Having a service contract with the supplier
Having spare parts on-site
Automated redundancy and failover
Steps to complete repairs:
Notification of the fault (time before seeing an alarm message)
Processing the alarm
Finding the root cause of the error
Looking up repair information
Getting spare components from storage
Having technician come to the datacenter with the spare component
Physically repairing the fault
Restarting and testing the component
Calculation examples
Serial components: One defect leads to downtime
Example: the above system’s availability is:
0.9999200×0.9999200×0.9999733×0.9999920×0.9999840×0.9999680=0.99977=𝟗𝟗.𝟗𝟕𝟕%
(each components’ availability is at least 99.99%)
Parallel components: One defect: no downtime!
But beware of SPOFs!
Calculate availability:
𝐴=1−(1− 𝐴 1 ) 𝑛
Total availability =1−(1−0.99 ) 2 = 99.99%
Sources of unavailability - human errors
80% of outages impacting mission-critical services is caused by people and process issues
Examples:
Performing a test in the production environment
Switching off the wrong component for repair
Swapping a good working disk in a RAID set instead of the defective one
Restoring the wrong backup tape to production
Accidentally removing files
Mail folders, configuration files
Accidentally removing database entries
Drop table x instead of drop table y
Sources of unavailability - software bugs
Because of the complexity of most software it is nearly impossible (and very costly) to create bug-free software
Application software bugs can stop an entire system
Operating systems are software too
Operating systems containing bugs can lead to corrupted file systems, network failures, or other sources of unavailability
Sources of unavailability - planned maintenance
Sometimes needed to perform systems management tasks:
Upgrading hardware or software
Implementing software changes
Migrating data
Creation of backups
Should only be performed on parts of the infrastructure where other parts keep serving clients
During planned maintenance the system is more vulnerable to downtime than under normal circumstances
A temporary SPOF could be introduced
Systems managers could make mistakes
Sources of unavailability - physical defects
Everything breaks down eventually
Mechanical parts are most likely to break first
Examples:
Fans for cooling equipment usually break because of dust in the bearings
Disk drives contain moving parts
Tapes are very vulnerable to defects as the tape is spun on and off the reels all the time
Tape drives contain very sensitive pieces of mechanics that can break easily
Sources of unavailability - bathtub curve
A component failure is most likely when the component is new
When a component still works after the first month, it is likely that it will continue working without failure until the end of its life
Sources of unavailability - environmental issues
Environmental issues can cause downtime:
Failing facilities
Power
Cooling
Disasters
Fire
Earthquakes
Flooding
Sources of unavailability - complexity of the infrastructure
Adding more components to an overall system design can undermine high availability
Even if the extra components are implemented to achieve high availability
Complex systems
Have more potential points of failure
Are more difficult to implement correctly
Are harder to manage
Sometimes it is better to just have an extra spare system in the closet than to use complex redundant systems
Redundancy
Redundancy is the duplication of critical components in a single system, to avoid a single point of failure (SPOF)
Examples:
A single component having two power supplies; if one fails, the other takes over
Dual networking interfaces
Redundant cabling
Failover
Failover is the (semi)automatic switch-over to a standby system or component
Examples:
Windows Server failover clustering
VMware High Availability
Oracle Real Application Cluster (RAC) database
Fallback
Fallback is the manual switchover to an identical standby computer system in a different location
Typically used for disaster recovery
Three basic forms of fallback solutions:
Hot site
Cold site
Warm site
Fallback – hot site
A hot site is
A fully configured fallback datacentre
Fully equipped with power and cooling
Applications are installed on the servers
Data is kept up-to-date to fully mirror the production system
Requires constant maintenance of the hardware, software, data, and applications to be sure the site accurately mirrors the state of the production site at all times
Fallback - cold site
Is ready for equipment to be brought in during an emergency, but no computer hardware is available at the site
Applications will need to be installed and current data fully restored from backups
If an organization has very little budget for a fallback site, a cold site may be better than nothing
Fallback - warm site
A computer facility readily available with power, cooling, and computers, but the applications may not be installed or configured
A mix between a hot site and cold site
Applications and data must be restored from backup media and tested
This typically takes a day
Business Continuity
An IT disaster is defined as an irreparable problem in a datacenter, making the datacenter unusable
Natural disasters:
Floods
Hurricanes
Tornadoes
Earthquakes
Manmade disasters:
Hazardous material spills
Infrastructure failure
Bio-terrorism
Business Continuity
In case of a disaster, the infrastructure could become unavailable, in some cases for a longer period of time
Business Continuity Management includes:
IT
Managing business processes
Availability of people and work places in disaster situations
Disaster recovery planning (DRP) contains a set of measures to take in case of a disaster, when (parts of) the IT infrastructure must be accommodated in an alternative location
RTO and RPO
RTO and RPO are objectives in case of a disaster
Recovery Time Objective (RTO)
The maximum duration of time within which a business process must be restored after a disaster, in order to avoid unacceptable consequences (like bankruptcy)
RTO and RPO
Recovery Point Objective (RPO)
The point in time to which data must be recovered considering some "acceptable loss" in a disaster situation
RTO and RPO are individual objectives
They are not related