SlideShare a Scribd company logo
1
Manajemen Infrastruktur TI:
MIT-02 Konsep Ketersediaan
(Availability Concepts)
Rumadi Hartawan, S.T., M.Kom.
Buku Acuan 1
IT Infrastructure Architecture
Infrastructure Building Blocks and Concepts
Third Edition
Sjaak Laan
Lulu Press Inc, 2017
https://s.id/itia3ed
http://www.sjaaklaan.com/
2
3 PENGANTAR ATRIBUT NON-
FUNGSIONAL
3.1 Pendahuluan
3.2 Persyaratan Non-fungsional
3
3.1 Pendahuluan
Infrastruktur TI menyediakan layanan untuk aplikasi. Beberapa layanan infrastruktur ini
dapat didefinisikan dengan baik sebagai fungsi, seperti menyediakan ruang disk, atau
merutekan pesan jaringan.
Atribut non-fungsional, di sisi lain, menggambarkan perilaku kualitatif dari suatu sistem,
daripada fungsi tertentu.
Beberapa contoh atribut non-fungsional adalah:
 Ketersediaan (Availability)
 Skalabilitas (Scalability)
 Keandalan (Reliability)
 Stabilitas (Stability)
 Kemudahan untuk diuji (Testability)
 Kemudahan dipulihkan (Recoverability)
4
3.1 Pendahuluan
 Dalam pengalaman penulis, atribut non-fungsional yang
paling penting untuk sebagian besar infrastruktur TI adalah
keamanan, kinerja, dan ketersediaan.
 Atribut non-fungsional sangat penting untuk keberhasilan
implementasi dan penggunaan infrastruktur TI, tetapi dalam
proyek, atribut tersebut jarang mendapatkan perhatian yang
sama dengan layanan fungsional.
5
3.2 Persyaratan Non-fungsional
 Adalah tugas arsitek TI atau insinyur persyaratan untuk menemukan persyaratan implisit
pada atribut non-fungsional (persyaratan non-fungsional -NFR).
 Ini bisa sangat sulit, karena apa yang jelas atau diterima begitu saja oleh pelanggan atau
pengguna akhir suatu sistem tidak selalu jelas bagi perancang dan pembuat sistem.
 Dan tidak ketinggalan persyaratan non-fungsional yang dimiliki pemangku kepentingan
lainnya, seperti keberadaan jendela layanan atau kemampuan pemantauan, yang
merupakan persyaratan penting bagi manajer sistem.
 Penting untuk diingat bahwa penerimaan suatu sistem sebagian besar tergantung pada
persyaratan non-fungsional yang diterapkan. Sebuah situs web bisa sangat indah dan
fungsional, tetapi jika memuat situs (kinerja, persyaratan non-fungsional) membutuhkan
waktu 30 detik, sebagian besar pelanggan hilang!
6
4 KONSEP KETERSEDIAAN
4.1 Pendahuluan
4.2 Menghitung ketersediaan
4.3 Sumber ketidaktersediaan
4.4 Pola ketersediaan
7
Introduction
 Semua orang
mengharapkan
infrastruktur mereka
tersedia setiap saat
 Ketersediaan infrastruktur
yang dijamin 100% adalah
tidak mungkin
Menghitung ketersediaan (availability)
 Ketersediaan tidak dapat dihitung, atau dijamin dimuka
 Ketersediaan hanya dapat dilaporkan setelahnya, ketika sistem telah
berjalan selama beberapa tahun
 Selama bertahun-tahun, banyak pengetahuan dan pengalaman
diperoleh tentang bagaimana merancang sistem yang tersedia
tinggi (high available systems)
 Menghindari kegagalan (failover)
 Redundansi
 Pemrograman terstruktur
 Menghindari Titik Kegagalan Tunggal (Single Points of Failures, SPOFs)
 Menerapkan manajemen sistem 9
Menghitung ketersediaan (availability)
 Ketersediaan sistem biasanya dinyatakan sebagai
persentase waktu aktif dalam periode waktu tertentu
 Biasanya satu tahun atau satu bulan
 Contoh untuk waktu henti (downtime) yang dinyatakan
dalam persentase per tahun:
Availability %
Downtime
per year
Downtime
per month
Downtime
per week
99.8% 17.5 hours 86.2 minutes 20.2 minutes
99.9% ("three nines") 8.8 hours 43.2 minutes 10.1 minutes
99.99% ("four nines") 52.6 minutes 4.3 minutes 1.0 minutes
99.999% ("five nines") 5.3 minutes 25.9 seconds 6.1 seconds
Menghitung ketersediaan (availability)
 Persyaratan umum yang digunakan dalam perjanjian tingkat
layanan (service level agreements, SLA) saat ini adalah
ketersediaan 99,8% atau 99,9% per bulan untuk sistem TI
lengkap
 Ketersediaan infrastruktur harus jauh lebih tinggi
 Biasanya di kisaran 99,99% atau lebih tinggi
 Waktu aktif 99,999% juga dikenal sebagai ketersediaan tingkat
operator
 Untuk satu komponen
 Tingkat ketersediaan yang lebih tinggi untuk sistem yang lengkap sangat
jarang, karena hampir tidak mungkin dicapai
Menghitung ketersediaan (availability)
Adalah praktik yang baik untuk menyepakati frekuensi
maksimum ketidaktersediaan
Unavailability
(minutes)
Number of events
(per year)
0 – 5 <= 35
5 – 10 <= 10
10 – 20 <= 5
20 – 30 <=2
> 30 <= 1
MTBF dan MTTR
 Waktu Rata-Rata Antara Kegagalan
(Mean Time Between Failures, MTBF)
 Waktu rata-rata yang berlalu di antara kegagalan
 Waktu Rata-Rata Untuk Perbaikan
(Mean Time To Repair, MTTR)
 Waktu yang dibutuhkan untuk pulih dari kegagalan
MTBF dan MTTR
 Beberapa komponen memiliki MTBF lebih tinggi
daripada yang lain
 Beberapa MTBF yang khas:
Component MTBF (hours)
Hard disk 750,000
Power supply 100,000
Fan 100,000
Ethernet Network Switch 350,000
RAM 1,000,000
MTTR
MTTR dapat dijaga tetap rendah dengan:
 Memiliki kontrak layanan dengan pemasok
 Memiliki suku cadang di tempat
 Redundansi dan failover otomatis
MTTR
Langkah-langkah untuk menyelesaikan perbaikan:
 Pemberitahuan kegagalan (waktu sebelum melihat pesan
alarm)
 Memproses alarm
 Menemukan akar penyebab kesalahan
 Mencari informasi perbaikan
 Mendapatkan komponen cadangan dari penyimpanan
 Menginstruksikan teknisi datang ke pusat data dengan
komponen cadangan
 Memperbaiki kesalahan secara fisik
 Memulai ulang (restarting) dan menguji komponen
Quiz Interaktif
 Tuliskan formula perhitungan ketersediaan (availability) jika
diketahui nilai MTBF dan MTTR.
17
Contoh perhitungan
Availability =
MTBF
MTBF + MTTR
× 100%
Component MTBF (h) MTTR (h) Availability in %
Power supply 100,000 8 0.9999200 99.99200
Fan 100,000 8 0.9999200 99.99200
System board 300,000 8 0.9999733 99.99733
Memory 1,000,000 8 0,9999920 99.99920
CPU 500,000 8 0.9999840 99.99840
Network
Interface
Controller (NIC)
250,000 8 0.9999680 99.99680
Contoh perhitungan
 Komponen serial: Satu cacat menyebabkan waktu
henti
 Contoh: ketersediaan sistem di atas adalah:
0.9999200 × 0.9999200 × 0.9999733 × 0.9999920
× 0.9999840 × 0.9999680 = 0.99977 = 𝟗𝟗. 𝟗𝟕𝟕%
(ketersediaan setiap komponen setidaknya 99,99%)
Contoh perhitungan
 Komponen paralel: Satu yang gagal: tidak ada waktu henti!
 Tapi hati-hati adanya SPOF!
 Hitung ketersediaan:
𝐴 = 1 − (1 − 𝐴1)𝑛
 Total ketersediaan = 1 − (1 − 0.99)2 = 99.99%
Sumber ketidaktersediaan –
kesalahan manusia
80% pemadaman (outages) yang berdampak pada layanan mission-
critical disebabkan oleh orang dan masalah proses
Contoh:
 Melakukan tes di lingkungan produksi
 Mematikan komponen yang salah untuk keperluan perbaikan
 Menukar disk yang berfungsi baik dalam kumpulan RAID alih-alih
yang rusak
 Memulihkan tape cadangan yang salah ke produksi
 Tidak sengaja menghapus file
 Folder email, file konfigurasi
 Tidak sengaja menghapus entri basis data
 Hapus tabel x alih-alih hapus tabel y
Sumber ketidaktersediaan –
bug perangkat lunak
 Karena kerumitan sebagian besar perangkat lunak, hampir
tidak mungkin (dan sangat mahal) untuk membuat
perangkat lunak bebas bug
 Bug perangkat lunak aplikasi dapat menghentikan seluruh
sistem
 Sistem operasi juga perangkat lunak
 Sistem operasi yang mengandung bug dapat menyebabkan
sistem file rusak, kegagalan jaringan, atau sumber
ketidaktersediaan lainnya
Sumber ketidaktersediaan –
pemeliharaan terencana
 Terkadang diperlukan untuk melakukan tugas manajemen
sistem:
 Meningkatkan (upgrade) perangkat keras atau perangkat lunak
 Menerapkan perubahan perangkat lunak
 Migrasi data
 Pembuatan cadangan
 Hanya boleh dilakukan pada bagian infrastruktur di mana
bagian lain tetap melayani klien
 Selama pemeliharaan terencana, sistem lebih rentan terhadap
waktu henti daripada dalam keadaan normal
 SPOF sementara dapat terjadi
 Manajer sistem bisa membuat kesalahan
Sumber ketidaktersediaan –
cacat fisik
 Semuanya hancur pada akhirnya
 Bagian mekanis kemungkinan besar akan rusak terlebih
dahulu
 Contoh:
 Kipas untuk peralatan pendingin biasanya rusak karena debu di
bantalan
 Disk drive berisi bagian yang bergerak
 Pita (tape) sangat rentan terhadap cacat karena pita diputar dan
dimatikan sepanjang waktu
 Tape drive berisi bagian mekanik yang sangat sensitif yang
dapat dengan mudah rusak
Sumber ketidaktersediaan –
kurva bak mandi
 Kegagalan komponen kemungkinan besar terjadi ketika komponen
masih baru
 Ketika sebuah komponen masih berfungsi setelah bulan pertama,
kemungkinan besar komponen tersebut akan terus bekerja tanpa
kegagalan hingga akhir masa pakainya
Sumber ketidaktersediaan –
masalah lingkungan
Masalah lingkungan dapat menyebabkan waktu henti:
 Fasilitas yang gagal
 Daya listrik
 Pendinginan
 Bencana
 Api / kebakaran
 Gempa bumi
 Banjir
Sumber ketidaktersediaan –
kompleksitas infrastruktur
 Menambahkan lebih banyak komponen ke desain sistem secara
keseluruhan dapat merusak ketersediaan tinggi
 Bahkan jika komponen tambahan diterapkan untuk mencapai
ketersediaan tinggi
 Sistem yang kompleks
 Memiliki lebih banyak titik kegagalan potensial
 Lebih sulit untuk diterapkan dengan benar
 Lebih sulit untuk dikelola
 Terkadang lebih baik memiliki sistem cadangan ekstra di lemari
daripada menggunakan sistem redundan yang rumit
Redundansi
(Redundancy)
 Redundansi adalah duplikasi komponen kritis dalam satu
sistem, untuk menghindari satu titik kegagalan (single point of
failure, SPOF)
 Contoh:
 Satu komponen yang memiliki dua catu daya; jika satu gagal, yang
lain mengambil alih
 Antarmuka jaringan ganda
 Kabel redundan
Kegagalan (Failover)
 Failover adalah peralihan (semi) otomatis ke sistem atau
komponen siaga
 Contoh:
 Windows Server failover clustering
 VMware High Availability
 Oracle Real Application Cluster (RAC) database
Berbalik (Fallback)
 Fallback adalah peralihan manual ke sistem komputer siaga
yang identik di lokasi yang berbeda
 Biasanya digunakan untuk pemulihan bencana
 Tiga bentuk dasar solusi fallback:
 Situs panas (Hot site)
 Situs dingin (Cold site)
 Situs hangat (Warm site)
Fallback – hot site
 Sebuah situs panas (hot site) adalah
 Pusat data fallback yang terkonfigurasi sepenuhnya
 Dilengkapi dengan catu daya dan pendingin
 Aplikasi diinstal di server
 Data tetap up-to-date untuk sepenuhnya mencerminkan sistem
produksi
 Memerlukan pemeliharaan terus-menerus atas perangkat
keras, perangkat lunak, data, dan aplikasi untuk memastikan
lokasi secara akurat mencerminkan keadaan lokasi produksi
setiap saat
Fallback - cold site
 Disiapkan untuk penempatan peralatan yang dapat dibawa
selama keadaan darurat, tetapi tidak ada perangkat keras
komputer yang tersedia di lokasi
 Aplikasi perlu diinstal dan data saat ini sepenuhnya dipulihkan
dari cadangan
 Jika sebuah organisasi memiliki anggaran yang sangat sedikit
untuk situs fallback, situs yang dingin mungkin lebih baik
daripada tidak sama sekali
Fallback - warm site
 Fasilitas komputer yang tersedia dengan daya, pendingin,
dan komputer, tetapi aplikasi mungkin tidak diinstal atau
dikonfigurasi
 Campuran antara situs panas dan situs dingin
 Aplikasi dan data harus dipulihkan dari media cadangan dan
diuji
 Ini biasanya memakan waktu satu hari
Kelangsungan Bisnis
(Business Continuity)
 Bencana TI didefinisikan sebagai masalah yang tidak dapat
diperbaiki di pusat data, membuat pusat data tidak dapat
digunakan
 Bencana alam:
 Banjir
 Badai
 Tornado
 Gempa bumi
 Bencana akibat perbuatan manusia:
 Tumpahan bahan berbahaya
 Kegagalan infrastruktur
 Bio-terorisme
Kelangsungan Bisnis
(Business Continuity)
 Dalam kasus bencana, infrastruktur bisa menjadi tidak
tersedia, dalam beberapa kasus untuk jangka waktu yang
lebih lama
 Manajemen Kontinuitas Bisnis meliputi:
 TI (teknologi informasi)
 Mengelola proses bisnis
 Ketersediaan orang dan tempat kerja dalam situasi bencana
 Perencanaan pemulihan bencana (Disaster recovery
planning, DRP) berisi serangkaian tindakan yang harus
diambil jika terjadi bencana, ketika (bagian dari) infrastruktur
TI harus diakomodasi di lokasi alternatif
RTO and RPO
 RTO dan RPO adalah tujuan/target jika terjadi bencana
 Tujuan Waktu Pemulihan (Recovery Time Objective,
RTO)
 Durasi waktu maksimum di mana proses bisnis harus
dipulihkan setelah bencana, untuk menghindari konsekuensi
yang tidak dapat diterima (seperti kebangkrutan)
RTO dan RPO
 Tujuan Titik Pemulihan (Recovery Point Objective, RPO)
 Titik waktu di mana data harus dipulihkan mengingat beberapa
"kehilangan yang dapat diterima" dalam situasi bencana
 RTO dan RPO adalah tujuan yang berbeda
 Keduanya tidak berhubungan

More Related Content

Similar to M-MIT-02 Konsep Ketersediaan.pptx

Ikram tik
Ikram tikIkram tik
Ikram tik
Ashari Psi
 
M-MIT-03 Konsep Kinerja.pptx
M-MIT-03 Konsep Kinerja.pptxM-MIT-03 Konsep Kinerja.pptx
M-MIT-03 Konsep Kinerja.pptx
RumadiHartawan
 
Konsep Dasar Sistem Operasi
Konsep Dasar Sistem OperasiKonsep Dasar Sistem Operasi
Konsep Dasar Sistem Operasi
aby89
 
Bab ii teknik
Bab ii teknikBab ii teknik
Bab ii teknik
Thomas Ra Urus
 
Dian eka pratiwi 1204411302
Dian eka pratiwi 1204411302Dian eka pratiwi 1204411302
Dian eka pratiwi 1204411302
Kaisal Kaisal
 
pengenalan sistem operasi
pengenalan sistem operasipengenalan sistem operasi
pengenalan sistem operasi
Zumhari Zumhari
 
Ferli Apriadi - Struktur Sistem Operasi
Ferli Apriadi - Struktur Sistem OperasiFerli Apriadi - Struktur Sistem Operasi
Ferli Apriadi - Struktur Sistem Operasi
belajarkomputer
 
Zulyanti Megasari - Struktur Sistem Operasi
Zulyanti Megasari - Struktur Sistem OperasiZulyanti Megasari - Struktur Sistem Operasi
Zulyanti Megasari - Struktur Sistem Operasi
belajarkomputer
 
Bernis Sagita - Struktur Sistem Operasi
Bernis Sagita - Struktur Sistem OperasiBernis Sagita - Struktur Sistem Operasi
Bernis Sagita - Struktur Sistem Operasi
belajarkomputer
 
Disaster Recovery Center and Disaster Recovery Plan
Disaster Recovery Center and Disaster Recovery PlanDisaster Recovery Center and Disaster Recovery Plan
Disaster Recovery Center and Disaster Recovery PlanFarid Er
 
Helen Alida Abilio - Struktur Sistem Operasi
Helen Alida Abilio - Struktur Sistem OperasiHelen Alida Abilio - Struktur Sistem Operasi
Helen Alida Abilio - Struktur Sistem Operasi
belajarkomputer
 
Konsep dasar sistem operasi
Konsep dasar sistem operasiKonsep dasar sistem operasi
Konsep dasar sistem operasi
Akmal Fajar
 
Konsep Dasar Sistem Oprasi
Konsep Dasar Sistem OprasiKonsep Dasar Sistem Oprasi
Konsep Dasar Sistem Oprasi
Yuki Utama
 
Konsep Dasar Sistem Oprasi
Konsep Dasar Sistem OprasiKonsep Dasar Sistem Oprasi
Konsep Dasar Sistem Oprasi
Yuki Utama
 
Presentasi sisitem-operasi
Presentasi sisitem-operasiPresentasi sisitem-operasi
Presentasi sisitem-operasi
melindakanti
 
SISTEM OPERASI & FILE SERVICE TERDISTRIBUSI
SISTEM OPERASI & FILE SERVICE TERDISTRIBUSISISTEM OPERASI & FILE SERVICE TERDISTRIBUSI
SISTEM OPERASI & FILE SERVICE TERDISTRIBUSI
Pramudya Maulana
 
Presentasi sisitem-operasi
Presentasi sisitem-operasiPresentasi sisitem-operasi
Presentasi sisitem-operasiAris Saputro
 
Presentasi sisitem-operasi
Presentasi sisitem-operasiPresentasi sisitem-operasi
Presentasi sisitem-operasi
Omenz Dontcry
 

Similar to M-MIT-02 Konsep Ketersediaan.pptx (20)

Ikram tik
Ikram tikIkram tik
Ikram tik
 
M-MIT-03 Konsep Kinerja.pptx
M-MIT-03 Konsep Kinerja.pptxM-MIT-03 Konsep Kinerja.pptx
M-MIT-03 Konsep Kinerja.pptx
 
Konsep Dasar Sistem Operasi
Konsep Dasar Sistem OperasiKonsep Dasar Sistem Operasi
Konsep Dasar Sistem Operasi
 
Bab ii teknik
Bab ii teknikBab ii teknik
Bab ii teknik
 
Dian eka pratiwi 1204411302
Dian eka pratiwi 1204411302Dian eka pratiwi 1204411302
Dian eka pratiwi 1204411302
 
pengenalan sistem operasi
pengenalan sistem operasipengenalan sistem operasi
pengenalan sistem operasi
 
Ferli Apriadi - Struktur Sistem Operasi
Ferli Apriadi - Struktur Sistem OperasiFerli Apriadi - Struktur Sistem Operasi
Ferli Apriadi - Struktur Sistem Operasi
 
Zulyanti Megasari - Struktur Sistem Operasi
Zulyanti Megasari - Struktur Sistem OperasiZulyanti Megasari - Struktur Sistem Operasi
Zulyanti Megasari - Struktur Sistem Operasi
 
Bernis Sagita - Struktur Sistem Operasi
Bernis Sagita - Struktur Sistem OperasiBernis Sagita - Struktur Sistem Operasi
Bernis Sagita - Struktur Sistem Operasi
 
Disaster Recovery Center and Disaster Recovery Plan
Disaster Recovery Center and Disaster Recovery PlanDisaster Recovery Center and Disaster Recovery Plan
Disaster Recovery Center and Disaster Recovery Plan
 
Helen Alida Abilio - Struktur Sistem Operasi
Helen Alida Abilio - Struktur Sistem OperasiHelen Alida Abilio - Struktur Sistem Operasi
Helen Alida Abilio - Struktur Sistem Operasi
 
Konsep dasar sistem operasi
Konsep dasar sistem operasiKonsep dasar sistem operasi
Konsep dasar sistem operasi
 
Konsep Dasar Sistem Oprasi
Konsep Dasar Sistem OprasiKonsep Dasar Sistem Oprasi
Konsep Dasar Sistem Oprasi
 
Konsep Dasar Sistem Oprasi
Konsep Dasar Sistem OprasiKonsep Dasar Sistem Oprasi
Konsep Dasar Sistem Oprasi
 
Presentasi sisitem-operasi
Presentasi sisitem-operasiPresentasi sisitem-operasi
Presentasi sisitem-operasi
 
Jawaban 1
Jawaban  1Jawaban  1
Jawaban 1
 
SISTEM OPERASI & FILE SERVICE TERDISTRIBUSI
SISTEM OPERASI & FILE SERVICE TERDISTRIBUSISISTEM OPERASI & FILE SERVICE TERDISTRIBUSI
SISTEM OPERASI & FILE SERVICE TERDISTRIBUSI
 
Presentasi sisitem-operasi
Presentasi sisitem-operasiPresentasi sisitem-operasi
Presentasi sisitem-operasi
 
Presentasi sisitem-operasi
Presentasi sisitem-operasiPresentasi sisitem-operasi
Presentasi sisitem-operasi
 
Pertemuan2
Pertemuan2Pertemuan2
Pertemuan2
 

M-MIT-02 Konsep Ketersediaan.pptx

  • 1. 1 Manajemen Infrastruktur TI: MIT-02 Konsep Ketersediaan (Availability Concepts) Rumadi Hartawan, S.T., M.Kom.
  • 2. Buku Acuan 1 IT Infrastructure Architecture Infrastructure Building Blocks and Concepts Third Edition Sjaak Laan Lulu Press Inc, 2017 https://s.id/itia3ed http://www.sjaaklaan.com/ 2
  • 3. 3 PENGANTAR ATRIBUT NON- FUNGSIONAL 3.1 Pendahuluan 3.2 Persyaratan Non-fungsional 3
  • 4. 3.1 Pendahuluan Infrastruktur TI menyediakan layanan untuk aplikasi. Beberapa layanan infrastruktur ini dapat didefinisikan dengan baik sebagai fungsi, seperti menyediakan ruang disk, atau merutekan pesan jaringan. Atribut non-fungsional, di sisi lain, menggambarkan perilaku kualitatif dari suatu sistem, daripada fungsi tertentu. Beberapa contoh atribut non-fungsional adalah:  Ketersediaan (Availability)  Skalabilitas (Scalability)  Keandalan (Reliability)  Stabilitas (Stability)  Kemudahan untuk diuji (Testability)  Kemudahan dipulihkan (Recoverability) 4
  • 5. 3.1 Pendahuluan  Dalam pengalaman penulis, atribut non-fungsional yang paling penting untuk sebagian besar infrastruktur TI adalah keamanan, kinerja, dan ketersediaan.  Atribut non-fungsional sangat penting untuk keberhasilan implementasi dan penggunaan infrastruktur TI, tetapi dalam proyek, atribut tersebut jarang mendapatkan perhatian yang sama dengan layanan fungsional. 5
  • 6. 3.2 Persyaratan Non-fungsional  Adalah tugas arsitek TI atau insinyur persyaratan untuk menemukan persyaratan implisit pada atribut non-fungsional (persyaratan non-fungsional -NFR).  Ini bisa sangat sulit, karena apa yang jelas atau diterima begitu saja oleh pelanggan atau pengguna akhir suatu sistem tidak selalu jelas bagi perancang dan pembuat sistem.  Dan tidak ketinggalan persyaratan non-fungsional yang dimiliki pemangku kepentingan lainnya, seperti keberadaan jendela layanan atau kemampuan pemantauan, yang merupakan persyaratan penting bagi manajer sistem.  Penting untuk diingat bahwa penerimaan suatu sistem sebagian besar tergantung pada persyaratan non-fungsional yang diterapkan. Sebuah situs web bisa sangat indah dan fungsional, tetapi jika memuat situs (kinerja, persyaratan non-fungsional) membutuhkan waktu 30 detik, sebagian besar pelanggan hilang! 6
  • 7. 4 KONSEP KETERSEDIAAN 4.1 Pendahuluan 4.2 Menghitung ketersediaan 4.3 Sumber ketidaktersediaan 4.4 Pola ketersediaan 7
  • 8. Introduction  Semua orang mengharapkan infrastruktur mereka tersedia setiap saat  Ketersediaan infrastruktur yang dijamin 100% adalah tidak mungkin
  • 9. Menghitung ketersediaan (availability)  Ketersediaan tidak dapat dihitung, atau dijamin dimuka  Ketersediaan hanya dapat dilaporkan setelahnya, ketika sistem telah berjalan selama beberapa tahun  Selama bertahun-tahun, banyak pengetahuan dan pengalaman diperoleh tentang bagaimana merancang sistem yang tersedia tinggi (high available systems)  Menghindari kegagalan (failover)  Redundansi  Pemrograman terstruktur  Menghindari Titik Kegagalan Tunggal (Single Points of Failures, SPOFs)  Menerapkan manajemen sistem 9
  • 10. Menghitung ketersediaan (availability)  Ketersediaan sistem biasanya dinyatakan sebagai persentase waktu aktif dalam periode waktu tertentu  Biasanya satu tahun atau satu bulan  Contoh untuk waktu henti (downtime) yang dinyatakan dalam persentase per tahun: Availability % Downtime per year Downtime per month Downtime per week 99.8% 17.5 hours 86.2 minutes 20.2 minutes 99.9% ("three nines") 8.8 hours 43.2 minutes 10.1 minutes 99.99% ("four nines") 52.6 minutes 4.3 minutes 1.0 minutes 99.999% ("five nines") 5.3 minutes 25.9 seconds 6.1 seconds
  • 11. Menghitung ketersediaan (availability)  Persyaratan umum yang digunakan dalam perjanjian tingkat layanan (service level agreements, SLA) saat ini adalah ketersediaan 99,8% atau 99,9% per bulan untuk sistem TI lengkap  Ketersediaan infrastruktur harus jauh lebih tinggi  Biasanya di kisaran 99,99% atau lebih tinggi  Waktu aktif 99,999% juga dikenal sebagai ketersediaan tingkat operator  Untuk satu komponen  Tingkat ketersediaan yang lebih tinggi untuk sistem yang lengkap sangat jarang, karena hampir tidak mungkin dicapai
  • 12. Menghitung ketersediaan (availability) Adalah praktik yang baik untuk menyepakati frekuensi maksimum ketidaktersediaan Unavailability (minutes) Number of events (per year) 0 – 5 <= 35 5 – 10 <= 10 10 – 20 <= 5 20 – 30 <=2 > 30 <= 1
  • 13. MTBF dan MTTR  Waktu Rata-Rata Antara Kegagalan (Mean Time Between Failures, MTBF)  Waktu rata-rata yang berlalu di antara kegagalan  Waktu Rata-Rata Untuk Perbaikan (Mean Time To Repair, MTTR)  Waktu yang dibutuhkan untuk pulih dari kegagalan
  • 14. MTBF dan MTTR  Beberapa komponen memiliki MTBF lebih tinggi daripada yang lain  Beberapa MTBF yang khas: Component MTBF (hours) Hard disk 750,000 Power supply 100,000 Fan 100,000 Ethernet Network Switch 350,000 RAM 1,000,000
  • 15. MTTR MTTR dapat dijaga tetap rendah dengan:  Memiliki kontrak layanan dengan pemasok  Memiliki suku cadang di tempat  Redundansi dan failover otomatis
  • 16. MTTR Langkah-langkah untuk menyelesaikan perbaikan:  Pemberitahuan kegagalan (waktu sebelum melihat pesan alarm)  Memproses alarm  Menemukan akar penyebab kesalahan  Mencari informasi perbaikan  Mendapatkan komponen cadangan dari penyimpanan  Menginstruksikan teknisi datang ke pusat data dengan komponen cadangan  Memperbaiki kesalahan secara fisik  Memulai ulang (restarting) dan menguji komponen
  • 17. Quiz Interaktif  Tuliskan formula perhitungan ketersediaan (availability) jika diketahui nilai MTBF dan MTTR. 17
  • 18. Contoh perhitungan Availability = MTBF MTBF + MTTR × 100% Component MTBF (h) MTTR (h) Availability in % Power supply 100,000 8 0.9999200 99.99200 Fan 100,000 8 0.9999200 99.99200 System board 300,000 8 0.9999733 99.99733 Memory 1,000,000 8 0,9999920 99.99920 CPU 500,000 8 0.9999840 99.99840 Network Interface Controller (NIC) 250,000 8 0.9999680 99.99680
  • 19. Contoh perhitungan  Komponen serial: Satu cacat menyebabkan waktu henti  Contoh: ketersediaan sistem di atas adalah: 0.9999200 × 0.9999200 × 0.9999733 × 0.9999920 × 0.9999840 × 0.9999680 = 0.99977 = 𝟗𝟗. 𝟗𝟕𝟕% (ketersediaan setiap komponen setidaknya 99,99%)
  • 20. Contoh perhitungan  Komponen paralel: Satu yang gagal: tidak ada waktu henti!  Tapi hati-hati adanya SPOF!  Hitung ketersediaan: 𝐴 = 1 − (1 − 𝐴1)𝑛  Total ketersediaan = 1 − (1 − 0.99)2 = 99.99%
  • 21. Sumber ketidaktersediaan – kesalahan manusia 80% pemadaman (outages) yang berdampak pada layanan mission- critical disebabkan oleh orang dan masalah proses Contoh:  Melakukan tes di lingkungan produksi  Mematikan komponen yang salah untuk keperluan perbaikan  Menukar disk yang berfungsi baik dalam kumpulan RAID alih-alih yang rusak  Memulihkan tape cadangan yang salah ke produksi  Tidak sengaja menghapus file  Folder email, file konfigurasi  Tidak sengaja menghapus entri basis data  Hapus tabel x alih-alih hapus tabel y
  • 22. Sumber ketidaktersediaan – bug perangkat lunak  Karena kerumitan sebagian besar perangkat lunak, hampir tidak mungkin (dan sangat mahal) untuk membuat perangkat lunak bebas bug  Bug perangkat lunak aplikasi dapat menghentikan seluruh sistem  Sistem operasi juga perangkat lunak  Sistem operasi yang mengandung bug dapat menyebabkan sistem file rusak, kegagalan jaringan, atau sumber ketidaktersediaan lainnya
  • 23. Sumber ketidaktersediaan – pemeliharaan terencana  Terkadang diperlukan untuk melakukan tugas manajemen sistem:  Meningkatkan (upgrade) perangkat keras atau perangkat lunak  Menerapkan perubahan perangkat lunak  Migrasi data  Pembuatan cadangan  Hanya boleh dilakukan pada bagian infrastruktur di mana bagian lain tetap melayani klien  Selama pemeliharaan terencana, sistem lebih rentan terhadap waktu henti daripada dalam keadaan normal  SPOF sementara dapat terjadi  Manajer sistem bisa membuat kesalahan
  • 24. Sumber ketidaktersediaan – cacat fisik  Semuanya hancur pada akhirnya  Bagian mekanis kemungkinan besar akan rusak terlebih dahulu  Contoh:  Kipas untuk peralatan pendingin biasanya rusak karena debu di bantalan  Disk drive berisi bagian yang bergerak  Pita (tape) sangat rentan terhadap cacat karena pita diputar dan dimatikan sepanjang waktu  Tape drive berisi bagian mekanik yang sangat sensitif yang dapat dengan mudah rusak
  • 25. Sumber ketidaktersediaan – kurva bak mandi  Kegagalan komponen kemungkinan besar terjadi ketika komponen masih baru  Ketika sebuah komponen masih berfungsi setelah bulan pertama, kemungkinan besar komponen tersebut akan terus bekerja tanpa kegagalan hingga akhir masa pakainya
  • 26. Sumber ketidaktersediaan – masalah lingkungan Masalah lingkungan dapat menyebabkan waktu henti:  Fasilitas yang gagal  Daya listrik  Pendinginan  Bencana  Api / kebakaran  Gempa bumi  Banjir
  • 27. Sumber ketidaktersediaan – kompleksitas infrastruktur  Menambahkan lebih banyak komponen ke desain sistem secara keseluruhan dapat merusak ketersediaan tinggi  Bahkan jika komponen tambahan diterapkan untuk mencapai ketersediaan tinggi  Sistem yang kompleks  Memiliki lebih banyak titik kegagalan potensial  Lebih sulit untuk diterapkan dengan benar  Lebih sulit untuk dikelola  Terkadang lebih baik memiliki sistem cadangan ekstra di lemari daripada menggunakan sistem redundan yang rumit
  • 28. Redundansi (Redundancy)  Redundansi adalah duplikasi komponen kritis dalam satu sistem, untuk menghindari satu titik kegagalan (single point of failure, SPOF)  Contoh:  Satu komponen yang memiliki dua catu daya; jika satu gagal, yang lain mengambil alih  Antarmuka jaringan ganda  Kabel redundan
  • 29. Kegagalan (Failover)  Failover adalah peralihan (semi) otomatis ke sistem atau komponen siaga  Contoh:  Windows Server failover clustering  VMware High Availability  Oracle Real Application Cluster (RAC) database
  • 30. Berbalik (Fallback)  Fallback adalah peralihan manual ke sistem komputer siaga yang identik di lokasi yang berbeda  Biasanya digunakan untuk pemulihan bencana  Tiga bentuk dasar solusi fallback:  Situs panas (Hot site)  Situs dingin (Cold site)  Situs hangat (Warm site)
  • 31. Fallback – hot site  Sebuah situs panas (hot site) adalah  Pusat data fallback yang terkonfigurasi sepenuhnya  Dilengkapi dengan catu daya dan pendingin  Aplikasi diinstal di server  Data tetap up-to-date untuk sepenuhnya mencerminkan sistem produksi  Memerlukan pemeliharaan terus-menerus atas perangkat keras, perangkat lunak, data, dan aplikasi untuk memastikan lokasi secara akurat mencerminkan keadaan lokasi produksi setiap saat
  • 32. Fallback - cold site  Disiapkan untuk penempatan peralatan yang dapat dibawa selama keadaan darurat, tetapi tidak ada perangkat keras komputer yang tersedia di lokasi  Aplikasi perlu diinstal dan data saat ini sepenuhnya dipulihkan dari cadangan  Jika sebuah organisasi memiliki anggaran yang sangat sedikit untuk situs fallback, situs yang dingin mungkin lebih baik daripada tidak sama sekali
  • 33. Fallback - warm site  Fasilitas komputer yang tersedia dengan daya, pendingin, dan komputer, tetapi aplikasi mungkin tidak diinstal atau dikonfigurasi  Campuran antara situs panas dan situs dingin  Aplikasi dan data harus dipulihkan dari media cadangan dan diuji  Ini biasanya memakan waktu satu hari
  • 34. Kelangsungan Bisnis (Business Continuity)  Bencana TI didefinisikan sebagai masalah yang tidak dapat diperbaiki di pusat data, membuat pusat data tidak dapat digunakan  Bencana alam:  Banjir  Badai  Tornado  Gempa bumi  Bencana akibat perbuatan manusia:  Tumpahan bahan berbahaya  Kegagalan infrastruktur  Bio-terorisme
  • 35. Kelangsungan Bisnis (Business Continuity)  Dalam kasus bencana, infrastruktur bisa menjadi tidak tersedia, dalam beberapa kasus untuk jangka waktu yang lebih lama  Manajemen Kontinuitas Bisnis meliputi:  TI (teknologi informasi)  Mengelola proses bisnis  Ketersediaan orang dan tempat kerja dalam situasi bencana  Perencanaan pemulihan bencana (Disaster recovery planning, DRP) berisi serangkaian tindakan yang harus diambil jika terjadi bencana, ketika (bagian dari) infrastruktur TI harus diakomodasi di lokasi alternatif
  • 36. RTO and RPO  RTO dan RPO adalah tujuan/target jika terjadi bencana  Tujuan Waktu Pemulihan (Recovery Time Objective, RTO)  Durasi waktu maksimum di mana proses bisnis harus dipulihkan setelah bencana, untuk menghindari konsekuensi yang tidak dapat diterima (seperti kebangkrutan)
  • 37. RTO dan RPO  Tujuan Titik Pemulihan (Recovery Point Objective, RPO)  Titik waktu di mana data harus dipulihkan mengingat beberapa "kehilangan yang dapat diterima" dalam situasi bencana  RTO dan RPO adalah tujuan yang berbeda  Keduanya tidak berhubungan

Editor's Notes

  1. 3 INTRODUCTION TO NON-FUNCTIONAL ATTRIBUTES 3.1 Introduction 3.2 Non-functional Requirements
  2. IT infrastructures provide services to applications. Some of these infrastructure services can be well defined as a function, like providing disk space, or routing network messages. Non-functional attributes, on the other hand, describe the qualitative behavior of a system, rather than specific functionalities. Some examples of non-functional attributes are: · Availability · Scalability · Reliability · Stability · Testability · Recoverability
  3. In my experience, the most important non-functional attributes for most IT infrastructures are security, performance, and availability. Non-functional attributes are very important for the successful implementation and use of an IT infrastructure, but in projects, they rarely get the same attention as the functional services.
  4. It is the IT architect or requirements engineer’s job to find implicit requirements on non-functional attributes (the non-functional requirements -NFRs). This can be very hard, since what is obvious or taken for granted by the customers or end users of a system is not always obvious to the designers and builders of the system. And not to forget the non-functional requirements that other stakeholders have, like the existence of service windows or monitoring capabilities, which are important requirements for systems managers. It is important to remember that the acceptance of a system is largely dependent on the implemented non-functional requirements. A website can be very beautiful and functional, but if loading the site (performance, a non-functional requirement) takes 30 seconds, most customers are gone!
  5. 4 AVAILABILITY CONCEPTS 4.1 Introduction 4.2 Calculating availability 4.3 Sources of unavailability 4.4 Availability patterns
  6. Everyone expects their infrastructure to be available all the time A 100% guaranteed availability of an infrastructure is impossible
  7. Calculating availability Availability can neither be calculated, nor guaranteed upfront It can only be reported on afterwards, when a system has run for some years Over the years, much knowledge and experience is gained on how to design high available systems Failover Redundancy Structured programming Avoiding Single Points of Failures (SPOFs) Implementing systems management
  8. The availability of a system is usually expressed as a percentage of uptime in a given time period Usually one year or one month Example for downtime expressed as a percentage per year:
  9. Typical requirements used in service level agreements today are 99.8% or 99.9% availability per month for a full IT system The availability of the infrastructure must be much higher Typically in the range of 99.99% or higher 99.999% uptime is also known as carrier grade availability For one component Higher availability levels for a complete system are very uncommon, as they are almost impossible to reach
  10. It is good practice to agree on the maximum frequency of unavailability
  11. Mean Time Between Failures (MTBF) The average time that passes between failures Mean Time To Repair (MTTR) The time it takes to recover from a failure Waktu Rata-Rata Antara Kegagalan (MTBF) Waktu rata-rata yang berlalu di antara kegagalan Waktu Rata-Rata Untuk Perbaikan (MTTR) Waktu yang dibutuhkan untuk pulih dari kegagalan
  12. Some components have higher MTBF than others Some typical MTB’s:
  13. MTTR can be kept low by: Having a service contract with the supplier Having spare parts on-site Automated redundancy and failover
  14. Steps to complete repairs: Notification of the fault (time before seeing an alarm message) Processing the alarm Finding the root cause of the error Looking up repair information Getting spare components from storage Having technician come to the datacenter with the spare component Physically repairing the fault Restarting and testing the component
  15. Calculation examples
  16. Serial components: One defect leads to downtime Example: the above system’s availability is: 0.9999200×0.9999200×0.9999733×0.9999920×0.9999840×0.9999680=0.99977=𝟗𝟗.𝟗𝟕𝟕% (each components’ availability is at least 99.99%)
  17. Parallel components: One defect: no downtime! But beware of SPOFs! Calculate availability: 𝐴=1−(1− 𝐴 1 ) 𝑛 Total availability =1−(1−0.99 ) 2 = 99.99%
  18. Sources of unavailability - human errors 80% of outages impacting mission-critical services is caused by people and process issues Examples: Performing a test in the production environment Switching off the wrong component for repair Swapping a good working disk in a RAID set instead of the defective one Restoring the wrong backup tape to production Accidentally removing files Mail folders, configuration files Accidentally removing database entries Drop table x instead of drop table y
  19. Sources of unavailability - software bugs Because of the complexity of most software it is nearly impossible (and very costly) to create bug-free software Application software bugs can stop an entire system Operating systems are software too Operating systems containing bugs can lead to corrupted file systems, network failures, or other sources of unavailability
  20. Sources of unavailability - planned maintenance Sometimes needed to perform systems management tasks: Upgrading hardware or software Implementing software changes Migrating data Creation of backups Should only be performed on parts of the infrastructure where other parts keep serving clients During planned maintenance the system is more vulnerable to downtime than under normal circumstances A temporary SPOF could be introduced Systems managers could make mistakes
  21. Sources of unavailability - physical defects Everything breaks down eventually Mechanical parts are most likely to break first Examples: Fans for cooling equipment usually break because of dust in the bearings Disk drives contain moving parts Tapes are very vulnerable to defects as the tape is spun on and off the reels all the time Tape drives contain very sensitive pieces of mechanics that can break easily
  22. Sources of unavailability - bathtub curve A component failure is most likely when the component is new When a component still works after the first month, it is likely that it will continue working without failure until the end of its life
  23. Sources of unavailability - environmental issues Environmental issues can cause downtime: Failing facilities Power Cooling Disasters Fire Earthquakes Flooding
  24. Sources of unavailability - complexity of the infrastructure Adding more components to an overall system design can undermine high availability Even if the extra components are implemented to achieve high availability Complex systems Have more potential points of failure Are more difficult to implement correctly Are harder to manage Sometimes it is better to just have an extra spare system in the closet than to use complex redundant systems
  25. Redundancy Redundancy is the duplication of critical components in a single system, to avoid a single point of failure (SPOF) Examples: A single component having two power supplies; if one fails, the other takes over Dual networking interfaces Redundant cabling
  26. Failover Failover is the (semi)automatic switch-over to a standby system or component Examples: Windows Server failover clustering VMware High Availability Oracle Real Application Cluster (RAC) database
  27. Fallback Fallback is the manual switchover to an identical standby computer system in a different location Typically used for disaster recovery Three basic forms of fallback solutions: Hot site Cold site Warm site
  28. Fallback – hot site A hot site is A fully configured fallback datacentre Fully equipped with power and cooling Applications are installed on the servers Data is kept up-to-date to fully mirror the production system Requires constant maintenance of the hardware, software, data, and applications to be sure the site accurately mirrors the state of the production site at all times
  29. Fallback - cold site Is ready for equipment to be brought in during an emergency, but no computer hardware is available at the site Applications will need to be installed and current data fully restored from backups If an organization has very little budget for a fallback site, a cold site may be better than nothing
  30. Fallback - warm site A computer facility readily available with power, cooling, and computers, but the applications may not be installed or configured A mix between a hot site and cold site Applications and data must be restored from backup media and tested This typically takes a day
  31. Business Continuity An IT disaster is defined as an irreparable problem in a datacenter, making the datacenter unusable Natural disasters: Floods Hurricanes Tornadoes Earthquakes Manmade disasters: Hazardous material spills Infrastructure failure Bio-terrorism
  32. Business Continuity In case of a disaster, the infrastructure could become unavailable, in some cases for a longer period of time Business Continuity Management includes: IT Managing business processes Availability of people and work places in disaster situations Disaster recovery planning (DRP) contains a set of measures to take in case of a disaster, when (parts of) the IT infrastructure must be accommodated in an alternative location
  33. RTO and RPO RTO and RPO are objectives in case of a disaster Recovery Time Objective (RTO) The maximum duration of time within which a business process must be restored after a disaster, in order to avoid unacceptable consequences (like bankruptcy)
  34. RTO and RPO Recovery Point Objective (RPO) The point in time to which data must be recovered considering some "acceptable loss" in a disaster situation RTO and RPO are individual objectives They are not related