
Pemadaman besar-besaran yang melanda Amazon Web Services Senin pagi dan mematikan beberapa situs dan layanan besar disebabkan oleh masalah internal dalam infrastruktur raksasa cloud tersebut.
Dalam pembaruan baru pada hari Senin pukul 8:43 pagi PT, Amazon mengatakan akar penyebab pemadaman tersebut adalah “subsistem internal yang mendasari yang bertanggung jawab untuk memantau kesehatan penyeimbang beban jaringan kami.”
Pemadaman ini berdampak pada segala hal mulai dari situs termasuk Facebook, Coinbase, dan Amazon sendiri, hingga kios check-in di Bandara LaGuardia.
Amazon mengatakan sedang melihat konektivitas dan pemulihan API untuk layanan AWS.
Aybars Tuncdogan, seorang profesor di King’s College London, mengatakan hal ini berfungsi sebagai tanda peringatan akan potensi situasi yang lebih mengganggu.
“Jika kerentanan serupa sengaja ditargetkan oleh pelaku kejahatan, kerusakan yang ditimbulkan akan jauh lebih buruk,” kata Tuncodgan.
Masalah ini dimulai tak lama setelah tengah malam Pasifik di wilayah Amazon Northern Virginia (US-EAST-1), yang merupakan wilayah cloud tertua dan terbesar di AWS, yang merupakan pusat saraf populer untuk layanan online. Pemadaman besar-besaran yang berasal dari wilayah yang sama juga menyebabkan gangguan yang meluas pada tahun 2017, 2021, dan 2023.
Dalam pembaruan awal, AWS mengatakan pemadaman tersebut terkait dengan masalah resolusi DNS pada produk DynamoDB-nya, yang berarti buku telepon internet gagal menemukan alamat yang benar untuk layanan database yang digunakan oleh ribuan aplikasi untuk menyimpan dan menemukan data.
Pemadaman terbaru menunjukkan bahwa banyak situs belum menerapkan redundansi yang diperlukan untuk segera kembali ke wilayah lain atau penyedia cloud jika terjadi pemadaman AWS.
“Organisasi yang menggunakan layanan cloud publik seperti AWS harus memastikan bahwa mereka mengikuti panduan tanggung jawab bersama dalam model cloud untuk ketahanan, termasuk menggunakan failover multi-regional untuk aplikasi penting, dan idealnya, failover multi-penyedia, untuk membantu meminimalkan dampak gangguan,” kata Marc Laliberte, direktur operasi keamanan di WatchGuard yang berbasis di Seattle.
Tuncodgan mengatakan masalah yang lebih dalam adalah “monokultur teknologi” dalam infrastruktur global dengan sedikit keragaman dalam platform atau penyedia layanan.
“Ini seperti pertanian monokultur – ketika semuanya bergantung pada satu jenis penyakit, satu penyakit dapat memusnahkan seluruh perkebunan, karena semua tanaman memiliki genetika yang sama,” katanya.
Dia mengatakan bahwa meskipun pelanggan dapat merancang redundansi sendiri, penyedia juga dapat mengembangkan berbagai infrastruktur pesaing dalam ekosistem mereka sendiri.
“Kejadian ini kemungkinan besar akan cepat teratasi,” ujarnya. “Namun, kecuali kita memikirkan kembali arsitekturnya (yaitu, kita melakukan desentralisasi dan diversifikasi), kita akan memperkirakan akan terjadi lebih banyak pemadaman sebesar ini, baik karena gangguan atau serangan yang ditargetkan.”
Vaibhav Tupe, anggota senior organisasi profesional teknis IEEE, mengatakan penyedia layanan cloud harus mengisolasi komponen jaringan penting dengan lebih agresif untuk mencegah kegagalan berjenjang ketika sistem inti tidak berfungsi.
“Pemadaman ini menunjukkan bahwa penyedia cloud terbesar sekalipun pun rentan ketika kegagalan terjadi pada tingkat bidang kendali,” katanya. “Hal ini menimbulkan pertanyaan mendasar tentang ketergantungan yang berlebihan pada satu penyedia atau wilayah dan dapat mempercepat permintaan akan arsitektur multi-cloud dan multi-wilayah sebagai harapan dasar akan ketahanan.”