Bagaimana Seluruh Internet Hilang Semalam

Bayangkan ini: Anda bangun, ambil ponsel, dan ketuk ikon-ikon yang biasa. X tidak bisa dimuat. ChatGPT tidak menjawab pertanyaan Anda. YouTube tidak menampilkan video Anda. Bahkan Downdetector , situs yang biasanya Anda gunakan untuk memeriksa apakah ada yang rusak, ternyata… rusak.

Selama beberapa jam pada tanggal 18 November, hal itu menjadi kenyataan bagi jutaan orang di seluruh dunia. pemadaman besar di Cloudflare , salah satu perusahaan infrastruktur utama di balik internet modern, menghentikan atau menurunkan berbagai layanan, termasuk X, ChatGPT, Spotify, Uber, Canva, League of Legends, dan banyak lagi.

Rasanya seperti "seluruh internet" telah lenyap. Dalam praktiknya, itu adalah sesuatu yang lebih kecil dan lebih menakutkan: satu kegagalan dalam sistem satu perusahaan yang berdampak luas ke sebagian besar web.

Apa yang Sebenarnya Salah di Cloudflare

Masalah ini dimulai Selasa pagi (18 November) waktu AS. Sekitar pukul 06.20 ET, Cloudflare melihat lonjakan lalu lintas yang tidak biasa melalui salah satu sistemnya. Beberapa menit kemudian, situs web yang mengandalkan Cloudflare mulai menampilkan “kesalahan server internal” halaman dan waktu habis bagi pengguna di seluruh dunia.

Ketika laporan gangguan menumpuk di Downdetector dan media sosial, Cloudflare mengumumkan bahwa mereka "mengetahui dan sedang menyelidiki" masalah yang memengaruhi banyak pelanggan. Para teknisi akhirnya mengidentifikasi penyebabnya dan segera melakukan perbaikan, dengan lalu lintas berangsur-angsur kembali normal sekitar tiga jam setelah gangguan dimulai.

Perusahaan menekankan satu poin penting: tidak ada tanda-tanda serangan siber. Ini bukan DDoS, insiden ransomware, atau aktor negara. adalah kegagalan teknis internal Namun, bagi pengguna, penyebabnya tidak penting. Pengalaman mereka sederhana: internet berhenti berfungsi.

Apa yang Dilakukan Cloudflare (dan Mengapa Anda Belum Pernah Mendengarnya)

Kebanyakan orang tidak pernah berkunjung cloudflare.com sengaja, tetapi mereka menyentuh jaringannya setiap hari. Cloudflare berada di tengah "jalur" internet antara Anda dan situs web yang Anda gunakan. Sederhananya, Cloudflare:

Mempercepat situs dengan menyimpan konten dalam cache dan merutekan lalu lintas secara efisien (jaringan pengiriman konten, atau CDN);
Melindungi mereka dari serangan DDoS dan bot jahat;
Menyaring lalu lintas untuk memutuskan apa yang terlihat aman dan apa yang tidak.

Perusahaan mengatakan mereka menangani lalu lintas untuk sekitar seperlima dari semua situs web di seluruh dunia. Ia juga memproses sebagian besar permintaan HTTP setiap detik, diam-diam bertindak sebagai penjaga dan polisi lalu lintas untuk sebagian besar web.

Skala itu hebat ketika semuanya berjalan lancar. Namun, jika tidak, seluruh internet bisa tiba-tiba terasa rapuh.

File Kecil yang Menyebabkan Kerusakan

Postmortem Cloudflare menceritakan kisah yang sangat biasa saja. Sebuah berkas konfigurasi (pada dasarnya serangkaian aturan) yang digunakan oleh bot dan sistem manajemen ancamannya dibuat secara otomatis. Seiring waktu, file itu bertambah besar daripada yang diharapkan para insinyur.

Pada suatu titik, ia melewati batas keras dalam perangkat lunak yang bertanggung jawab untuk menangani lalu lintas untuk beberapa layanan Cloudflare. Karena bug laten dalam kode tersebut, sistem tidak gagal dengan baik. Sebaliknya, ukuran yang terlalu besar file memicu kerusakan dalam komponen penanganan lalu lintas inti.

Dari situlah, keadaan meningkat:

Fitur manajemen bot mencoba menerapkan konfigurasi baru yang terlalu besar;
Prosesnya berulang kali macet alih-alih menolak berkas;
Kecelakaan itu menyebar ke beberapa layanan yang bergantung pada perangkat lunak yang sama;
Karena semakin banyak node yang gagal, sebagian besar jaringan Cloudflare mulai menampilkan kesalahan, bukan halaman web.

CTO Cloudflare, Dane Knecht, menyebut pemadaman listrik itu “tidak dapat diterima” dan mengatakan perusahaan tersebut telah “mengecewakan” pelanggannya dan internet secara luas, menjanjikan perubahan sehingga satu bug konfigurasi tidak dapat menyebabkan reaksi berantai yang sama lagi.

Apakah Pemadaman Listrik Semakin Parah, atau Justru Lebih Keras?

Jika Anda merasa insiden ini semakin sering terjadi, Anda tidak sendirian. Gangguan Cloudflare ini mendarat hanya beberapa minggu setelah insiden besar Amazon Web Services yang melumpuhkan ribuan situs web dan aplikasi, dari Snapchat dan Reddit hingga peralatan internal yang diandalkan bisnis setiap hari.

Perusahaan pemantau jaringan telah melacak gangguan skala besar di internet selama bertahun-tahun. Data mereka menunjukkan sesuatu yang halus:

Jumlah pemadaman listrik besar setiap tahunnya tidak meningkat drastis;
Namun dampak setiap pemadaman semakin bertambah, karena lebih banyak layanan bergantung pada penyedia pusat yang sama.

Dua puluh tahun yang lalu, jika server email perusahaan Anda bermasalah, hari Anda akan hancur, tetapi hanya untuk perusahaan Anda. Kini, ketika Cloudflare atau AWS mengalami pagi yang buruk, jutaan orang dan bisnis merasakannya sekaligus.

Selain itu, orang-orang kini menyiarkan setiap gangguan di X, Reddit, dan TikTok. Insiden yang dulunya dianggap remeh sebagai "masalah pemeliharaan" kini tampak dan terasa seperti krisis global.

Lebih Sedikit Penyedia, Risiko Lebih Besar

Gangguan Cloudflare sesuai dengan pola berulang yang telah kita lihat dengan AWS, Azure, dan pelaku infrastruktur utama lainnya:

Perubahan internal kecil (perubahan konfigurasi, pembaruan perangkat lunak, skrip yang tidak berfungsi) berinteraksi dengan beberapa asumsi tersembunyi dalam sistem;
Penanganan kesalahan tidak mendeteksinya cukup dini;
Sistem otomatis memperbesar masalah alih-alih mengatasinya;
Insiden ini menyebar ke sejumlah besar pelanggan yang semuanya bergantung pada platform yang sama.

Kami telah mengoptimalkan internet untuk kecepatan, biaya, dan skala global. Cara termudah untuk mencapainya adalah dengan menggunakan beberapa penyedia besar dengan pusat data di mana-mana dan tim teknik kelas dunia.

Imbalannya adalah konsentrasi. Ketika ISP lokal bermasalah, sebuah kota akan offline. Ketika Cloudflare bermasalah, rasanya seluruh internet lenyap begitu saja.

Apa Kata Para Pemimpin Teknologi Tentang Keruntuhan Ini

Meskipun Elon Musk tidak berkomentar langsung tentang bug Cloudflare, ia telah berulang kali memperingatkan tentang infrastruktur digital yang terlalu tersentralisasi, terutama terkait ketahanan X sendiri dan peralihannya ke sistem yang lebih self-hosted. Pada tahun 2023-2025, ia sering menunjukkan bahwa mengandalkan satu penyedia untuk menjalankan sebagian besar internet merupakan "masalah titik kegagalan tunggal", sebuah kritik yang telah ia sampaikan kepada AWS, Apple, Google, lapisan-lapisan bergaya Cloudflare, dan bahkan operator seluler.

CTO Cloudflare sendiri memberikan reaksi yang paling kuat dan jelas Knecht secara terbuka meminta maaf dan mengatakan insiden itu "tidak dapat diterima" mengingat banyaknya organisasi dan pengguna yang mengandalkan infrastruktur Cloudflare. Ia juga menekankan bahwa penyebabnya bukanlah serangan, melainkan bug konfigurasi yang memicu kegagalan berantai, sesuatu yang ia gambarkan sebagai prioritas utama untuk dicegah di masa mendatang.

Jeff Barr, Kepala Evangelist Amazon Web Services, tidak membahas pemadaman Cloudflare, tetapi dia sering membahas pemadaman AWS dan pola umum di balik kegagalan berskala global. Pesannya yang sudah lama dipegang: semakin saling terhubung sistemnya, dan semakin otomatis prosesnya, semakin besar risiko kesalahan berantai.

Dan akhirnya, CEO Cloudflare, Matthew Prince, angkat bicara. Ia telah berbicara selama bertahun-tahun tentang arsitektur internet yang rapuh, terutama bagian-bagian yang tidak disadari hingga rusak. Ia sering berpendapat bahwa kesehatan inti web bergantung pada ketahanan, bukan kesempurnaan.

Dia telah mengulang tema-tema seperti:

Ancaman terbesar adalah kesalahan konfigurasi internal, bukan penyerang;
Redundansi harus tertanam dalam setiap lapisan;
Internet disatukan oleh “sejumlah besar lakban”.

Dia tidak mengeluarkan pernyataan publik yang panjang setelah pemadaman listrik ini, tetapi tema dalam wawancara sebelumnya berlaku secara langsung.