整個網路一夕之間消失的原因

Bitget App

交易「智」變

Bitget

資訊中心

市場

整個網路一夕之間消失的原因

Mpost2025/11/27 12:00

作者:Mpost

簡單來說 11月18日，Cloudflare出現配置錯誤，導致連鎖故障，暫時中斷了X等主要服務。 ChatGPTSpotify 和 Uber 在全球。

想像一下：你醒來，拿起手機，點擊那些常用的圖示。 X 卻加載不出來。 ChatGPT 這並沒有回答你的問題。 YouTube 也不會顯示你的影片。即使 Downdetector 你通常用來檢查設備是否損壞的網站…壞了。

11月18日的幾個小時裡，全世界數百萬人經歷了這樣的現實。 Cloudflare發生重大故障作為現代互聯網背後的關鍵基礎設施公司之一，該公司關閉或降低了包括 X 在內的多種服務。 ChatGPTSpotify、Uber、Canva、英雄聯盟等等。

感覺就像「整個網路」都消失了。但實際上，情況比這要小得多，也可怕得多：一家公司係統中的一個故障，卻引發了波及整個互聯網的大規模崩潰。

Cloudflare究竟出了什麼問題

問題始於美國時間週二（11月18日）清晨。大約早上6點20分（美東時間），Cloudflare發現其一個系統出現了異常流量激增。僅僅幾分鐘後，依賴Cloudflare的網站就出現了故障。開始拋出“內部伺服器錯誤” 全球用戶均遇到頁面顯示錯誤和逾時問題。

隨著Downdetector和社群媒體上故障報告的不斷湧現，Cloudflare發佈公告稱，他們「已意識到並正在調查」影響多位客戶的問題。工程師最終找到了問題根源並推送了修復程序，大約在故障發生三小時後，流量逐漸恢復正常。

該公司強調了一點：沒有跡象表明發生了網路攻擊。這不是DDoS攻擊、勒索軟體事件，也不是國家行為體發動的攻擊。這是一起內部技術故障。但對使用者來說，原因並不重要。他們的體驗很簡單：網路中斷了。

Cloudflare 是做什麼的（以及為什麼你從未聽說過它）

大多數人從未造訪過。 cloudflare.com 雖然是故意的，但他們每天都會訪問其網路。 Cloudflare 位於您和您使用的網站之間的網路「路徑」中間。簡單來說，Cloudflare：

透過快取內容和高效路由流量來加快網站速度（內容分發網絡，或 CDN）；
保護它們免受DDoS攻擊和惡意機器人的侵害；
篩選交通狀況，判斷哪些路段看起來安全，哪些路段看起來不安全。

該公司表示，它負責處理交通流量。大約五分之一的網站在全球範圍內，它每秒還要處理大量的HTTP請求，默默地充當網路流量的保鑣和交通警察。

這種規模在一切運作正常時固然很好。但一旦出現問題，整個網路就會突然變得脆弱不堪。

導致崩潰的小文件

Cloudflare 的事後分析講述了一個出人意料的平淡故事。其機器人和威脅管理系統使用的一個設定檔（本質上是一組規則）是自動產生的。隨著時間的推移，文件越來越大比工程師預期的還要好。

在某個時刻，負責處理多個 Cloudflare 服務流量的軟體達到了一個硬性限制。由於該程式碼中存在一個潛在的漏洞，系統未能正常崩潰。相反，過大的流量導致了崩潰。文件觸發了崩潰在核心交通處理組件中。

事態由此升級：

機器人管理功能嘗試應用新的、過大的配置；
該進程反覆崩潰，而不是拒絕該檔案；
那次崩潰波及到多個依賴相同軟體的服務；
隨著越來越多的節點發生故障，Cloudflare 網路的大部分開始傳回錯誤訊息，而不是網頁。

Cloudflare的技術長Dane Knecht 稱此次停電「令人無法接受」。並表示該公司「辜負」了其客戶和更廣泛的互聯網，承諾做出改變，以防止單一配置錯誤再次引發同樣的連鎖反應。

斷電情況是越來越嚴重，還是只是噪音更大了？

如果你覺得這類事件發生的頻率越來越高，你並不孤單。這次 Cloudflare 服務中斷就在亞馬遜網路服務 (AWS) 發生重大故障導致數千個網站和應用程式癱瘓幾週後，該公司就推出了這款產品。這些網站和應用程式包括 Snapchat、Reddit 以及企業每天依賴的內部工具。

網路監控公司多年來一直在追蹤網路上的大規模中斷事件。他們的數據揭示了一些微妙之處：

每年發生的大面積停電事故數量並沒有激增；
但每次故障的影響都在不斷擴大，因為越來越多的服務依賴相同的中央供應商。

二十年前，如果公司郵件伺服器宕機，只會影響你一天的工作，而且僅限於公司內部。而如今，如果 Cloudflare 或 AWS 發生故障，數百萬用戶和企業都會同時受到影響。

除此之外，人們現在還會把X、Reddit和TikTok上的所有故障都公諸於世。過去可能只是被悄悄當作「維護問題」發生的事件，現在看起來卻像是全球危機。

供應商越少，風險越大

Cloudflare 的服務中斷與我們先前在 AWS、Azure 和其他主要基礎設施廠商身上看到的重複出現的模式相符：

一個微小的內部變化（配置調整、軟體更新、運行異常的腳本）與系統中的某些隱藏假設發生了交互作用；
錯誤處理未能及早發現問題；
自動化系統非但沒有解決問題，反而加劇了問題；
此事件波及眾多依賴相同平台的客戶。

我們已經針對速度、成本和全球規模優化了互聯網。實現這些目標最簡單的方法是使用少數幾家擁有遍布全球的資料中心和世界一流工程團隊的大型服務供應商。

權衡之下，代價是網路覆蓋範圍的縮小。當本地網路服務供應商出現問題時，整個城鎮都會斷網。而當 Cloudflare 出現故障時，就好像整個網路都消失了一樣。

科技領袖們如何看待這場崩盤

雖然馬斯克沒有直接評論 Cloudflare 的漏洞，但他曾多次警告過度集中化的數位基礎設施，尤其是在 X 自身韌性以及向更多自託管系統轉型方面。在 2023 年至 2025 年期間，他經常指出，依賴單一供應商運行大部分互聯網服務是“單點故障問題”，他對 AWS、蘋果、谷歌、Cloudflare 等雲端服務提供商，甚至行動營運商都提出了同樣的批評。

Cloudflare 的首席技術官做出了最強烈、最清楚的回應對於此次服務中斷，Knecht公開道歉，並表示鑑於眾多組織和用戶依賴Cloudflare的基礎設施，此次事件「令人無法接受」。他也強調，這次中斷並非網路攻擊，而是由一個配置錯誤引發的連鎖故障，他表示，防止此類事件再次發生是Cloudflare的首要任務。

亞馬遜網路服務首席佈道官傑夫·巴爾沒有就Cloudflare服務中斷事件發表評論，但他經常討論AWS服務中斷問題。以及全球性失敗背後的普遍模式。他長期以來一直強調：系統互聯程度越高，流程自動化程度越高，發生連鎖錯誤的風險就越大。

最後，Cloudflare 的執行長馬修普林斯發聲了。多年來，他一直專注於網路的精妙架構，尤其是那些直到故障才會引起注意的部分。他經常強調，網路的核心健康取決於韌性，而非完美。

他重複提及的主題包括：