IT之家 11 月 19 日消息,Cloudflare 是一家提供關鍵互聯網基礎設施服務的公司,昨晚突發全球故障,包括社交平臺 X(原 Twitter)和 OpenAI 的 ChatGPT 在內的多個網站用戶均出現服務問題,被IT之家小伙伴調侃:上次 Amazon 掛壁帶走了半個互聯網,這(zhe)次 Cloudflare 帶走了(le)剩下半個(ge)。

隨后,Cloudflare 官方發(fa)布博客,解釋了昨(zuo)晚(wan)全球故(gu)障的原因。

世界標準時間 2025 年 11 月 18 日 11:20(IT之家注:北京時間 19:20),Cloudflare 的網絡開始出現無法傳輸核心網絡流量的重要故障。這表現為嘗試訪問客戶站點的(de)互聯網用戶看到(dao)的(de)錯誤頁面,顯示 Cloudflare 網絡內部出現故障。

Cloudflare 官方表示,該問題并非由任何形式的網絡攻擊或惡意活動直接或間接引起。相反,它是由 Cloudflare 數據庫系統權限的變更觸發的,該(gai)變(bian)更導致數據庫向 Cloudflare 機器(qi)人管理系統使用(yong)的“功能(neng)文件(feature file)”中(zhong)輸(shu)出(chu)多個條目(mu)。該(gai)功能(neng)文件隨(sui)(sui)后大(da)小翻倍。預(yu)期之外的大(da)文件隨(sui)(sui)后被傳播到構成網絡的全部機器(qi)上(shang)。
運行在這些機器上的軟件用于跨網絡路由流量,它會讀取這個功能文件,以使 Bot Management 系統能夠及時應對不斷變化的威脅。該軟件對功能文件的大小有限制,這個限制低于其兩倍的大小,導致了軟件失效。
Cloudflare 官方最初錯誤地懷疑是由超大規模 DDoS 攻擊引起的,隨后正確識別了核心問題,并用該文件的早期版本進行了替換。到了北京時間 22:30,核心流量基本恢復正常。在接(jie)下來的幾個小(xiao)時(shi)內,官(guan)方努力減輕網絡各部(bu)分(fen)的負載,隨(sui)著流量重新上線。截至北京(jing)時(shi)間 11 月(yue) 19 日 01:06,Cloudflare 的所有系統(tong)均恢復正常(chang)運行。
下圖展示了(le) Cloudflare 網絡提(ti)供的(de) 5xx 錯誤 HTTP 狀態代碼的(de)數(shu)量。正常情況下,這個數(shu)值應該(gai)非常低(di),并且(qie)在停機開始(shi)之前也是如(ru)此。

圖中 11:20(北京時(shi)間(jian) 19:20)之(zhi)前的(de)量是(shi)網(wang)絡觀察(cha)到(dao) 5xx 錯(cuo)誤(wu)的(de)預(yu)期基(ji)準。峰(feng)值以及隨后的(de)波動表明系(xi)統由于加載了錯(cuo)誤(wu)的(de)特(te)性文件而失效。值得(de)注意的(de)是(shi),系(xi)統在一段時(shi)間(jian)后會自(zi)動恢復,然后又(you)掛(gua)掉。這對于內部錯(cuo)誤(wu)來說(shuo)是(shi)非(fei)常不尋常的(de)行為。
官方解釋稱,該文件每五分鐘由一個在 ClickHouse 數據庫集群上運行的查詢生成,該集群正在逐步更新以改進權限管理。只有當查詢運行在已更新集群部分時才會生成錯誤數據。因此,每五分鐘都有可能生成一組良好或錯誤的配置文件,并迅速在網絡中傳播。
錯誤持續到(dao) 14:30(北京(jing)時間 22:30),直(zhi)到(dao)官方識別并(bing)解決(jue)(jue)了(le)根本問題,通過停止不良(liang)功能文件的生成和傳播(bo),并(bing)將一個已(yi)知良(liang)好的文件手動(dong)插(cha)入到(dao)功能文件分發隊列中(zhong),解決(jue)(jue)了(le)這(zhe)個問題。然后強制重啟了(le)核(he)心(xin)代理。
IT之家附受影響(xiang)的服務如下:
服務 / 產品 | 影響描述 |
|---|---|
核心 CDN 和(he)安全(quan)服(fu)務 | HTTP 5xx 狀態碼(ma)。這(zhe)篇帖子頂部(bu)的屏幕截(jie)圖顯示了典(dian)型錯誤頁面,該頁面會(hui)傳(chuan)遞給(gei)終端用戶(hu)。 |
Turnstile | Turnstile 加載(zai)失敗。 |
Workers KV | Workers KV 返回(hui)了顯著升(sheng)高的(de) HTTP 5xx 錯誤,因(yin)為對 KV 的(de)“前端(duan)”網關的(de)請求由于核心代理故障而失敗。 |
控制面板 | 雖然儀表(biao)盤基本可以正常工作,但(dan)由于登錄頁面上的 Turnstile 不可用(yong),大(da)多數用(yong)戶無法登錄。 |
電子郵件安全 | 雖(sui)然電子郵(you)(you)件(jian)處(chu)理和(he)(he)投(tou)遞(di)未(wei)受(shou)影響,但官方(fang)觀(guan)(guan)察到某個(ge) IP 信譽源的臨時訪(fang)問(wen)中斷,這(zhe)降低了垃圾(ji)郵(you)(you)件(jian)檢(jian)測的準確(que)性(xing),并阻止了一(yi)些新域名年齡(ling)檢(jian)測的觸發(fa),但未(wei)觀(guan)(guan)察到對客(ke)戶(hu)的關鍵影響。官方(fang)還發(fa)現一(yi)些自動遷(qian)移(yi)操作出現故障;所(suo)有受(shou)影響的郵(you)(you)件(jian)已(yi)進行審查和(he)(he)修(xiu)復。 |
訪問 | 對于大多數用戶,身份(fen)驗證失敗普遍存在,從事件開始一直持續到 13:05(北京時(shi)間(jian) 21:05)回滾操作啟動(dong)時(shi)。現(xian)有的訪問會話未受影響。 所(suo)有(you)失敗(bai)的認(ren)證嘗(chang)試都(dou)導致顯示錯誤(wu)頁面,這意(yi)味著在認(ren)證失敗(bai)期間,這些用戶(hu)無法訪問目標應用。在此期間成功(gong)的登(deng)錄(lu)已(yi)被正確記錄(lu)。 當(dang)時嘗試進行的(de)任何 Access 訪問配置更新要么完(wan)全失(shi)敗,要么傳播非常(chang)緩(huan)慢(man)。所有配置更新現已恢復(fu)。 |
廣告聲明:文(wen)內含(han)有(you)的對外跳轉鏈接(包括(kuo)不限(xian)于超(chao)鏈接、二(er)維(wei)碼(ma)、口令(ling)等(deng)形式),用于傳遞更(geng)多信息,節省甄選時間,結果僅供參考(kao),IT之(zhi)家所有(you)文(wen)章均包含(han)本(ben)聲明。