詳解微軟藍屏事件:爲何一家安全公司能導致如此嚴重的後果?

評論:0

一樁全球IT災難級事件,讓不少微軟員工大爲惱火:明明不是微軟的“鍋”,鋪天蓋地的各種報道卻都是“微軟藍屏”。

7月19日,全球約850萬台裝有Windows操作系統的計算機出現“藍屏”死機現象,出現故障的終端並不限於桌面終端,還覆蓋了大量的服務器和雲節點,包括導致了多個重要的微軟和AWS的雲服務和租戶服務中斷,而且相關主機重新啓動後依然會自動進入藍屏狀態,形成了反復崩潰閉環。

據不完全統計,至少20多個國家在內,包括醫院、銀行、航空公司等大量社會基礎設施一度停擺,造成的直接和間接經濟損失以十億美元計算。

本次事件帶來的後果影響遠遠超過了2007年賽門鐵客誤殺中文版Windows導致的系統藍屏事件,直追2017年的勒索病毒WannaCry,在歷史上注定要留下濃墨重彩的一筆。

而導致這一歷史事件的主角,是一家大多數人並不熟悉的美國網絡安全企業——CrowdStrike。

但其重要程度,絲毫不亞於任何一家海外互聯網巨頭企業。據報道,美國總統拜登專門聽取了關於本次事件的詳細匯報,美國衆議院國土安全委員會還要求CrowdStrike公司CEO喬治·庫爾茨(George Kurtz)前往國會,就這一重大IT事故作證。

事故發生之後,盡管微軟和CrowdStrike用小時級的響應速度,先後發布公告和更新,試圖修復這一問題,但是行業並不十分买账。

一方面,客戶對於CrowdStrike的後續處理並不滿意,喬治·庫爾茨的態度傲慢,CrowdStrike的處理方式簡單粗暴,事故恢復效率不高。CrowdStrike給用戶發放10美元的UberEats外賣代金券作爲補償,還不是每位用戶都有。企業客戶已經在考慮替換甚至起訴CrowdStrike,馬斯克就直言,將在特斯拉所有系統中刪除CrowdStrike。

另一方面,行業更關注的是,爲何一家安全公司居然能輕易導致如此嚴重的後果,微軟的安全審查機制爲何不起作用,以及網絡安全行業該如何自查自醒。

並非軟件升級,而是“規則更新”

洞悉本次事件的原因,首先要清楚CrowdStrike的工作機制,以及微軟和CrowdStrike的合作模式。

2011年,兩位傳統殺毒軟件企業McAfee的高管發起創立CrowdStrike,喬治·庫爾茨在創立CrowdStrike之前曾擔任McAfee公司的CTO。

CrowdStrike核心產品Falcon开啓了多租戶、雲原生、智能安全解決方案的先河,憑借技術、體驗、服務等優勢(也憑借其和美政府良好的關系),迅速領先於同領域企業,並曾較長時間內是諸多網絡安全上市企業中,市值最高的公司之一。

青藤雲安全CEO張福對鈦媒體App表示,CrowdStrike優勢主要有三點,SaaS化、輕量級和威脅情報,三者相輔相成。

SaaS化使得CrowdStrike覆蓋大量客戶,收集大量數據形成足夠豐富的威脅情報,一家企業遇到的問題可以爲其他企業提供預警;威脅情報越強大,就越能識別各種病毒變種,實現輕量級的功能,無需像傳統終端安全軟件對系統做深層次的改動;更加輕量級的模式又能帶來更好的客戶體驗,形成正向循環。

安天科技集團高級副總裁、安天雲安全公司負責人王小豐也表示,CrowdStrike基於雲的安全托管服務和支撐其Falcon產品後面的威脅獵殺工程師,是其核心優勢之一,也正是CrowdStrike導致本次事件的原因。

CrowdStrike直譯爲“聯合打擊”,部分代表了其理念和商業模式。CrowdStrike的威脅獵殺工程師會根據雲平台監測到的线索,比較頻繁地更新和分發威脅數據的檢測/採集配置規則,所以導致本次事件的更新內容,並不是公衆以及部分業內人士誤解的“軟件更新”,而是模塊、主防點和相關配置定義的混合升級。

根據CrowdStrike給出的解釋,程序在增加處理新觀察到的利用命名管道進行C&C通信的惡意代碼活動時,更新相應的配置文件(“C-00000291-”开頭的文件)觸發了一個代碼中的邏輯錯誤,在內核態形成非法內存訪問觸發操作Windows系統藍屏。

也即是說,CrowdStrike每天都要更新多次威脅情報的規則,由於不是軟件版本的更新,所以顯得有些“隨意”,而規則更新導致了連鎖反應,最終造成微軟Windows操作系統崩潰。至於規則更新如何作用於Windows,微軟和CrowdStrike暫未給出原因。

圖片來自網絡

對於微軟和CrowdStrike的合作機制,微軟發言人在接受媒體採訪時表示,2009年微軟與歐盟達成協議。根據該協議要求,微軟承諾給予所有安全軟件與微軟自身軟件相同的Windows內核訪問權限,使得像CrowdStrike這樣的第三方安全軟件开發商的安全產品,可通過Windows客戶端和服務器系統中的API,訪問並執行極其復雜的操作。

微軟認爲,這一政策的代價是系統安全性降低,藍屏死機事件正是這一政策後果的體現。微軟發言人抱怨稱,“盡管公司希望能夠進一步鎖定操作系統以提高安全性,但歐盟的要求使得這一目標難以實現。”

騰訊安全iOA產品運營總監Raymond提到, CrowdStrike目前提供的信息上主要是解釋藍屏原因,但沒有解釋“爲什么沒監測到引發藍屏的錯誤更新”。並且由於缺乏細節,目前沒有明確信息能回答CrowdStrike爲什么沒有提前發現這個錯誤。

微軟Windows生態機制較爲开放,所有軟件都可以隨時、獨立自行提供版本更新、二進制更新、策略模塊更新等機制,每次發布的更新也並不需要微軟審核後才能發布。因此在微軟的視角上看,CrowdStrike是一款可信的安全軟件,其內核驅動csAgent.sys存在可信籤名允許在Windows系統加載,也就難以發現其策略更新引發的csAgent.sys邏輯錯誤而導致藍屏。

CrowdStrike的“傲慢與偏見”

事故之前發生的CrowdStrike,財務指標異常優秀,市值也近千億美元。在本次“藍屏”事件發生前,CrowdStrike已經出現 “傲慢”和“遲緩” 的苗頭。

過去數月,CrowdStrike出現多起穩定性事故,顯得響應遲緩、店大欺客。例如今年4月份CrowdStrike 的防病毒更新導致一家公民技術實驗室的所有 Debian Linux 服務器全部崩潰並無法啓動,類似的問題也出現在 Rocky Linux 系統,均是因爲CrowdStrike 在不同操作系統上的兼容性測試不足。

本次“藍屏”事件發生之後,CrowdStrike的應對依舊不盡如人意。王小豐提到,CrowdStrike後續的聯動處理不夠合格,例如,處置方式的發布需要通過了用戶認證登錄其網站上才能看到,說明其還是擔心事件影響擴散,大量用戶在當時所有主機已經藍屏停擺,根本不具備登錄其網站查看信息的條件。

“令我們特別費解的是,其提供的處置方式進入在安全模式後,手工進行的文件查找和刪除,由於這一事件必須要網管和用戶逐一機器處理,這就使相關操作要消耗掉很多時間,而相關處理可以快速簡單地封裝成一個GUI或行命令工具,幫助用戶節省時間,但CrowdStrike卻一直沒有做,因此我們才在事件的幾個小時之後寫了一個GUI的小工具。”王小豐如是說。

張福表示,CrowdStrike在Windows上覆蓋率很高,Linux和mac上覆蓋的很少,結合CrowdStrike公布的客戶數量和去年30億美金的營收可以推算,其在全球裝機量不超過2000萬台PC。

850萬台機器藍屏,是因爲CrowdStrike推送規則更新的時候,正好有這么多的電腦在线,考慮到全球時區不同,如果有更多電腦在线,本次事件的影響只會更大,CrowdStrike根本沒有設定相應的反饋機制,一推送就是全量。

全球範圍內,中國企業受到本次事件的影響較少,奇安信預估,國內的CrowdStrike軟件裝機量在萬級,相關單位數在百級,用戶主要集中在北上廣深等發達地區。受影響的主要是外企、外企在華分支機構及合資企業,大量這類機構中招,有反饋某個在華外企大量終端中的40%崩潰。

這是因爲CrowdStrike對中國大陸禁售,而且並不是近年來中美關系緊張之後的事,CrowdStrike對中國早有偏見。客觀地說,CrowdStrike是一家典型美國政治生態下的“旋轉門”企業,即公職人員在政府機構與私營組織之間來回任職。

王小豐表示,從創立之初至今,CrowdStrike高管團隊中有大量原聯邦調查局(FBI)及軍方官員,他們在政府任職期間曾參與了高層網絡政策制定、網絡力量以及網絡活動溯源等活動,可爲該公司與美政府的深入合作鋪路。

CrowdStrike現爲美國聯邦政府、美國國防部等機構的主要安全供應商之一,是美國土安全部網絡安全與基礎設施安全局(CISA)組織的聯合網絡防御合作計劃(JCDC)首批成員,是美國防部受控非機密信息(CUI)最高授權級別IL5供應商,這項授權允許美國防部、情報界和其他聯邦機構部署CrowdStrike產品保護最關鍵的非機密資產,構建零信任架構。

從資本方面來看,CrowdStrike也是在美政府背景資本扶植下成長起來的。CrowdStrike從2011年成立到2019年6月在納斯達克上市,華平投資集團(Warburg Pincus)一直是最大股東,參與了多輪融資。投資CrowdStrike決策期間時任華平投資集團董事長曾擔任美財政部長,極力污蔑“中國竊取美國知識產權”。

CrowdStrike擁有先進的威脅情報、事件響應和持續監控能力,這些能力對於美全球推行“向前防御”(Defend Forward)行動至關重要。CrowdStrike服務於美霸權战略。其創始人、前首席技術官德米特裏·阿爾佩羅維奇(Dmitri Alperovitch)更曾長期從事針對中國的“網絡調查”CrowdStrike多次發布在網絡安全問題上抹黑中國的分析報告,是美方構陷抹黑中國的急先鋒廠商。

“盡管CrowdStrike曾反復參與抹黑中國的活動,在面對本次重大全球事件中也顯示出冷漠和傲慢,這都讓我們對其有很大的反感。但我們必須客觀承認,CrowdStrike擁有超強的產品研發和運營服務實力,依然是國際最優秀的安全企業之一。對於CrowdStrike彰顯的出的技術實力和運行模式等,我國的網絡安全產業界需要對其研究、對標、及超越,強化我們自己的先進系統側安全能力和威脅對抗運營體系。”王小豐說道。

國內安全行業應該學到什么?

在中國市場,國內主要相關外資企業、部分使用微軟數據中心的企業、還有一部分爲國外用戶作外包的軟件公司(因境外客戶對供應鏈的統一安全要求),會使用Falcon,而這些廠商也已經开始做兩手准備。

國內的另外一些外資企業,出於價格的原因相當一部分會選擇其他美國廠商(如Palo Alto Network)的替代產品XDR,故國內影響範圍比較小。據悉,CrowdStrike的產品價格在去年翻了三倍。

張福提到,短期內一批客戶已經在准備替換CrowdStrike,另外微軟有自己的終端安全產品(Microsoft Defender for Endpoint),和CrowdStrike是完全競爭關系,CrowdStrike最大的對手可能是微軟自己,企業客戶對微軟的可靠性和兼容性的認可要更高一些。

王小豐也表示,Windows自切換到NT架構後,微軟兼並了多個安全公司,組建了可信計算和應急響應部門,一直在將操作系統的安全能力內置化,同時微軟也在應對安全問題上界定自己的合理邊界,至少微軟很難去解決其他OS場景的安全問題,如Linux、Android等。

“這裏涉及到技術能力,涉及到基礎信息產品廠商和安全廠商的分工問題。但微軟自身安全能力的強化、生態的構建,是非常值得我國操作系統廠商對標學習的。”他說。

Raymond表示,本次事件凸顯了當前全球IT系統的脆弱性風險,主要包括大型機構對單一供應商高依賴的脆弱性、Windows系統自身的脆弱性、網絡安全產品架構的脆弱性。

企業和機構應通過構建多種操作系統服務器資源、多地部署業務等方式,保障在應急時能快速恢復;同時應要求供應商提供的產品具備灰度更新的機制,任何變更類操作均限制在企業和機構內部是逐步覆蓋;

他也認爲,本次藍屏雖然主因是CrowdStrike軟件內核驅動更新引發,但微軟作爲Windows操作系統开發方,可以提供更健壯的windows系統保護機制。比如在藍屏反復出現場景下,能自動屏蔽引發藍屏的根源模塊,保障系統能正常運行;安全廠商應考慮在產品架構模式上進行調整,減少在內核層的工作邏輯佔比,從而降低藍屏等嚴重故障的風險。

在本次微軟藍屏事件中,國內安全行業也在反思己身,CrowdStrike所暴露的問題,國內安全行業也普遍存在,不過由於獨立部署等原因,並沒有引起大規模的IT故障。

一位行業專家表示,“國內終端安全產品能力參差不齊,多數產品在海量終端管理運營結構、內核態的檢測技術、自主的惡意代碼檢測引擎技術、敏捷運營和規則體系方面,不僅和CrowdStrike差距很大,也不及CrowdStrike的主要國際競品。”

近年來國內安全行業陷入行業發展的調整期,行業的沉痾舊疾也得到了大家的重視和討論。

王小豐認爲,國內需求場景、和品類賽道高度碎片化、對客群關系依賴嚴重,反過來導致研發投入耐心不夠、炒作概念包裝潛源創新。規模性安全企業由於基本都是品類橫向生長的結果,難以達成科技行業必須的邊際成本遞減效應。這些都是國內企業必須直面的現狀。

張福表示,“國內安全行業陷入到低效內卷的價格战,以投標爲例,對參數的細節和復雜要求已經超過應有的水平,各個廠商爲了在測試上有優勢,往裏面塞大量的沒什么意義的指標。”

他還提到,最低價中標導致廠商缺乏合理利潤,研發資源投入不足,產品質量和服務無法滿足客戶需求。廠商追求低價中標後,忽視後續技術支持和升級,造成惡性循環。

“海外頭部廠商的安全產品不超過20個,國內頭部廠商的產品超過200個,大家變着花創造概念、發布新產品,但這些產品其實價值很低,也沒有什么太大的作用。國內廠商營收要做大就要不斷發布新產品,市場產品碎片化嚴重,過度依賴新品开發而非提升產品質量和效率,導致內部成本高並最終轉嫁給客戶,雙方利益都會受損。”張福說。

張福感慨道,“現在做安全的代價是非常高的,效率是很低的。但是,沒有哪個產業會拒絕生產力的進步,隨着時代的發展,尤其是中國網安行業有大量優秀的年輕人湧入,他們會推動行業往正確的方向走,也許不久的將來我們就會達到和美國網絡安全行業一樣的水平。”

責任編輯:磐石
發表評論 0條評論