推薦期刊
在線客服

咨詢客服 咨詢客服

客服電話:400-6800558

咨詢郵箱:[email protected]

電子論文

基于SparkStreaming的網絡安全流式大數據態勢感知研究及發展趨勢分析

時間:2020年06月10日 所屬分類:電子論文 點擊次數:

摘要:隨著信息技術的飛速發展和企業信息化建設的不斷完善,網絡和信息系統已經全面覆蓋企業經營、客戶服務等業務領域和各層級應用,網絡和信息安全已經成為一個不容忽視的問題。隨著電力企業網絡安全態勢感知應用實踐的不斷深入,以及泛在電力物聯網的不斷

  摘要:隨著信息技術的飛速發展和企業信息化建設的不斷完善,網絡和信息系統已經全面覆蓋企業經營、客戶服務等業務領域和各層級應用,網絡和信息安全已經成為一個不容忽視的問題。隨著電力企業網絡安全態勢感知應用實踐的不斷深入,以及泛在電力物聯網的不斷建設,網絡安全態勢感知系統面臨著數據吞吐量增大、工作記憶存在局限性的問題。本文研究了網絡安全現狀及網絡安全流式大數據態勢感知關鍵技術,設計了一種基于SparkStreaming的網絡安全流式大數據態勢感知平臺,為高吞吐量、實時數據與歷史數據聯合分析的網絡安全態勢感知系統提供技術思路和解決方法,最后通過分析目前網絡安全態勢分析發展的不足,預測了未來可能的發展趨勢。

  關鍵詞:網絡安全;態勢感知;SparkStreaming;大數據

計算機安全

  國家互聯網應急中心發布的《2018年我國互聯網網絡安全態勢報告》中顯示,2018年勒索病毒攻擊事件頻發,變種數量不斷攀升,重要行業關鍵信息基礎設施逐漸成為勒索軟件的重點攻擊目標;網絡攻擊和風險正向物聯網和智能設備蔓延,路由器、網絡攝像頭等智能設備安全漏洞環比增長8.0%;云平臺也成為網絡攻擊新的重災區,數據泄露風險增加,預測2019年個人信息和重要數據泄露將更加嚴重,同時5G、IPv6等新技術廣泛應用帶來的安全問題也應引起足夠重視。企業面臨越來越嚴峻復雜的網絡空間安全威脅形勢,同時大數據、云計算、物聯網、移動互聯等新技術給我們帶來便利的同時,也帶來了新的安全問題。

  一方面,多年來我們一直專注于架構安全(漏洞管理、系統加固、安全域劃分等)和被動防御能力(IPS、WAF、AV等)的建設,雖取得了一定的成果,卻也遇到發展瓶頸,需要進一步提升安全運營水平的同時,積極開展主動防御能力的建設。另一方面,面對越來越專業的惡意攻擊,我們已無法再用傳統的邊界隔離理念、日漸臃腫的攻擊特征庫,與對方多變的滲透技術、智能的HaaS服務、隱蔽的信道相抗衡了,因此態勢感知成為未來網絡安全的關鍵。

  目前電網企業已經在網絡和信息安全態勢感知方面進行了一些探索和實踐[1],實現了感知脆弱性、感知威脅性、感知全資產的功能,并進一步優化安全態勢監控平臺[2],采用“開關量”狀態監控模式和圖像呈現方式,解決了防護體系碎片化、安全設備孤島化、設備告警數量高、數據價值密度低、人員能力要求高、研判處置拿不準等問題。

  然而,現有的網絡安全態勢感知系統由于實時網絡攻擊數據量較大,無法直接進行存儲及展示,必須進行預處理,并且隨著泛在電力物聯網的不斷建設,網絡安全態勢感知系統的數據吞吐量將會越來越大,現有機制無法滿足網絡安全態勢感知的實時性要求;另外現有的網絡安全態勢感知系統僅僅能階段性地展示一段時間內的攻擊事件,無法將實時數據和歷史數據聯合關聯分析。為了更好地滿足高吞吐量下網絡安全態勢感知的實時性要求并且結合歷史數據更精準地關聯分析,本文提出了一種基于SparkStreaming的網絡安全流式大數據態勢感知系統。

  1網絡安全流式大數據態勢感知關鍵技術

  1.1網絡安全態勢感知的內涵

  網絡安全態勢感知是一種基于環境的動態、整體地洞悉安全風險的能力,是以安全大數據為基礎,從全局視角提升對安全威脅的發現識別、理解分析、響應處置能力的一種方式,最終是為決策和行動服務,是安全能力的落地[3]。網絡安全態勢感知旨在大規模網絡環境中對能夠引起網絡態勢發生變化的安全要素進行獲取、理解、顯示以及最近發展趨勢的順延性預測,實現攻擊行為可發現、安全防護可協同、威脅態勢可預測、安全狀態可度量,進而進行安全態勢感知的相關決策與行動。

  網絡安全態勢感知強調的是環境性、動態性和整體性。環境性是指態勢感知的應用環境是在一個較大的范圍內具有一定規模的網絡;動態性是指態勢隨時間不斷變化,態勢信息既包括過去和當前的狀態,還包括對未來趨勢的預測;整體性是指態勢各實體間相互關系的體現,某些網絡實體狀態發生變化,會影響到其他網絡實體的狀態,進而影響整個網絡的態勢[4]。網絡安全態勢感知包括了時間和檢測內容兩個維度。

  時間維度上,既需要利用已有實時或準實時的檢測技術,同時還需要通過更長時間數據來分析發現異常行為,特別是失陷情況;而內容維度上,則需要覆蓋網絡流量、終端行為、內容載荷三個方面,并完整提供以下5類檢測能力:基于流量特征的實時檢測、基于流量日志的異常分析機制、針對內容的靜態、動態分析機制、基于終端行為特征的實時檢測、基于終端行為日志的異常分析機制[5]。

  1.2SparkStreaming流數據處理技術

  SparkStreaming是構建在Spark上的實時計算框架,它擴展了Spark處理大規模流式數據的能力,具有可擴展、高吞吐量、對于流數據的可容錯性等特點。SparkStreaming將流式計算分解成一系列短小的批處理作業,這里的批處理引擎是Spark,它把SparkStreaming的輸入數據按照批尺寸分成一段段的數據,稱之為DStream(DiscretizedStream),每一段數據都轉換成Spark中的RDD(ResilientDistributedDataset),然后將SparkStreaming中對DStream的Transformation操作轉換為Spark中針對RDD的Transformation操作,并將操作結果保存在內存中。

  根據業務需要,整個流式計算可對中間結果進行疊加,或存儲到外部設備。Spark中的RDD具有良好的容錯機制,每個RDD都是一個不可變的分布式、可重算的數據集,記錄著確定性的操作繼承關系,即使某處輸入數據出錯,仍能通過計算重新恢復。在實時性上,SparkStreaming將流式計算分解成多個SparkJob,每段數據的處理都會經過SparkDAG圖分解以及任務集的調度[6],最小延遲在0.5~2s之間,能滿足大多數實時計算任務。

  Spark已經能線性擴展到100個節點,可以以數秒的延遲處理6GB/s的數據量,其吞吐量也比Storm高3倍以上。與Storm相比,SparkStreaming有幾個明顯的優勢,一是它的吞吐量比Storm等專門的流式數據處理軟件要優秀;二是相比基于Record的其他處理框架,一部分窄依賴的RDD數據集可以從源數據重新計算,達到容錯處理目的。

  三是小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和算法,方便了一些需要歷史數據和實時數據聯合分析的特定應用場合[7];四是它位于Spark生態技術棧中,可以和SparkCore、SparkSQL無縫整合,也就意味著我們可以對實時處理出來的中間數據,立即在程序中無縫進行延遲批處理、交互式查詢等操作[8]。以上四個特點能夠滿足網絡安全態勢感知過程中高吞吐量的數據處理,并且在需要歷史數據和實時數據聯合分析的場景下可以很好地兼容其批量和實時數據處理框架。

  1.3分布式消息隊列系統

  在大規模分布式系統中常使用消息隊列,它是在消息傳輸過程中保存消息的容器或中間件,主要目的是提供消息路由、數據分發并保障消息可靠傳遞,為分布式系統的各個構件之間傳遞消息并提供承載。目前常見的分布式消息隊列中間件產品有Kafka、ActiveMQ、ZeroMQ和RabbitMQ等。從性能和可擴展性上看,ZeroMQ、Kafka、RabbitMQ、ActiveMQ依次遞減。

  從功能種類和應用廣度上看RabbitMQ和ActiveMQ強于Kafka和ZeroMQ。綜合比較的話,與RabbitMQ和ActiveMQ相比較Kafka算是輕量級系統,同時相較于ZeroMQ又能提供消息持久化保證,性能、高可用和可擴展方面表現也很優異,平均表現最好,目前應用場景較多,也非常適合用于網絡安全態勢感知大數據平臺,因此我們選擇將Kafka消息隊列中間件應用于網絡安全流式大數據態勢感知系統。Kafka是LinkedIn開源的分布式消息隊列系統,誕生于2010年,具有極高的吞吐量和較強的擴展性和高可用性,主要用于處理活躍的流式數據。Kafka是顯式的分布式架構,主要涉及三個角色:消息生產者、代理服務器、消息消費者。

  消息生產者產生特定主題的消息并傳入代理服務器集群,代理服務器也稱緩存代理,是Kafka集群中的一臺或多臺服務器,消息消費者訂閱主題并處理其發布的消息,其工作機制如圖2所示。流計算系統的數據源是Kafka的一個典型應用場景,流數據產生系統作為Kafka消息數據的生產者,將數據流分發給Kafka消息主題,流數據計算系統實時消費并計算數據。Kafka有以下幾個主要特點,一是同時為發布和訂閱提供高吞吐量,Kafka每秒可以生產約25萬條消息(50MB),每秒處理55萬條消息(110MB)。

  二是可進行持久化操作,通過將數據持久化到硬盤以及實現多副本,從而防止數據丟失。三是支持在線應用和離線應用的場景。Kafka的這些特點能使它與SparkStreaming配合,支持網絡安全流式大數據態勢感知系統的數據處理工作。

  2基于SparkStreaming的網絡安全態勢感知平臺

  利用Kafka和SparkStreaming關鍵技術,結合批處理和流計算,構建出基于SparkStreaming的網絡安全流式大數據態勢分析平臺架構,該平臺分為數據源、數據采集、數據存儲與管理、數據處理分析、態勢感知場景展示五個層。

  2.1數據源層

  平臺數據源分為四類數據,一是環境業務類數據,主要包括被感知環境中的各類資產和屬性;二是網絡層面數據,主要包括包捕獲數據、會話或流數據、包字符串數據;三是主機層面日志數據,包括各種系統、應用所產生的日志數據等;四是告警數據,來自IDS、防火墻等安全設備或軟件的報警信息。

  2.2數據采集層

  平臺數據采集層針對不同類型和來源的數據,采用不同工具進行數據采集。傳感器部署在網絡設備中直接采集網絡流量數據,網頁爬蟲用于自動抓取特定的互聯網網頁信息,日志收集系統用于將分布在各個設備、系統和應用中的日志數據收集起來進行高效的匯總,數據抽取工具用于將關系型數據庫所存儲的結構化數據抽取到Hadoop大數據平臺中以用于進一步的分析處理,分布式消息隊列用于提供消息路由、數據分發并保障消息可靠傳遞,為分布式系統的各個構件之間傳遞消息并提供承載。

  2.3數據存儲與管理層

  平臺使用分布式文件系統HDFS、分布式數據庫HBase、非關系型數據庫NoSQL等,用于靜態采集數據和分析處理后數據的存儲與管理。

  2.4數據處理分析層

  數據處理分析層結合流計算和批處理,SparkStreaming接收Kafka采集的安全、網絡等設備的日志、告警等實時流數據,進行關聯分析、模糊識別、數據挖掘、機器學習、規則匹配等復雜計算,將結果保存到數據庫或通過網頁進行可視化展示。對于一些分析場合,SparkStreaming還可以兼容批處理算法和實時流數據處理算法,對歷史數據和實時數據進行聯合分析以及交互查詢等操作。通過流計算和批處理的結合,以及用戶的交互查詢,平臺能更出色地對網絡安全態勢進行深度動態感知和整體把握。

  2.5態勢感知場景展示層

  本平臺設計的安全態勢感知場景有五個,分別為網絡攻擊態勢感知、網絡威脅態勢感知、系統脆弱性態勢感知、異常流量態勢感知和用戶行為態勢感知。網絡攻擊態勢感知通過對IDS/IPS、WAF、抗DDOS設備等安全設備、網絡設備采集的數據在時間和空間維度進行分析,并與歷史攻擊進行關聯,通過識別攻擊類型、源IP地址、目標IP地址,為攻擊路徑分析、溯源提供幫助,動態生成安全策略,并實時展示全網安全攻擊情況和趨勢預測。網絡威脅態勢感知通過對防病毒系統、防毒墻、WEB應用防火墻、特種木馬檢測系統、惡意行為檢測系統等安全設備數據進行多維度分析,評估病毒、木馬、惡意代碼等威脅的風險等級并進行預警。

  系統脆弱性態勢感知通過對系統漏洞、安全基線、系統弱口令、安全事件等進行關聯分析,動態感知系統脆弱性并進行預警。異常流量態勢感知,圍繞用戶、業務、關鍵鏈路和互聯網訪問等多個維度的流量分析,通過與丟包率、流量地址范圍、端口范圍、協議類型、流量時間周期分布、流量總值、流量峰值、流量均值范圍等進行對比,識別異常流量并告警。用戶行為態勢感知通過分析用戶終端行為,通過機器學習等算法對用戶行為進行分析,發現偏離基線的用戶安全威脅行為,對潛在的用戶異常行為進行挖掘和判斷。

  3網絡安全態勢感知發展趨勢分析

  目前網絡安全態勢感知已取得了一定成效,但仍存在很多不足。信息過載。在網絡系統中我們能獲取到海量的安全信息并展示,但展示信息大部分是無用信息,態勢感知過程中如果僅僅是加大提供和共享的數據,未能相應的通過快速處理提高數據的質量,會導致超越人類認知局限性的閾值,壓倒相關人員及時進行分析處理的能力,而且片面強調數據采集和可視化,還可能導致網絡安全人員產生“我可以看到一切”的虛假安全感。支持決策能力不足。態勢感知的目的是支持決策和行動執行,目前的態勢感知系統偏重于觀察和理解階段的感知過程,則僅能達到“感而不為”或“知而不為”的殘缺效果。

  如果將觀察階段實現為單純的數據采集和處理,將理解階段實現為可視化展示呈現和按需交互分析,并在預測階段將問題丟給網空安全分析人員,讓他們各自猜測可能的未來發展情況,并讓網空安全防御人員自行琢磨應當采取哪些響應行動措施,就有可能導致低水平態勢感知,而且在海量網絡流量面前,這種完全依賴分析人員處理能力的模式不具有可持續性。

  網絡安全度量指標不統一,F有的信息融合工具和可視化工具,都是針對具體網絡以及網絡的具體任務或運營需求而定制的,各自使用不同的輸入和輸出,因此,需要對工具的輸入與輸出進行標準化,并形成通用的度量指標。針對以上不足,網絡安全態勢感知下一步將向更有效的數據展示、加強系統自動決策能力、統一網絡安全度量指標的方向進一步發展。

  4結語

  本文針對網絡安全采集數據吞吐量大、實時數據需要和歷史數據聯合分析的特點,提出了一種基于SparkStreaming的網絡安全態勢感知平臺。本文研究了網絡安全流式大數據態勢感知的關鍵技術和系統架構,為網絡安全態勢感知技術的發展提供了技術思路和解決方法,并通過分析目前網絡安全態勢分析發展的不足,闡述了網絡安全態勢感知技術的下一步發展趨勢。

  參考文獻:

  [1]陳春霖,屠正偉,郭靚.國家電網公司網絡與信息安全態勢感知的實踐[J].電力信息與通信技術,2017,15(6):3-8.

  [2]張相依,胡威,張書林,等.網絡安全態勢實時監控平臺的設計與實現[J].電力信息與通信技術,2019,17(3):28-34.

  [3]張敏.在治安防控場景下大數據應用方法分析[J].中國安全防范技術與應用,2018,17(6):46-50.

  [4]王旭.網絡安全態勢感知芻議[J].計算機安全,2014,14(1):71-75.

  [5]李雁,高永龍,席新,等.新一代移動警務泛態勢感知安全監測研究探析[J].軟件,2019,40(9):18-22.

  [6]陳麗,王銳.基于SparkStreaming流技術的機動車緝查布控系統設計[J].順德職業技術學院學報,2016,14(4):10-15

  作者:◆靳琳1趙任方2董鐘3

  計算機論文投稿刊物:《計算機安全》雜志是由中華人民共和國信息產業部主管,信息產業部基礎產品發展研究中心主辦,面向國內外公開發行的全面介紹網絡與計算機信息系統安全技術與應用的大型科技類月刊。

嘉盛配资