歡迎來到 黑吧安全網 聚焦網絡安全前沿資訊,精華內容,交流技術心得!

基于機器學習檢測僵尸網絡中的域名生成算法

來源:本站整理 作者:佚名 時間:2020-03-11 TAG: 我要投稿

0x01 Absert
惡意軟件通常使用域名生成算法(DGA)作為聯系其C&C服務器的機制。近年來,基于機器學習已經提出了不同的方法來自動檢測生成的域名。但也存在一些問題。第一個問題是,由于缺乏獨立標準,難以系統地比較這些DGA檢測算法。第二個問題是,當這些DGA檢測器的機器學習模型已知時,對手繞過這些分類器的難度如何。
本文比較了同一DGA集合上的兩種不同檢測方法:使用人工特征工程的經典隨機森林和深度學習遞歸神經網絡。獨立進行標準測試并比較兩種最新的DGA檢測方法:
(a)FANCI ,這是最近在USENIX Security 上使用人工特征工程的隨機森林分類器
(b)Woodbridge的LSTM ,這是一種基于深度遞歸神經網絡的分類器
 
0x02 DGA
惡意軟件不知不覺中安裝在計算機上,就可以用于攻擊其他計算機,發送未經請求或網絡釣魚的電子郵件,竊聽通信,竊取電子郵件地址,加密計算機內容,并向用戶請求贖金。解密能力,以及更多惡意方案。存在被感染機器的大型池稱為僵尸網絡,它們由命令和控制(C&C)服務器進行控制。

為了防止這些C&C服務器被關閉或無法訪問,惡意軟件通常使用域名生成算法(DGA),以便每隔一定時間創建一組新的偽隨機域名。上圖為肉雞使用DGA連接到C&C服務器的過程。惡意軟件會生成許多隨機域,然后由惡意軟件進行嘗試,只有僵尸網絡所有者必須注冊其中之一才能使僵尸網絡能夠成功重新連接到其C&C服務器。這使得清除僵尸網絡成為一項艱巨的任務。
相反,識別算法生成的域名可以幫助檢測受感染的主機,并標記旨在控制僵尸網絡的域名注冊?梢猿晒Φ貐^分算法生成域名和人工創建域名的分類器對于安全研究人員、執法人員和網絡運營人員都是很有用的。
在安全和隱私領域,與傳統的機器學習方法相比,深度神經網絡已經證明了其自主查找和提取相關特征的能力以及改進的分類準確性。同樣對于DGA的檢測,最近有相關工作提出了基于深度學習方法的解決方案。但是,惡意攻擊者也可以利用這些AI分類方法來逃避對其惡意軟件的檢測。這些觀察結果反映了一種對抗升級。其一涉及進一步改進高級深度學習方法,以提取更好的功能用于進攻或防御目的。其二是對手試圖繞過安全專家開發的新防御措施,而不論使用哪種機器學習方法。
 
0x03 Ground truth
惡意(DGA)和普通(非DGA)域名的數據是從不同來源收集的:惡意數據集是從DGArchive 獲得的,DGArchive是Fraunhofer FKIE提供并由Daniel Plohmann維護的服務。由于只有有限數量的頂級域(TLD)可用,并且域生成算法使用的特定TLD對分類準確性沒有任何影響,因此從DGA域名中刪除了TLD。當從域名中忽略TLD后,選中DGArchive中的所有DGA,這些DGA中有100,000個或更多唯一記錄的可用域名。這產生了下表所示的26個DGA的列表。

對于普通數據集,許多人選擇了Alexa 訪問量最大的網站的前n個列表。然而事實證明Alexa列表已經包含了DGA生成的域名。此外,與注冊域名的平均相比,最受歡迎的域名列表很可能偏向于更短,更容易發音和更容易記住的域名。因此選擇使用2016年來自知名TLD的前100,000個注冊域名的列表,這些列表根據以下條件過濾:
•域名未出現在以下任何黑名單中:
Google的安全瀏覽列表,
Spamhaus DBL黑名單,
SURBL黑名單。
•沒有使用國際化域名(因為在撰寫本文時所有DGA都不使用國際化(IDN)域名-這使國際化域名對分類不重要)
•DGArchive中未知域名。
對于每個DGA,構建了10萬個普通域名和10萬個惡意域名混合的數據集,使用相同的普通域名數據對每個DGA進行評估。
 
0x04 DGA Classifiers

Woodbridge LSTM:即伍德布里奇等人提出的長期短期記憶(LSTM)神經網絡,STM是一種特定類型的遞歸神經網絡(RNN)。 RNN通常用于識別或預測順序數據中的模式。與前饋神經網絡相反,RNN具有內部的短期記憶,可以保留有關所接收輸入的重要信息。他們通過復制輸出并將其循環回到網絡來實現此目的,如上圖所示。此特性使RNN可以對序列及其上下文有更深入的了解,并預測接下來會發生什么。 LSTM通過使此類網絡能夠在更長的時間內記住其輸入來擴展RNN,從而將其存儲容量擴展到兩個時間步之外。 LSTM中的單元具有可通過一組可編程門進行讀取,寫入或重置的狀態。這些門將輸入連接和循環連接都調制為0到1之間的值,從而使當前狀態在各時間步之間保持不變。
LSTM非常適合識別DGA,因為LSTM可以學習并概括許多DGA的生成過程,而無需基于原始輸入手動進行特征工程。LSTM是一個黑盒的,如果沒有相同的訓練集,攻擊者很難繞過分類器。
Woodbridge LSTM由以下順序層組成:•嵌入層,可將域名字符的可變長度序列轉換為固定長度的零填充要素數組。
•LSTM層,它從嵌入層接收其尺寸為38(編碼26個字符,10個數字,破折號和結束標記)的輸入,并生成128的輸出尺寸
•dropout層為0.5,可防止過度擬合
•密集的輸出層,有一個輸出維度,然后是Sigmoid激活函數
使用5折交叉驗證分別評估每個DGA的分類器的性能:網絡在10個周期內使用4/5的數據進行訓練,批處理大小為128;然后將剩余的1/5數據用于測試經過訓練的網絡。使用不同的數據折疊次數再重復4次,丟棄先前訓練過的網絡,從而確保測試數據從未用于訓練。
 
0x05 FANCI features
根據FANCI對域名進行特征工程,將41個提取的特征送入100棵樹的隨機森林,每棵樹都考慮6個隨機特征,之后使用5折交叉驗證來評估其性能.。FANCI系統不僅通過檢查域名字符序列來檢測DGA生成的域名,還可以查看從NXDomain DNS查詢獲得的其他功能。

[1] [2]  下一頁

【聲明】:黑吧安全網(http://www.www.hfjixin.com)登載此文出于傳遞更多信息之目的,并不代表本站贊同其觀點和對其真實性負責,僅適于網絡安全技術愛好者學習研究使用,學習中請遵循國家相關法律法規。如有問題請聯系我們,聯系郵箱admin@www.hfjixin.com,我們會在最短的時間內進行處理。
  • 最新更新
    • 相關閱讀
      • 本類熱門
        • 最近下載
        百度 好搜 搜狗

        警告:本站禁止未滿18周歲訪客瀏覽,如果當地法律禁止請自覺離開本站!收藏本站:請使用Ctrl+D進行收藏