来自 资讯 2021-06-10 13:09 的文章

cdn防御_高透膜防摔吗_3天试用

cdn防御_高透膜防摔吗_3天试用

将此共享按钮添加到FaceBookShare到TwitterTwitterShare到LinkedInLinkedInShare到电子邮件2018年2月14日出版作者:Securonix实验室介绍特征工程是从数据中选择和提取有用的预测信号的过程。我们的目标是创建一组最能代表数据中包含的信息的特征,从而产生一个更简单的模型,可以很好地推广到将来的观察中。方法从数据集中特征分布的统计分析,特别是在可与目标类相关的监督学习中,到基于业务领域知识的非平凡变换和期望特征综合。后一部分,领域专业知识,是数据科学维恩图中最重要的一环:在网络安全领域,领域专业知识也是近年来涌入安全分析领域的新一代数据科学家技能中缺失的一个关键要素。在这一领域,我们曾经与SOC分析师就要使用的传感器以及分析结果对安全性的意义进行对话;现在,主要是与新成立的数据科学团队讨论要使用的算法和应用的分布。两大阵营之间存在明显差距,跨越这一阵营的人才数量不足。统计知识和安全知识对于机器学习在网络安全中的成功实施至关重要,它们在特征工程过程、科学和艺术中的重要性最为突出。科学类数据挖掘是识别具有高信息含量特征的关键步骤,这是建立具有良好预测能力的稳定模型所必需的。无论是使用Tableau等可视化分析工具,15m宽带能防御ddos吗,还是使用R等统计软件包,还是使用简单的Excel电子表格,性价比高的全球高防cdn,我们都希望找到能够反映或近似数据中隐含信号的特征(或其组合),并避免表示噪声和导致过拟合的无关或冗余特征。明显的极端情况,如具有单一唯一值(零方差预测器)的特征以及每个值在数据集中都是唯一的特征(例如日志中的事务ID)是绝对没有信息的,应该排除在外。另一方面,近零方差预测器,cdn高防靠谱吗,除了一个普遍的共同值,还有一小部分不同的值,可能证明有价值的识别外来类或集群,或在一个严重不平衡的数据集(https://tgmstat.wordpress.com/2014/03/06/near-zero-variance-predicators/).冗余特征(左:特征y提供与x相同的信息)和无关特征(右:特征y不区分由x定义的簇)一般来说,在无监督学习中,特征选择比较困难,因为选择的标准是由检测到的簇或模式定义的,而这些又取决于所选的特征集。在监督学习中,类标签通过特征与类之间的关联来指导选择。有多种简单易用的单变量选择方法,如线性关系的皮尔逊相关系数,非线性关系的距离相关,或基于熵的互信息。也可能存在这样的情况:单个特征本身信息量不大,但作为一个整体成为强预测因子,需要应用多元统计方法。这将我们带到过程的实际工程部分:从原始特征转换和提取新信息,以创建更好的预测值。主成分分析(PCA)是一种常用的方法,通过将原始特征转化为一个新的低维空间,从数据中提取具有统计意义的信息。只选择最重要的组件可以减少噪音并强调有意义的特征组合。对于分类特征,可以使用多重对应分析(MCA),对于特征之间的非线性关系,彻底防御cc攻击,可以探索各种变换(https://www.datasciencecentral.com/profiles/blogs/feature-engineering-data-scientist-s-secret-sauce-1).艺术上面概述的一系列方法从以数据为中心的角度进行功能工程,而不考虑模型应用于的业务领域。这种数据驱动的方法对数据科学家有很强的吸引力,因为它具有可移植性和确定性,ddos防御安装,并提供了一套现成的工具来解决新问题。它成功地解决了人工智能中的几个大类问题,导致了自动特征学习的进步和深度学习的蓬勃普及。在网络安全中,数据驱动方法有其优点,但其应用受到数据本身性质的限制:异构且往往复杂的数据字段;稀少、不平衡且有时模棱两可的标签;不一致的事件序列;不断变化的趋势和人类行为的其他印记。暴力强迫这些问题很可能导致一个预测能力弱、假阳性率高的不稳定解,或者是一个非常特殊的小生境预测,对广泛的安全应用几乎没有价值。有很多市场挣扎者和失败的初创公司都用纯数学的方法来说明攻击安全问题的两种情况。在关注与当前网络安全问题相关的特性,以及在创建新的或丰富现有特性以将数据中包含的信息放大到噪声中时,领域专业知识是必不可少的。businessinsight在设计数据的正确表示方面是一个强大的帮助,但是它通常是面向用例的,如果不加以检查,它会给模型带来严重的偏差。考虑几个不协调的模型和交叉验证的结果应该有助于避免陷入"将事实与理论相结合"的陷阱。为了证明功能工程的价值,让我们从一个1.5年内检测到的欺诈活动的简单示例开始。在这段时间内,在2.8万笔交易中,有24笔被标记为欺诈(低于0.1%),如下表所示:欺诈活动的时间轴(左)及其按星期几的细分(右)我们所拥有的就是要进行的交易的时间戳。不管你的神经网络有多深,或者你的随机森林有多大,使用原始时间戳对这种数据进行训练都不会产生任何有意义的预测。另一方面,只要运用一点点领域的专业知识——意识到欺诈更可能发生在下班后或周末——就会产生一个新的完美预测指标:从时间戳中提取的周末指标,可以正确预测24个案例中的22个。有许多方法可以提取相关信息或通过上下文丰富原始特性,从而提供对数据更深入的洞察,从而得到比纯数据驱动模型更准确地反映底层过程的模型。从请求URL中提取的协议和端口,以查明所使用的通信类型;DHCP日志查找将动态IP地址替换为唯一标识所涉及设备的主机名;从扩展名推断出的文件类型以替换实际的文件名;等等。新特性的重要性可以被确定为每个选定的模型,并改进模型,然后用来发现更多隐藏的宝石。寻找信息最丰富的特性没有现成的方法:它是一种艺术形式,它基于生成数据的流程的知识、流程的业务意义和安全含义,以及为暴露其关键属性而进行的大量数据争论。DGA检测让我们看看DGA检测算法所采用的特征工程的一个更复杂的例子。域生成算法(DGA)是恶意软件用来规避黑名单和基于签名的防御措施的一种规避技术。DGA的设计目的是生成大量的域名来阻止阻塞,同时尽量减少与合法的、人工命名的域的冲突。以下是DGA域的一些示例(): 为了检测DGA,该算法攻击其设计原理,特别是寻找信息熵高的名字。首先利用深度优先搜索(DFS)对多语种词典进行分词,然后选择总体熵最小的组合作为域名的最佳词典表示。词熵是以香农熵为模型的其中p_i是长度为i的字典单词数与相同长度字符串中可能的字符置换总数的比率。下面是一个计算示例:单词越长,熵越小。度量熵标准化为平均字长,是衡量域名随机性的一个很好的指标,已被作为训练DGA检测算法的特征之一。下面的图表显示了合法域(Alexa排名前1百万)的域名沿熵轴和域名长度轴的分布情况,以及GOZ和Cryptolocker恶意软件家族。合法的,人为创造的域聚集在低熵区,而GOZ域被明显地分开,具有显著的高熵和窄的长度范围。大多数Cryptolocker域也具有更高的熵,但与合法域的区域仍有大量重叠,需要使用其他功能将它们分开:为了提高检测精度,我们在特征列表中添加了顶级域、字典匹配和数字数,并对Alexa top 1M和多个恶意软件源(由John Bambenek慷慨提供)的域组合训练Random Forest。结果分类器检测到98%的DGA结构域的假阳性率小于1%。智能化的探索和数据的高效生成。统计学与洞察力相结合的科学