来自 网络 2021-11-06 21:24 的文章

cc防御_ddos防御怎么解释_方法

cc防御_ddos防御怎么解释_方法

什么是网络爬虫?网络爬虫(也称为网络蜘蛛,网络机器人)通常是一个脚本或计算机程序,浏览目标网站在有序和自动化的方式。它是在因特网上收集信息的一种重要方法搜索引擎技术的关键组成部分。最流行的搜索引擎,如GoogleBot和BaiduSpider,都使用底层网络爬虫获取互联网上的最新数据。所有的网络爬虫都占用互联网带宽。但并非所有的网络爬虫都是良性的。一个行为良好的网络爬虫识别自身并平衡爬行频率和内容,从而平衡带宽消耗。另一方面一个行为不良或恶意的网络爬虫会消耗大量带宽并导致中断,尤其是那些依赖网络流量或内容进行业务的公司。对于依赖其网站和在线内容开展业务的公司来说,centos6.5防御cc,如果网络爬虫是由黑客创建的或未经授权的用户和机器人使用,它可以被用来窃取数据和信息的企业有可能向目标网站发起DDOS攻击。如何有效地检测恶意网络爬虫已经成为当今网络威胁防御领域的一个重要课题。网络爬虫特性由于恶意或不良行为的web爬虫主要是运行在bot机器上的脚本编程,所以它们通常对某些变体具有以下行为:高HTTP请求速率,通常并行完成。大量的URL访问量包括URL的总数以及目录的数量与其他文件类型相比,对特定文件类型的请求更多;例如,.html、.pdf文件的请求更多,.jpeg、.PHP文件等的请求更少。很少使用httppost方法,因为主要目的是从网站下载信息而不是上传。由于爬虫程序在尝试爬网之前通常需要确定文件的类型,所以可能会使用更多的httphead方法(与普通的浏览方式相比)。httpget方法返回的较小文件数量可能更大。这是因为,通常情况下,爬虫程序需要在最短的时间内使其爬行的结果最大化,因此跳过那些大文件,转而使用较小的文件。如果一些正在爬网的url需要进一步的认证,爬虫程序发出的HTTP请求将被定向到那些认证页面,从而产生3XX或4XX的HTTP请求返回码。常见的网络爬虫检测方法常用方法,如机器人.txt服务器上的文件,白名单用户代理等,可以检测和阻止一些低级恶意爬虫。高级和复杂的网络爬虫仍然很难被发现,因为它们可以隐藏在合法的爬虫后面。此外,IT部门可以投入时间和资源来收集和分析网络流量日志报告,以发现网络爬虫的隐藏痕迹。以下面的内容托管公司的实际日志数据为例。IT人员在对日志数据进行整理后,可以识别出访问次数最多的IP地址;过滤掉白名单上的IP地址后,局域网ddos防御,可以进一步检查访问次数最多、可疑的IP地址,路由器有ddos防御,如果确定不属于已知和良性列表,则可以采取措施。Hillstone检测可疑网络爬虫的混合方法使用日志数据分析来识别可疑或恶意的web爬虫程序,无论效果如何,都是一项耗费大量人力和持续性的工作,并且通常会消耗IT部门大量的时间和资源。仅仅基于日志数据统计的检测方法通常会产生误报警报,例如,它们无法区分DOS攻击和爬虫。此外,这种方法在检测缓慢移动的网络爬虫时可能是无效的。这是因为通常在任何给定的时间点都会收集到大量的日志数据,日志数据只能存储特定的时间段,而且随着时间的推移,缓慢移动的爬虫通常会丢失所有的踪迹。Hillstone Networks采用了一种混合方法,不仅使用统计日志数据分析,而且更重要的是,专注于行为建模来检测可疑的网络爬虫。这已经被证明在检测复杂的恶意爬虫以及容易丢失踪迹的慢速爬虫方面是有效的。在这种混合方法中,一组预先定义的L3-L7行为特征在数据平面上监视和收集数据,然后使用机器学习算法将这些数据输入到多个行为模型中,这些模型定期学习和描述这些行为特征。同时,对特定时间段内收集的网络和应用程序级流量日志数据进行处理、排序、过滤和分析。在对测井数据进行行为建模和统计分析的预测结果的基础上,定义了一组相关规则来关联不同检测模块的相应结果。它们用于识别那些与具有正常的web访问和浏览行为的IP地址相比是"异常"的IP地址。最终结果是一个分类的威胁事件,ddos攻击防御策略,保存到威胁事件数据库中。该解决方案还为网络和IT人员提供了一个用户界面,可以清楚、准确地看到可疑的网络爬虫活动以及相应的IP地址和其他取证数据,以便他们能够采取适当的措施来减轻这些行为。以下两个示例说明了使用行为建模和分析进行可疑网络爬虫活动和检测:在上面的示例中,您可以注意到以下几点:在左边的图中,红色的点表示HTTP请求的异常,返回代码为3XX。您会注意到有些IP地址有65%的3XX返回码;其他的IP地址有100%的3XX返回码。在右图中,红点表示学习周期内那些具有URL宽度(即访问的目录)请求的异常。一些IP地址在一个学习周期内访问的URL目录数量明显高于其他IP地址。Hillstone的行为模型特征分析了这些异常的IP地址(那些由红点表示的地址),并将那些符合这两个行为异常规则的IP地址关联起来。很容易识别可能正在进行恶意网络爬网的可疑IP。在本例中,IP地址219.149.214.103是一个可疑的候选地址。由于使用行为建模有助于缩小具有显著异常行为的IP地址,因此网络管理员可以很容易地采取正确有效的措施。另一个例子如下:在本例中,我们注意到以下几点:在右图中,红点表示学习周期内那些具有URL宽度(即访问的目录)请求的异常。在一个学习周期中,ddos攻击防御部署,一些IP地址的URL目录访问量明显高于其他地址。在左边的图表中,红点表示那些IP地址与被监视的其他IP地址相比具有异常(更高)的HTML文件请求数。Hilstone行为模型特征将执行和分析异常IP地址(由红点表示的IP地址),并将符合这两个行为异常规则的IP地址关联起来。很容易识别可能正在进行恶意web爬网的可疑IP。在这种情况下,IP地址202.112.90.159就是这样一个可疑的候选者。结论对日志数据使用手动和静态分析(基于大多数访问的IP地址)可能是劳动密集型的,并且会产生更高的成本和更多的开销;但更重要的是,如果它错误地在日志数据中遗漏了IP地址数较低的慢速爬虫程序,则通常是无效的。Hillstone的混合解决方案使用了一种专有的自学习行为建模机制,在检测这些慢爬虫时更有效。它还提供统计分析,以自动检测复杂和可疑的网络爬虫,以及丰富和可操作的法医证据给管理员。共享TweetPinShare0共享