来自 资讯 2021-11-08 16:06 的文章

海外高防ip_传奇游戏盾_新用户优惠

我们在欺诈和网络安全方面的最新创新之一解决了影响预测分析的一个基本问题:数据不会静止不动。我这是什么意思?任何数据科学家都可以告诉你,模型开发项目从收集、识别、清理和规范化数据的漫长过程开始。这通常是构建模型过程中最长的部分。有许多数据完整性检查,高防cdn代理,以确保适当的数据质量。自相矛盾的是,我们花费大量时间处理的数据并不一定是我们真正关心的数据。我们真正关心的数据是模型将来将要分析的数据——这将不同于我们为构建模型而研究的数据。分析方法包括数据治理,以确保基于当前数据开发的模型能够基于未来数据做出良好的预测。例如,为了验证模式,可以用于建模的数据的"保留样本"将被保留在一边。在神经网络模型的开发中,自建高防cdn,这两个样本称为训练样本和测试样本。开发后,我们监控数据统计、分数分布和模型性能,以确保模型在生产中评分的数据与用于开发模型的开发数据没有太大差异。这就是今天通常的做法。但是为了提高我们快速诊断和解决数据完整性问题和人口变化的能力,我们的数据科学家团队已经创建了一种使用"自动编码器"的动态新方法。我在本月早些时候在纽约举行的数据高峰会议上的演讲中探讨了这一主题。自动编码器的功能与神经网络类似。在欺诈检测中,神经网络接收原始数据,并使用计算"神经元"或节点组成的网络,输出分数。对于自动编码器,过程是相似的,但输出不是分数-它是输入数据的版本或"重建"。通过无监督的机器学习,自动编码器将重建误差最小化,产生越来越像输入的数据集。一旦学习到自动编码器,高防cdn有用吗,它就提供原始数据的压缩分布式表示(编码)。简而言之,一个自动编码器网络被训练来输出输入。这个自动编码器模型很重要,因为它可以指示在模型开发过程中已经和没有看到的未来数据的类型。在重建误差较大的情况下,这意味着在生产中通过模型的数据元素组合与在模型训练期间看到的不同。这可能表明在决策过程中使用的分数将不太准确。让我们看几个有用的例子。诊断数据馈送神经网络的建立可能涉及到来自多个企业的数兆字节的事务数据。标准统计分析通常过于通用,无法发现标准统计数据无法检测的数据完整性问题。自动编码器可以很容易地识别具有不同重建错误的业务之间的事务,这些错误指出了关键的数据完整性问题。这使我们能够修复数据方面,最小化模型分数的影响,并在必要时创建规则来纠正数据质量问题。这些大的重建误差找出了微小的数据质量问题,这些问题对特定的数据段非常重要。例如,我们可能会发现,哈萨克斯坦的交易金额从一个发行人转移。这并不是一个可能影响整个人口的变化,但就在哈萨克斯坦交易的客户而言,小米路由器防御ddos,这可能是相当重要的。监控无监督模型许多无监督的模型都是在几乎没有历史数据的情况下建立的。因此,ddos防御盾,无法根据历史数据训练自动编码器。相反,当我们构建无监督的模型时,我们可以创建一个附带的自动编码器模型,该模型将学习生产数据中的模式并监视更改。然后可以将这两个模型打包在一起并安装到生产环境中。自动编码器定期监测重建误差,并以批处理方式进行计算。当自动编码器模型告诉我们错误增长过大时(这意味着生产环境变化很大),可能需要构建一个新版本的无监督模型。多亏了自动编码器模型,我们对新出现的模式有了深入的了解,这对于未来的无监督模型增强是非常有见地的。在FICO,我们在大海捞针,围绕欺诈和网络安全——这是罕见但重要的迹象,表明事情出了问题。了解呈现给模型的数据几乎无法检测到的变化和操作,有助于我们了解模型在哪些方面可能无法达到最佳效果,并提高我们对新型"针头"的认识,这些"针头"显示了我们的对手在工作。