
Google开源了一个称为SPADE(Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling)半监督异常侦测框架,这个方法的优势在于,能够克服其他半监督异常侦测方法的缺点。SPADE只需要少量已标记与大量未标记资料,即可高效地侦测异常。
异常侦测应用範畴很广,包括API安全、金融诈欺、製造缺陷等领域,皆可透过辨识资料和预期模式的不同,来找出异常项目。SPADE是Google所开发的高效异常侦测方法,其使用一组单类分类器(One-Class Classifiers,OCCs),作为虚拟标籤器和监督分类器,特别适合已标记与未标记样本数量存在分布差异的资料集。
由于建立大规模标记资料集的过程不只耗时且成本昂贵,而SPADE利用半监督学习方法,仅需少量标记资料即可达到良好的侦测效果,进而降低资料标记成本。
研究人员也解释,大多数半监督式方法假设已标记和未标记资料来自相同的分布,也就是已标记和未标记资料由相同的来源或是机制生成,具有相似的分布特性和模式。但是实际情况通常并非如此,已标记资料可能仅包含一种类型的异常,但是未标记资料却包含多种类型的异常,或是标记资料仅包含易于标记的样本。
SPADE能够解决大多数半监督式方法的缺陷,其运作方式是先使用多个单类分类器来学习资料中正常样本的特徵,接着这些分类器分别对未标记的资料进行预测,生成虚拟标籤,猜测异常与正常的资料,但只有当所有分类器一致认为特定样本为异常时,才会真正将其标记为异常。通过虚拟标籤以及原始标记资料,一起训练监督异常模型,完成训练后,该模型便可用于侦测新资料中的异常。
简单来说,SPADE透过猜测异常样本,并利用猜测结果与标记资料一起训练模型,实现更高效精确的异常侦测。