美文网首页
基于邻近度的方法

基于邻近度的方法

作者: 战忽局女程序猿 | 来源:发表于2021-05-21 00:03 被阅读0次

1、概述

噪声可以视为特性较弱的异常值;异常值有更高的离群程度分数值。

2、基于距离的度量

核心:最近邻距离

前提假设:异常点的k近邻要远大于正常点

遍历每个数据,计算当前点与其他点的距离,一旦有超过k个点在距离D以内,则标记为非异常点,时间复杂度为N^2.

2.1基于单元的方法

二维情况为例,网格间的距离(单元格边长)为D/(2*根号2),此时,

单元格中两点之间的距离最多为D/2(对角线长度);

一个点与L1(邻居)邻接点之间的距离最大为D(两个单元格对角线);

一个点与它的Lr邻居(r>2)中的一个点之间的距离至少为D;(至少间隔2个单元格)为啥不是单元格边长*2

如果一个单元格中及其L1邻居都包含超过k个数据点,那么这些数据点都不是异常值;

如果单元格及其相邻L1和L2种包含少于k个数据点,则单元格中所有点都是异常点。

基于距离的异常检测

基于距离的异常检测基于点的粒度计算k近邻,精度更细,但是计算量更大。

1、基于分数异常评分输出

1.1Exact k-Nearest neighbor score

每个点的得分=数据集合D中该点到第k个最近邻的距离。

k如何确认是个难点。一般采用平均k

1.2Average k-nearest neighbor score

每个点的得分=数据集合D中该点到k个最近邻点的平均距离。

k如何确认也是一个难题,尝试【1,N/10】

相较于exact k对k的准确度要求小,average k相当于取不同k值情况下exact k得分的平均值

1.3Harmonic k-Nearest Neighbor Score 调和平均近邻分

2、specifying a minimum threshold on the nearest-neighbor distance 

using a maximum threshold on the rank of the k-nearest neighbor distance

概率 f 

距离阈值 β

2.1 分数阈值法

数据集合D中有一个数据O,如果至少有f比例情况下,D中点到O的距离比β大,则该点是一个异常点,写作DB(f,β)。

k = [N(1-f)]

也可以理解为:集合D中一个点,第k个最近邻的距离至少是β

查看的是数据点距离的排名,而非数据点之间的距离具体值

相关文章

  • 基于邻近度的方法

    1、概述 噪声可以视为特性较弱的异常值;异常值有更高的离群程度分数值。 2、基于距离的度量 核心:最近邻距离 前提...

  • 计算句子相似度

    计算句子相似度,①常用方法有基于语义和词序相似度计算方法,②基于关系向量模型基于语义和词序的句子相似度计算方法简介...

  • opencv+python -- 图像模糊处理(三)---边缘保

    双边滤波 双边滤波(Bilateral filter)是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度...

  • bilateralFilter(双边滤波操作)

    概念 双边滤波(Bilateral filter)是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一...

  • 5月组队学习04:基于相似度的方法

    Task04:基于相似度的方法(3天) ● 理解基于距离的异常检测方法 ● 掌握基于密度的LOF算法 1、概述  ...

  • 图像搜索、图像相似度比较

    基于传统图像SIFT方法,基于卷积神经网络方法是两种代表。另外基于图像哈希算法,准确度都不太高。 SIFT方法比较...

  • 基于sklearn的K邻近分类器

    概念 KNN(K临近)分类器应该算是概率派的机器学习算法中比较简单的。基本的思想为在预测时,计算输入向量到每个训练...

  • 第五章 数据分类算法——基于K领近算法的分类器

    5.4 基于K领近算法的分类器 K领近算法(KNN)是查找最邻近的K个样本点,一种用于分类和回归的统计方法,是通过...

  • 图像处理之双边滤波算法

    双边滤波是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一种折中处理,同时考虑空域信息和灰度相似性,...

  • 图像处理之双边滤波算法

    双边滤波是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一种折中处理,同时考虑空域信息和灰度相似性,...

网友评论

      本文标题:基于邻近度的方法

      本文链接:https://www.haomeiwen.com/subject/lhzbjltx.html