污水监测数据真伪鉴别方法

发布时间:2017-12-29 14:03:55

  申请日2016.12.07

  公开(公告)日2017.05.24

  IPC分类号G06F19/00

  摘要

  本发明涉及鉴别污水监测数据真伪技术领域,综合运用数理统计的方法,首先采用格拉布斯法进行异常值判断并修正时监测数据,再根据《城市污水处理厂污染物排放标准》(GB18918‑2002)要求的级别标准对修正后的时数据进行达标筛选,不满足排放标准的数据剔除,并采用t检验法来验证抽检数据样本均值是否在整体样本均值的接收域,采用χ2检验法来判断样本相对于整体的波动性是否有显著变化,以此实现污水监测数据的纵向对比;采用F检验法和箱线图法来匹配年数据离散程度相近的样本,以此实现污水监测数据的横向对比。本发明对监测数值真实度的检测层层深入,对辨别污水监测数据的真伪具有一定参考价值。

  权利要求书

  1.一种鉴别污水监测数据真伪的方法,其特征在于:综合运用数理统计方法的鉴别流程如下:

  (1)获取污水处理厂污水排放指标时在线监测数据,建立数据表;

  (2)对时在线监测数据进行升序排序;

  (3)运用格拉布斯法对排序后时在线监测数据进行异常值的判断和观测值的修正,判断出的异常值即为异常数据,找出异常值对应的时刻,确定异常值出现的位置,并进行剔除,保留修正数据;

  (4)在修正的时监测数据基础上计算日均值;

  (5)根据《城市污水处理厂污染物排放标准》(GB18918-2002)要求的级别标准对日均值进行达标筛选,不满足排放标准的数据剔除;

  (6)取监测月份和前11个月的年度观测值作为样本基数,通过月均值检验和月均值波动性检验,实现数据的纵向比较;

  (7)匹配年数据离散程度相近的样本,来匹配出具有对比价值的企业,并通过差值波动性分析,实现数据的横向比较;

  (8)由最终检测结果鉴别数据真伪。

  2.如权利要求1所述的一种鉴别污水监测数据真伪的方法,其特征在于:所述数据的纵向比较是与企业历史数据作比较;所述数据的横向比较是同行业同时间段的监测数据作比较。

  3.如权利要求1所述的一种鉴别污水监测数据真伪的方法,其特征在于:所述月均值检验是指采用t检验法来验证抽检数据样本均值是否在整体样本均值的接收域;所述月均值检验是指采用χ2检验法判断样本相对于整体的波动性是否有显著变化,实质是观察每个月数据的离散程度是否符合整体样本的离散程度。

  4.如权利要求1所述的一种鉴别污水监测数据真伪的方法,其特征在于:所述匹配年数据离散程度相近的样本是指采用F检验法确定对照样本的方差范围,并通过减小显著水平α,配合使用箱线图法来缩小范围;所述差值波动性分析是指采用χ2检验法对待测样本和匹配样本的观察值做差,对差值的波动性进行分析。

  说明书

  一种鉴别污水监测数据真伪的方法

  技术领域

  本发明涉及鉴别污水监测数据真伪技术领域,尤其是一种联合运用数理统计原理鉴别污水监测数据真伪的方法。

  背景技术

  当前一些排放污水的企业在经济利益驱使下,采用各种手段对在线监测数据进行造假,例如在监测点稀释污水,私接暗管,篡改监测仪器重要参数等。这些不法行为导致污水监测数据失真,给监测部门的工作带来很大的麻烦。许多监测人员本身业务素质较低,缺少将数据进行科学有效的分析和处理的能力,导致数据的可信度不高,失去评价意义。由于环境监测种类多样,数据数量庞大,大部分审核人员对数据的合理性、报告的规范性等缺乏研究,审核往往流于形式,数据经审核后,常常存在不同程度的问题或错误,致使监测工作陷入被动,甚至造成监测站不应有的损失。

  发明内容

  为了解决上述问题,本发明提出一种鉴别污水监测数据真伪的方法,联合运用数理统计的方法,例如格拉布斯法、箱线图法、t检验法,从数据自身的角度入手,实现监测数据的纵横比较,对监测数值真实度的检测层层深入,为监测数据的合理性和相关性研究提供了技术支持。

  为实现上述目的,本发明采取的技术方案为:一种鉴别污水监测数据真伪的方法,综合运用数理统计方法的鉴别流程如下:

  (1)获取污水处理厂污水排放指标时在线监测数据,建立数据表;

  (2)对时在线监测数据进行升序排序;

  (3)运用格拉布斯法对排序后时在线监测数据进行异常值的判断和观测值的修正,判断出的异常值即为异常数据,找出异常值对应的时刻,确定异常值出现的位置,并进行剔除,保留修正数据;

  (4)在修正的时监测数据基础上计算日均值;

  (5)根据《城市污水处理厂污染物排放标准》(GB18918-2002)要求的级别标准对日均值进行达标筛选,不满足排放标准的数据剔除;

  (6)取监测月份和前11个月的年度观测值作为样本基数,通过月均值检验和月均值波动性检验,实现数据的纵向比较;

  (7)匹配年数据离散程度相近的样本,来匹配出具有对比价值的企业,并通过差值波动性分析,实现数据的横向比较;

  (8)由最终检测结果鉴别数据真伪。

  所述数据的纵向比较是与企业历史数据作比较;所述数据的横向比较是同行业同时间段的监测数据作比较。

  所述月均值检验是指采用t检验法来验证抽检数据样本均值是否在整体样本均值的接收域;所述月均值检验是指采用χ2检验法判断样本相对于整体的波动性是否有显著变化,实质是观察每个月数据的离散程度是否符合整体样本的离散程度。

  所述匹配年数据离散程度相近的样本是指采用F检验法确定对照样本的方差范围,并通过减小显著水平α,配合使用箱线图法来缩小范围;所述差值波动性分析是指采用χ2检验法对待测样本和匹配样本的观察值做差,对差值的波动性进行分析。

  所述格拉布斯法是以正态分布为前提,从多次等精度独立测量过程中剔除粗大误差的方法。对于从总体中抽取一个样本X1,X2…Xi…Xn,对其进行从小到大排列,使X1≤X2…≤Xi…≤Xn,假设Xn是需要检验判别的异常数据,S是样本标准差,对应的概率密度为:所以,

  其中,α(0<α<1)为显著性水平,可根据实际情况取值。通过格拉布斯表可得λ(α,n)值,根据异常数据Xn与平均值的残差是否大于λ(α,n)倍样本标准差σ来判断异常数据是否应当剔除。

  所述箱线图法是利用数据中的五个统计量:最小值、第一四分位数(下四分位数)Q1、第二四分位数(中位数)Q2、第三四分位数(上四分位数)Q3与最大值来鉴别数据中的异常值,包括离群值和极端值,鉴别原理如下:假设从总体中抽取一个样本X1,X2…Xi…Xn,对其进行从小到大排列,使X1≤X2…≤Xi…≤Xn,设Qk为第k四分位数,则有:

  计算四分位距IQR(即Q3-Q1),内限值区间(Q1-1.5IQR和Q3+1.5IQR),在区间外的值即视为异常值。在顺序排列样本后,使用箱型图法判断异常值Xe,Xe必然首先出现在最大值或最小值的位置,即Xe∈{X1,Xn}。确定了异常值的位置根据样本观测值即可定位出虚假样本。剔除异常值后,进行迭代运算,即可修正样本数据。

  所述t检验法是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。对于X1,X2,X3,…Xn,是由服从正态分布N的总体中随机抽取的样本,则统计量为服从自由度为(n-1)的t分布。提出原假设H0:μ0=μ1和备择假设H0:μ0≠μ1。根据实际情况对显著水平α取值,对于统计量T,有分位数使:当T的观测值满足不等式:

  时,就拒绝原假设H0,接收备择假设H1。

  所述χ2检验法是检验服从正态分布总体N的某个样本的波动性是否显著的一种假设检验方法。对于X1,X2,X3,…Xn,是由N(μ,σ2)的总体中随机抽取的样本,和S2的观测值分别为s2。提出原假设H0:和备择假设H0:对于给定的显著水平α,可查χ2分布表确定分位数和若满足

  则接受H0,否则拒绝H0。

  所述F检验是检验两个正态随机变量的总体方差是否相等的一种假设检验方法。设X1,X2,X3,…Xn,是由的总体中随机抽取的样本,Y1,Y2,Y3,…Yn,是由的总体中随机抽取的样本,且样本相互独立,样本方差提出原假设H0:和备择假设H0:如满足不等式

  则接受H0,否则拒绝H0。

相关推荐