Fast RVM污水处理故障诊断方法

　　申请日2016.01.04

　　公开(公告)日2016.04.13

　　IPC分类号G05B23/02

　　摘要

　　本发明公开的本发明公开了一种Fast?RVM污水处理故障诊断方法，包括以下顺序的步骤：1)剔除掉污水数据中待识别样本中属性不完整的样本，由于各样本属性量纲的不同，对其进行归一化处理，归一化到[0,1]区间中;2)基于聚类的快速相关向量机多数类数据压缩模块;3)虚拟少数类向上采样的少数类数据扩充模块;4)“一对一”的快速相关向量机多分类模型;5)快速相关向量机污水故障诊断建模。本发明通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩充，降低了污水数据的不平衡性，同时采用Fast?RVM对污水生化处理过程建立多分类模型，有效提高了对污水生化处理系统的故障诊断精度。

　　权利要求书

　　1.一种FastRVM污水处理故障诊断方法，其特征在于，包含以下顺序的步骤：

　　S1.剔除污水输入和输出的数据中的异常点，对其进行归一化处理，归一化到[0,1]区间中;

　　S2.基于聚类的快速相关向量机多数类数据压缩模块，将训练样本中的多数类样本数据采用K-means方法进行聚类;

　　S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用SMOTE进行数据扩充;

　　S4.将处理后的所有类的样本数据重新组合构成新的训练集，建立“一对一”的快速相关向量机多分类模型，对建好的分类模型输入测试集进行投票，得到测试结果，从而实现对污水处理的整体运行状态的识别。

　　2.根据权利要求1所述的FastRVM污水处理故障诊断方法，其特征在于，所述的步骤S2，具体为：

　　S201、假设多数类样本集X={x1,x2,…,xi,…,xn}为n个Rd空间的数据，从n个数据对象中随机选择k个对象作为初始的聚类中心;

　　S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中;计算距离的公式如下，假设cj为第j个类的中心，则xi与cj的距离为：

　　 $d (x_{i}, c_{j}) = \sqrt{{(x_{i 1} - c_{j 1})}^{2} + ... + {(x_{i m} - c_{j m})}^{2} + ... + {(x_{i d} - c_{j d})}^{2}} - - - (1)$

　　S203、根据集合中的点更新每个类的聚类中心，假设第j个类中的样本为即包含了nj个样本，则该类的聚类中心为其中为类中心cj的第m个属性，计算公式如下：

　　 $c_{j}^{m} = \frac{x_{j 1}^{m} + x_{j 2}^{m} + ... + x_{{jm}_{j}}^{m}}{n_{j}} - - - (2)$

　　S204、不断重复S202、S203步骤，直到标准测度函数收敛为止，采用均方差作为计算标准测度函数，其形式为：

　　 $J = \sqrt{\frac{Σ_{j = 1}^{k} Σ_{q = 1}^{n_{j}} {(d (x_{j q} - c_{j}))}^{2}}{n - 1}} - - - (3)$

　　将多数类样本聚类后，对聚类后的样本类别进行快速相关向量机分类建模，从而通过建模获取相关向量。

　　3.根据权利要求1所述的FastRVM污水处理故障诊断方法，其特征在于，所述的步骤S3，具体为：

　　S301、对少数类中的每一个样本x，以欧几里得距离为标准计算它到少数类样本集中每个样本的距离，获得其中k个最近邻，并记录近邻样本的下标，这里k取5;

　　S302、根据向上采样的倍率N，对每一个少数类样本x，从其k个最近邻中随机选取N个样本，记为y1,y2,…,yN;

　　S303、在原样本x与yj(j=1,2,…,N)之间进行随机线性插值，构造新的少数类样本pj，即新样本：

　　pj=x+rand(0,1)*(yj-x),j=1,2,…,N(4)

　　其中rand(0,1)表示区间(0,1)内的一个随机数。

　　4.根据权利要求1所述的FastRVM污水处理故障诊断方法，其特征在于，步骤S4中，所述“一对一”的快速相关向量机多分类模型，其建立过程如下：

　　相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的，等价于最大化为其对数;记L(α)=log[p(t|α,σ2)]，整理有：

　　 $\begin{matrix} L (α) = l o g [p (t | α, σ^{2})] = l o g [&Integral; p (t | w, σ^{2}) p (w | α)] \\ = - \frac{1}{2} [N \log 2 π + \log | C | + t^{T} C^{- 1} t] \end{matrix} - - - (5)$

　　其中C=σ2I+ΦA-1ΦT,t=[t1,t2,…,tN]T;

　　对矩阵C进行等价变换，如下：

　　 $\begin{matrix} C = σ^{2} I + {ΦA}^{- 1} Φ^{T} = σ^{2} I + \underset{m &NotEqual; i}{Σ} α_{m}^{- 1} φ_{m} φ_{m}^{T} + α_{i}^{- 1} φ_{i} φ_{i}^{T} \\ = C_{- i} + α_{i}^{- 1} φ_{i} φ_{i}^{T} \end{matrix} - - - (6)$

　　其中 $C_{- i} = σ^{2} I + \underset{m &NotEqual; i}{Σ} α_{m}^{- 1} φ_{m} φ_{m}^{T},$ 此矩阵表示当αi=∞时，相应的基向量φi被移除后样本对应的协方差矩阵，根据矩阵相关性质整理可得

　　 $| C | = | C_{- i} | | 1 + α_{i}^{- 1} φ_{i}^{T} C_{- i}^{- 1} φ_{i} |$

　　 $C^{- 1} = C_{- i}^{- 1} - \frac{C_{- i}^{- 1} φ_{i} φ_{i}^{T} C_{- i}^{- 1}}{α_{i} + φ_{i}^{T} C_{- i}^{- 1} φ_{i}} - - - (7)$

　　因此公式(5)可以改写为

　　 $\begin{matrix} L (α) = - \frac{1}{2} [N \log 2 π + \log | C | + t^{T} C_{- i} t - {logα}_{i} + \log (α_{i} + φ_{i}^{T} C_{- i}^{- 1} φ_{i}) - \frac{{(φ_{i}^{T} C_{- i}^{- 1} t)}^{2}}{α_{i} + φ_{i}^{T} C_{- i}^{- 1} φ_{i}}] \\ = L (α_{- i}) + \frac{1}{2} [{logα}_{i} - \log (α_{i} + s_{i}) + \frac{{(q_{i})}^{2}}{α_{i} + s_{i}}] \\ = L (α_{- i}) + l (α_{i}) \end{matrix} - - - (8)$

　　其中L(α-i)表示为当αi=∞时，相应的基本向量φi被移除后所对应的边界似然函数的对数，而l(αi)表示边界似然的对数函数中只与αi有关的独立部分;

　　公式(8)对αi求偏导有

　　 $\frac{\partial L (α)}{\partial α_{i}} = \frac{\partial l (α_{i})}{\partial α_{i}} = \frac{1}{2} [\frac{1}{α_{i}} - \frac{1}{α_{i} + φ_{i}^{T} C_{- i}^{- 1} φ_{i}} - \frac{{(φ_{i}^{T} C_{- i}^{- 1} t)}^{2}}{α_{i} + φ_{i}^{T} C_{- i}^{- 1} φ_{i}}] - - - (9)$

　　记 $S_{i} = φ_{i}^{T} C_{- i}^{- 1} φ_{i}, Q_{i} = φ_{i}^{T} C_{- i}^{- 1} t - - - (10)$

　　所以公式(9)可改写为

　　 $\frac{\partial L (α)}{\partial α_{i}} = \frac{α_{i}^{- 1} S_{i}^{2} - (Q_{i}^{2} - S_{i})}{2 {(α_{i} + S_{i})}^{2}} - - - (11)$

　　令公式(11)等于零，考虑到αi是方差值必须为正，所以当时有

　　 $α_{i} = \frac{S_{i}^{2}}{Q_{i}^{2} - S_{i}} - - - (12)$

　　对L(α)关于αi求二阶偏导有

　　 $\begin{matrix} \frac{\partial^{2} L (α)}{\partial α_{i}^{2}} = \frac{- α_{i}^{- 2} S_{i}^{2} {(α_{i} + S_{i})}^{2} - 2 (α_{i} + S_{i}) [α_{i}^{- 1} S_{i}^{2} - (Q_{i}^{2} - S_{i})]}{2 {(α_{i} + S_{i})}^{4}} \\ = \frac{α_{i}^{- 2} + S_{i}^{2}}{2 {(α_{i} + S_{i})}^{2}} - \frac{S_{i}^{2}}{α_{i} {(α_{i} + S_{i})}^{3}} - \frac{[α_{i}^{- 1} S_{i}^{2} - (Q_{i}^{2} - S_{i})]}{{(α_{i} + S_{i})}^{2}} \end{matrix} - - - (13)$

　　综合公式(11)和(12)进行分析可知

　　 $\frac{\partial^{2} L (α)}{\partial α_{i}^{2}} |_{α_{i} = \frac{S_{i}^{2}}{Q_{i}^{2} - S_{i}}} = \frac{- S_{i}^{2}}{2 α_{i}^{2} {(α_{i} + S_{i})}^{2}} - - - (14)$

　　所以当时，公式(14)左边的表达式是恒小于零的，并对以上推导公式分析可得，L(α)有唯一最大值点为

　　 $α_{i} = \{\begin{matrix} \frac{S_{i}^{2}}{Q_{i}^{2} - S_{i}} & Q_{i}^{2} > S_{i} \\ \infty & Q_{i}^{2} \leq S_{i} \end{matrix} - - - (15)$

　　根据上面的分析，通过以下方法最大化贝叶斯L(α)：

　　A、当基向量φi在模型中，即αi<∞，但有则将φi从模型中删除，即令αi=∞;

　　B、当基向量φi在模型中，即αi=∞，但有则将φi添加到模型中并利用公式(15)更新αi;

　　C、当基向量φi在模型中，即αi<∞，但有则用公式(15)更新αi;

　　综上所述，快速相关向量机分类基本算法步骤如下：

　　(1)初始化σ2=0;

　　(2)用单个基向量φi初始化αi，由公式(15)分析整理可得并设置其他的αm(m≠i)为无穷大;

　　(3)计算Σ、μ并对所有M个基函数φm初始化Sm和Qm;

　　(4)从所有M个基函数φm集合中选择候选的基向量φi;

　　(5)计算 $θ_{i} \equiv Q_{i}^{2} - S_{i};$

　　(6)若θi>0且αi<∞，重新估计αi;

　　(7)若θi>0且αi=∞，添加φi到模型中并重新估计αi;

　　(8)若θi≤0且αi<∞，删除φi并设置αi=∞;

　　(9)用Laplace逼近方法重新计算协方差矩阵Σ，权重矩阵μ以及相应迭代过程中的Sm和Qm;

　　(10)若收敛或者达到最大迭代次数，则终止程序;否则转步骤(4);终止条件为：任意在模型中的基函数对应的αi，有αi

　　说明书

　　一种Fast RVM污水处理故障诊断方法

　　技术领域

　　本发明涉及污水处理领域，特别涉及一种FastRVM污水处理故障诊断方法。

　　背景技术

　　随着我国工农业经济的迅猛发展，城市进程不断加快，工业、农业废水及生活污水排放量与日俱增，不仅加剧了市政污水处理负荷，还使得人类赖以生存的水资源遭到了极大的破坏，各大湖泊出现了不同程度的富营养化，城市水环境安全已经成为了大众关注的焦点。污水处理厂作为自然水体的关键保护屏障，其运行好坏将直接影响水环境的安全程度。污水生化处理工艺复杂，影响因素非常多，污水处理厂在实际运行过程中难以保持长期稳定的运行，一旦发生运行故障常常会引起出水水质不达标、运行费用增高和环境二次污染等严重问题。因此，必须对污水处理厂运行状态进行监控，及时诊断出污水处理过程故障并予以处理。污水处理运行状态的故障诊断本质上是一个模式分类问题，而在实际状态运行分类中，常常会遇到污水数据集的分布不均衡问题，传统的机器学习方法在用于不平衡数据分类时，模型分类正确率无法满足要求，给污水生化处理的故障诊断带来了极大的困难。

　　故障诊断技术是一种通过可见、可测量的关键指标所反映的异常状态，找出具体故障和原因，并提出相应的解决措施的技术。故障诊断技术产生之初，是基于传感器和动态测试技术，通过信号处理技术进行设备的故障分析与诊断。随着科技的不断进步，生产设备或工艺系统朝着复杂化、多元化、大型化发展，传统的故障诊断技术已不能满足现代设备的诊断需求。而人工智能发展为故障诊断注入了新的活力，通过组织相关领域的专业知识、模拟人类思维的推理方式、建立故障诊断模型，将故障诊断技术引向智能化、系统化、网络化，它在故障诊断领域中的进一步应用，推动了智能故障诊断技术的迅速发展。目前，在污水生化处理系统故障诊断方面，国内外专家学者所采用的技术主要有，基于知识的专家系统技术、支持向量机方法、粗糙集理论、基于神经网络的方法等。但是这些技术也存在一定的局限性，专家系统存在知识获取瓶颈问题，若建立的专家知识库不完备，则有可能导致推理混乱;支持向量机受到核函数必须满足Mercer条件和惩罚参数C及不敏感参数计算量过大等限制;粗糙集理论在处理异常或噪声数据方面常常会显得无能为力，并且在建立模型时需要大量的数据样本;神经网络容易陷入局部最优，且有过拟合及收敛速度慢的缺点;而且关于如何处理污水数据类型之间的平衡性，并且不影响故障诊断的性能，在目前的污水故障诊断研究中较少提及。

　　发明内容

　　本发明的目的在于克服现有技术的缺点与不足，提供一种FastRVM污水处理故障诊断方法，通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样的对少数类数据扩充，降低了污水数据的不平衡性，同时采用FastRVM对污水生化处理过程建立分类模型，有效地提高了对污水生化处理系统的故障诊断精度。

　　本发明的目的通过以下的技术方案实现：

　　一种FastRVM污水处理故障诊断方法，包含以下顺序的步骤：

　　S1.剔除污水输入和输出的数据中的异常点，由于各输入变量量纲的不同，对其进行归一化处理，归一化到[0,1]区间中;

　　S2.基于聚类的快速相关向量机多数类数据压缩模块，将训练样本中的多数类样本数据采用K-means方法进行聚类;

　　S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用SMOTE(虚拟少数类向上采样方法)进行数据扩充;

　　所述的步骤S2，具体为：

　　S201、假设多数类样本集X={x1,x2,…,xi,…,xn}为n个Rd空间的数据，从n个数据对象中随机选择k个对象作为初始的聚类中心;

　　 $d (x_{i}, c_{j}) = \sqrt{{(x_{i 1} - c_{j 1})}^{2} + ... + {(x_{i m} - c_{j m})}^{2} + ... + {(x_{i d} - c_{j d})}^{2}} - - - (1)$

　　 $c_{j}^{m} = \frac{x_{j 1}^{m} + x_{j 2}^{m} + ... + x_{{jm}_{j}}^{m}}{n_{j}} - - - (2)$

　　S204、不断重复S202、S203步骤，直到标准测度函数收敛为止(从表现形式上看即更新后的类中心与更新前一致，具体就是预先给标准测度函数设定精度，将更新后的数据与更新前数据带入标准测度函数能够达到精度则停止更新)，采用均方差作为计算标准测度函数，其形式为：

　　 $J = \sqrt{\frac{Σ_{j = 1}^{k} Σ_{q = 1}^{n_{j}} {(d (x_{j q} - c_{j}))}^{2}}{n - 1}} - - - (3)$

　　将多数类样本聚类后，对聚类后的样本类别进行快速相关向量机分类建模，从而通过建模获取相关向量。因为相关向量代表的是该类样本数据的核心数据，所以用得到相关向量作为该多数类新的训练集，从而在压缩多数类数据的同时也能最大程度上的保留数据的有效信息。

　　所述的步骤S3，具体为：

　　S302、根据向上采样的倍率N，对每一个少数类样本x，从其k个最近邻中随机选取N个样本，记为y1,y2,…,yN;

　　S303、在原样本x与yj(j=1,2,…,N)之间进行随机线性插值，构造新的少数类样本pj，即新样本：

　　pj=x+rand(0,1)*(yj-x),j=1,2,…,N(4)

　　其中rand(0,1)表示区间(0,1)内的一个随机数。

　　步骤S4中，“一对一”的快速相关向量机多分类模型，其建立过程如下：

　　相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的，等价于最大化为其对数;记L(α)=log[p(t|α,σ2)]，整理有：

　　 $\begin{matrix} L (α) = l o g [p (t | α, σ^{2})] = l o g [&Integral; p (t | w, σ^{2}) p (w | α)] \\ = - \frac{1}{2} [N \log 2 π + \log | C | + t^{T} C^{- 1} t] \end{matrix} - - - (5)$

　　其中C=σ2I+ΦA-1ΦT,t=[t1,t2,…,tN]T;

　　为了便于最大化L(α)，对矩阵C进行等价变换，如下：

　　其中此矩阵表示当αi=∞时，相应的基向量φi被移除后样本对应的协方差矩阵，根据矩阵相关性质整理可得

　　 $| C | = | C_{- i} | | 1 + α_{i}^{- 1} φ_{i}^{T} C_{- i}^{- 1} φ_{i} |$

　　 $C^{- 1} = C_{- i}^{- 1} - \frac{C_{- i}^{- 1} φ_{i} φ_{i}^{T} C_{- i}^{- 1}}{α_{i} + φ_{i}^{T} C_{- i}^{- 1} φ_{i}} - - - (7)$

　　因此公式(5)可以改写为

　　其中L(α-i)表示为当αi=∞时，相应的基本向量φi被移除后所对应的边界似然函数的对数，而l(αi)表示边界似然的对数函数中只与αi有关的独立部分;

　　式子(8)对αi求偏导有

　　记 $S_{i} = φ_{i}^{T} C_{- i}^{- 1} φ_{i}, Q_{i} = φ_{i}^{T} C_{- i}^{- 1} t - - - (10)$

　　所以公式(9)可改写为

　　 $\frac{\partial L (α)}{\partial α_{i}} = \frac{α_{i}^{- 1} S_{i}^{2} - (Q_{i}^{2} - S_{i})}{2 {(α_{i} + S_{i})}^{2}} - - - (11)$

　　令公式(11)等于零，考虑到αi是方差值必须为正，所以当时有

　　 $α_{i} = \frac{S_{i}^{2}}{Q_{i}^{2} - S_{i}} - - - (12)$

　　对L(α)关于αi求二阶偏导有

　　 $\begin{matrix} \frac{\partial^{2} L (α)}{\partial α_{i}^{2}} = \frac{- α_{i}^{- 2} S_{i}^{2} {(α_{i} + S_{i})}^{2} - 2 (α_{i} + S_{i}) [α_{i}^{- 1} S_{i}^{2} - (Q_{i}^{2} - S_{i})]}{2 {(α_{i} + S_{i})}^{4}} \\ = \frac{α_{i}^{- 2} S_{i}^{2}}{2 {(α_{i} + S_{i})}^{2}} - \frac{S_{i}^{2}}{α_{i} {(α_{i} + S_{i})}^{3}} - \frac{[α_{i}^{- 1} S_{i}^{2} - (Q_{i}^{2} - S_{i})]}{{(α_{i} + S_{i})}^{3}} \end{matrix} - - - (13)$

　　综合公式(11)和(12)进行分析可知

　　 ${\frac{\partial^{2} L (α)}{\partial α_{i}^{2}} |}_{α_{i} = \frac{S_{i}^{2}}{Q_{i}^{2} - S_{i}}} = \frac{- S_{i}^{2}}{2 α_{i}^{2} {(α_{i} + S_{i})}^{2}} - - - (14)$

　　所以当时，公式(14)左边的表达式是恒小于零的，并对以上推导公式分析可得，L(α)有唯一最大值点为

　　 $α_{i} = \{\begin{matrix} \frac{S_{i}^{2}}{Q_{i}^{2} - S_{i}} & Q_{i}^{2} > S_{i} \\ \infty & Q_{i}^{2} \leq S_{i} \end{matrix} - - - (15)$

　　根据上面的分析，通过以下方法最大化贝叶斯L(α)：

　　A、当基向量φi在模型中，即αi<∞，但有则将φi从模型中删除，即令αi=∞，这样可以增大贝叶斯L(α);

　　B、当基向量φi在模型中，即αi=∞，但有则将φi添加到模型中并利用公式(15)更新αi，这样可以增大贝叶斯L(α);

　　C、当基向量φi在模型中，即αi<∞，但有则用公式(15)更新αi，这样可以增大贝叶斯L(α);

　　综上所述，快速相关向量机分类基本算法步骤如下：

　　(1)初始化σ2=0;

　　(2)用单个基向量φi初始化αi，由公式(15)分析整理可得并设置其他的αm(m≠i)为无穷大;

　　(3)计算Σ、μ并对所有M个基函数φm初始化Sm和Qm;

　　(4)从所有M个基函数φm集合中选择候选的基向量φi;

　　(5)计算 $θ_{i} \equiv Q_{i}^{2} - S_{i};$

　　(6)若θi>0且αi<∞(基向量φi在模型中)，重新估计αi;

　　(7)若θi>0且αi=∞(基向量φi不在模型中)，添加φi到模型中并重新估计αi;

　　(8)若θi≤0且αi<∞，删除φi并设置αi=∞;

　　(9)用Laplace逼近方法重新计算协方差矩阵Σ，权重矩阵μ以及相应迭代过程中的Sm和Qm;

　　(10)若收敛或者达到最大迭代次数，则终止程序;否则转步骤(4);终止条件为：任意在模型中的基函数对应的αi，有αi

　　“一对一”分类法又叫“投票法”，设待分类样本为k个类别，这k类中的任意两类都可以组成一个基本的快速相关向量机二分类器，对所有的训练样本进行两两分类，这样k个类别两两之间共计可以构成个快速相关向量机二分类器，每一个快速相关向量机分类器只在各自对应的样本子集上进行训练。对未知样本进行分类测试时，采用投票的方法，把每一个待测样本都经过全部个分类器进行判别。例如，样本在i、j两类之间分类时，机器判别结果其属于第i类，就在第i类上增加1票，否则对第j类投票加1，直到所有的分类器分类完成，最后统计得票最多的类即为测试样本所属类别。

　　设分类函数fij(x)用来判别i、j两类样本，若fij(x)<0，则判别x属于第i类，记i类得1票，否则判x属于第j类，记j类得1票，最后决策时，比较哪一类得到的票最多，则将测试样本规划为该类。

　　本发明与现有技术相比，具有如下优点和有益效果：

　　1、本发明建立了一种基于不平衡数据聚类的FastRVM污水故障诊断模型，通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩充，降低了污水数据的不平衡性，同时采用泛化能力强的FastRVM对污水生化处理过程建立多分类模型，提高了对污水生化处理系统的故障诊断精度，效果显著，性能也得到了改善。

　　2、本发明的模型是基于FastRVM方法的，在离线情况下获得良好效果，在此基础上对于展开基于不平衡数据聚类的FastRVM污水故障的在线诊断研究也是很有意义。

　　3、本发明中的相关向量机(RVM)是一种新的监督性学习方法，与支持向量机基于结构风险最小化不同，RVM是在贝叶斯框架下的概率模型学习，相关向量个数更少，模型更为稀疏，核函数不需要满足Mercer条件，并且模型中的自由参数数量更少。但是相关向量机在计算复杂度大，所需内存开销大，而快速边界似然算法(FastRVM)通过设置一个空的模型，在训练过程中以一定该准则，不断向该模型中添加或删基函数，直到边际似然函数不在出现明显变化且达到规定的迭代次数为止，从而来改善其分类效率，并且保证其分类准确率。

　　所以，本发明采用基于聚类的快速相关向量机方法对多数类样本进行压缩，利用虚拟少数类向上采样方法对少数类样本进行扩充，使得原始污水样本数据的不平衡性降低，然后采用FastRVM建立污水处理故障诊断模型，有效地提高了污水处理系统的故障诊断精度。