申请日2018.09.04
公开(公告)日2018.12.18
IPC分类号G05B19/042
摘要
本发明提供了一种基于强化学习的污水处理控制系统,包括依次通信连接的信号接收端、现场控制器、指令发送端;所述现场控制器与信号接收端之间接有信号分路模块,现场控制器与指令发送端之间接有信号合并模块,在信号分路模块和信号合并模块之间有强化控制模块并联于现场控制器;有时序协调模块分别连接强化控制模块、信号分路模块和信号合并模块,并根据强化控制模块的信号对信号分路模块和信号合并模块进行控制。本发明通过直接从真实环境采集数据训练的连接方式,从而使得强化学习的训练可以直接在真实场景下完成,且完成之后可直接交接控制权,从而最终既避免企业采集数据、训练模型的麻烦,也避免了训练完成之后部署的适应性问题。
权利要求书
1.一种基于强化学习的污水处理控制系统,包括依次通信连接的信号接收端、现场控制器、指令发送端,其特征在于:所述现场控制器与信号接收端之间接有信号分路模块,现场控制器与指令发送端之间接有信号合并模块,在信号分路模块和信号合并模块之间有强化控制模块并联于现场控制器;有时序协调模块分别连接强化控制模块、信号分路模块和信号合并模块,并根据强化控制模块的信号对信号分路模块和信号合并模块进行控制。
2.如权利要求1所述的基于强化学习的污水处理控制系统,其特征在于:所述时序协调模块对信号合并模块的控制在于,根据强化控制模块中控制模型的训练程度的提高,控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程。
3.如权利要求1所述的基于强化学习的污水处理控制系统,其特征在于:所述时序协调模块对信号分路模块的控制在于,在强化控制模块发出训练完成度100%的信号之前,信号分路模块将信号接收端的信号同时完整发送至强化控制模块和现场控制器,在强化控制模块发出训练完成度100%的信号之后,信号分路模块将信号接收端的信号仅发送至强化控制模块。
4.如权利要求1所述的基于强化学习的污水处理控制系统,其特征在于:所述强化控制模块核心采用ARMv8架构的处理器。
5.如权利要求1所述的基于强化学习的污水处理控制系统,其特征在于:所述时序协调模块核心采用STM32F1系列芯片。
6.如权利要求1所述的基于强化学习的污水 处理控制系统,其特征在于:所述信号分路模块采用8位单片机为核心的光耦电路。
7.如权利要求1所述的基于强化学习的污水处理控制系统,其特征在于:所述信号合并模块核心为DSP芯片。
8.如权利要求1所述的基于强化学习的污水处理控制系统,其特征在于:所述时序协调模块控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程,为如下两种方式之一:
a.分为三个阶段,第一阶段完全传递现场控制器的指令,第二阶段传递现场控制器和强化控制模块的叠加指令,且强化控制模块指令信号量小于传递现场控制器指令信号量的30%,第三阶段完全传递强化控制模块的指令;
b.传递现场控制器和强化控制模块的叠加指令,其中强化控制模块指令信号量在最终指令信号量中的占比从0%至100%线性增加。
说明书
一种基于强化学习的污水处理控制系统
技术领域
本发明涉及一种基于强化学习的污水处理控制系统。
背景技术
目前,强化学习在工业控制中的应用逐渐增多,但一般都限于特定的模型,其主要原因在于强化学习的训练需要环境支持,而在很多污水处理控制方面,完全模拟真实场景的环境所需要的计算量远远大于强化学习模型训练本身所需要的计算量,导致得不偿失,而且就目前的企业技术发展而言,原始的数据积累也很成问题。
发明内容
为解决上述技术问题,本发明提供了一种基于强化学习的污水处理控制系统,该基于强化学习的污水处理控制系统能通过直接从真实环境采集数据训练的连接方式,从而使得强化学习的训练可以直接在真实场景下完成,且完成之后可直接交接控制权。
本发明通过以下技术方案得以实现。
本发明提供的一种基于强化学习的污水处理控制系统,包括依次通信连接的信号接收端、现场控制器、指令发送端;所述现场控制器与信号接收端之间接有信号分路模块,现场控制器与指令发送端之间接有信号合并模块,在信号分路模块和信号合并模块之间有强化控制模块并联于现场控制器;有时序协调模块分别连接强化控制模块、信号分路模块和信号合并模块,并根据强化控制模块的信号对信号分路模块和信号合并模块进行控制。
所述时序协调模块对信号合并模块的控制在于,根据强化控制模块中控制模型的训练程度的提高,控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程。
所述时序协调模块对信号分路模块的控制在于,在强化控制模块发出训练完成度100%的信号之前,信号分路模块将信号接收端的信号同时完整发送至强化控制模块和现场控制器,在强化控制模块发出训练完成度100%的信号之后,信号分路模块将信号接收端的信号仅发送至强化控制模块。
所述强化控制模块核心采用ARMv8架构的处理器。
所述时序协调模块核心采用STM32F1系列芯片。
所述信号分路模块采用8位单片机为核心的光耦电路。
所述信号合并模块核心为DSP芯片。
所述时序协调模块控制信号合并模块完成从完全传递现场控制器的指令、到传递现场控制器和强化控制模块的叠加指令、最后到完全传递强化控制模块的指令的过程,为如下两种方式之一:
a.分为三个阶段,第一阶段完全传递现场控制器的指令,第二阶段传递现场控制器和强化控制模块的叠加指令,且强化控制模块指令信号量小于传递现场控制器指令信号量的30%,第三阶段完全传递强化控制模块的指令;
b.传递现场控制器和强化控制模块的叠加指令,其中强化控制模块指令信号量在最终指令信号量中的占比从0%至100%线性增加。
本发明的有益效果在于:通过直接从真实环境采集数据训练的连接方式,从而使得强化学习的训练可以直接在真实场景下完成,且完成之后可直接交接控制权,从而最终既避免企业采集数据、训练模型的麻烦,也避免了训练完成之后部署的适应性问题。