网络安全 频道

百分点数据科学实验室:智慧应急安全生产智能决策方案建设实践

  编者按:安全生产是应急管理的重要内容,也是国家一项长期的基本国策。利用大数据、人工智能等先进技术,可深入挖掘安全生产薄弱环节、提升精细化安全生产管理、加快现代信息技术与安全生产业务深度融合,为人民生存发展提供重要保障。

  针对当前安全生产监管信息化的需求,百分点数据科学实验室基于机器学习和深度学习等建模技术,打造了安全生产智能决策方案,可实现多维数据的全生命周期管理和数据智能应用,助力提升安全生产监管的效率和水平。

  一、项目背景

  1. 政策背景

  党中央、国务院高度重视数字政府建设,在中共中央政治局第十九次集体学习中强调:要提高应急管理的科学化、专业化、智能化和精细化水平,提高监管执法能力、辅助指挥决策能力。为此,应急管理部先后统建“互联网+政务服务”、“互联网+监管”和“互联网+执法”等系统,并提出了应急管理行业的数据治理要求,为提高应急管理数据智能建设奠定了基础。

  2. 安全生产监管信息化要求

  安全生产是应急管理的重要内容,并且业务系统信息化程度较高,积累了大量安全监管过程数据。《应急管理部科技信息化领导小组办公室关于印发地方应急管理信息化2021年建设任务书的通知》应急科信办[2021]1号文要求基于大数据、知识图谱、机器学习等技术,升级安全生产风险预警功能,对监管数据进行关联展示,实现安全生产形势分析可视化。安全生产信息化监管不但可以指导政府监管部门从宏观层面了解当前安全生产形势,预测未来安全生产发展趋势,而且可以为政府监管人员提供政策和执法抓手,科学精准地弥补安全生产薄弱环节,提高安全生产监管水平。

  3. 人工智能大趋势

  人工智能技术迅猛发展,应用场景日益多元化,安全生产精细化管理和决策应用逐渐普及。安全生产智能决策方案依托人工智能和大数据技术,利用机器学习、深度学习等建模技术建立预测模型,对海量数据进行挖掘和计算,精准识别政府监管中的漏洞和不足,深入洞察安全教育培训、行政执法、隐患排查、企业自查和生产安全事故等数据之间内在联系和规律,为政府监管人员提供重点监管和执法方向,为精准执法赋能。

  二、解决方案

  1. 模型数据

  安全生产智能决策方案涉及全业务流程的众多数据源,多达上百张表、上千个字段。从业务流程来说,涉及企业基本信息、危化品信息、隐患自查、隐患排查、执法和生产事故等业务流程;从数据源来说,涉及DCS等工业控制系统、安全生产教育培训系统、重大危险源监管系统、应急管理综合应用平台、安全生产行政执法系统、隐患排查治理系统和事故调查系统等。

  2. 方案架构

  安全生产智能决策方案的总体架构包括数据来源、基础设施、数据支撑层、应用支撑体系、业务应用层和用户层。

  三、应用价值

  1. 监管数字化赋能

  数字化赋能源于人力资源管理的授权赋能(empowered)概念[1]。数据赋能是创新数据运用场景和实现数据价值的过程。客观存在的数据并不会主动呈现它的价值,而要依赖重塑、分析和挖掘等技术,构建一个价值共创的体系。

  在安全生产监管方面,传统的做法是,监管机构依据现场检查和既往经验进行执法。但是随着信息量的增加,大量庞杂数据的处理和分析已经超出了人脑的能力范围,数字化监管势在必行。

  例如,某市有60+万家企业,各类数据超过1000+万条。如何从这1000+万条信息中,提取对监管有价值的信息呢?通过大数据的技术手段,找到风险因素最高的企业、季节性的隐患类型和风险安全事故,提前预警,提前部署监管力量,做到防患于未然。

  2. 隐患导航式治理

  隐患导航式治理的前提是“精准定位”,精准定位隐患包括三方面内容:

  精准定位隐患的地理位置。对于监管机构而言,仅仅知道隐患存在还远远不够,面对较大的管辖范围,监管机构需要知道隐患在哪里,具体到哪些街道、网格和企业。

  精准定位隐患类型。辖区内企业各式各样,行业不同、生产工艺不同、设备不同,隐患和事故的类型也千差万别。有些生产工艺极为特殊的企业,对其隐患的排查和监管需要专家协助。

  精准评估隐患的风险。数据分析发现,在现场检查中90%以上的企业存在隐患,但是隐患的等级并不相同,对于隐患的监管整治需要点面结合、重点突出。

  3. 指数差异化运用

  安全生产监管机构有完善的考核指标,在全部辖区内执行划一的考核指标并不是科学的做法。例如,某市危化企业、危险设备、储罐、管道和粉尘作业等分布非常集中,全市共有近百个街道,但是80%以上的危化企业和危险设备集中在20个街道。显然,这20个街道的安全生产风险要比其他的街道高很多,按照全市统一的考核指标,可能并不能满足安全生产监管的需求。

  四、建模难点

  在安全生产智能决策方案中,百分点数据科学团队做了区域风险评估和生产事故预测两个模型,这两个模型面临不同的难点。

  1. 区域风险评估难点

  区域风险评估的总体思路是:根据业务逻辑,筛选出对安全生产有影响的变量,再通过因子分析提取主成分,对每个因素进行赋权,加权计算区域综合风险水平。

  建模过程的难点是,输入变量较多,如果主成分选取不恰当,容易造成各因子权重相同,即因子权重=1/因子个数。如果各因子权重相同,这是与实际业务逻辑不符的。根据前期数据分析的结论,有些因素对生产事故的影响较大,如制造行业危险设备数量远高于平均值的企业,其发生事故的概率远高于该行业事故率总体均值。在做因子分析时,需要选择合适的,契合业务逻辑的赋权方法。

  2. 生产安全事故预测难点

  生产安全事故预测的难点是,生产安全事故本身是一个概率极小的事件。以某市为例,某市有60+万家企业,过去三年发生有记录的生产安全事故只有100多起。发生概率极小的事情是难以从统计上寻找规律的,发生概率越小的事情可能偶然因素越多。这种情况的建模是有先例可循的,最著名的案例是“贷款违约预测”。在10000个贷款客户中,真正会违约的客户可能只有几个。

  五、建模思路

  1. 区域风险评估模型

  针对因子赋权的问题,百分点数据科学团队从两个方面进行了优化。

  首先,尝试提取了不同数量的主成分,根据一般选取主成分的规则和项目场景,分别测试了选取8个、9个、10个、15个主成分时的因子载荷矩阵。通过比对发现,选取8个和9个主成分时,原来变量的载荷区分度不够明显,说明主成分选取的有点少;选15个主成分时,原变量的载荷又过于分散,说明主成分选取的过细。综合比较选取了10个主成分。

  其次,在通过主成分计算权重的时候,初始因子aij反应了各指标与主成分的相关程度,计算公式如下:

  2. 生产安全事故预测模型

  对于负样本较少的问题,百分点科技采用的方法是增加负样本的权重。首先从总体中抽取按行业、企业规模抽取与正样本(发生生产安全事故的企业)相匹配的负样本;其次在训练模型的时候,增加了正样本的权重,负样本是1:1的权重,正样本是1:10的权重,正样本预测错误1个代表错误10个,在这个权重下计算模型的准确率。

  百分点数据科学团队使用了神经网络模型预测生产安全事故概率。神经网络模型是一种类人的思考方式,从行业、季节、风险属性、人员安全培训、隐患排查、监督执法等角度预判这些因素与企业的安全生产关系,对企业的安全生产进行预测。

  通过神经网络模型,百分点数据科学团队预测某一个企业发生生产安全事故的概率,根据概率高低,对企业标注红、黄、蓝三级预警。

  六、效果评估

  在区域风险评估和神经网络模型的基础上,借助数据可视化技术对模型效果进行展示,制作了风险热力图。红色表示风险热力较高,点击红色区域可以下钻至生产安全事故概率较大的企业,追踪至引起风险的因素。

  可视化展示直观揭示当前某地安全生产现状和发展趋势,从危险作业、隐患排查、行政执法、生产安全事故四大方面揭示安全生产监管过程中的薄弱点,为应急管理部门进行精准执法、重点监管、因地施策提供数据支撑,提高安全生产监管效率和水平。

  七、研究和现实意义

  安全生产智能决策方案实现了多维数据的全生命周期管理和数据智能应用,能够基于神经网络模型和生产安全事故预测模型,自主学习不同因素对生产安全事故的影响,对生产安全事故的预警具有类人的理解能力、思考能力和反应能力,实现应急行业数据治理—数据分析—制定政策—安全监管的闭环管理机制。

  参考资料

  [1] EYLON D. Understanding empowerment and resolving its paradox:lessons from Mary Parker Follett [J]. Journal of Management History , 1998,4(1): 16-28.

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章