Statistical method of coal mine violations based on text classification technology
-
摘要: 煤矿作为高危行业,企业违章行为记录繁杂。为高效、准确、智能地检索和管理企业违章记录信息,减少违章行为发生,本文以某矿近3年的13 935条违章行为数据库为样本,将违章行为分为3大类23小类,基于计算机文本分类技术,通过Jieba分词器文本预处理、向量空间模型构建、TF-IDF模型特征值选取、相似度计算等流程搭建了违章文本数据分类器,在Python环境下构建了可视化展示平台并进行分类统计。结果表明:违章操作在总违章行为中占比最高,达到64 %,其次为违章行动和违章指挥。同时对各违章子类进行了高、中、低频类别划分,为预防事故发生提供重要数据支撑。Abstract: As a high-risk industry, coal mining enterprises have a complex record of violations.In order to efficiently, accurately and intelligently retrieve and manage an enterprise's illegal record and reduce the occurrence of illegal behaviors.A database of 13, 935 violations in a mine in recent three years is taken as a sample.The illegal actions are divided into 3 categories and 23 subcategories.And based on the computer text classification technology, the illegal text data classifier is built.Its process includes text preprocessing of Jieba word segmentation, vector space model construction, feature value selection of TF-IDF model, and similarity calculation process.Finally, a visual classification statistics and presentation system was constructed in Python environment, and the classified statistics were carried out.The results showed that the proportion of illegal operation is 64 %, which is the highest among all illegal behavior, followed by illegal action, and illegal command accounted for the smallest proportion.At the same time, the key subcategories of high frequency, medium frequency and low frequency were analyzed to provide quantitative support for accident prevention.
-
表 1 违章分类
Table 1. Classification of violations
违章大类 违章子类 具体内容 违章操作 A1不安全姿势及位置 将自身置于危险的位置,使用错误姿势作业,设备未按照规定停放在指定位置 A2不按规定维修检查 违反了检查维修相关规定,致使检查维修存在危险或检修不到位 A3不正确警戒、预警或使用信号 忽视警告标志、警告信号,未能依据规定进行预警信息联络 A4使用不安全物品 使用其他工具或方式代替作业,未按要求使用工具器具或以手代工具操作 A5手指口述不合格 井下作业未按规定执行手指口述或手指口述不合格 A6违反标准程序作业 违反了设备使用规定,错做、少做操作动作及顺序与规定不一致 A7不按规定使用安全防护装置 不进行安全防护或错误进行安全防护致使安全装置失效的行为 A8未对不安全物品妥善保护 未对重物、易燃易爆、高温高压等危险物品妥善存放或未加保护措施 A9未使用/错误使用危险源检测设备 主要有害气体这一潜在的重大安全隐患或其他气体危险隐患,未在作业前使用或错误使用检测设备对危险源进行检测的行为 A10未填写或伪造记录 每班未准确及时的填写相应记录 A11无人看护作业 需要看护的作业过程中,无人看护擅自作业 A12作业前未排查隐患 开始作业前未对设备环境进行安全隐患的排查,或明知设备环境存在隐患,仍强行作业的行为 违章行动 B1不安全移动 作业期间走动、跑动等违反井下安全作业条例行为 B2破坏生产管理秩序 员工不服从安全管理、不配合各级检查人员检查等行为 B3违反劳动纪律 员工之间发生矛盾产生争吵或进一步升级起哄谩骂、打架斗殴或不认真工作开玩笑、乱摆弄、脱岗、酒后作业 B4违反休息规定 在非休息时间或非休息场所瞌睡,或在规定休息时间为方便休息而违反休息规定 B5违规进入危险场所 未经组织部门许可,违规进入危险警戒区域 B6未佩戴/错误佩戴安全装备 未按规定穿戴佩戴帽带、自救器等人身安全防护装备,包括特定作业时未按规定穿戴佩戴相应安全防护装备 B7无证上岗/证件不符合规定 无证上岗、证件过期、证件损坏等 违章指挥 C1违规组织作业 生产作业没有获得批准的情况下擅自组织作业; 或现场作业环境发生变化,未及时汇报,强行组织作业 C2不合理人员安排 安排与作业要求不相吻合的资质人员执行作业 C3未有 指挥人员未随时掌握井下作业动态,对井下违章行为实施把控,维持现场作业秩序,纠正作业过程中存在的不安全问题 C4安全培训不到位 未按规定组织培训或组织培训时间不够,以致在岗作业人员对其岗位作业标准、公司制度规范不清楚,或掌握不到位 表 2 词典D′构建空间向量模型
Table 2. Dictionary D′ to build a spatial vector model
步骤 分词 TF-IDF计算权重 取若干关键词 关键词并集组成词典D′,以词典D′构建空间向量 违章记录文本 中文分词 计算权重 [(t1,w1),(t2,w2),…,(ti,wi)] [(t1,w1),(t2,w2),…,(tj,wj)] 违章形式文本 中文分词 计算权重 [(t1,w1),(t2,w2),…,(tj,wj)] 表 3 机器分类与人工分类结果
Table 3. Machine classification and artificial classification results
违章子类 机器分类/起 人工分类/起 A1 11 10 A2 3 4 A3 10 9 A4 8 7 A5 19 23 A6 53 50 A7 26 27 A8 0 1 A9 14 16 A10 12 11 A11 16 14 A12 9 10 B1 8 5 B2 3 1 B3 13 16 B4 32 35 B5 1 2 B6 27 23 B7 1 3 C1 1 3 C2 4 3 C3 2 1 C4 5 4 表 4 违章操作子类K-平均值聚类分析结果
Table 4. K-mean clustering analysis results of illegal operation
个案编号 违章操作子类 丛集 距离 1 A6 1 0.000 2 A7 2 424.750 3 A5 2 5.750 4 A11 2 206.250 5 A9 2 224.250 6 A1 3 198.571 7 A10 3 197.571 8 A12 3 122.571 9 A3 3 59.571 10 A4 3 37.571 11 A2 3 256.429 12 A8 3 359.429 表 5 违章子类频次分类分析
Table 5. Frequency classification and analysis of illegal subcategories
违章类别 频次分类 总占比/% 违章子类 违章操作 高频 25.03 A6违反标准程序作业 中频 43.07 A7不按规定使用安全防护装置、A5手指口述不合格、A11无人看护作业、A9未使用/错误使用危险源检测设备 低频 31.9 A1不安全姿势及位置、A10未填写或伪造记录、A12作业前未排查隐患、A3不正确警戒、预警或使用信号、A4使用不安全物品、A2不按规定维修检查、A8未对不安全物品妥善保护 违章行动 高频 38.22 B4违反休息规定 中频 31.98 B6未佩戴/错误佩戴安全装备 低频 29.79 B3违反劳动纪律、B1不安全移动、B7无证上岗/证件不符合规定、B5违规进入危险场所、B2破坏生产管理秩序 违章指挥 高频 45.72 C4安全培训不到位 中频 33.56 C2不合理的人员安排 低频 20.72 C1违规组织作业、C3未有效对井下作业秩序进行管控 -
[1] 佟瑞鹏, 赵辉, 张娜, 等. 矿工不安全行为涌现性建模研究[J]. 矿业科学学报, 2020, 5(3): 311-319. http://kykxxb.cumtb.edu.cn/article/id/294Tong Ruipeng, Zhao Hui, Zhang Na, et al. Research on emergency modeling of unsafe behavior of coal miners[J]. Journal of Mining Science and Technology, 2020, 5(3): 311-319. http://kykxxb.cumtb.edu.cn/article/id/294 [2] 丁百川. 2020年全国煤矿事故特点及原因分析[N]. 中国能源报, 2021-02-22(15). [3] 时砚. 群体动力学在安全管理中违章行为矫正的应用[D]. 北京: 北京交通大学, 2008. [4] 崔敏. 基于文本识别技术的电气设备监测数据处理[D]. 北京: 华北电力大学, 2019. [5] 秦欢, 门业堃, 于钊, 等. 基于隐马尔科夫和主成分分析的电网数据词典构建[J]. 电力大数据, 2019, 22(1): 16-21. https://www.cnki.com.cn/Article/CJFDTOTAL-GZDJ201901004.htmQin Huan, Men Yekun, Yu Zhao, et al. The construction of grid data dictionary based on HMM and PCA[J]. Power Systems and Big Data, 2019, 22(1): 16-21. https://www.cnki.com.cn/Article/CJFDTOTAL-GZDJ201901004.htm [6] 黄亚春. 基于自然语言处理的建筑工程安全事故报告风险研究[D]. 武汉: 华中科技大学, 2019. [7] 鲁博仁. 面向铁路安全监督文本的分类技术研究[D]. 郑州: 郑州大学, 2020. [8] 田继存. 文本分类及其在民航安全自愿报告分析中的应用研究[D]. 天津: 中国民航大学, 2010. [9] 傅贵. "2-4"模型视角下的行为安全[J]. 现代职业安全, 2019(12): 17-19. doi: 10.3969/j.issn.1671-4156.2019.12.009Fu Gui. Behavior safety from the perspective of "2-4" model[J]. Modern Occupational Safety, 2019(12): 17-19. doi: 10.3969/j.issn.1671-4156.2019.12.009 [10] 傅贵. 安全科学学及其应用探讨[J]. 安全, 2019, 40(2): 1-10. https://www.cnki.com.cn/Article/CJFDTOTAL-ANQU201902002.htmFu Gui. The science of safety science and its practical implications[J]. Safety & Security, 2019, 40(2): 1-10. https://www.cnki.com.cn/Article/CJFDTOTAL-ANQU201902002.htm [11] 贺莹鸽, 连民杰, 江松, 等. 矿工习惯性违章行为风险态势评估[J]. 中国安全科学学报, 2020, 30(12): 62-69. https://www.cnki.com.cn/Article/CJFDTOTAL-ZAQK202012009.htmHe Yingge, Lian Minjie, Jiang Song, et al. Risk state assessment of coal miners' habitual violation behavior[J]. China Safety Science Journal, 2020, 30(12): 62-69. https://www.cnki.com.cn/Article/CJFDTOTAL-ZAQK202012009.htm [12] 傅贵, 王秀明, 李亚. 事故致因"2-4"模型及其事故原因因素编码研究[J]. 安全与环境学报, 2017, 17(3): 1003-1008. https://www.cnki.com.cn/Article/CJFDTOTAL-AQHJ201703039.htmFu Gui, Wang Xiuming, Li Ya. On the 2-4 model and the application of its causative codes to the analysis of the related accidents[J]. Journal of Safety and Environment, 2017, 17(3): 1003-1008. https://www.cnki.com.cn/Article/CJFDTOTAL-AQHJ201703039.htm [13] 于游, 付钰, 吴晓平. 中文文本分类方法综述[J]. 网络与信息安全学报, 2019, 5(5): 1-8. https://www.cnki.com.cn/Article/CJFDTOTAL-WXAQ201905001.htmYu You, Fu Yu, Wu Xiaoping. Summary of text classification methods[J]. Chinese Journal of Network and Information Security, 2019, 5(5): 1-8. https://www.cnki.com.cn/Article/CJFDTOTAL-WXAQ201905001.htm [14] 祝永志, 荆静. 基于Python语言的中文分词技术的研究[J]. 通信技术, 2019, 52(7): 1612-1619. doi: 10.3969/j.issn.1002-0802.2019.07.012Zhu Yongzhi, Jing Jing. Chinese word segmentation technology based on python language[J]. Communications Technology, 2019, 52(7): 1612-1619. doi: 10.3969/j.issn.1002-0802.2019.07.012 [15] 尤众喜, 华薇娜, 潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响[J]. 数据分析与知识发现, 2019, 3(7): 23-33. https://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ201907004.htmYou Zhongxi, Hua Weina, Pan Xuelian. Matching book reviews and essential sentiment lexicons with Chinese word segmenters[J]. Data Analysis and Knowledge Discovery, 2019, 3(7): 23-33. https://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ201907004.htm [16] 马艳荣, 温煜坤. 基于向量空间模型的对外汉语应用文写作词汇分类系统研究[J]. 现代电子技术, 2021, 44(8): 137-140. https://www.cnki.com.cn/Article/CJFDTOTAL-XDDJ202108031.htmMa Yanrong, Wen Yukun. Study on VSM-based vocabulary classification system of TCFL practical writing[J]. Modern Electronics Technique, 2021, 44(8): 137-140. https://www.cnki.com.cn/Article/CJFDTOTAL-XDDJ202108031.htm [17] 丁宇, 李瑞祥. 利用pandas的数据清洗功能来提取宽带用户的相关信息[J]. 网络安全和信息化, 2021(9): 94-96. https://www.cnki.com.cn/Article/CJFDTOTAL-WAXX202109045.htmDing Yu, Li Ruixiang. Pandas uses its data cleaning function to extract information about broadband users. [J]. Cybersecurity & Informatization, 2021(9): 94-96. https://www.cnki.com.cn/Article/CJFDTOTAL-WAXX202109045.htm [18] 殷文韬, 傅贵, 公建祥. 煤矿工人违章操作的"认知-行为"失效机理与管理措施[J]. 中国安全科学学报, 2015, 25(10): 153-159. https://www.cnki.com.cn/Article/CJFDTOTAL-ZAQK201510028.htmYin Wentao, Fu Gui, Gong Jianxiang. Research on coal miners' operating against safety regulation: "cognition-behavior" failure mechanism and control measures[J]. China Safety Science Journal, 2015, 25(10): 153-159. https://www.cnki.com.cn/Article/CJFDTOTAL-ZAQK201510028.htm [19] 曹家琳, 傅贵. 煤与瓦斯突出事故不安全动作分类研究[J]. 煤矿安全, 2016, 47(9): 240-242, 246. https://www.cnki.com.cn/Article/CJFDTOTAL-MKAQ201609067.htmCao Jialin, Fu Gui. Classified study on unsafe Acts in coal and gas outburst accidents[J]. Safety in Coal Mines, 2016, 47(9): 240-242, 246. https://www.cnki.com.cn/Article/CJFDTOTAL-MKAQ201609067.htm [20] 李乃文, 马跃, 牛莉霞. 基于计划行为理论的矿工故意违章行为意向研究[J]. 中国安全科学学报, 2011, 21(10): 3-9. https://www.cnki.com.cn/Article/CJFDTOTAL-ZAQK201110002.htmLi Naiwen, Ma Yue, Niu Lixia. Research on miners' deliberate violation behavior intentions based on theory of planned behavior[J]. China Safety Science Journal, 2011, 21(10): 3-9. https://www.cnki.com.cn/Article/CJFDTOTAL-ZAQK201110002.htm [21] 宋仁旺, 苏小杰, 石慧. 基于空间分布优选初始聚类中心的改进K-均值聚类算法[J]. 科学技术与工程, 2021, 21(19): 8094-8100. doi: 10.3969/j.issn.1671-1815.2021.19.032Song Renwang, Su Xiaojie, Shi Hui. An improved K-mean clustering algorithm based on spatial distribution to optimize the initial clustering center[J]. Science Technology and Engineering, 2021, 21(19): 8094-8100. doi: 10.3969/j.issn.1671-1815.2021.19.032 [22] 宋曦, 丁文梅, 宁云才, 等. 煤矿安全生产管理体系优化研究——以陕西某煤矿为例[J]. 矿业科学学报, 2019, 4(2): 187-94. http://kykxxb.cumtb.edu.cn/article/id/213Song Xi, Ding Wenmei, Ning Yincai, et al. Research on the optimization of coal mine safety Production management system——take a coal mine in Shaanxi province as an example[J]. Journal of Mining Science and Technology, 2019, 4(2), 187-194. http://kykxxb.cumtb.edu.cn/article/id/213 [23] 佟瑞鹏, 陈策, 刘大鹏. 矿工不安全行为组织干预时效性研究[J]. 矿业科学学报, 2016, 1(2): 155-61. http://kykxxb.cumtb.edu.cn/article/id/22Tong Ruipeng, Chen Ce, Liu Dapeng. Timeliness analysis on organization Intervention of miners' unsafe behavior[J]. Journal of Mining Science and Technology, 2016, 1(2): 155-161. http://kykxxb.cumtb.edu.cn/article/id/22