盘活“散数据”,实时汇全集,南阳理工学院的校园数据治理之道
南阳理工学院
一、工作背景
建设教育强国,推进教育数字化,是二十大提出的国家战略。习近平总书记在二十大报告中提出“我们要坚持教育优先发展、科技自立自强、人才引领驱动,加快建设教育强国、科技强国、人才强国”,并要求“推进教育数字化”。
教育数字化转型,是数字经济发展规律在教育行业的映射和要求。2021年10月19日,总书记在中央政治局集体学习时强调“要站在统筹中华民族伟大复兴战略全局和世界百年未有之大变局的高度…充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级”。2022年8月4日,河南省委书记楼阳生在全省数字化转型工作会议上要求“要深刻认识实施数字化转型战略是抢抓新一轮科技革命和产业变革新机遇的迫切需要,坚定把数字化转型作为赢得优势、赢得主动、赢得未来的战略之举”。从而,推进教育数字化转型,促进数字技术与教育行业进一步融合,是一项必须干且必须干好的抓手工作。
高质量的校园数据治理,是高质量教育数字化转型的前提和基础。2020年4月,党中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,明确将数据作为与土地、劳动力、资本、技术并列的生产要素。校园数据也就成为了“校园生产活动”——教育的生产要素,只有用好校园数据,才能最大化的提升教育生产力,否则教育数字化转型就将成为空谈。因此,开展高质量的校园数据治理,实现数据生产、采集、存储、加工、分析、服务等环节的全面治理,建设形成高水平的校园数据中心,是数字化转型的前提和基础。
南阳理工学院的校园数据治理,面临诸多难题挑战。数据孤岛问题,是数据治理工作的普遍性问题。除了普遍性问题,学校数据治理工作的挑战,突出表现在两个方面:其一,经过多年、多批次的信息化建设,业务系统较杂,技术路线多样,部分遗留系统已经无法找到技术支持力量,导致部分数据成为了无人能懂的“黑数据”;其二,近两年来,完成了5G校园和无线校园建设,开展了智慧校园微应用与服务项目建设,优化和增加一站式服务大厅流程和服务,导致对于数据的时效性要求越来越高。
在上述背景下,学校启动了校园数据治理工程。项目着重解决了“黑数据”难题和时效性要求,建成了具有“全域覆盖、全集抽取、全程管理、开放服务、隐私计算”五大特征的高水平校园数据治理示范效果。
二、工作举措
(1)高位协调、协同推动,创新建立“两委一官一部”架构和机制
校园数据治理工作是一项全局性、系统性工程,需要强有力的领导架构和工作机制进行保障。
学校建立了“两委一官一部”的数据治理工作体系,即网络安全与信息化委员会、教育信息化专家委员会、首席信息官、大数据应用部,并正式行文面向全校进行发布和宣贯,包括《关于成立南阳理工学院网络安全与信息化委员会的通知》(南理工字〔2020〕106 号)、《关于成立南阳理工学院教育信息化专家委员会的通知》(南理工字〔2020〕108 号)、《关于调整南阳理工学院首席信息官的通知》(南理工字〔2022〕25 号)等。
信息化建设与管理中心为全校网络安全与信息化建设归口管理部门,在其下设置大数据应用部,职责包括:1)负责制定校级数据标准与规范,确保数据的准确性和一致性,实现数据共享和交换;2)负责校级大数据平台的建立及管理,规划数据库结构和内容,整合异构数据源,对外提供统一的访问接口和数据服务;3)负责对全校范围的数据资源进行统一规划,确定各类数据对应的生产部门;4)负责维护数据中心,设置相关角色的维护权限,设置数据同步策略、执行数据同步;5)负责维护数据安全,建立健全数据安全治理体系,提高数据安全保障能力;6)负责向各部门管理员提供咨询、支持和培训。
(2)制度引领、标准先行,编制形成校园数据治理标准规范体系
为了规范信息化建设管理工作,并约定数据治理的“共同语言”,学校相继出台了《南阳理工学院信息化项目归口建设管理办法》(南理工字〔2020〕113 号)、《南阳理工学院信息化项目建设实施流程管理办法》(南理工字〔2020〕112 号)、《南阳理工学院网络安全事件应急预案》(南理工字〔2022〕26 号)、《南阳理工学院校园网络管理办法》(南理工字〔2022〕138 号)等制度,以及《南阳理工学院校务信息数据管理办法》(南理工字〔2022〕28号),《南阳理工学院信息标准规范管理办法》(南理工字〔2022〕139 号)等规范和模型。
(3)把握关键,突破难点,解决数据实时获取和黑数据解读问题
以数据变化捕获的旁路技术,实现了异构数据源的全域、全集、实时获取能力。打破校园数据治理领域传统的数据互联互通模型,摒弃传统的系统+接口机制,采用旁路全域实时数据采集模式,解决了厂商不配合的数据无法拿到的问题,更是将数据更新频率从常规数据库抽取技术的分钟级提升到亚秒级。
图1 基于数据变化捕获的旁路异构实时采集技术
综合利用数据模型经验库、数据专家人工解析、模拟系统操作比对等多种方法,实现了“黑数据”的“透明化”解读。结合项目建设团队在校园数据治理领域的丰富经验,实现了大部分无人支持的业务系统的模型解读。对于剩余部分难题,由大数据应用部牵头建设团队和业务部门,共同组建了数据解读专家组,采用专家研讨的方法对系统、数据表、字段进行解读。对于少量数据表和字段名无法识别以及数据关联性难点,通过在业务系统上模拟开展业务,观察分析数据变化的方法,进行攻坚解读。
最终,建立了具有“全域覆盖、全集抽取、全程管理、开放服务、隐私计算”五大特征的数据治理体系。1)全域覆盖:实现了校园数据全域范围的覆盖,实现了结构化和非结构化的综合治理,实现了教学应用覆盖全体教师、学习应用覆盖全体学生。2)全集抽取:采用1:1全集抽取方式,完整实现了多厂商、多技术路线条件下的全集异构实时抽取能力。3)全程管理:建立数据全生命周期和数据血缘的概念,完整覆盖数据的生产、采集、存储、加工、分析、服务等环节,保障了数据信息在空间、时间、逻辑上的完整性和延续性,实现了基于数据质量报告智能分析的数据质量闭环提升机制。4)开放服务:针对校园数据模型不变而查询需求和接口使用多变的情况,设计了基于面向模型编程思想的数据服务接口开发架构和数据可视化展示架构,从而使得数据接口开发和数据展示界面可以直接基于校园数据元模型进行编程,实现了接口和界面与数据内容的解耦,实现了通过可视化勾选配置的方式即可开发数据服务接口和数据展示界面的能力。5)隐私计算:针对财务、薪酬等敏感数据,建立了基于隐私计算的访问机制,实现了“数据可用不可见”,确保了关键数据的安全。
(4)规范过程,保障有力,技术重要而方法论和实施过程更重要
基于标准化的实施方法论,分解项目实施的全过程,建立关键工作的十个质量把控切面,确保校园治理实施质量。十个质量把控切面包括:数据调研、数据标准设计、全域数据采集、数据剖析与识别、数据质量分析、数据清洗转换、校园标准模型库建设、数据服务开放、系统集成、平台运维十项工作。
图2 校园数据治理实施方法论与质量把控切面
数据治理工程建设难度大、周期长,建设与管理涉及到各二级学院、机关各部门,应用上牵涉到教学、管理、服务、科研工作各个领域,建设内容包括了基础设施、信息资源、应用系统,以及标准规范、管理制度等多各方面,任何一个阶段或环节出现问题,都将影响后续建设的连续性及最终目标的实现。学校以“两委一官一部”数据治理工作体系为牵引和支撑,在具体工作中创新了二级学院和部门的数据治理任务书机制,并将任务书完成情况纳入部门年度考核和责任人的个人年度考核,有力的保障了数据治理工作的顺利推进。
三、工作成效
(1)项目建设效果示意
截取项目的部分典型功能界面介绍如下。
1)元模型管理
实现对校园数据治理元模型数据的管理功能,包括元数据的自动发现、维护检索、血缘分析等,并支持元数据多版本的管理。
图3 元模型管理
2)数据集成治理
允许在线配置数据采集和清洗规则,支持对数据采集、清洗任务的创建与管理,实现了实时检测数据治理任务运行状态和运行日志的查看能力。
图4 数据集成管理
3)数据大屏展示
数据大屏为校领导、信息化建设与管理中心、业务部门等不同角色提供了全景化、一站式的总览监控界面,协助各种角色全面快速了解全校数据资产情况,及时发现问题。
图5 数据流向大屏
图6 数据资产大屏
4)数据血缘分析
采用图形方式展示了以某个元数据为终止节点,其前与其有关系的所有元数据,反应数据的来源与加工过程。支持字段级的血缘分析,清晰的了解数据从哪里来、到哪里去。
图7 数据血缘分析
5)数据质量智能分析报告
通过约定质检规则和检测范围,形成数据质量质检方案。系统暂定执行质检方案,智能的生成数据质量报告。
图8 数据质检总览
图9 数据质量报告
6)数据服务开放中心
数据服务开放中心面向学校的数据服务管理者、数据开发者、学校教师/学生/厂商等三大类角色,提供可视化的简化开发能力,通过拖拽即可完成数据服务接口的开发、编辑、开放过程,实现“人人都是开发者、人人都是使用者”的局面,引导形成全校丰富的数据服务接口和数据微应用生态。
图10 数据服务开放中心
(2)项目用户应用情况
基于校园数据治理成果,面向师生开放的数据服务接口和数据微应用受到了广泛欢迎。以2022年11月份为例,使用次数最多的数据服务TOP5为:1)学生选课服务,调用233607次;2)图书馆借书服务,调用164612次;3)校历服务,调用135046次;4)教师排课服务,调用25582次;5)一卡通消费及余额查询服务,调用24964次。
(3)项目数据规模情况
项目接入的典型业务系统包括:高校人力资源管理系统、教务管理系统、学生信息管理系统、科研管理系统、馆藏图书检索系统、实验室综合管理系统、大型仪器设备共享管理系统、资产管理系统、一卡通系统、财务系统等。
项目累计汇聚7068张数据库表,总计476916979条数据。
四、工作经验
校园数据治理工程,是一项“挖煤”的工作,不容易干,不好出彩。我校的校园数据治理工程,建成了具有“全域覆盖、全集抽取、全程管理、开放服务、隐私计算”五大特征的高水平校园数据治理示范效果,为后续的数字化转型工作奠定了坚实的基础。
总结起来,有三点经验可供兄弟院校参考:其一,是要建立高位协调、协同推动强有力的领导架构和工作机制进行保障;其二,是要紧盯和突破难点与痛点,着重解决“黑数据”难题和时效性要求,并建设完善的数据治理技术工具体系破解数据孤岛问题;其三,是要充分认识到技术重要而方法论和实施过程更重要,要在关键的质量把控切面上严格进行把关,确保校园治理实施质量。
下一步,我校将以习近平新时代中国特色社会主义思想为指导,进一步加强理论、业务和技术学习,以学校事业发展需求、师生教学科研需求及校园生活服务需求为导向,持续提升校园数据治理水平,并以南阳理工学院数字化转型为画布,绘制出数字赋能发展的更加美丽的宏伟画卷。