职业教育作为我国国民教育体系中的一种教育类型,承担着培养高素质劳动者和技术技能型人才的使命。2014年5月,国务院颁布《关于加快发展现代职业教育的决定》,把职业教育发展置于国家战略的高度,系统规划了加快发展现代职业教育的理念和蓝图。2020年8月20日,教育部发布《中国职业教育发展白皮书》,指出职业教育是国民教育体系和人力资源开发的重要组成部分。进入新时代,中国政府高度重视职业教育,把职业教育摆在经济社会发展和教育改革创新更加突出的位置[1]。当前,我国职业教育已经进入体系建设改革新阶段,职业教育发展主要从数量发展转向内涵发展。行业企业参与职业教育是职业教育的特征与优势,也是必须下大功夫去探索和解决的难点。行业职业院校指的是由中华人民共和国政府部门、大型国有企业集团等组织所创立并运营的、带有显著行业特征的全日制公立专科教育层次的高等职业院校。这类教育机构作为中国特定历史时期与特定社会需求的结晶,多数由原行业部委监管的或大型企业设立的中等职业学校转型升级而来[2],并在推进国家高等职业教育事业以及国民经济社会发展过程中扮演了举足轻重的角色。据统计,2011年,行业高职院校占我国高职院校总数的41.38%[3]。尽管如此,其面临的困境也不容忽视,如“企社分开、主辅分离”给其生存和发展带来的困境、与行业企业的关系日渐疏远等。如何重新获得行业主管部门的支持,与行业系统内外企业开展好合作,是目前行业职业院校普遍需要解决的难题。 为深入探究不同行业职业院校的发展现状,本研究对服务型与技术型职业院校所公开发布的质量报告进行了系统的对比分析。运用大语言模型,从质量报告的文本内容中精确抽取了主体关系,进而深入剖析了服务型职业院校与技术型职业院校在资源投入、参与教学改革及推动企业发展领域的独特优势与策略差异,从而全面揭示职业院校在不同行业中的发展态势与特色。 一、研究设计 (一)样本数据的选取 鉴于全国数据规模庞大,本研究运用对比分析的方法,专注于探究具有代表性的行业领域。在样本筛选环节,剔除那些质量报告缺乏规范性的院校,以确保所选取院校的质量报告具有高度的规范性和内容模块的一致性,便于开展跨模块的对比分析。以这些筛选的样本数据为基石,进一步凝炼质量年报中涉及资源投入、参与教学改革与助推企业发展三个核心要素的信息,以此作为构建本体关系的语料基石。 (二)大语言模型框架 本研究采用全球公认的大型语言模型典范——ChatGPT,作为构建本体关系的核心工具。ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月30日公开测试。ChatGPT的名字是由两部分组成的:Chat即“聊天”;GPT为英文“Generative Pre-trained Transformer”的首字母缩写,意即“生成式预训练转换器”。简言之,ChatGPT是一个聊天机器人程序,它可以理解人类输入的文字,并根据文字的提问和指令,以文字的方式输出答案和反馈,从而实现借助自然语言的多轮次人机对话[4]。这一特性赋予了ChatGPT精确辨识和理解文本内各种实体及其相互关系的能力,进而生成自然、连贯且流畅的文本内容。在进行本体关系构建时,ChatGPT首先利用上下文解析与模式识别技术,精准地识别文本内的关键实体与概念,进而构建出结构化的本体关系。这一流程的自动化与高效性,使得ChatGPT在知识管理、信息检索及自然语言处理等多个领域均获得了广泛应用。无论是在构建知识图谱,还是执行复杂的语义搜索任务,ChatGPT均显著提升了工作效率与精确性。 在自然语言表达中,主谓宾结构占据着举足轻重的地位,它构成了句子搭建的基本框架。主谓宾结构明确界定了句子中的三大核心元素,即行为的执行者(主语)、行为本身(谓语),以及行为所指向的对象(宾语)。此结构为理解句子各部分的交互作用,以及共同构建完整且富有意义的句子,提供了一种明晰而直观的途径。 本研究通过在Python环境中调用大型语言模型ChatGPT的API,精准抽取质量报告中的主谓宾结构,进而构建“主语—谓语—宾语”的本体关系三元组。见表1。 表1 Python调用ChatGPT的部分提示词
(三)知识图谱 Neo4j[5]是一种高性能的No SQL图形数据库,使用图相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系,其具有完全支持ACID事务、基于磁盘的持久存储、支持海量数据、高可用的分布式集群、迅速的图查询等特点[6]。Neo4j的优点主要有:采用具有自由邻接的图存储结构,提供更快的事务处理和数据关系处理能力;随时随意添加更改数据,从而缩短开发时间;Neo4j使用Cypher查询语言,提供了一种非常人性化且有效的表达方式;能很容易表示半结构化的数据;数据之间的关系附加在节点之上,无论关系的数量或深度如何,都能确保零延迟和实时性能[7]。基于上述优点,本文使用Neo4j图数据库来构建不同行业职业院校的知识图谱。 知识图谱是以知识域(knowledge domain)为对象,显示科学知识的发展进程与结构关系的一种图像。它具有“图”和“谱”的双重性质与特征:既是可视化的知识图形,又是序列化的知识谱系,显示了知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多隐含的复杂关系,而这些复杂的知识关系正孕育着新的知识的产生[8]。知识图谱的基础结构涵盖节点、关系及属性。在构建过程中,借助Neo4j技术,可将大语言模型抽取的〈subject〉与〈object〉实体转换为对应节点,并附加type属性以区分主客体。其中,〈action〉象征着主宾之间的联系,通过Relationship对象实现节点间的连接。 此外,利用大语言模型,可将质量报告中的文本内容转化为主谓宾三元组数据,进而在Neo4j中构建知识图谱。这样能够清晰展示实体与关系,实现复杂数据的结构化与可视化,便于深入理解和分析。同时,Neo4j的图数据库技术可高效处理复杂查询与分析,迅速挖掘数据中的潜在关系与模式,从而提升信息检索与决策支持的效能。