学校第十一次党代会已经胜利闭幕,为帮助全校师生更好地学习把握党委工作报告,我们利用大数据分析中的文本分析(挖掘)技术,对报告文档通过计算机自然语言处理、数据可视化展示,揭示出在非结构化文本信息中的人物、事件、时间、地点等内容,从而提供对报告全新层面的解读。
一、关键词提取
学校第十一次党代会党委工作报告全文约1.37万字,将报告文档做词云分析,生成报告词频的权重数据,导入学校海燕识别图像生成词云图,通过提取关键词揭示党代会报告的核心要点(如图1所示)。(注释:词云图是对文本文档中出现频次较高的“关键词”予以视觉上的突出,形成“关键词云层”或者“关键词渲染”,从而过滤掉大量的文本信息,使读者可以短时间内领略文本的主旨)
图1 海燕词云图
通过图1的词云图可以看出,建设、学科、发展、人才、特色、治理等词汇是大会报告中权重较大的,关键词词云图分析结果比较充分地展示了学校党代会报告的核心概念。
二、词频统计
将报告文档导入数据分析系统进行中文分词处理,首先直接进行分词再统计词频,词频位于前30位的结果如图2所示。另外,针对分词结果添加自定义分词(如“高水平”“新时代”“青科大”“强校”“二十大”等),进行词库重载后再进行分词并统计词频,位于前30位的结果如图3所示。
图2 报告文档词频统计前30位
图3 自定义分词后词频统计前30位
通过图2及图3可以看出,建设、学科、发展、人才、学校位于会议报告词频的前五位,围绕学科、人才推动学校建设发展是今后工作的中心。
三、情感分析
对文档进行一般性行处理,将处理好的文档导入数据分析系统进行文本情感分析(注释:文本情感分析也称为意见挖掘,是指用自然语言处理,文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息以及词汇隶属的情感分类),文本情感分析结果如表1、图4所示。
表1 情感分析结果
青岛科技大学师资力量
学校坚持人才强校,现有教职工2800余人,其中住鲁院士2人、聘任院士10人,国家杰青5人,国家高层次人才特殊支持计划领军人才2人,教学名师2人,长江学者讲席教授1人,国家有突出贡献的中青年专家4人,国家“百千万人才工程”人选4人,国家优青3人,全国优秀教师10人,享受国务院政府特殊津贴50人;泰山学者优势特色学科领军人才2人,泰山学者攀登计划、特聘教授、青年学者等省级高层次人才54人。
青岛科技大学教学特色
学校学科特色鲜明,拥有5个博士一级学科,5个博士后科研流动站,24个硕士一级学科,16个硕士专业学位类别。形成了以材料科学与工程、化学工程与技术、动力工程及工程热物理等为代表的多个优势特色学科群,其中化学、材料科学、工程学、环境科学与生态学4个学科进入全球ESI学科排名前1%,4个学科入选山东省重点建设的“一流学科”行列,2个学科入选山东省优势特色高水平学科。