摘要:文章针对组卷系统中容易对同一语义内容但不同形式的题目多次出现在同一张试卷中的问题,提出了基于差分优化语义相似度模型的组卷系统。此系统引入语义相似度模型,在组卷的过程较好地避免了重复知识点的考查,增加了组卷的成功率;在语义相似度模型的基础上,对一些参数不再用手动的方式调整,采用差分算法对模型中的相关参数进行动态的调控,不仅可以避免手动调整参数的辛苦,又在全局范围中获得最优化的参数,从而保证了自动组卷系统的科学性、公正性、高效性,该系统对题目知识结构,数据延展进行全方位的跟踪管理,多种考试形式丰富组织方式。 关键词自动组卷系统语义相似度模型余弦相似度差分优化 中图分类号:TP391。3文献标识码:ADOI:10。16400j。cnki。kjdks。2016。02。073 0引言 现阶段,有不断增加的考试类型和不断提高的考试要求,随即而来,也越来越增加了教师的工作量。为适应现代考试的需要,传统的考试方法应该慢慢地被淘汰了。目前有着迅速发展的计算机应用,网络应用不断扩大,如远程教育和虚拟大学的出现等等,且这些应用正逐步深入到千家万户。在线考试都会需要这些网络应用技术,期待减轻教师的工作负担以及提高工作效率,与此同时提高了考试的质量,从而使考试更趋于公正、客观,更加激发学生的学习兴趣。鉴于以上现状和结合当前市面上考试系统的特点与不足,一种新型的语义相似度模型的自动组卷系统应运而生。 1基于差分优化语义相似度模型的自动组卷系统 针对现有自动组卷系统的不足,本论文提出基于差分优化语义相似度模型的自动组卷系统,以提高所组试卷的质量。例如避免在组卷过程中产生选择、填空、判断三者之间对同一知识点考查多次的问题;改进传统的组卷系统,借助语义相似度模型实现对填空,问答的审阅,使得组卷变得更科学、更智能,以减轻老师负担和提高系统工作效率。基于差分优化语义相似度模型的自动组卷系统具有以下特点: (1)引入语义相似度模型;(2)具有普适性,基于语义层面的相似度模型使得系统不再局限于少数几门学科;(3)提高组卷效率,借助语义相似度模型,在组卷的过程较好地避免了重复知识点的考查,增加了组卷的成功率;(4)题型更加全面,借助文本相似度的计算实现了对填空,问答等主观题的组卷;(5)组卷具有高效性,省去了人工组卷环节,系统的工作效率得到了质的飞跃;(6)采用差分算法对模型中的相关参数进行动态的调控,不仅可以避免手动调整参数的辛苦,又在全局范围中获得最优化的参数,从而保证了自动组卷系统的科学性、公正性、高效性。 1。1语义相似度模型的设计与实现 文本语义相似度量方法大多将文比文本看作一组词的集合体,分析每个词在文本中出现的次数以及在整个文本集合中出现的次数,进而利用这些词频信息将文本建模为一个向量,并利用向量间的余弦相似度、Jaccard相似度等方法计算文本之间的相似度。基于语义的文本相似度量方法则通过同义词、冗余和蕴涵等语义关系来考查文本之间的相似度。 鉴于已经存在的问题的一些不足,在本文中将采用一种能有效降低文本表示模型的维度,又能结合词项语义信息进行相似度量计算的方法。 1。2语义相似度模型具体算法 对于语义相似度模型的算法,主要有两个关键操作:关键词的提取、关键词项向量间的相似度计算。 1。2。1关键词的提取 (1)首先预处理文本中的人名、地名、无实意的常用字(在TFIDF方法中有相关识别技术),将它们用per,loc,org等词代替,因为这类词具有较高的TFIDF值,从而容易导致对文本关键词项的错误选择;然后,必须对文本中的词项进行词性分析,给出词项的语义属性,即该词项是名词、动词还是副词等。 (2)关键词项的选择:文本预处理完成后,需要对整个文本集合中的词项进行TFIDF值计算,并将词项的TFIDF值进行排序,选取TFIDF值大于P(P为百分比)的名词动词词项作为关键词项。 (3)由于关键词项代表了一篇文本中最重要的信息,因此文本的相似度就可以由关键词项向量间的相似度来描述。因此,文本之间的相似度就转换为关键词项向量间的相似度。 1。2。2关键词项向量间的相似度计算 借助HowNet中的思想,将词语理解为多个义原(语义的最小原子)的集合,两个义原集合相似度即词项相似度,先寻找最优匹配,集合中批次最相似的元素两两组合,然后加权值就是整体相似度。每个义原在定义概念中的作用大小不同,义原所携带的语义信息越丰富,权值越大。义原相似度的计算则使用刘群的公式:sSim(S1,S2)a(adistance(S1,S2))计算。若词项整体相似度0。5则判定为相似。然后,以类似的方法,借用权值在得出关键词项相似度的情况下,计算文本相似度。 1。3将语义相似度模型应用到组卷模块 为了避免题目内容上的重复,把语义相似度模型应用到组卷系统中,以实现组卷系统的试题在内容上的非冗余性和形式上的科学性,其步骤如下: 获取某一问答题考生所给答案文本及标准答案文本; 若试题标准答案已设置关键字,将考生所给答案文本与关键字做匹配,匹配成功率直接与最后评分关联。若未预先设置关键字,直接进行下一步; 将考生所给答案文本与标准答案文本做相似度计算,根据文本相似度计算结果以及提前设置的评分算法进行评分。(评分算法:举例scoreS1aS2b,Score为此题最后得分,S1为中匹配成功率S2为中文本相似度计算结果a,b为权重比) 1。4差分算法优化语义相似度模型的相关参数 由于差分算法采用对个体进行方向扰动,以达到对个体的函数值进行下降的目的,此算法不利用函数的梯度信息,因此对函数的可导性甚至连续性没有要求,适用性很强。对于词项相似度的参数、文本相似度的参数,通过差分算法自动寻优找到最优的参数,摈弃传统的手动主观控制参数方式,从而得到更科学的语义相似度模型,进而得到更智能、更客观的组卷系统,这是手动组卷方法所不能企及的。 2结论 针对组卷系统中容易对同一语义内容但不同形式的题目多次出现在同一张试卷中的问题,提出了基于差分优化语义相似度模型的组卷系统。采用一种能有效降低文本表示模型的维度,又能结合词项语义信息进行相似度量计算的方法进行自动组卷,以提高自动组卷的质量,实现自动组卷的科学性;通过差分算法自动寻优找到最优的参数,摈弃传统的手动控制参数方式,从而得到更科学的语义相似度模型,进而得到更智能、更客观的组卷系统。 参考文献 〔1〕MikolovT。Word2vecproject〔EBOL〕。(20140903)〔20150410〕。http:code。google。compword2vec。 〔2〕谷波,刘开瑛。中文文本分类中一种简单高效的特征词选择方法〔C〕。2005第一届中国分类技术与应用研讨会(CSCA)。2005:356360。 〔3〕周练。Word2vec的工作原理及应用探究〔J〕。科技情报开发与经济,2015(2):145148。 〔4〕郑文超,徐鹏。利用word2vec对中文词进行聚类的研究〔J〕。软件,2013(12):160162。