论文学术不端文献检测系统本站仅为论文查重渠道,非知网官方网站。

当前位置: 知网查重 > 研究生学位论文重复率检测 > 论文相似度检测原理

论文相似度检测原理

时间:2018-03-21 15:03:13 编辑:CNCNKI查重网 阅读:loadding

 论文相似度检测原理

知网查重系统是目前大多数高校使用的系统。其严格的算法在论文检测系统中是非常权威的,那知网查重系统的语意相似度原则是什么呢?小编在这里向大家解释

单词的语义相似度计算在信息检索、文本分类、词义排歧、信息抽取、基于实例的机器翻译等诸多领域有着广泛的应用。基于词汇的语义相似度计算的句子相似度计算有着非常广泛的应用背景,如自动问答系统中问题答案的最佳匹配、自动文摘系统中通过计算句子相似度抽取文摘句,信息过滤技术中的句子匹配、基于实例的机器翻译中通过计算句子相似度来以该句子的译文为模板生成最佳的翻译结果等。目前,计算句子相似度的方法主要有两种:基于词语共现的统计方法和基于词汇的语义信息分析方法。前一种方法主要采用字符串匹配,并用两个句子进行比较。小编之前分享过一篇《知网检测论文相似度后该如何修改降重?》,计算两个句子中相同词数与总词数的比值,如北京大学计算语言提出的句子相似度计算公式:

其中m,n分别表示两个句子中的词的数量。C是两个句子中相同单词的数量。虽然这种方法非常简单高效,但它忽略了词汇的词汇和语义信息。句子的相似性停留在语素的匹配中,不能区分语义相似的句子。缺乏对语义的理解和支持,因此计算句子相似性的准确性不够。尽管后一种方法考虑到了单词的语义信息,并且可以区分语义上相似的句子,但它并没有充分利用句子的结构信息,即句子中每个单词的组成部分。在综合考虑这两种方法的优缺点后,提出了一种基于知网检测系统的基于句子的相似度计算方法。在这种方法中,基于句子的功能块标记,相同功能块中的词赋予更大的权重,不同功能块中的词赋予更小的权重,然后使用“知网检测”计算相似度通过对分词句的词组加权平均,不仅考虑了句子中词的语义信息,而且分析了句中词的组成,充分利用了句子的结构信息,从而更准确地描述语义和相似句子结构的相似性