知网学术不端行为检测系统、万方查重、维普查重、turnitin等论文检测系统的比较

知网查重入口

学术界, 特别是高校和科研机构, 一直被大家誉为“象牙塔” 。人们希望在日趋功利化的社会中, 能存留着这样一片净土。然而, 近年来在我们认为纯洁的这片净土上, 却发生了不少抄袭造假、权学交易等学术不端事件── “汪晖事件[ 1] ”;浙大“论文造假”事件[ 2] ;刘兴土院士事件[ 3] 等等。学术不端事件频发, 让越来越多的人对中国科技事业的未来开始担忧。20世纪以来, 科研经费成为一种稀缺资源配置, 随着科研队伍的扩大, 不可避免地在有限资源和职位上出现竞争。一直以来, 学术界上上下下都在强调学风建设, 学术不端事件却因何屡禁不止? 对于这一连串学术造假事件所暴露出的学术评估乏力问题, 复旦大学葛剑雄教授呼吁:“我们需要独立学术机构的独立调查” 。清华大学教授蔡继明建议[ 4] , 目前学术监管可以通过引入民间第三方的独立审查机构来保证监管的公开、透明、公平。

为了贯彻落实好这个第三方的独立审查机构, 并且使这个机构有客观公正的态度和作风, 在计算机信息飞快发展的今天, 我们首先可以做的就是努力建设一个有着全面的系统的学术不端文献检测系统平台的第三方机构。这个平台的建设对提高我国科技发展水平、加快建设科技期刊强国, 对全面建设小康社会、加快推进社会主义现代化、实现中华民族伟大复兴具有重大而深远的意义。

1 什么是学术不端行为

1992 年, 由美国国家科学院、国家工程院和国家医学研究院组成的22位科学家小组给出的学术不端行为的定义[ 5] :在申请课题、实施研究报告结果的过程中出现的捏造、篡改或抄袭行为。即不端行为主要被限定在“伪造、篡改、抄袭” (FFP) (Fabrication, Falsification, Plagiarism)三者中。

中国科协科技工作者道德与权益工作委员会提出了我国学术不端行为的七种表现形式[ 6] :抄袭剽窃他人成果、伪造篡改实验数据、随意侵占他人科研成果、重复发表论文、学术论文质量降低和育人的不负责任、学术评审和项目申报中突出个人利益、过分追求名利和助长浮躁之风。

在中国著名生命科学家邹承鲁看来:在我国学术上的不端行为还应包括伪造学历和工作经历、贬低前人成果、自我夸张宣传、一稿多投、在自己并无贡献的论文上署名、为商业广告作不符合实际的宣传等[ 7] 。

虽然以上各种定义存在差别, 但实质内容大体相同, 即学术不端行为是指在学术研究过程中出现的违背科学共同体行为规范、弄虚作假、抄袭剽窃或其他违背公共行为准则的行为。大致都把现有主要的学术不端行为分为以下这四类:抄袭、伪造、篡改及其他?!捌渌敝饕ú坏笔鹈?、一稿多投、一个学术成果多篇发表(不包括科研阶段性成果的发表)等不端行为。

2 国内科技文献数据库的学术不端文献检测系统平台

2.1 CNKI科技期刊学术不端文献检测系统(AMLC)

CNKI科研诚信管理系统研究中心是同方知网出版集团旗下从事科研诚信管理产品研发的专门机构, 中心主要从事学术不端文献检测系统、科研诚信档案管理系统等软件研发。同时也承担相关机构委托的科研诚信监测、管理等事务?;刮鞯ノ坏难跗兰厶峁┛蒲谐闲欧矫娴牟慰际? 辅助进行学术评价。它旗下的中国学术期刊(光盘版)电子杂志社(CNKI)的科技期刊学术不端文献检测系统(AMLC) 从2006年开始正式立项研发到目前已经达到大规模实用化的成熟程度。2008年底, AMLC管理办公室开始为CNKI提供每期数据的期刊编辑部免费提供刚开发完成的《科技期刊学术不端文献检测系统(AMLC)》。

如期刊编辑部希望使用该系统, 可以邮寄、传真方式向中国学术期刊(光盘版)电子杂志社AMLC[ 8] 管理办公室提交《AMLC使用申请》, 签订授权使用协议, 就可以通过CNKI 的客服人员直接开通本编辑部的系统使用账号, 这个账号只能用于检测本刊的来稿和已发表文献。

AMLC系统建设是一个系统工程, 涉及检测方法设计、比对数据库建设、规范数据库建设、大规模数据测试、系统性能测试等多个环节。系统目前的检测范围涵盖中国学术期刊网络出版总库、中国博士论文网络出版总库、中国优秀硕士论文网络出版总库、中国报纸全文数据库、中国专利全文数据库(知网版)、中国科技成果数据库(知网版)、中国年鉴网络出版总库、中国工具书数据库、中国标准数据库(知网版)。正陆续引进英文数据库、网络数据库等资源。AMLC可以进行快速文献比对。以CNKI各库为比对基础库, 在2 ~ 5秒内完成一篇5000汉字的文献比对, 出示比对结果。并支持批处理。用户可上传包含多篇文献的压缩文件进行检测。其比对结果经过标红, 且有定位功能。能够快速发现文字重复的部分, 方便快捷。另外在结果中将详细显示比对源文献的篇名、作者、发表刊物、发表时间等信息, 便于用户参考。

经笔者所在编辑部试用, AMLC可以检测的文献格式包括:caj、doc、pdf、txt文本以及包括上述格式文献的压缩文件。用户也可对已提交文献进行重新检测、修改、删除操作。点击提交文献的篇名即可细览该文献的监测结果。

另外, 用户还可以删除系统给出的某些抄袭来源文献, 得到新检测结果。如果用户点击抄袭来源篇名, 就可以查看文件相似内容对比情况了。

2.2 万方论文相似性检测系统

万方论文相似性检测系统是基于万方数据公司所收录的期刊论文、学位论文、万方数值数字化期刊全文数值库、万方数值学位论文、常识服务平台的全文数值库等海量数据, 运用先进的检测算法研制而成, 它具有检测速度快、检测准确等特点。国内第二大数据集成商万方数据, 在CNKI推出AMLC 一年零一个季度之后终于拿出了一个与CNKI相提并论的产品, 在2010的3月, 万方公司的网站上出现了万方论文相似性检测系统的链接http://check.wanfangdata.com.cn, 通过论文相似性检验测定体系的官网[ 9] , 万方数据将检测费用定义在10元每万字, 可以直接通过自己在万方数据的账户登录, 并进行论文的检测, 通过检测可以看到万方数据提供了简明和详细两种检测报告。

2.3 维普——— 通达论文引用检测系统

国内第三大数据集成商维普资讯, 在CNKI推出AMLC 一年零3个季度和万方数据推出论文相似性检系统半年之后终于也拿出了一个与CNKI和万方数据相提并论的产品——— 论文引用检测系统.从2010 年9 月起个人用户在维普——— 通达论文引用检测系统的官网http://www.gocheck. cn注册就可免费检测自己的文章。

维普——— 通达论文引用检测系统经过部分高校及社会个人用户的测试, 已经面向企事业用户、个人用户全面公开免费试用, 用户仅需填写真实的邮箱快速注册即可免费享受论文引用检测服务。

该论文检测系统是基于多年数据挖掘技术领域的成功经验, 应用于文本比对检测领域上的成熟产品。该系统将自主研发的大规模文本处理技术, 应用于论文内容创新性评价系统, 能够高效的与海量文本资源进行比对, 检测出重复及引用片段等, 并且能够计算出论文的复写率、引用率及自写率(对论文内容创新性评价)等指标[ 10] 。

该系统集合了专业的数据库资源, 针对不同类型用户的需求, 可提供专业的个人自检测服务、高校学生论文检测服务、期刊稿件检测服务以及其他类型的检测服务等。

该系统可以满足教育界、出版社、媒体、科研机构等行业客户及各类论文撰写者等不同用户的需求。通过该系统, 我们可以查出该文作者的自写率是多少。

2.4 ROST反剽窃系统(学术论文不端行为检测系统)

ROST反剽窃系统(学术论文不端行为检测系统)是由武汉大学信息管理学院出版科学系沈阳教授带领课题小组开发成功的文档相似性检测工具??捎行Ъ觳饴畚牡某嗨魄榭? 经过6年的研发(早期版本叫做网盗克星), 推出了6.0版本。

ROST反剽窃系统可以自动将文档切割为多个50 ~ 200 字(可自定义)的小文本, 通过混合引擎与188 亿个网页和490万篇文献进行柔性匹配, 标示出每个文本块与文献库中的文献的最大相似度。由此软件统计出相似度≥ 95%(基本原封不动拷贝)与相似度≥ 80% (拷贝后略作修改)的字数所占总字数比例。软件把这个比例作为相似程度参考衡量指标?!?ROST反剽窃系统”与其他系统最大的不同之处在于覆盖了188亿个网页以及490万篇论文。

自ROST反剽窃系统2008年4月推出以来, 先后在武汉大学信息管理学院研究生办公室、CSSCI核心期刊《出版科学》、《图书情报知识》试用, 在2008年11月举办的第二届数字时代出版产业发展与人才培养国际学术研讨会对会议论文进行全面检测, 并在2008年12月的第三届中国期刊创新年会向全国期刊界做了全面推介, 取得了良好的效果。现在, ROST反剽窃系统已经进一步在《中国社会工作》、北京大学、厦门大学、上海理工大学、成都理工大学、浙江传媒学院等全国近百所高校和期刊社中试用[ 11] 。

2.5 国内学术不端文献检测平台的比较

随着计算机技术在国内的广泛兴起, 对于学术论文不端行为检测系统的软件开发浪潮也一浪高过一浪。网络和软件的开发成功成为了国内反学术不端行为重要的里程碑, 也成为反学术论文不端行为的重要力量。通过对国内几个著名的学术论文不端行为检测系统的介绍, 我们发现, 国内的学术论文不端行为检测系统都是由具有背景的各高校和研究所开发(见表1)。它们在功能和形式上大同小异, 也有各自不同的软件算法, 支持的文件类型也非常相近, 只是由于平台名称科技期刊学术不端文献检测系统论文相似性检测系统维普—通达论文引用检测系统ROST反剽窃系统

后台核心数据库的不同, 造成了最终检测结果有所差别。因此一个学术论文不端行为检测系统的强大与否根本在于其后台比对数据库是否收录了以前所有公开发表的文献。由于现在CNKI和万方争相采取和各个编辑部签订独家合作的协议[ 12] , 如果某一编辑部签订这一协议之后, 就势必造成另一数据库该刊物的原始数据文献缺失, 也就造成了现今国内没有一家数据库是完整收录所有刊物文献数据的。由于数据库文献不全, 所以国内任何一家开发单位的产品都不能说百分百保证被检测的数据一定可以与以往所有公开发表的中文文献数据进行比对。所以各编辑部如果追求最全数据比对效果的话, 最好同时使用各个开发单位的产品。另外我们也同时呼吁国家政府管理部门出面叫停所谓的签独家协议的做法, 这样做不仅仅造成的数据库内容不完整, 更是造成了社会资源的极大浪费。

3 国外科技文献数据库的学术不端文献检测系统平台  

反学术不端反剽窃系统作为论文初筛工具已经成为欧美高校的常用软件, 国外高校对于反剽窃的研究高度重视, 在反剽窃领域的研究也比较成熟, 六年来国际反剽窃大会[ 13] 已经举行了三届, 相对来说前面介绍的国内相关研究还比较滞后。

3.1 Turnitin

Turnitin是全球最权威的英文检测系统[ 14] , 被提交检测的文章均为系统自动检测, 无任何人工的干预, 所检测出来的结果是系统与Turnitin所收录的海量文献进行对比分析后自动得出的结果。Turnitin提供给教育工作者强大而有效的工具, 来促进学生们的写作技巧和独立评价思考能力。Turnitin已经成功地在全世界90多个国家、超过7000 所高等院校应用, 全球数百万的教师及学生都在使用Turnitin的实时评分工具和剽窃侦测服务。

十多年来Turnitin已经成为业界的领导者。每天收到的学生论文超过100000份, 已经成为教育界必不可少的工具。Turnitin依靠行业中最先进的搜索技术建立的持续增长的庞大数据库, 来帮助教育工作者对学生作业中含有的不恰当的引用、或潜在的剽窃行为进行侦测和比对。每一份反馈的报告都提供给教师们一次教育自己的学生如何正确地引用文献, 并以此捍卫学术诚信。

Turnitin是世界级最佳解决方案, 港台和新加坡的很多高校也在学校网站上有详细指导学生使用Turnitin的说明, 如香港理工大学[ 15] , 还有新加坡所有的四所大学均已使用Turnitin[ 16] 。

Turnitin的比对数据库中拥有超过4千万学生论文的数据库, 索引超过120亿的internet网页, 超过10000种主流报纸、杂志及学术期刊, 数以千记的书籍, 包含文学名著等。所以Turnitin是唯一有技术能力来侦测是否是购买的论文、伪造或是学生之间的相互剽窃的系统。

3.2 CrossCheck

CrossCheck是CrossRef组织下属的一个子网。由于近年来出版集团也和大学一样发现有越来越多的剽窃行为。总部位于荷兰的Elsevier公司和总部位于英国牛津的Blackwell 公司是学术界的两大出版集团, 一共出版了2500多种期刊。因为剽窃正在变成一种普遍情况, 出版集团也和大学一样不得不采取行动了。Blackwell的总裁BobCampbell说:“编辑们越来越频繁地向我们抱怨这类事情”[ 17] 。

所以出版集团的联合组织CrossRef就成为最有可能担当此项责任的系统平台。CrossRef[ 18] 最初是由几家出版商于2000年创立的非营利性组织, 其宗旨是通过出版商之间的集体合作, 让用户能够访问原始研究内容。CrossRef也可以被看作是一个数据库, 存储它代理注册的DOI;CrossRef 还是一个技术架构, 用来建立在不同出版商的网络平台上出版的STM (Science/Technical/Medical)期刊内容之间的链接, 称之为“跨出版商链接” , 或“跨平台链接” , 这是CrossRef 最重要的作用。

这种链接机制背后最核心的技术是DOI(DigitalObject Identificator, 数字对象标识符), 就是给网上的每篇文章分配一个唯一的身份识别代码。目前CrossRef已有3000 多家会员单位(出版商、学协会等)。

CrossCheck是由CrossRef推出的一项服务, 用于帮助检测论文是否存在剽窃行为。它的软件技术来自于iThenticate。在国际出版链接协会(PILA)牵头下, 国际几大出版商和电子电气工程师协会(IEEE)及美国计算机学会(ACM)共同参与了这项全球性项目。正是由于Crosscheck 能够在全球范围内最大程度地检查和防范学术剽窃行为, 达到严正学术道德, 净化学术空气的目的, 使其一举赢得了全球学术与专业出版者协会(ALPSP)颁发的2008年度全球最佳出版创新奖。目前全球会员单位有50多家, 包括一些国际科学出版集团和科学学会:自然出版集团(NPG), 爱思唯尔, 施普林格, 威立· 布莱克威尔(WileyBlackwell), 英国医学期刊出版集团(BMJ) , 泰勒弗朗西斯出版集团(Taylor&Francis), 美国科学进步协会(AAAS), 美国物理学会(APS)等。我国的《浙江大学学报(英文版)》在国家自然科学基金的重点期刊项目的资助下, 也于2008年成为中国第一家Crosscheck会员[ 19] 。

CrossCheck的工作原理其实很简单, 用户通过客户端将可疑论文上传, 然后系统将该论文与CrossCheck数据库中的已发表文献进行比较, 最后报告给用户可疑论文与数据库中已发表文献的相似度, 以百分比表示, 并将相似的文本标示出来。当其相似度总量超过50%时, 系统会自动显示黄色背景, 如图6所示, 提醒操作者的注意。只要点击其中的相似度数据, 系统便直接进入具体报告列表, 操作者可以对论文具体的“ 文本重叠” 现象进行分析判断。其中, 界面的左栏为上传的被检测文本, 凡与之匹配的对比文献相似部分系统以相同的颜色和序列号标识;右栏的每个单篇匹配文献的相似度大小顺序排列。

3.3 Safeassign

SafeAssign[ 20] 是Blackboard教学管理平台功能的一部分, Blackboard用户无需额外费用, 能够将提交的论文与指定的资源库中的论文进行相似度对比检测, 并将检测结果(包括匹配度、分析报告)反馈给用户;与成绩中心互连, 教师可在成绩中心为检测后的论文打分。SafeAssign同样也是强有力的反抄袭检测工具, SafeAssign采用独特的原创性检测算法将提交的文章与数据库内批量收藏的作品进行对比, 这些数据库包括:数以亿计的公众可获取的文件的综合信息的互联网;有数百万的当前文章, 且每周都在更新的ProQuest ABI/Inform数据库;机构的用户提交的所有文献研究机构的文档库:还包括有各地学生们自愿提交的文献全球参考数据库(GlobalReferenceDatabase);文献在专业机构的数据库内自动进行检测。

3.4 爱思唯尔的PERK

爱思唯尔作为世界上最大的学术期刊出版机构, 旗下拥有1800多种期刊。2008年3月4日, 爱思唯尔发布了《出版道德资源工具包》(PublishingEthicsResourceKit, PERK)。PERK是一个在线资源[ 21] , 用以处理期刊编辑出版中的论文是否有学术不端问题。这是一个爱思唯尔出版道德准则的单一标准点。同时作为一个在线资源, PERK链接到爱思唯尔内外各种与出版道德相关的政策和程序性文件, 为期刊编辑提供及时和广泛的在线支持。

3.5 国外其他科学文献检测平台

和国内的情况不同的是, 除了上述几家国际著名的学术不端文献检测平台外, 国外还有相当多数量的学术不端文献检测平台。如马里兰大学的ThePlagiarism Checke[ 22] , plagiarism checker公司的检测平台[ 23] , ArticleChecker公司的检测平台[ 24] , plagiarism search公司的检测平台[ 25] , plagiarismdetect公司的检测平台[ 26] , theplagiarism公司的检测平台[ 27] , 等等。

4 国内学术不端文献检测系统平台与国际间的差距

国内学术不端文献检测系统的建立时间相比国外的学术不端文献检测系统来说很短, 技术方面都还很不完善, 无论从算法结构, 还是后台核心数据库, 用户数, 还有用户选择上都无法和国际巨头相提并论。更重要一点, 国内的学术不端文献检测系统在英文文献上毫无办法, 这为一些国际化程度较高的高校要选择使用此类系统产生一定的障碍, 通过同样处于华语区的新加坡和香港的高校, 我们可以发现, 使用国际知名的学术不端文献检测系统是多数。

结合国内国外的几个学术不端文献检测系统平台的实例, 我们可以发现凡是通过互联网组织和强大数据库后台支持运行的学术不端文献检测系统平台都相当的成熟, 并且数据的更新和维护非常及时, 无论在实际应用和现实情况上都有较大优势。因此建议政府部门在支持建立新的学术不端文献检测系统平台时, 可以考虑建设含有现今完整中文文献数据库和强大中文网络搜索比对功能的科学文献平台, 在此平台上建立的反学术不端、反剽窃检测平台必然获得巨大的。

5 结语

所有的科学研究, 都是在前人劳动成果的基础上进行的, 并有所创新、有所提高、有所发展。作者在撰写论文时, 引用他人重要学术观点、理论、成果、研究方法或数据结果、调查结论等体现出科学的继承性及对他人劳动的尊重[ 28] 。作为一个科研工作者, 标注引用他人学术成果是一种符合科学伦理道德的行为。而现有的学术不端文献检测系统, 完全可以作为作者的一种自我检查。对于作者来说, 学术不端文献检测系统的好处是显而易见的, 这个由计算机数字信息处理系统所组成的功能平台实际上起到的作用是预防剽窃, 防止该作者将文献投稿并公开出版后被公众指认为剽窃而后悔莫及。

作为编辑来说, 也要认识到仅仅根据文字复制比例判断抄袭行为是有局限性的, 一定要采取科学的态度, 具体情况具体分析, 理性地作出判断。特别是简单、机械地整个句子抄袭在学术不端文献检测系统推广后会大量减少, 可以遇见在不久的将来, 更隐蔽、更有欺骗性的剽窃论文将会大量出现。因此对于编辑来说, 任何检测系统都不是万能的, 对系统的结果不宜盲从, 无论是检测结果有问题的, 还是没有问题的, 都不一定代表是最后真正结果, 更不能将计算机判断的结果作为判断此论文到底有没有剽窃的最终结果。期刊编辑对各类学术不端检测系统检测的结果必须要人工2次核实, 才能对论文最终做出客观、公正的评价。如果检测出来重复的是具有共性、普适性、权威性的并且引用过的内容, 可以剔除嫌疑, 而经同行评议发现论文作者盗用他人学术观点、理论、数据、图表、结论成果并在文字表述有大量改写而通过学术不端文献检测系统未能检出的文章一样判断为抄袭, 退稿并列入黑名单。