截止目前累计成功为5,000,000 用户成功查重检测

CNCNKI学术不端文献查重检测系统 多语种 图文 高校 期刊 职称 查重 抄袭检测系统

垂直引擎搜索的设计与实现-中国知网毕业论文查重

时间:2016-10-19 12:00:00 编辑:知网 阅读:

摘  要

中国知网毕业论文查重随着网络的日益发展,人们已经越来越习惯从网上获取对自己有用的信息。Lucene是构建搜索引擎的其中一种方式。此次 毕业设计所做的垂直引擎搜索系统是用JAVA语言编写的。主要完成的功能有:用爬虫抓取网页;获取有效信息放入数据库;通过Lucene建立索引;对简单关键字进行搜索;使用Ajax的局部刷新页面展示结果。

本篇论文针对垂直引擎搜索方面,详细的介绍了垂直引擎搜索系统的现状和背景,并进行研究,设计并实现了系统的需求分析以及搜索功能。在实现功能的同时,也对搜索引擎的工作原理、功能模块等方面进行了详细的介绍。实现了Ajax的异步数据交互,从而完善了整个垂直搜索引擎系统的设计。

知网论文查重

知网论文查重

1 绪论

1.1 研究现状

随着互联网的快速发展,互联网技术已经应用到普通百姓的生活的方方面面,其中搜索引擎的使用尤为广泛。在最近的15年时间段,是搜索引擎爆炸性快速发展的阶段。搜索引擎的发展从最早的分类目录的一代,经历文本检索,链接分析,到现在的以用户为中心的一代,为了顺应这种以互联网用户的个性化和和社交化为中心的趋势,垂直搜索引擎应运而生[1]。垂直搜索引擎是一个具有行业色彩的搜索服务,针对特定的人群或领域。

1.2 主要研究的目的及内容

让所有用户从同一个入口进入已经渐渐无法满足让用户对搜索的结果满意,现在的用户需要更深入、更细致的查询方法。而以现在的科技水平来说,要及时获得网上的比较具体的信息是很困难的。如何让搜索引擎变得更加深入、专一和及时变成了现在的主要研究方向。

1.3 研究方法及设计思路

1.3.1 研究方法

采用软件工程的开发原理,依据软件流程过程规范,按照需求分析、概要设计、详细设计、程序编码、测试、软件应用、软件维护等过程开发了一个搜索引擎网站[2]。采用JSP作为开发工具,结合mysql数据库,数据库设计遵循3范式。解决了搜索引擎中存在的数据安全性、数据一致性以及系统运行速度等问题。

1.3.2 设计思路

解决本课题的思路是:

(1)理解什么是垂直搜索引擎,并且要多查询相关的资料和书籍,了解要做垂直搜索引擎需要使用哪些算法。

(2)针对该课题的算法方面,首先是通过相关资料和书籍来了解需要哪些算法,再专门对这些算法进行了解分析,加上自己的想法来设计和改进。要做一个搜索引擎,首先要对其的技术架构进行分析设计,分别是网络爬虫、网页去重、云存储与云计算平台、内容相似性、链接分析、网页排序等。

(3)在网页分析阶段,对数据的保存采用“倒排索引”这种高效的数据结构的查询方式。每个网页上面通常还有其他页面的链接,在进行分析的时候,通过“链接分析”对各个网页进行重要性的排序分析。

(4)在搜索引擎的各个功能模块中,“反作弊”也越来越受到重视。在对各网页进行排序的时候,出现了很多的“作弊”方式,因此,采用“反作弊”也就很重要了,通过这种方式来给用户带来更好的搜索体验。

1.4论文结构

第一章为绪论,在本章中,首先讲述了关于此次毕业设计的涉及到的研究背景以及现状。然后,对垂直搜索引擎的相关知识进行了比较详细的讲解。最后,就通用搜索引擎的特性与垂直搜索引擎进行了比较。

第二章为系统的需求分析和可行性分析,讲述了编程的条件以及可行性。

第三章为相关技术简介,其中介绍了关于JSP的概念和优点等方面,然后概述了MYSQL数据库的相关内容,除此之外还对JDBC进行了介绍,最后是有关于B/S模型的概述。

第四章为系统设计,是对此次毕设所完成的工作的一个综述。在本章中,详细的描述了整个系统的结构。接着,对各个模块的的功能进行了介绍了。最后,展示了一部分系统运行的结果和少量核心代码。

第五章为总结与展望,简略的总结了本次毕设自己所做的工作,反省了自己存在的不足,对在这几个月里帮助过我的人表示感谢,以及对垂直搜索引擎的未来的展望。

1.5 垂直搜索引擎 

   作为一个高性能的搜索引擎,它所显示的、所提供的信息或者相关内容肯定会非常接近用户输入的关键字[3]。例如百度搜索这种综合搜索引擎与“年轻”一些的垂直搜索引擎相比之下,最大的区别在于前者是属于模糊搜索而后者是精准搜索。在百度里输入一个关键词,经常会返回给你一些与关键词联系性不是很强的搜索结果,而在淘宝网上搜索要买的东西,出来的必定是相关的宝贝。

1.5.1垂直搜索引擎的定义

垂直搜索引擎可以根据用户输入的关键字先对库中存储的信息进行整理,通过定向分字段的方式提取出用户所请求的数据并返回给用户。垂直搜索引擎因为其查询网上信息的准确性高、查询具有一定的深度和具体的特点,迅速的被大众接受并且被广泛的使用[4]

1.5.2垂直搜索引擎的框架

其工作的主要流程为:

第一步:从网络上尽可能的抓取用户需要的数据。

第二步:整理从网上抓取的数据然后将这些数据保存到数据库中。

第三步:创建一个索引,将存入数据库中的数据有序的排列起来,便于以后检索和查找。

第四步:建立检索模型,设计排序算法。

第五步:将想要搜索的内容的关键字输入以进行检索,实现交互。

用户可以输入关键词来查找自己想要了解的内容,系统会对关键词进行检索,之后将有效的信息返回。

返回