Search Engines Information Retrieval in Practice - Softcover

[美]克罗夫特,等 刘挺,等

 
9787111288084: Search Engines Information Retrieval in Practice

Synopsis

《搜索引擎:信息检索实践》介绍了信息检索中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,很好地兼顾了信息检索理论以及搜索引擎的设计、实现和使用中的知识面广度与深度问题,重点关注于那些对于实现搜索引擎组件以及组件背后的信息检索模型最重要的部分,以及网络上使用的搜索技术。《搜索引擎:信息检索实践》适合作为高等院校计算机科学或计算机工程专业本科生或研究生的教材。2.查询转换查询转换组件包括一系列的技术,这些技术用于在生成排好序的文档之前和之后改善初始查询。最简单的处理涉及一些对文档进行文本转换的技术。在查询文本上,需要进行词素切分、停用词去除和词干提取这些工作,以生成与文档词项具有可比性的索引词。拼写检查(spellchecking)和查询建议(querysuggestion)是查询转换中的技术,生成与用户初始查询相似的输出。在这两种情况下,向用户提供初始查询的一些候选查询,这些候选查询可能纠正了拼写错误或者是对用户所需信息的更规范的描述。这些技术通常会导致为网络应用搜集大量的查询日志(querylog)。查询扩展(queryexpansion)技术是对查询进行推荐或者增加一些额外的词项,但通常都是在对文档中词项的出现情况分析的基础上进行的。该分析通常是用不同的信息源,如整个文档集合、检索到的文档或者用户计算机上的文档。相关反馈(relevancefeedback)是一种查询扩展技术,利用用户认为相关的文档中出现的词项对查询进行扩展。3.结果输出结果输出组件负责对相关组件得到的排好序的文档的结果进行显示。可能包含的任务有生成网页摘要(snippets)来对检索到的文档内容进行概括;强调(highlighting)文档中重要的词和段落;对输出结果聚类以找到文档相关的类别;以及将相应的广告增加到结果显示中。在涉及多种语言的应用系统中,结果可能会被翻译成同一种的语言。出版者的话译者序前言第1章搜索引擎和信息检索1.1什么是信息检索1.2重要问题1.3搜索引擎1.4搜索工程师参考文献和深入阅读练习第2章搜索引擎的架构2.1什么是软件架构2.2基本的构件2.3组件及其功能2.3.1文本采集2.3.2文本转换2.3.3索引的创建2.3.4用户交互2.3.5排序2.3.6评价2.4搜索引擎是如何工作的参考文献和深入阅读练习第3章信息采集和信息源3.1确定搜索的内容3.2网络信息爬取3.2.1抓取网页3.2.2网络爬虫3.2.3时新性3.2.4面向主题的信息采集3.2.5深层网络3.2.6网站地图3.2.7分布式信息采集3.3文档和电子邮件的信息采集3.4文档信息源3.5转换问题3.6存储文档3.6.1使用数据库系统3.6.2随机存取3.6.3压缩和大规模文件3.6.4更新3.6.5BigTable3.7重复检测3.8去除噪声参考文献和深入阅读练习第4章文本处理4.1从词到词项4.2文本统计4.2.1词表增长4.2.2估计数据集和结果集大小4.3文档解析4.3.1概述4.3.2词素切分4.3.3停用词去除4.3.4词干提取4.3.5短语和n元串4.4文档结构和标记4.5链接分析4.5.1锚文本4.5.2PageRank4.5.3链

"synopsis" may belong to another edition of this title.