本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。1.针对互联网大数据,从大数据的获取到可视化展示与发布的整个过程,帮助读者建立完整的知识体系。侧重于非结构化数据处理与分析,有助于读者接触到更多的大数据核心关键技术。2.各章节融入了作者在教学和科研中所积累的一些值得深入探讨的问题和观点,具有一定的启发性。3.理论与实践相结合,各个章节包含有技术原理介绍,也包含实现技术、开源架构等方面的叙述,使得读者能从中掌握技术应用及实现方法。4.注重产学结合,基于阿里云及其大数据平台,构建了综合应用实例,有效地集成运用了本书的一些关键技术,帮助读者深入理解大数据处理技术。第3章互联网大数据的提取技术本章描述了从Web页面上提取感兴趣信息的方法,包括基于特征模板、基于页面解析树的方法,以及基于统计的方法等。同时考虑到互联网大数据来源的多样性,除了Web页面外,也简单介绍了Web日志信息和ETL信息提取方法,并结合阿里云公众趋势分析介绍了Web信息提取的应用效果。3.1Web页面内容提取技术Web页面中包含有丰富的信息内容,对于互联网大数据分析有用的信息可能是某个新闻报道页面中的正文部分,也可能是某网络论坛中的帖子信息、人际关系信息等。在进行Web页面内容提取时,一般是针对特定的网站,因此,可以假设页面结构特征是已知的。在这种条件下,页面内容的提取就是根据结构和内容特征进行提取,在方法上大同小异。这里主要介绍两大类目前使用的主要方法,即基于HTMLParser的解析和基于Jsoup的页面内容提取。3.1.1Web页面内容提取的基本任务从Web页面中提取内容,首先要对Web页面的各种常见版面进行整理归纳。目前Web页面版式各式各样,但可以归结为以下3种。(1)新闻报道型页面。页面上尽管可能会有导航区、外部链接区、版权声明区等区域,但是作为新闻正文文字一般是占主要的位置。典型的如图31所示的参考消息网站的新闻报道,页面的最上面是一些广告、导航条,右边是一些信息推荐。对于这种类型而言,目标就是提取正文部分的内容。图31新闻报道的版面(2)列表型页面。这类页面为用户提供一种列表式的阅读,一般是作为聚集信息的访问入口。比较常用于新闻列表、网络论坛中的讨论区入口等。对于这种类型,通常会遇到翻页,即上一页、下一页等链接,允许用户在不同的列表页面上跳转。图32所示的是两种典型的列表型页面,左右两边分别来自网络论坛和新闻网站。对于这种类型而言,目标就是提取列表部分的所有内容。图32两种列表型页面(3)评论型页面。用户在页面对某个事物、话题发表自己的观点。这种页面整体上看可以是一种列表型的,但是设计者更加关心每个评论中的具体信息。一般每个评论会有评论人、评论内容、评论时间、评论对象及评论的一些量化信息等。图33所示的是大众点评网上针对某个菜馆的评论信息。对于这种类型
"synopsis" may belong to another edition of this title.
Seller: liu xing, Nanjing, JS, China
paperback. Condition: New. Paperback. Pub Date: 2017-06-01 Pages: $number Language: Chinese publisher: Beijing Polytechnic University Press. SQL Server database technology and Applications (second edition) Twelve-Five National planning materials for vocational education The basic knowledge of database system is introduced in detail. In accordance with the case of database system development process introduced . Seller Inventory # DP041810