当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘 要:科技情报大数据运用行业人工智能分析技术,基于及时、海量、跨领域、高纵深的互联网大数据,为政府和企事业单位打造可定向抓取、语义分析、深度学习、完善知识图谱的人工智能科技情报解决方案。还可以满足地区竞争力、企业发展、竞对状况、行业/技术跟踪等方面的科技情报挖掘需求。IDC估计,到2020年,33%的数据将包含有价值的信息。Hadoop 的目的在于基于一种新的方法来存储和处理复杂的数据。通过把数据均衡分布到集群上,复制副本以确保数据的可靠性和容错性。存储和计算都分布到多个机器上,以充分体现数据的本地性,且当前很多数据库也支持数据分片技术。Hadoop分布式系统已成为大数据挖掘系统的重要组成部分。文中在Hadoop分布式平台上完成了科技情报数据深度分析的一次实践。

引 言

大数据拥有数据量巨大;数据类型多样;数据中富含价值; 在尽可能短的时间内挖掘出数据的真实性等典型特征[1]。

数据挖掘技术 [2](Data Mining)可在大型数据库中自动发现有用信息,具有聚类分析,预测建模,关联分析,异常检测等功能,既可以独立运行,也可以联合操作。聚类分析实用的技术包括 K 均值、凝聚层次聚类、dbscan、簇评估等,主要目的在于通过基于原型、密度、图像等的聚类,发现其间关系。预测建模更多的是一种可视化角度分析方法,利用分类、回归等方法建立模型以解决问题。数据挖掘技术分为统计方法、机器学习方法、神经网络方法和数据库方法。

计算机机器人专业博士邓侃 [3] 表示,大数据不是忽悠, 关键要能够发现其中的价值,而数据挖掘的算法、云计算和并行计算就是发现数据价值的工具。

科技情报服务平台维护的公益类科技服务平台,是为顺应情报系统的网络化、智能化、集成化和决策化的未来发展要求而构建的自动化情报收集与服务体系,可从每日涌现在互联网上的海量信息中快速、准确地获取有用信息,并完成对情报资料的自动筛选、分类、分析工作,为政府部门、科研人员和企业提供具有前瞻性、时效性和专业化的情报服务。它采用知识管理的理念和技术对科技信息资源进行深度挖掘和战略优化,通过强化科技信息的智能采集和深度加工、发布和共享机制,构建科技情报创新服务体系。

1 数据挖掘简介

数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等[4]。

(1) 关联 分 析(AssociationAnalysis)。 关联 规 则由 RakeshApwal 等人率先提出。两个或两个以上变量取值之间存在的规律称为关联,使得所挖掘的规则更符合需求。

(2) 聚类分析(Clustering)。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。

(3) 分类(Classification)。分类即找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。

(4) 预测(Predication)。预测是利用历史数据找出变化规律,建立模型,并由此模型预测未来数据的种类及特征。

(5) 时序模式(Time-SeriesPattern)。时序模式是指通过时间序列搜索出重复发生概率较高的模式。

(6) 偏差分析(Deviation)。在偏差中包括很多有价值的知识,数据库中的数据存在诸多异常情况,而发现数据库中数据存在的异常情况非常重要。

2 科技信息采集与存储系统

使用垂直搜索技术在互联网扩大信息搜集途径,实现了科技信息的采集与存储[5]。智能情报加工系统运用信息抽取、机器学习、自然语言理解、信息检索等技术对文本进行处理, 实现对海量信息的数据挖掘,完成数据的自动分类、聚类、去除重复信息、发现关联规则、自动文摘的生成等。科技信息发布与共享平台通过将门户型科技信息发布平台作为情报发布、信息共享、交流互动的窗口与载体,可提供情报简报的自动生成、定题服务等功能。

该平台是集情报收集、存储、处理和分析于一体的新一代综合性信息系统。其主要功能是协助情报人员制定情报计划, 系统地收集信息,并对收集到的信息进行分析和加工,生成情报产品并提交给用户,为用户提供公益情报服务。

3 科技信息采集与存储体系

科技信息采集与存储体系的主要功能在于可完成情报信息分类体系规划与情报信息源规划。采用垂直网站抓取技术, 通过设置关键词、数据源、重要程度等抓取策略,自动发现互联网相关内容,并对页面进行抓取。通过索引技术对抓取到的文档进行全文索引,为用户提供全局文档信息搜索结果; 搜索结果以知识树的方式展现,并实现对抓取内容的管理。

抓取器由 URL 搜索引擎、页面抓取引擎 [6](页面抓取器) 组成,用以实现 URL 发现。抓取器需要对页面中的目录页面、 列表页面等非描述性内容页面进行剔除。URL 搜索引擎首先 对全互联网相关内容的 URL 进行搜索,并执行去重检测,以 保证相同页面只被抓取一次。 页面抓取引擎抓取页面后,对其内容进行分析,剔除其中 的非正文内容页面。抓取器内含定时抓取策略,可按一定时间 周期和抓取策略进行循环抓取,以确保我们能够及时获取互 联网更新的内容。

4 数据聚类算法

聚类,即一些给定的元素或者对象分散存储在数据库中, 根据我们感兴趣的对象属性对其进行聚集,同类对象之间相似度高,不同类之间差异较大。其最大的特点是事先不确定类别。这其中最经典的算法非 KMeans 算法[7] 莫属,而这也是最常用的聚类算法。在给定 K 值和 K 个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,待所有点分配完毕后,根据类簇内的所有点重新计算该类簇的中心点(取平均值),然后迭代进行分配点和更新类簇中心点的步骤,直至类簇中心点变化微小,或达到指定的迭代次数为止。KMeans 算法虽然思想比较简单,但合理确定 K 值和 K 个初始类簇的中心点对于聚类效果而言有很大影响。

5 信息抓取管理平台

信息抓取管理平台 是控制抓取的后台工具,分为 关键词抓取 和 深度抓取 。

关键词抓取 [8] 是指在互联网上抓取具有特定关键词的网页,每 24 小时抓取一次,于夜晚进行,以保证抓取网页与互联网上的信息同步更新。

深度抓取 [9] 是指一次性获取某个网站的全部信息,以快速积累初始数据。深度抓取是一次性的抓取,不会更新。

5.1 关键内容抓取

根据北京科技信息网的需求,确定数据搜索内容包括科技政策科技动态等频道内容。抓取器通过设定依内容抓取的策略,对全网内容进行抓取。并通过后端的内容聚 合进行内容的后处理,以便实现关键内容的抓取。如图 1 所示, 当标签位置为“普通抓取”时,可实现对关键内容的抓取

基于科技情报Hadoop平台的系统研究

5.2 深度抓取

北京市科技信息网 对一些特定网站设定了全站内容抓取,对全站内容进行一次性内容获取,并实时对其更新的内容进行监控,同步抓取。如图 2 所示,当标签位置为 深度抓取时,可以实现对全站内容的抓取。

图 2 控制台的深度抓取界面

5.3 工作状况的实时监控与回溯查询

实时监控终端对引擎运行的各项指标进行实时监控,以随时掌握引擎的运行状态。 回溯查询平台 可查看已抓取的网页和网页去噪情况。回溯查询平台界面如图 3 所示。

图 3 回溯查询平台界面

6 分词功能介绍

分词程序主要包含 4 大模块,分别为数据输入模块、基本前向后向分词、数量词识别以及歧义消解模块。

7 去重功能介绍

该模块可对网页进行去重操作[10]。

8 分类功能介绍

实现中文信息自动分门别类 [11] 是一项及其复杂的工作。本系统根据中文智能分词技术[12] 实现了分类功能,即根据文本内容的特点分别归类。通过人工对其进行简单的 训练 后, 可对文本进行高速智能的自动分类。分类可实现多层的树状结构,允许一篇文档同时属于多个分类。分类过程主要包括文本预处理,抽取特征项,分类算法等。

9 结 语

系统拥有的网络化情报自动采集、智能加工、发布共享体系架构等功能使得该体系能够利用先进的科技信息采集工具, 实现异构信息资源的采集、转变、整理、合成,以统一的模版格式实现科技情报信息资源服务,去除科技信息资源种类、架构等无关信息,实现用户的透明操作;采用统一的信息采集、加工处理、管理平台,实现采集、加工处理过程的个性化流程个性化定制;实现了科技情报信息资源面向不同种类用户和不同种类应用的科技信息发布服务;基于网络的自动化情报收集、加工与发布体系是公益性情报服务平台的发展趋势。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

随着信息技术的飞速发展和大数据时代的到来,数据挖掘和机器学习作为数据处理的两大核心技术,在各行各业中发挥着越来越重要的作用。然而,尽管数据挖掘和机器学习在很多方面存在交集,但它们各自具有独特的定义、方法和应用场景。本文旨...

关键字: 数据挖掘 机器学习 数据处理

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着信息技术的飞速发展,数据已经成为现代社会的重要资源。数据挖掘和机器学习作为处理和分析数据的两大关键技术,在多个领域得到了广泛应用。尽管它们在某些方面存在重叠,但数据挖掘和机器学习在定义、目标、方法以及应用场景等方面存...

关键字: 数据挖掘 机器学习 计算机

随着信息化时代的快速发展,数据已经渗透到各行各业,并成为了重要的生产要素。数据挖掘和机器学习作为处理和分析数据的两大核心技术,对于从海量数据中提取有价值的信息、优化决策过程和提高业务效率具有至关重要的作用。本文将详细介绍...

关键字: 信息化 机器学习 数据挖掘

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

在信息化和数字化高速发展的今天,数据挖掘和机器学习作为两大核心技术,正日益受到人们的关注。它们不仅在各行业应用中发挥着举足轻重的作用,更是推动社会进步和科技发展的重要力量。然而,关于数据挖掘和机器学习哪个更有前途的讨论,...

关键字: 数据挖掘 机器学习 信息化

在信息化时代的浪潮下,数据挖掘和机器学习无疑是两大重要的技术支柱,它们各自在数据处理、模式识别、决策支持等领域发挥着不可替代的作用。然而,关于数据挖掘和机器学习哪个更好的讨论,一直以来都未有定论。事实上,数据挖掘与机器学...

关键字: 数据挖掘 机器学习 信息化

机器学习和数据挖掘将是下述内容的主要介绍对象,通过这篇文章,小编希望大家可以对机器学习和数据挖掘的相关情况以及信息有所认识和了解,详细内容如下。

关键字: 机器学习 数据挖掘
关闭
关闭