留言 | 关于 | 联系
神经网络 专家系统 自然语言其它知识
返回首页
当前位置: 首页 > 人工智能 > 其它知识 > Web Mining第二代网络信息处理技术

Web Mining第二代网络信息处理技术

时间:2010-04-06 20:03来源:未知 作者:admin 点击:
本文概述了网络信息挖掘的步骤、和相关的关键技术等内容。

1. 概述

随着Internet的飞速发展,网络信息过载(InformationOverload)问题日益突出,以Yahoo为代表的网络信息检索系统出现并迅速发展起来。网络信息检索系统一般由Robot、索引数据库和查询引擎三部分组成。信息搜集器Robot对WWW进行遍历,尽可能多地发现新的信息;采用全文检索技术对搜集到的信息建立索引存入索引数据库中,能够极大地提高信息检索的速度;查询引擎接收并分析用户的查询,根据较为简单的匹配策略(简单布尔模型或模糊布尔模型)遍历索引数据库,最后将结果地址集提交给用户。由于人
工智能研究水平的限制,目前Robot还无法实现信息的准确分类,多数搜索站点都是通过人工方式对信息进行二次处理,信息整理的速度远远落后于网络信息的膨胀。

为了实现个性化的主动信息服务,网络信息挖掘(WebMining)技术成为新的研究热点。网络信息挖掘是指在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息或者更高层次的知识和规律。

网络信息挖掘与网络信息检索所采用的技术有很多相似之处,但又有本质的不同。作为第二代网络信息处理技术,网络信息挖掘技术沿用了Robot,全文检索等网络信息检索中的优秀成果,同时综合运用人工智能、模式识别、神经网络领域的各种技术。网络信息挖掘系统与网络信息检索的最大不同在于它能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。

经过两年多的理论研究和技术积累,北京数码空间信息技术有限公司的核心技术梯队已经在国内外权威期刊和国际学术会议上发表相关学术论文近三十篇,完成了网络信息挖掘系统内核的开发工作,系统在信息获取速度和信息匹配准确性上达到了国际领先水平,微软中国研究院院长李开复博士曾非常惊奇于数
码空间的研究成果--“aninterestingandeffectiveproject”。

2. 网络信息挖掘的步骤

  1. 确立目标样本:由用户选择目标文本,作为提取用户的特征信息。
  2. 建立统计词典:建立用于特征提取和词频统计的主词典和同义词词典、蕴含词词典。
  3. 特征信息提取:根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。
  4. 调整特征矢量:根据测试样本的反馈调整特征项权值和匹配阈值。
  5. 网络信息获取:先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息。
  6. 信息特征匹配:提取源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息提交给用户。

3. 网络信息挖掘中的关键技术

3.1 目标样本的特征提取

系统采用向量空间模型(VSM:VectorSpaceModal),用特征词条及其权值代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。词条在不同内容的文档中所呈现出的频率分布是不同的,因此可以根据词条的频率特性进行特征提取和权重评价。

一个有效的特征项集应该即能体现目标内容,也能将目标同其它文档相区分,因此词条权重的正比于词条的文档内频数,反比于训练文本内出现该词条的文档频数。构造如下特征项权值评价函数:其中tfik表示词条Tk在文档Di中的出现频数,N表示全部目标样本的文档数,nk表示出现词条Tk的文档数。

与普通的文本文件相比,HTML文档中有明显的标识符,结构信息更加明显,对象的属性更为丰富。系统在计算特征词条权值时,充分考虑HTML文档的特点,对于标题和特征信息较多的文本赋予较高权重。为了提高运行效率,系统对特征向量进行降维处理,仅保留权值较高的词条作为文档的特征项,从而形成维数较低的目标特征向量。

3.2 中文分词处理

西文的句子以空格作为固定的分隔符,而中文中没有,这给中文信息处理带来很大障碍,例如机器无法分辨“白天鹅”到底是“白天”和“鹅”,还是“白的天鹅”,因此在进行词频统计等处理前先要进行词条切分处理。比较简单有效的分词方法是基于大型词库的机器分词法。通用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。

进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和逆向最大匹配法进行细切分。在进行词频统计时,考虑到自然语言的多样性,系统建立并使用相应的同义词库、蕴含词库等辅助词库,以提高信息匹配的准确度。

3.3 获取网络中的动态信息

Robot是传统搜索引擎的重要组成部分,它依照HTTP协议读取Web页面并根据HTML文档中的超链在WWW上进行自动漫游,Robot也被称为Spider、Worm或Crawler。但Robot只能获取Web上的静态页面,而有价值的信息往往存放在网络数据库中,人们无法通过搜索引擎获取这些数据,只能登录专业信息网站,利用网站提供的查询接口提交查询请求,获取并浏览系统生成的动态页面。网络信息挖掘系统则通过网站提供的查询接口对网络数据库中的信息进行遍历,并根据专业知识库对遍历的结果进行自动的分析整理,最后导入本地的信息库。

3.4 信息的分类

为了更有效的对信息建立索引,需要对信息进行分类处理,系统采用NaiveBayes法实现此功能。NaiveBayes分类法假设所有词条在文档中的出现概率相对独立并且文档的类别同长度无关,判别原则是将文档D指定到使P(Ci/D)达到最大概率的Ci类中,即求解argmaxP(Ci/D),P(Ci/D)是给定文档D属于文档类Ci的概率。可根据文档的长度L对P(Ci/D)进行分解:

根据Bayes定律可得:

其中P(Ci/L’)是给定长度为L’的文档属于类Ci的先验概率。由于文档所属的类别同它的长度无关,因此P(Ci/L’)=P(Ci)。P(Ci)的概率可以从训练文本的统计得到。同样可以得到P(D/Ci,L)的值,其中wj为文档中的词条,/D/为文档D的词条数,F为训练文档中的所有词条,TF(w,Ci)为词条w在所有属于Ci类的训练文档中出现的次数。

根据以上两式即可求出满足argmaxP(Ci/d′)中的文档类。4.总结网络信息挖掘系统根据用户所提供的目标样本和系统设置,提取目标的特征信息,根据目标特征自动在WWW上搜集资料,然后对所搜集到的资料进行分类整理并导入资料库。系统能够自动运行,不断更新用户的资料库,提供个性化的主动信息服务。

顶一下
(3)
100%
踩一下
(0)
0%
发表评论
评价:
验证码:点击我更换图片
推荐内容
  • 机器学习讲义

    机器学习的PPT讲义,包括基于符号和逻辑表示的概念学习,决策...

  • 遗传算法介绍

    遗传算法(Genetic Algorithm, GA)是近几年发展起来的一种崭新的全局...