夜上海论坛本站小编为你精心准备了纺织业信息自动获取体系分析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
随着因特网的飞速发展,WWW已成为一个巨大的信息资源库,为用户又提供了一个极具价值的信息来源。由于WWw信息的量大、动态、分散和异构等特点,使得用户很难快速准确地获取所需信息。为了解决这一矛盾,网络搜索引擎技术应运而生。网络搜索引擎在网络信息资源查找中起到了重要的作用,它可以帮助用户从浩如烟海的网络信息中找出自己想要得到的信息[1]。网络搜索引擎一般由信息收集、索引数据库的创建和用户查询接口三部分组成。在一个通用的搜索引擎系统中,信息收集可用一类称之为“网络蜘蛛”的软件,按照一定的规则浏览尽可能多的W如页面,抓取页面信息。索引数据库即将抓取的信息分类索引,以利于检索。用户查询接口即提供用户输入查询关键词和搜索条件的界面以及浏览结果的界面。由于WWW中信息的庞大,使得网络搜索引擎需要的软硬件条件相当高,一般只有大公司才能提供。而且这些庞大的搜索引擎系统存在~些缺陷:如返回结果常不够专业要求,不能为用户自动提取网页中内容等等[2]。能不能有效地利用搜索引擎的相关技术,为某些专业需求的广大用户服务呢?因特网上存在大量的纺织企业信息[3],如要建立一个有关纺织企业基本信息库,通过网络搜索引擎,可找到很多相关信息,但是只能通过手工记录该信息。为了解决该问题,笔者以搜索引擎技术为核心研究具有反馈功能的搜索,该根据专业性的要求,结合用户反馈信息自动分析网页内容,只抓取针对专业相关的页面特征信息。利用该,研究设计了一个纺织企业信息库的自动获取夜上海论坛系统,该系统能自动跟踪纺织企业信息网页,获取其网页特征信息,通过剖析这些特征信息,识别出其相关内容,并将其置于数据库中,可进行广泛应用。
1系统总体框架
笔者所研究的基于搜索的纺织企业信息库的自动获取系统如图1所示。与通用搜索引擎不同的是,它用搜索替代了搜索引擎中的“网络蜘蛛”软件,该除了能完成网页收集和自动“爬行”外,还能利用专业关键词和用户的反馈信息自动过滤相关网页,这样使收集来的页面均与专业相关,较大地缩小了对存储空间的要求。此外还增加了反馈信息、专业信息数据库,以及收集这些信息的模块。
夜上海论坛1.1搜索的工作原理又称Agent是一个具有自治能力的实体,一般表现为由软件支持下的系统[4]。在所设计的系统中,搜索是一个面向特定专业领域的信息获取引擎。与一般搜索引擎相比,它使用自动获得的专业特征信息(如专业关键字、专业信息资源、页面结构信息等)、用户反馈信息(如专业信息格式、用户兴趣等)知识进行网页信息搜集、过滤,并将自动提取网页基本结构信息。其工作原理如图2中虚线框所示。
1.2用户反馈信息及专业信息收集为了提高信息识别的专业化和信息挖掘的准确度,该搜索还利用了用户的反馈信息和专业词汇等信息,充分体现了该系统的自适应性。用户的反馈信息主要有:用户经常使用的某些关键词,用户对搜索结果的选择情况,用户对某个网(页)站的评价等等。反馈信息库可以采用表l所示的数据库结构来存储。专业词汇信息主要是针对某专业来说的相关词汇。对某一网页来说,通过计算该网页中这些专业词汇的出现情况,再根据“向量空间模型”[5]即可以判断该网页是否包含专业性信息,对那些无专业信息的网页,不作处理,从而可以减少数据库的存储空间及后期处理的时间。专业词汇信息库可以采用表2所示的数据库结构来存储。
夜上海论坛2系统中的关键技术
夜上海论坛2.1网页的获取由于Web系统具有分布性、相异性和独立性的特点,网页的获取是一项具有挑战性的工作。为了提高获取的效率及可靠性,本系统采用了线程缓冲池和超时技术。线程缓冲池可同时运行20个线程以上,每个线程专门针对一个网站。当一个网站被索引完成后,线程缓冲池即可马上启动另一个线程对新的网站开始索引。该算法描述如下:while程序未退出fori=0to最大线程缓冲池if第i个缓冲池为空then‘从网站目录表中得到一条IndexFlag为0的网站URL启动索引线程将网站目录表中该记录的Index-Flag置为2(索引中)将第i个线程缓冲池标为忙endifendforendwhile2.2网页结构特征信息过滤网页文本信息由HTML标记语言描述,其中包含有大量格式化标记信息,其中有效信息只占少数。因此,对HTML源代码进行过滤,不但可以减少信息处理量,而且可以提高后面信息挖掘的准确性。通过对大量HTML网页的分析,包含有结构化信息内容的标签一般由<table></table><tbody></tbody><tr></tr><td></td>等标签组成。除此以外,<title></title><a></a>等标签也具有极其重要的价值。因此,网页结构特征信息过滤即从HTML源信息中保留以上标签的内容,而将其他信息删除掉。该算法描述如下:fori=0to保留标签个数得到保留标签从文档开始至结尾处查找该保留标签将所有由该标签起始和结束符之间的信息保留nextfor将所有保留的信息加在一起即为过滤后信息
2.3专业信息的划分在收集到网页信息后,许多页面可能都是与该专业不相关的。大量不相关的网页,将占用大量存储空间且影响信息获取的速度和质量,因此如何识别专业信息具有至关重要的作用。在判断网页内容是否属于专业性方面,我们借鉴“向量模型”的相关概念。用N个关键词来对某专业领域R进行表达,从而形成N维的向量空间。同时,对每个关键词我们赋予它不同的权重级别m则该专业领域R可以表示为N维的向量空间:R一(n,Y2,…,靠)。对任何一个文档D,我们可以找到每个关键词在文档D中出现的位置,从而确定其所处的标签。对HTML标签我们进行了分类并给每类赋予不同的权值[6I,如表3所示。如表3所示,我们将HTML标签分成7类并赋给它们不同的权重值,当然可以根据实际情况进行相应修改。根据表3,我们可以计算出每一个关键词在文档D中所占的权值(重要度)。假设关键词T在每类标签中出现的频率分别为:则该关键词T在文档D中的权值如式(1)所示。dl一玎1×1.2+矿2+玎3×0.9+tf4×0.8+矿5×0.64-tf6×0.4+玎7×0.2(1)根据式(1),不难计算出所有专业关键词在文档W中的权值。因此,整个文档可以由一个N维向量表示:D一(d,,d。,…,d。)。得到该向量后,我们可以通过式(2)计算出该文档D与某专业领域R的相似度:川similarity(R,D)一下萨兰。Vi=1i=1得到文档与某专业领域R的相似度后,通过多次实验,我们可以设定一个阈值K,当文档D的相似度S≥K时,我们将保留该文档的内容,反之,该文档被丢弃,即实现专业信息的划分。
夜上海论坛2.4网页信息识别与挖掘在HTMI。语言的规范中,网页中格式信息一般由<TABLE><TBODY><TR><TD></TD></TR></TBODY></TABLE>所包含。通过对格式信息数据区域分析,一个包含格式化信息的网页中可以转化成一个树型结构,如图3所示。从图3我们可以看出,网页中信息可以描述成由行列组成的二维信息。若将<TABLE>标志看作数据库中表的话,那么<TR>标志等同于表中的一条记录,<TD>标志等同于记录的字段。但也有特殊情况,如几个<TR>组成一条记录,每个<TR>为该记录的字段。为了解决这些情况,我们利用树的相关算法可以完成信息的识别与挖掘。在图3所示的树型结构中,令TR结点有N个,TR节点的度为D川显然D,等于该结点下包含TD节点的个数,则信息识别与挖掘的规则如下:(1)若所有的TR节点的D。均相等且大于0,则TR的个数即为记录行的数目,D,,即为记录字段的数目。(2)若有M个连续的TR节点的D,相等且大于0,则M即为记录行的数目,n,即为记录字段的数目。其中M的选取可根据占所有TR之比来选取,如50%×N。(3)除情况(1)和(2)外,相邻TR结点的D,不相等但它们的变化呈现重复性,重复的间隔为K,如:n,的变化趋势依次为1,2,2,0,1,2,2,0,1,2,2,0,…,重复间隔为4,则K即为记录字段的数目,记录行的数目为重复变化的TR个数除以K。(4)其他情况暂不处理。
3纺织企业信息的自动获取系统的实现
通过以上的介绍,我们以纺织企业信息库的创建为例,实现了Web环境下的纺织企业信息的自动获取。经过了解,纺织企业基本信息包括:企业名称、企业简介、主要产品、所属行业(企业类别)、联系方式(地址、邮编、联系人、电话、传真、网址、电子邮件)等。为了仅对该相关信息进行搜索,首先需要设定专业词汇信息,主要包括与纺织及企业相关的内容,由于该类词汇很多,仅选几个列于表4中。当网页信息被索引后,我们可以浏览这些信息,通过人工判别,可以给搜索添加反馈信息,如某个网站必须索引,某个网站不需索引,等等。当网页信息索引完成后,搜索开始对每个网页内容进行了格式信息识别与挖掘,如石家庄纺织网中有如图4所示网页。虽然,该信息并不完全是我们所要的信息,但是搜索已为我们挖掘出与所要专业相关的重要信息,我们下一步所要做的仅仅是告诉搜索,哪些是我们最感兴趣的,哪些是不需要的信息。
4结论
(纺织)领域信息的获取中,通过对搜索的研究,讨论了其工作原理。在特定领域信息的划分方面,提出了基于“向量模型”的相似度比较方法;在格式信息识别与挖掘方面,利用网页自身的树型结构的特点,给出了相关规则。最后,以纺织企业基本信息库的自动获取为例,实现了该类信息的自动获取。