夜上海论坛前言:我们精心挑选了数篇优质计算机语言的概念文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。

夜上海论坛 关键词:OWL;相似度;本体
中图分类号:TP301.6文献标识码:A文章编号:1007-9599 (2012) 05-0000-02
一、引言
本体可以提供强大的知识表示方法,是信息检索领域中的重要内容。传统的本体概念相似度计算方法大多采用特定于描述语言的通用推理服务来进行匹配,这些方法忽略了概念的语义信息。在概念检索或语义查询系统的实验过程中,利用本体对领域知识进行建模,使查询结果满足语义方面的匹配,避免了基于关键字进行简单查询的局限性,在构建基于本体的语义信息检索系统的过程中,提高了查询结果的准确率和召回率。
二、本体描述语言OWL
夜上海论坛 OWL(Web Ontology Language)是语义Web中本体描述语言的标准。OWL在资源描述框架RDF(Resource Description Framework)的基础上,添加了更多的语义结构的声明,从而对RDF进行了扩展。OWL语言建立在描述逻辑DL(Description Logic)的基础上,因此OWL具备良好的知识表示能力和机器推理能力。领域知识本体可以做如下定义:
Onto=(V,C,P,H,R) (1)
其中:V表示概念词汇集,C表示本体概念,P表示属性,H表示层次,R表示概念之间的关系。
分析OWL语言中描述元素,对于基于语义特征的概念相似度计算方法非常重要。OWL语言中有四类不同的语义描述元素:
第一类描述元素用于定义本体中实体集合,主要包括类Class和实例Instance。
第二类描述元素用于生成一个本体的特征集合,包括描述本体实体的类层次描述元素和属性特征描述元素以及其他各种约束的描述元素。
夜上海论坛 第三类是用于描述实体之间,以及特征之间的异同关系的描述元素。
夜上海论坛 第四类是本体中的补充性的描述元素,以及现有算法尚不能有效支持的特征。
夜上海论坛 三、基于本体的概念相似度计算
(一)属性相似度
夜上海论坛 在现实世界中,事物可以由各种属性来进行描述和分类,属性的相似度可以通过两个概念属性集合的相似程度来进行计算。
夜上海论坛 其中,Ci∩Cj表示概念Ci与概念Cj的相同属性集合;Ci-Cj表示在概念Ci中存在而概念Cj不存在的属性集合;Cj-Ci表示在概念Cj中存在而在概念Ci中不存在的属性集合,α,β,γ为调节权重参数,且α>β=γ。
(二)语义层次距离
夜上海论坛 本体作为一种知识表示模型,其所包含的概念、属性和关系可以通过有向图的形式进行表示,节点表示概念,边表示关系,概念之间的语义距离可以表示为概念节点之间最短路径边的数目,用 表示。语义相似度和语义距离之间存在如下对应关系:
1.两个概念间的语义距离为0时,其相似度为1;
2.两个概念间的语义距离为无穷大时,其相似度为0;
夜上海论坛 3.两个概念间的语义距离越大,其相似度越小。
夜上海论坛 在本体中,如果两个概念的语义距离相同,那么概念的语义相似度由它们所处的层次决定,所处的层次越深,其所对应的语义相似度越高,反之则相反。
夜上海论坛 其中,h为本体有向图的最大深度,L为概念Ci和Cj之间有向边的数量。考虑到层次深度对语义相似性的影响,同时,层次深度也能判断出两个概念的上下位关系。综合考虑语义距离和层次深度,可以使用树形结构来对本体进行表示.
其中,hi和hj分别表示概念Ci和Cj在本体树中的深度; 表示本体树的最大深度; 为调节参数,对系统所需的相似度进行动态调节,表示本体树中深度和广度对概念相似度的影响。
夜上海论坛 (三)基于属性和语义距离的柔性相似度
夜上海论坛 本体概念的相似度要综合考虑概念的属性以及概念之间的关系,它们对概念的相似度具有重要的影响。综合考虑概念的属性和层次关系对概念相似度的影响,对公式进行权重调整,得到领域本体中两个概念的相似度计算模型.
夜上海论坛 其中, 是权重系数。由于概念相似度的主观性较强,因此对于不同的服务请求,可以通过权重系数的调节来决定本体概念的属性和层次关系对相似度的影响,从而确定系统所需要的相似度阈值。概念相似度的变化趋势是一种线形关系,参数的取值会影响相似度的大小,但是对概念的相似顺序没有影响。
(四)算法描述
给定相似度算法sim(Ci,Cj),该算法最主要的工作是计算两个概念的相似度。相似度算法描述如下:
第一步:预处理。构建相似度矩阵A,提供任意两个概念之间的相似度度量,其中Aij=sim(Ci,Cj)。显式定义所有的等价概念和反义概念的概念元素集合,赋值为1和0,在相似度矩阵A中,除了能被初始化的元素,其它每个概念的取值都与中参数取值有关的,因此,对同一个概念,可能得出不同的相似度,设定相似度的取值区间为(0,1)。
夜上海论坛 第二步,解析本体文件,并抽取出本体中的类、实例和属性,并根据其在本体树中所处位置设置参数构建特征向量,向量的相似性反映了本体中的类、实例和属性的相似程度。
第三步,计算概念之间的特征向量的公共属性和差异属性,并根据实际需要,设定概念差异的参数。
四、实验
夜上海论坛 本体概念相似度,即依赖于概念属性的相似程度,又依赖于本体概念的层次关系。概念的相似属性越多,说明两个概念越相似。而概念的层次关系反映了领域专家对概念的层次关系的定义,如果调整了概念的层次,相似度也会发生很大的变化。
实验所用本体数据采用Protégé 2000自带的pizza本体,pizza本体包含97个类命名,采用了OWL语言描述。该本体描述了领域内的概念、属性以及它们之间的关系,很好的体现了本体的语义特征。根据上述公式的计算方法得到的概念相似度结果。其中各参数取值为:ρ=5,α=0.6,β=γ=0.2,θ=0.2。
夜上海论坛 对于概念相似性的判断,通常以领域专家的判定作为标准。对于一般的概念,领域专家给定的概念匹配顺序为:同义概念>父子节点>相近属性的节点>兄弟节点>其它节点。虽然使用了不同的计算方法,但是得到的概念匹配顺序基本相同。实验结果客观地反映了本文所采用的概念相似度计算方法的有效性。
PizzaTopping与PepperTopping作为较近的属性结点,相似度要大于作为兄弟结点的PizzaTopping与PizzaBase,同时小于作为父子结点的PizzaTopping和VegetableTopping,同一个父节点VegetableTopping和CheessTopping与VegetableTopping和PepperTopping相比,属性相似度大的概念综合相似度大。
TF-IDF(Term Frequency Inverse Document Frequency)方法是文本相似度的计算方法中最为典型的一种方法[12],传统的TF-IDF方法是一种将文本转化为向量形式,用于计算文本相似度。该方法没有考虑到概念的属性相似性,本文利用领域本体改进传统的TF-IDF的空间向量模型:
其中, 是传统TF-IDF方法的计算权重; 是概念在领域本体中计算得到的权重; 是根据TF-IDF值对本体相似度进行加权处理得到的计算结果。
夜上海论坛 评价信息检索性能优劣的最通用和最重要的两个指标是查准率(Precision)和查全率(Recall),因此本文采用查准率P和差全率C对实验结果进行评估。
夜上海论坛 相似度的结果不同,会对查准率和查全率产生比较大的影响,一般情况下,查准率和查全率会呈现出相反的趋势。由于查全率对于大规模海量数据不容易进行统计,因此通常只有在数据规模较小的情况下才能统计出来,因此,查准率比查全率更容易进行统计,在实际应用中也更有意义。
实验所用测试数据来自Yahoo!网站收集的关于pizza的数据。本文采用支持向量机SVMs(Support Vector Machines)[14]分类方法,使用空间向量模型对测试文本集合进行分类测试。本文对两种权重表示的测试文本进行分类,对于不同的惩罚系数c进行实验比较,
夜上海论坛 利用本体改进的概念相似度计算方法,在不同的惩罚系数下,本文方法比传统的TF-IDF权重在分类准确率方面有一定的提高。实验表明本文方法能充分利用OWL的语义特征来计算相关概念之间的相似度,因而可以为基于本体的文本分类和聚类方法提供参考。
五、结论
本文提出了一种基于OWL语言描述的本体概念相似度计算方法,通过结合OWL属性特征与概念层次关系来计算概念相似度,并通过与传统的TF-IDF方法进行比较实验。实验结果表明,本文的相似度计算方法能够有效的反映出概念之间的语义相似度,对文本分类的准确率方面有明显提高。本文的后续研究将在现有探讨语义相似度的基础上,进一步分析本体描述语言所包含的语义特征与概念属性的权重问题等,这对于基于本体的文本分类和聚类问题研究有着积极的作用。
夜上海论坛 关键词:语义检索;概念语义树;语义相似度
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2011)16-3809-02
夜上海论坛 Research on Method of Semantic Similarity Based on Concept Semantic Tree
HAN Xin, QIN Fan
夜上海论坛 (School of Electronics and Computer Science and Technology, North University of China, Taiyuan 030051, China)
Abstract: At present, the application of information retrieval has been widely used, but it is still a difficult thing to be accurate in the specific field of searching. This paper provides a semantic similarity calculation method based on the concept semantic tree, considering the concept of the semantic relations, hierarchies, and inheritance and other factors, as much as possible to improve retrieval efficiency in specific areas of information, and at final, demonstrate the feasibility of the method by experiment.
Key words: semantic retrieval; concept semantic tree; semantic similarity
传统的信息检索都是基于关键词查询的,因此在检索时可能会出现一堆用户并不真正需要的信息,导致查询结果的准确率很低,查全率也不令人满意,会出现“表达差异”,“词汇孤岛”等问题。语义检索就是把信息检索从传统的基于关键词层面提高到基于语义的层面,从语义方面着手,分析概念之间的内在联系,利用语义来组织、存储和获取信息,信息和语义的结合,使信息变成计算机可识别的知识,从而系统能识别出用户所需要的信息,提高检索的查准率和查全率。
1 语义相似度
语义相似度是对语义相似性的定量表示,语义相似度计算是信息检索、数据挖掘、知识管理等领域的基本问题。在信息检索中,语义相似度能够更多的反映文本概念是否符合用户的查询要求,相似度越高,说明文本内容与用户的查询请求越接近。
刘群、李素建[1]基于实例的机器翻译,提出语义相似度就是两个不同上下文本中的本体概念,在不改变文本的句法及语义结构的情况下可以互相替换的程度。如果位于不同上下文本中的两个概念词语在不改变文本的句法及语义结构的情况下可以互相替换的可能性越大,则说明二者的相似度就越高,否则相似度就越低。
当两个语义概念元素x,y相似时,用sim(x, y)表示两者之间的相似度,形式上,相似度计算满足[2]:
1)相似度的值为[0,1]区间中的一个实数,即sim(x, y)∈[0,1];
2)如果两个对象是完全相似的,则相似度为1,即sim(x, y) = 1 当且仅当x = y;
3)如果两个对象没有任何共同特征,那么相似度为0 ,即sim(x, y) = 0;
4)相似关系是对称的,即sim(x, y) = sim(y, x)。
2 概念语义树
使用层次化的树状结构来描述概念之间的逻辑关系,这种语义化的概念树为检索算法提供语义基础,在检索过程中不同的概念之间也有一定的相似性和相关性,因此需要处理概念树中祖孙节点、兄弟节点等不同类型的关系,我们考虑用概念间的相似度对其进行描述和量化,以提高检索的准确率为了计算概念相似度,作如下定义[3-4]:
夜上海论坛 定义1:在本体概念的树状层次结构中,如果概念A和概念B之间存在这样的关系:A是B的祖先,则称A和B为同支概念。概念A称为A和B的最近根概念,记为R(A,B),而A、B之间的距离dist(A,B)=dep(B)-dep(A),其中depth(C)为概念C在层次结构中的深度。如图1(a)所示。
夜上海论坛 定义2:在本体概念的树状层次结构中,如果概念A和概念B之间存在如下这样的关系:A不是B的祖先并且B也不是A的祖先,则称A和B为异支概念。如果概念R是A和B最近的共同祖先,并且是符合此条件的所有节点中距离概念树的根节点最远的一个,则称R为A和B的最近根概念,记为R(A,B),且A、B之间的距离为dist(A,B)=dist(B,R)+dist(A,R),如图1(b)所示。
定义3:概念C 称为概念A 和B 的语义相关概念,当且仅当概念C 满足如下的条件:当A, B 为同支概念时,C 在以A 为根的子树中且不在以B 为根的子树中;当A,B 为异支概念时,C 在以R 为根的子树中且不在以A 或B 为根的子树中。
在计算语义相似度时,A和B各自的子概念数以及它们的语义相关概念数对相似度计算结果也有影响, 当A,B为同支概念时,A的子概念由B的子概念和A,B的语义相关概念组成,前者所占的比重越大,则概念A,B的语义相似度越大;当A,B为异支概念时,R的子概念由A 的子概念、B 的子概念以及A,B 的语义相关概念三部分组成,前两部分的比重越大,则A,B 的语义相似度越大。
夜上海论坛 1)当A,B为同支概念时,A与B之间的语义关系为:
式中,m表示概念B的子概念数,n表示概念A的子概念数。
2)当A,B为异支概念时,A与B之间的语义关系为:
夜上海论坛 式中,m表示概念B的子概念数,n表示概念A的子概念数,X表示A与B最近根概念的子概念数。
定义4:两个概念之间的语义距离,是指在语义树中连接这两个概念的最短路径的长度。语言学研究认为,两个概念的语义距离越大,其相似度越低;反之,两个概念的语义距离越小,其相似度越大,两者之间可以建立一种简单的对应关系。特别地当两个概念之间语义距离为0 时,其相似度为1;当两个概念之间的语义距离为无穷大时,其相似度为0。两个概念之间的语义距离表达式为:
夜上海论坛 式中,distant(A,B)表示概念A与B之间的语义距离,weighti表示连接A,B的最短路径上第i 条边的权值。
定义5:概念的深度是指该概念与语义树根的最短路径中所包括的边数。因为在语义树中,每一层的概念都是对上一层概念的细化,由此可见,在语义距离相同的前提下,两个概念的深度和越大,概念之间的相似度越大;两个节概念的深度差越小;概念之间的相似度越大。概念深度的表达式为:
式中,depth(A)表示概念A的深度,n表示概念A与语义树根之间的最短路径中所包括的边数。
3 语义相似度计算方法
夜上海论坛 考虑概念语义树中概念之间的层次关系、继承关系及语义关系,我们提出下面这个关于语义相似度的就算方法:
其中:Level(A,B)表示概念之间的语义关系对相似度的影响;
夜上海论坛 Distant(A,B)表示概念之间的语义距离对相似度的影响;
夜上海论坛 Depth(A,B)表示概念之间的深度对相似度的影响。
夜上海论坛 但对概念语义树中层次结构分以下这两种情况考虑:
夜上海论坛 1)当A,B为同支概念时,A与B的语义相似度为:
2)当A,B为异支概念时,A与B的语义相似度为:
α,β,γ为调节因子,且α+β+γ=1.
4 实验结果
选取如图2一个简单的实例来计算语义相似度。
夜上海论坛 选参数α=0.6,β=0.3,γ=0.1,可得到“计算机”与其余各节点之间的语义相似度为:
参考文献:
[1] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics Chinese Language Processing,2002,7(2):59-76.
夜上海论坛 [2] 李玲.面向流程诊断的企业知识相似度匹配工具研究与开发[D].哈尔滨:哈尔滨工业大学,2006.
夜上海论坛 [3] 王进,陈恩红,施德明,等.一种基于语义相似度的信息检索方法[J].模式识别与人工智能,2006(6):2-6.
一、前言
夜上海论坛 随着计算机的普及,我国越来越多的高校已经把计算机?n程作为公共教学内容,所有大学生能熟练地使用计算机,这也为计算机专业教学带来了巨大的挑战。如果继续使用过去传统的教学模式,计算机专业学生的计算机综合应用能力跟其他专业的学生相比并没有明显的优势,从而在就业方面受到来自其他专业学生的挑战。因此,各高校计算机专业的教师应该根据计算机行业的发展前景和发展热点,对计算机教学进行以就业为导向的改革,使教师教得新颖,使学生计算机应用能力得到全面提高,从而获得更好的就业机会[1]。基于CDIO理念的教学模式代表了近年来国际工程教育改革的最新成果。CDIO包括构思(Conceive)、设计(Design)、实现(Implement)和运作(Operate)四个阶段,它将产品研发到运行的完整生命周期运用到教学过程当中,是一整套工程教育理念和实施体系[2]。CDIO让学生可以通过实践的方式学习工程理论知识,积累工程实践经验并提升对专业知识的综合应用能力。本文通过对CDIO工程教学模式的研究,提出以就业为导向基于CDIO理念的大学计算机教学改革新方案,将计算机行业的发展热点内容加入到基础理论教学当中,并与实践能力训练相结合,使学生把基础理论运用到实践中,并且在实践中加深对基础理论的理解,真正达到学以致用的目的。从根本上提高学生的计算机综合应用能力和就业竞争力,满足社会对计算机工程人才的需求。
二、基于CDIO理念的大学计算机教学改革
CDIO理念下计算机改革的目的是从就业视角出发培养学生的工程实践能力,进一步提高学生的就业竞争力。因此,在进行教学改革时应当将CDIO理念与具体教学实际相结合,把构思、设计、实现和运作四个过程应用其中,如图1所示。
夜上海论坛 该方案中教师应当构思改革目标和方向,突出以就业为视角的大学计算机教学改革前瞻性和必要性,考虑以何种方法和步骤推进改革的顺利进行,将计算机工程实际与课程教学建立联系,为接下来的设计步骤做好准备,然后设计并构建出真实的计算机工程实践平台,还需安排相应的综合课程,为学生创建合适的工程实践场所,做好理论与实践学习相结合的前期准备。在实现部分,“填鸭式”教学等传统的教学模式已不可再套用,教师和学生的关系也亟待改变,教师应在学生主动学习的过程中起到引导作用。在运作部分,为了保证学生的学习效果,验证CDIO理念的实效,应当衡量每个学生对规定学习效果所完成的进度,要求教师对学生的学习效果进行评估。因而,CDIO理念下的大学计算机改革方式应包含以下四个方面的内容。
1.构思(Conceive)改革目标及方向。工程教育应该注重如何将学科知识转化为工程能力,这是工程教育的本质和出发点。面对当下计算机行业的巨大就业压力和残酷的竞争淘汰率,大学计算机教学改革更应当以此为改革的出发点和落脚点,这要求教师在进行教学改革前深刻构思改革目标和方向方法,思考何为改革、为何改革。显然,新时期的计算机教学改革对教师提出了更高的要求,教师不再进行单纯的课本知识的教授,而是转型成为兼具计算机工程项目的设计和专业知识的传授双重教学能力的“双师型”教师。
2.设计(Design)综合课程和工程环境。教师是计算机实践课程的设计者。由于现在的学生缺乏实际动手能力,计算机教学中应安排丰富的工程实践项目,尽量让学生以亲自动手的方式进行[3]。教师要基于CDIO理念的预期目标,以实现良好就业为着力点,合理安排教学内容和方法,设计出有助于学生计算机工程水平提高和积极情态建设的一体化课程,计算机类学生就业能力集中体现在实践项目的方方面面,教师在课程的选择和设计上也需要花费更多的时间,才能设计出以项目为主导的启发性知识链的教学模式。同时,教师也是工程实践场所的设计者。教师在设计课程的过程中,必须同时考虑设计与之相匹配的实践场所,工程实践场所的构建应以提升学生团队合作能力和动手能力为目标。
3.实现(Implement)师生角色的双重改变。传统教学模式下师生关系的特征表现为“以教师为中心,学生被动接受”。CDIO模式将不再局限于传统教学方法,学生的主动学习和经验学习应在CDIO环境下促进其工程实践能力与就业竞争力。有学者指出,CDIO理念要求教师不断创新,他们的教学风格要始终以学生为中心,要不遗余力的传授大纲中规定的软硬件开发以及系统构建的能力[4]。基于这一要求,在计算机教学过程中学生应进行“一体化学习”,即学生在工程实践环境中学习计算机学科知识的基础上,进一步培养其软硬件开发和系统构建能力。一体化学习是CDIO框架的重要特点之一,学生将完成从被动灌输到主动探究的转变,教师应当保证每位学生都能主动参与到团队项目开发中,使他们的团队合作能力和工程能力得到充分的培养和锻炼。CDIO理念下的实现过程,即在具体的计算机实践课程教学过程中,师生关系从教师管理学生转型为教师引导学生,教学模式从“填鸭式”知识传授转型为互动式探究讨论。
4.运作(Operate)良性循环的教学关系。对学生采用考核或评估的目的是为了考察学生的学习情况。传统的计算机课程评估方法往往采用的是正确率越高越优秀的试卷考核,且学生和教师之间缺乏学术沟通和实践交流。这样培养出来的学生多数都存在理论分数高、动手能力差的问题,毕业后在计算机行业也难以立足。与此相反,CDIO教学通过关注学生在学习前、学习中和学习后三个不同时期的学习“证据”,全面了解学生的学习成绩和学习情态的转变。这种评估聚焦在学生学习上,其作用是通过考核学生的计算机理论知识、实践能力和综合素质而得到学习效果的反馈信息,从而不断改进和完善课程设计、教学方法以及学习场所的设计和使用。显然,新型模式对学生计算机能力的考核由单一注重理论知识的传统模式向“知识+能力+素质”的综合考核模式转变,其中能力是指计算机工程实践能力,学习效果应反映在计算机工程技术上而非分数上。