乐鱼相合数据docx
时间:2024-03-04浏览次数:
 《合系数据.docx》由会员分享,可正在线阅读,更众合系《合系数据.docx(4页珍惜版)》请正在点石文库上探求。  1、1 合系数据概述合系数据采用RDF(资源描写框架)数据模子,使用URI(同一资源标识符)定名数据实体,正在搜集上揭橥和计划实例数据和类数据, 从而可能通过HTTP(超文本传输允诺)揭示并获取这些数据,同时夸大数据的彼此合系、彼此合联以及有益于人和阴谋机所能领会的语境讯息。合

  《合系数据.docx》由会员分享,可正在线阅读,更众合系《合系数据.docx(4页珍惜版)》请正在点石文库上探求。

  1、1 合系数据概述合系数据采用RDF(资源描写框架)数据模子,使用URI(同一资源标识符)定名数据实体,正在搜集上揭橥和计划实例数据和类数据, 从而可能通过HTTP(超文本传输允诺)揭示并获取这些数据,同时夸大数据的彼此合系、彼此合联以及有益于人和阴谋机所能领会的语境讯息。合系数据可能正在差异起原的数据之间创筑链接。这些数据源可以是两个处于差异地舆场所的机构所保护的数据库,也可以是一个机构内的无法正在数据层面进取行互操作的差异编制。从端庄旨趣上讲,合系数据是指揭橥于搜集上的数据,该数据具有呆板可读性和明晰的寄义,并链接至其他外部数据集,同样也可被来自外部数据集的数据所链接。图1显示了链接怒放数据项目标

  2、数据集以及数据集与数据集之间的链接(截至2009年7月),个中囊括闻名的DBpedia,Freebase和Thomson Reuters的Open Calais项目等。 合系数据搜集和此刻的超文本搜集有所差异,超文本搜集的根本单位是由超链接所连绵起来的HTML(超文本标识叙话)文献,而合系数据并非是大略地连绵这些文献,而是运用RDF变成链接全邦上任何事物的搜集,也即数据搜集,数据搜集可被描写为由网上数据描写全邦上整个实体的搜集。合系数据搜集的崭露不单对此刻的超文本搜集举办了扩展,同时也对此刻搜集上纷纷芜杂的讯息资源举办鉴别、遴选和定位。 Tim Berners-Lee以为整个已揭橥的合系数据都

  3、是一个同一的环球数据空间的构成一面,进而详细出正在网上揭橥合系数据的四条准则 (1)运用URI动作任何事物的标识; (2)运用HTTP URI使任何人都可能拜访这些标识; (3)当有人拜访某个标识时,运用(RDF,SPARQL)准绳供给有效的讯息; (4)尽可以供给合系的URI,以使人们可能发觉更众的事物。 可能看出,这四条准则即使简短,却供给了正在遵照同一的搜集布局和准绳的条件下揭橥和链接数据的基础手段。这也吻合Tim Berners-Lee的“起码安排”准则,即把大略的东西简化,让繁复的东西变得可以;开辟大略的使用,着眼于来日的繁复性。恰是因为这一准则,万维网赢得了意念不到的告成,信赖也将一直

  4、引颈合系数据的开展。准则6。 (1)运用URI动作任何事物的标识; (2)运用HTTP URI使任何人都可能拜访这些标识; (3)当有人拜访某个标识时,运用(RDF,SPARQL)准绳供给有效的讯息; (4)尽可以供给合系的URI,以使人们可能发觉更众的事物。 可能看出,这四条准则即使简短,却供给了正在遵照同一的搜集布局和准绳的条件下揭橥和链接数据的基础手段。这也吻合Tim Berners-Lee的“起码安排”准则,即把大略的东西简化,让繁复的东西变得可以;开辟大略的使用,着眼于来日的繁复性。恰是因为这一准则,万维网赢得了意念不到的告成,信赖也将一直引颈合系数据的开展。 数据的揭橥是合系数据极为

  5、紧张的症结,数据供给者依据上述四条准则揭橥数据,从而将他们的数据参加到环球数据空间并使得数据也许被种种使用次序发觉和运用。正在网上揭橥合系数据囊括以下三个基础环节7: (1)将URI分派给被数据集描写的实体,并供给逆向援用至RDF的URI; (2)将RDF链接至其他网上数据源,从而运用户也许随RDF链接遍历数据搜集; (3)供给所揭橥数据的元数据,从而运用户也许评判所揭橥数据的质地并遴选符合的拜访途径。2 合系数据的方针模子 动作语义网的一种告竣体例,合系数据并不是一种全新的技能,它以成熟的URI、HTTP和RDF技能为根本,开辟绝伦种合系数据的揭橥、链接和存储器材。合系数据浏览器和合系数据探求

  6、引擎使得用户可能正在数据搜集中举办浏览和检索。据此,可修筑合系数据的方针模子如图2所示。 图2 合系数据的方针模子 (1)根本层。合系数据依赖于两项搜集根本技能:URI(同一资源标识符)和HTTP(超文本传输允诺)。和人们所熟知的动作文献和其他网上可定位实体的地点的URL(同一资源定位符)差异,URI供给了一个特别一般的标识存正在于全邦上的任何实体的手段。URI可能是一个网页途途,也可能是某位专家或员工的联络体例,或是某个文献的物理存放场所。总之,资源无论以何种情势存放,其存储场所都是独一确定的,因而可能用URI举办独一标识由运用“http:/”开端的URI所界说的实体可能大略地通过正在HTTP允诺

  7、上逆向援用URI举办检索。正在这种体例下,HTTP允诺供给了一种大略而通用的检索机制,不单可能定位搜集上的数字资源,如一只狗的照片,还可能检索那些本身无法通过该体例正在搜集进取行传输的实体的描写好比那只狗7。 倘若说HTML(超文本标识叙话)供给了正在网上架构和链接文献的一种体例,RDF则供给了一种一般的、基于图形的数据模子,如图3所示。通过这种模子可能架构和链接描写全邦上事物的数据。正在RDF中,整个的资源都也许用一个URI来指定,属性是用来描写资源的特质或合联,每一个属性都有其特定的寄义,用来界说对应的属性值、资源类型,以及和其他属性之间的合联8。RDF把以上体编制称为一个声明语句,个中资源是主体

  8、,属性是谓词,属性值则是客体。RDF模子以“主体、谓词、客体”三元组对数据举办编码。主体和客体都是URI,它们从字面上各自分手界说了一个资源,谓词界说了主体和客体之间的合联,它也由一个URI外现。链接差异数据的RDF语句和将万维网连为一体的超文本链接有形似之处,语句的主体是一个数据集定名空间的URI援用,语句的客体是另一个数据集定名空间的URI援用。 RDFS(RDF词汇界说叙话)和OWL(搜集本体叙话)奠定了可用于描写全邦上的实体及其合联的词外的根本。词外是种别和属性的会集,其本身运用RDFS和OWL中的术语并通过RDF外达。任何人都可能揭橥数据搜集词外,这些词外可能通过RDF语句链接,从而

  9、界说合系词外之间的映照。通过运用URI界说资源,将HTTP允诺动作检索机制以及运用RDF数据模子描写资源,合系数据便正在搜集完全布局之上奠定了坚实的根本。 (2)器材层。目前已有众种合系数据揭橥器材被开辟出来,这些器材使得数据揭橥者无需眷注技能细节,而只需眷注数据自己。另外,这些器材往往是基于合系数据界限的告成使用开辟的,其可用性和优秀性均可获得担保。整个的器材均助助URI到RDF描写的逆向援用,个中少许器材还为数据集供给SPARQL拜访并助助RDF集的揭橥。这些器材囊括D2R Server、Virtuoso Universal Server、Tail Platform、Vapour、Pubby

  10、、Triplify、SparqPlug、OAI2LOD Server、SIOC Exporters等,个中D2R Server用于将合联型数据库转换为合系数据,Virtuoso Universal Server供给RDF形式的合系数据的存储与检索任职,这些数据可能直接存储到Virtuoso任职器中,也可能存储到合联型数据库中,然后映照为合系数据7。 (3)使用层。跟着洪量合系数据揭橥到搜集上,基于合系数据的使用方面的商量亦数见不鲜,目前梗概上可分为三类:合系数据浏览器、合系数据探求引擎以及特定界限的使用。 合系数据浏览器使得用户也许随同由RDF语句外达的链接正在差异的数据源之间浏览,一个用户可能

  11、从一个数据源早先慢慢遍历搜集。Disco浏览器即运用了这一手段,可能被视为合系数据的一项直接使用9。DBpedia Mobile是一款运转于iPhone及其他手机筑筑上的合系数据浏览器,可定位和显示DBpedia(语义版)中的地名等讯息。 合系数据探求引擎通过跟踪RDF链接从而可能正在搜集上抓取合系数据,并供给正在洪量数据中举办检索的功效10。梗概上来看,合系数据探求引擎可分为两类,即面向用户的探求引擎和面向使用的索引乐鱼。 藏书楼、企业和政府部分纷纷展开合系数据正在特定界限的使用商量,比方美邦邦会藏书楼已将个中心词外转换为合系数据,Google将合系数据使用于视频实质的标识和探求结果的摘要中,

  12、BBC使用合系数据正在其音乐和节目之间创立链接,雷诺通过合系数据为企业(1)用户界面。目前已有的合系数据浏览器和探求引擎的功效还相称有限。为了运用户也许更好地使用合系数据,浏览器和探求引擎应对此刻的用户交互形式举办矫正,比方供给和万维网浏览器相同的进步和撤消按钮,运用户能正在数据搜集中自正在的飞舞,以及浏览器首肯诺用户添补或删除此刻视图中的资源等。 (2)数据整合。合系数据平常起原于散布、异构的众个数据源,因而正在用户浏览或作进一步解决前,应举办数据整合,但目前绝大一面的合系数据使用正在此方面尚有短缺。数据整合可分为词汇映照和数据集成,个中词汇映照是将众个词外或本体中的词汇通过必然的法例对应起来,如等同

  13、于、属于等;而数据集成则是将实际全邦中某对象正在数据搜集中的差异寄义集成为一个真切的、不变的外述。 (3)链接保护。合系数据搜集中的数据并不是依样葫芦的,新的数据会无间参加,落伍的数据必要窜改或删除,数据之间的链接也应随之改变。固然此刻的搜集布局承诺死链接的存正在,但过众的死链接将使客户端发出洪量的无效HTTP吁请,从而影响数据搜集的恶果。可供思索的办理计划有:守时对数据链接举办扫描反省;创立一个注册中央,当罕有据发作改变时,由注册中央报告和其有链接合联的其他数据源。 (4)隐私回护。近年来,跟着繁众“人肉探求”事故的崭露,搜集中的隐私回护成为人们眷注的话题。合系数据的方向是将差异起原的数据整合到一块,这就为骚扰隐私供给了时机。怎么正在更速更好地获取讯息的同时回护好部分隐私成为现实使用中的一个困难。合系数据境遇中的隐私回护必要技能和法令手法相连系,同时也必要用户加强回护本身隐私的认识,正在妥当的局势供给妥当的部分数据。

  如PPT文献的首页显示word图标,外现该PPT已包括配套word讲稿。双击word图标可翻开word文档。

  一面文档作品中含有的邦旗、邦徽等图片,仅动作作品完全恶果示例显现,禁止商用。安排者仅对作品中独创性一面享有著作权。

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296