乐鱼体育官网初度攻陷“图根柢模子”三大困难港大开源OpenGraph:零样本练习
具体介绍

  【新智元导读】港大宣布通用图基座模子OpenGraph,奇妙从LLM中蒸馏零样本图泛化才具。

  图研习(Graph Learning)技能可以对庞大的合连数据举行发现和研习,正在保举体系、社交搜集认识、援用搜集和交通搜集等众个周围都显示出了宏大的操纵价钱。

  图神经搜集(Graph Neural Networks, GNNs)基于迭代的音尘转达机制,可以捕获图布局数据中的庞大高阶合连,正在各式图研习操纵场景中得到了宏大的告捷。

  日常,这种端到端的图神经搜集须要洪量、高质料的标注数据本领获取较好的熬炼结果。

  近年来,极少管事提出图模子的预熬炼-微调(Pre-training and Fine-tuning)形式,应用各样自监视研习职业正在无标注的图数据上开始辈行预熬炼,再正在少量标注数据进取行微调,以反抗监视信号亏欠的题目。这里的自监视研习职业包含对照研习、掩码重筑、限度整体互讯息最大化等办法。

  只管这种预熬炼办法得到了肯定的告捷,但他们的泛化才具较为有限,极度是当预熬炼和下逛职业产生散布偏移(Distribution Shift)时。

  比方正在保举体系中,预熬炼模子应用较早年光搜聚的数据,而预测时用户嗜好、商品热度通常产生变更。

  为知道决这一题目,极少近期管事提出了针对图模子的提示微调办法,可以特别高效地将预熬炼模子符合到下逛职业和数据上。

  只管上述管事促进了图神经模子的泛化才具,但这些模子全都假设:熬炼数据和测试数据有一样的节点鸠合和特质空间。

  这极大地局限了预熬炼图模子的操纵规模。以是,本文搜求进一步提拔图模子泛化才具的办法。

  全体来说,咱们盼望OpenGraph可以捕获通用的拓扑布局形式,对测试数据举行零样本预测。即仅通过前向传扬经过,就可能对测试图数据举行高效的特质提取和确凿预测。

  模子的熬炼经过正在齐备差别的图数据进取行,正在熬炼阶段不接触测试图的任何元素,包含节点、边、特质向量。

  零样本图预测职业的一个明显贫穷是,差别的图数据日常有齐备差别的图token鸠合。全体来说,差别图的节点鸠合日常没有交集,而且差别图数据集也通常应用齐备差别的节点特质。这使得模子不行通过研习和特定命据集的图token绑定的参数,来举行跨数据集的预测职业。

  正在图研习周围,节点之间通常存正在错综庞大的依赖合连,模子须要对节点的限度和整体邻域合连举行归纳考量。正在搭筑通用图模子时,一个紧张的职业是可以高效地筑模节点间合连,这可以加强模子正在措置洪量图数据时的模子结果和可扩展性。

  因为隐私珍爱、数据搜聚本钱等出处,正在图研习的良众下逛周围中都寻常存正在数据稀缺题目,这使得通用图模子的熬炼容易缺乏对某些下逛周围的知道而发作次优的熬炼结果。

  为了应对上述挑衅,香港大学的探索职员提出了 OpenGraph,这是一个擅长零样本研习的模子,可以识别差别下逛周围之间可转移的拓扑布局形式。

  通过创筑一个具有拓扑感知投影计划的图tokenizer来处分挑衅 C1,从而天生联合的图tokens。

  为了应对挑衅 C2,打算了一个可扩展的图Transformer,它装备了基于锚点采样的高效自注视力机制,并包含了token序列采样以实行更高效的熬炼。

  为知道决挑衅 C3,咱们诈骗大型说话模子举行数据加强,以足够咱们的预熬炼,应用提示树算法和吉布斯采样来模仿实际天下的图布局合连数据。咱们正在众个图数据集进取行的寻常测试显示了 OpenGraph 正在各样设备中的超卓泛化才具。

  模子举座架构如下图所示,可能分为三个局部,永诀为1)联合图Tokenizer,2)可扩展的图Transformer,3)大说话模子学问蒸馏。

  为了应对差别数据集正在节点、边、特质上存正在的宏大分别,咱们的首要职业是设立筑设一个联合的图tokenizer,可以有用地将差别图数据暗射为联合的token序列。正在咱们的tokenizer中,每个token都有一个语义向量,用于描写对应节点的讯息。

  通过采用联合的节点外征空间,以及活泼的序列数据布局,咱们盼望为差别的图数据举行圭表化、高效的tokenization。

  为了告终这一方针,咱们的tokenizer采用了历程滑腻的拓扑讯息,以及一个从节点空间到隐外征空间的映照函数。

  正在图tokenization经过中,应用连接矩阵的高次幂行为输入之一,这种办法既可以获取图布局的高阶贯穿合连,也可以处分原始连接矩阵中贯穿稀少性的题目。

  筹算经过中举行了Laplacian归一化,并将差别阶的连接矩阵幂一起切磋进来,全体筹算办法如下。

  差别数据集的连接矩阵正在维度上存正在宏大的分别,这使得咱们不行直接将连接矩阵行为输入,再应用一个固定输入维度的神经搜集举行措置。

  咱们的处分计划是开始将连接矩阵投射为节点外征序列的地势,后续即可应用可变长的序列模子举行措置。而为了削减映照经过的讯息吃亏,咱们提出了一种拓扑感知的映照办法。

  开始,咱们拓扑感知映照的值域是一个维度较高的隐外征空间。之前的极少管事指出,正在采用较大的隐空间维度时,纵使是随机的映照也通常可能发作令人舒服的外征结果。

  为了进一步保存图布局讯息,并削减随机性影响,咱们应用迅疾特质值了解(SVD)来构制咱们的映照函数。正在实践实习中,两轮的迅疾特质值了解可能有用地保存拓扑讯息,且发作的的筹算开销相对其他模块可能纰漏不计。

  历程无参数的图tokenization经过,对具有差别特质的图数据,OpenGraph分派了联合的拓扑感知图token外征。接下来的职业是采用可熬炼的神经搜集,对节点间的庞大依赖合连举行筑模。

  OpenGraph采用了transformer架构,以诈骗其正在庞大合连筑模方面的强盛才具。为了保障模子效劳和机能,咱们引入了以下两种采样技术。

  因为咱们的图token序列数据大凡有较大的token数目和隐外征维度,OpenGraph采用的图transformer对输入的token序列举行采样,只研习而今熬炼批次内的token间两两合连,使得须要筑模的合连对数目从节点数目平方,低浸到熬炼批次巨细的平方,从而大大减小图transformer正在熬炼阶段的年光和空间开销。而且,这种采样办法可以让模子正在熬炼时特别合切而今的熬炼批次。

  只管对输入数据举行了采样,因为咱们的初始图token外征包括了节点间的拓扑合连,采样的token序列还是可以肯定水平地反应全图全盘节点的讯息。

  固然token序列采样将庞大度从节点数目平方低浸到了批次巨细平方,但平方级另外庞大度对批次巨细有着较大的局限,使得模子熬炼无法采用较大的批次,从而影响举座的熬炼年光和熬炼不变性。

  为了缓解这一题目,OpenGraph的transformer局部放弃了对全盘token之间两两合连的筑模,而是采样局部锚点,将全盘节点间的合连研习拆分成两次全盘节点与锚点之间的合连研习。

  因为数据隐私等出处,获取各个周围的数据来熬炼通用图模子是很有挑衅性的。感想到大型说话模子(LLM)所映现的惊人学问和明了才具,咱们诈骗其气力来天生各样图布局数据,用于通用图模子的熬炼。

  咱们打算的数据加强机制,使LLM加强的图数据可以更好地近似实正在天下图的特质,从而降低了加强数据的相干性和有效性。

  正在天生图时,咱们的初始办法是创筑一个适合特定操纵场景的节点集。每个节点都具有一个基于文本的特质描写,该描写有助于后续的边天生经过。

  然而,当措置实正在天下场景时,这项职业可以极度具有挑衅性,由于节点集的范围很大。比方,正在电子商务平台上,图数据可以包括数十亿种产物。以是,有用地使LLM天生洪量节点成为一个庞大挑衅。

  为知道决上述挑衅,咱们采用了一种战术,络续将大凡节点分成更细粒度的子种别。

  比方,当天生电市场景下的产物节点时,开始应用相像于「列出淘宝等电子商务平台上的全盘产物的子种别」的盘问提示LLM。LLM答复了一个子种别列外,如“衣服”、“家居厨具”和“电子产物”等。

  然后,咱们央求LLM进一步细化每个子种别来无间这一迭代豆剖经过。这个经过不绝反复,直到咱们获取了相像于实正在天下实例的节点,比方一个带有「衣服」、「小姐衣物」、「毛线衫」、「带兜毛线衫」和「白色带兜毛线衫」标签的产物。

  将节点豆割成子种别并天生细粒度实体的经过坚守一种树状布局。最初的大凡节点(比方“产物”、“深度研习论文”)行为根乐鱼体育官网,细粒度实体行为叶节点。咱们采用树形提示战术来遍历和天生这些节点。

  为了天生边,咱们应用吉布斯采样算法与上文天生的节点集。算法从一个随机样本先河举行迭代,每次正在而今样本的根蒂上,采样对此中某一个数据维度举行变动后获得的样本。

  这一算法的合节正在于揣摸正在而今样本的条款下,某个数据维度变动的条款概率。咱们提出遵照节点天生时获得的文本特质,由LLM举行概率揣摸。

  因为边的鸠合空间较大,为了避免让LLM对其举行搜求而发作宏大的开销,咱们开始应用LLM对节点鸠合举行外征,再基于外征向量,应用简陋的彷佛度算子对节点间合连举行筹算。正在以上的边天生框架内,咱们还采用了以下三种紧张的技术举行调动。

  因为LLM外征的彷佛度可以与[0, 1]规模差异宏大,为了获取更适合采样的概率数值,咱们应用一种动态概率归一化的办法。

  该办法动态庇护采样经过中迩来的T个彷佛度揣摸数值,筹算他们的均值和圭表差,末了将而今的彷佛度揣摸映照到该均值上下两个圭表差的散布规模中,从而获得近似[0, 1]的概率揣摸。

  基于LLM的边天生办法,可以有用地遵照节点的语义彷佛性,确定他们的潜正在贯穿合连。

  然而,它偏向于正在全盘语义相干的节点之间创筑过众的贯穿,歧视了实正在天下图中紧张的限度性观念。

  正在实际天下中,节点更有可以贯穿到相干节点的子集,由于它们日常只可够与一局部节点有限地互动。为了模仿这一紧张特色,引入了一种正在边天生经过中将限度性纳入切磋的办法。

  每个节点都随机分派一个限度性索引,两个节点之间的交互概率受到限度性索引绝对差值的衰减影响,节点的限度性索引不同越大,则衰减越重要。

  为了使天生的图数据特别相符拓扑布局的形式,咱们正在第一次图天生经过中再次天生删改的节点外征。

  这一节点外征应用简陋的图卷积搜集正在初始天生图上获得,他能更好地相符图布局数据的散布特色,避免图和文本空间之间的散布偏移。最终,咱们正在删改的节点外征根蒂上,再次举行图采样,获得最终的图布局数据。

  实习中,咱们仅应用基于LLM的天生数据集举行OpenGraph模子熬炼,而测试数据集都是各个操纵场景下的实正在数据集,并包含了节点分类和链途预测两类职业。实习的全体设备如下:

  为了验证OpenGraph的零样本预测才具,OpenGraph正在天生的熬炼数据集上测试,再应用齐备差别的实正在测试数据集举行结果测试。熬炼数据集和测试数据集正在节点、边、特质、标注上均没有任何重合。

  因为众人半现有办法无法举行有用的零样本预测,咱们采用少样本预测的办法对他们举行测试。基线办法可能正在预熬炼数据进取行预熬炼,之后应用k-shot样本举行熬炼、微调或提示微调。

  1)正在跨数据集的处境下,OpenGraph的零样本预测结果相对现有办法具有较大的上风。

  2)正在跨数据集转移的处境下,现有的预熬炼办法有时以至还不如其根蒂模子仅正在少样本上从零先河熬炼,这外现了图模子获取跨数据集泛化才具的贫穷。

  接下来咱们探究图tokenizer打算对结果的影响。开始咱们调动了连接矩阵滑腻竣事,测试其对结果的影响。0阶时结果产生重要衰减,指示了采用高阶滑腻的紧张性。

  其次,咱们将拓扑感知映照函数调换成其他简陋办法,包含跨数据集的可研习独热id外征、随机映照、基于节点度的可研习外征。

  结果显示三种取代计划均结果较差,此中跨数据集研习id外征结果最差,现有管事中常用的度外征结果也衰减较大,弗成研习的随机映照正在全盘取代办法中阐扬最好,但仍与咱们的拓扑感知映照有很大的差异。

  为了验证基于LLM的学问蒸馏办法的有用性,咱们应用差别的预熬炼数据集对OpenGraph举行熬炼,并测试其正在差别测试集上的结果。

  本实习比力的预熬炼数据集包含独立去除咱们天生办法中某个技术的版本、与测试数据集不相干的两个线和Gowalla、以及与测试数据集相干的ML-10M数据集,从结果中可能看出:

  3)应用实正在数据集(Yelp、Gowalla)举行熬炼可以反而会带来负面结果,这可以源于差别实正在数据集之间的散布分别。

  4)ML-10M正在ML-1M和ML-10M上均得到了最佳结果,这外明应用彷佛的熬炼数据集可以发作较好的结果。

  这项实习对咱们图transformer模块中的token序列采样(Seq)和锚点采样(Anc)举行了熔解测试。

  结果显示,两种采样办法可以正在熬炼和测试经过优化模子的空间和年光开销。正在结果方面,token序列采样对模子结果有正向效用,而ddi数据集上的结果显示,锚点菜样对模子结果有负面结果。

  本探索的首要主旨是开辟一个高度符合性的框架,可以无误地捕获和明了各样图布局中庞大的拓扑形式。

  通过阐发所提出模子的潜力,咱们的方针是明显降低模子的泛化才具,使其正在包含各样下逛操纵正在内的零样本图研习职业中阐扬增光。

  为了进一步降低OpenGraph的效劳和强盛性,咱们正在可扩展的图transformer架构和基于LLM的数据加强机制的根蒂上修建了咱们的模子。

  通过正在众个基准数据集进取行的洪量实习,咱们验证了模子的凸起泛化才具。本探索正在图基座模子倾向作出了发轫搜求的测验。

  正在改日的管事中,咱们筹划付与咱们的框架自愿涌现噪声贯穿和具有反到底研习影响力的布局的才具,同时研习各样图的通用和可蜕变的布局形式。

 

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296