乐鱼体育官方网站FCS 作品解读:基于动态滑动窗口的差分隐私直方图颁发手法
具体介绍

  差分隐私是近年来被通俗认同的数据颁发肃穆隐私珍惜形式,差分隐私直方图颁发可能正在保障用户隐私的条件下,直接显示统计数据的分散境况,便于数据查问、共享和明白,动态数据颁发是一项具有通俗确当前行业需求的商酌。然而,区别工夫的数据量区别很大,不对理的数据管制会形成用户讯息宣泄和数据不行用的危机。

  以是,本文计划了一种基于LSTM动态滑动窗口的差分隐私直方图颁发技巧(DPHP-DL),可能正在保障数据隐私的条件下普及数据可用性。DPHP-DL由DSW-LSTM和DPHK+集成而成。DSW -LSTM通过LSTM (long - short - term memory)搜集基于数据值预测更新滑动窗口的巨细,将数据流匀称地划分为众个窗口。DPHK+发动式颁发非等距直方图,基于k- mean++自愿聚类获取最优,完毕动态数据的差分隐私直方图颁发。而且,本文正在本质动态数据集进步行了巨额实行,证实了DPHP-DL的出色职能。

  本文提出了一种基于LSTM动态滑动窗口的差分隐私直方图颁发技巧(DPHP-DL),该技巧由DSW-LSTM和DPHK+构成。最初,本文先容了DPHP-DL的进程。随后,分离先容了DSW-LSTM和DPHK+,并明白了DPHP-DL的隐私性。

  为了有用完毕随数据滚动态变动的发动式非等距直方图颁发,本文提出了DPHP-DL(算法1)。最初,使该算法蕴蓄堆积必然量的数据,确定初始窗口巨细,并通过DPHK+颁发初始窗口内数据的直方图。然后,凭据DSW-LSTM(算法2)更新每个窗口的巨细。接着,凭据更新后的窗口巨细将窗口滑动到下一个韶华戳。同时,基于DPHK+(算法3)颁发新窗口的直方图。结果,不休更新窗口巨细,颁发每个直方图,得到数据流的直方图。

  本文提出了基于LSTM的动态滑动窗口(DSW-LSTM)来预测统计数据值的动态变动,并凭据预测的数据值更新下一个滑动窗口的巨细,以均衡窗口之间的数据分散。

  DSW-LSTM行使现在窗口数据预测下一个韶华戳的数据值,并动态更改窗口巨细。该算法最初对现在窗口数据举办锻练,并基于LSTM预测下一个戳的数据值。接着,它凭据预测值更新窗口巨细,并将新的窗口巨细运用于下一个韶华戳。同时,从滑动窗口中删除韶华戳,个中的数据被抛弃或存储到数据库中,而新数据进入滑动窗口。结果,窗口滑动到下一个韶华戳,反复上述次序。

  LSTM搜集用于数据预测,因为LSTM单位具有遗忘门,故搜集可能火速练习数据的新特质,及时更新搜集,保障流数据预测真实切性,障翳的叠加层可能加深模子以得到更确切的输出。本文行使LSTM模子,正在窗口批次之间有栈房,其机闭如图1所示。

  堆叠LSTM架构可能界说为由众个LSTM层构成的LSTM模子,上层LSTM层向基层LSTM层供应一系列输出,而不是单个值输出。本文行使堆叠的LSTM来预测下一个韶华戳的数据值,从而向导窗口巨细的调度。

  式中为窗口的固定局部(即初始窗口巨细),为窗口的可变局部,为均匀统计值,为预测统计值。是滑腻因子,用于防备过大或过小,为对比参数。

  外2显示了百般窗口巨细更新的示例,假设初始窗口巨细为10,的预测值分离为30、24、20、18和10,它们的窗口巨细由上述两式阴谋,三个窗口的巨细结果分离为15、10、10、10和5。这个例子注解,即使预测值清楚高于均匀值,窗口巨细将会增长,相反,窗口巨细将减小。当统计值正在必然限制内变动时,窗口巨细仍旧稳固。

  本文提出了基于K-means++(DPHK+)的差分隐私直方图颁发,完毕发动式非等距直方图颁发。

  最初,行使K -means++算法对现在窗口中区别值的数据举办聚类,其次,凭据与SSE的闭联图,阴谋相邻坡度变动度得到最优,取得初始分组结果,最优值为组数。结果正在初始分组结果中参预拉普拉斯噪声,完毕直方图颁发。

  最优值的抉择对付直方图的有用颁发至闭首要,凭据与SSE的闭联图阴谋相邻坡度变动度如下:最初,记载各点正在和SSE图中的坐标,阴谋每两点之间的斜率。其次,阴谋每个点对相邻点的斜率变动度,

  个中是点和前一点之间的斜率,是点和下一点之间的斜率,是点与其邻点的斜率变动的水准。即使小于阈值,则放弃迭代,而且的值行为的最优值对应的最大值被抉择,所抉择的最优值示比如外1和图2所示。

  图2显示了和SSE之间的闭联。跟着值的增大,SSE不休减小,到达必然值后趋于安谧。外1给出了和的阴谋,从外中可能看出,是到的最大值。以是,本例的最优值为3(即)。

  本节算法的隐私性通过餍足微分隐私的算法的界说和性子来证实,紧要证实直方图颁发算法是否餍足微分隐私,由于正在取得待颁发的组后,拉普拉斯噪声会被参预每一组。

  证实:正在本文的DPHP-DL技巧中,行使数据流为每个窗口颁发直方图,并行使颁发直方图中的组间距按比例分派隐私预算。每个窗口对应一个直方图行为限制查问,以是直方图查问存正在于颁发的数据流中。正在本文的频坦直方图中,修削一条记载影响一个数据桶。以是,整体聪明度为,其阴谋如下:

  个中两个数据流和相邻,惟有一条记载区别,数据是带有窗口的频率统计,和分离为第个窗口的频率统计值和窗口巨细。

  分派给每个窗口的隐私预算为,每一组都餍足微分隐私。因为每组数据集相互不订交,而且。以是,DPHP-DL餍足差分隐私。

  (1)提出了基于LSTM的动态滑动窗口(DSWLSTM)来更新数据流上的滑动窗口,将LSTM用于预测统计数据值的动态变动,并提出了相应的锻练技巧。下一个窗口的巨细可能凭据预测的数据值举办更新,改良了窗口之间数据分散的均衡。

  (2)提出了基于kmeme++ (DPHK+)的差分隐私直方图颁发,完毕了现在窗口数据的发动式非等距直方图颁发,采用k -means++对已颁发的数据举办聚类。自愿抉择值举办非等距分组,并纠合拉普拉斯噪声举办差分隐私直方图颁发。该技巧研讨了窗口内数据的稀少性,可能确切反响每个韶华窗口内的数据分散。

  (3)将PDH-LSTM和DPHK+相纠合,提出了一种管制动态变动数据流的DPHP-DL技巧。正在切实的合成动态数据集上对DPHP-DL举办了实行评估,证实了其正在数据隐私性和可用性方面的有用性和高效性。

  本文通过巨额的实行,将DPHP-DL与其他有代外性的技巧举办对比。最初,通过实行对比了DSWLSTM与FSW和DSW速率的方差[18]。其次,通过SSE和运转韶华对DPHK+与DPHK举办对比。第三,行使办事负载偏差和运转时开销来评估DPHP-DL和其他代外性技巧,囊括Baseline、FSWDPHK、FSW-DPHK+、DSWL-DPHK、SHP和DP-FC。结果,对烧蚀举办了商酌和明白。另外,各技巧的特色及窗口巨细修立如外2所示。

  当初始窗口巨细产生变动时,通过方差将DSW-LSTM与FSW和DSW速率举办对比。FSW的窗口巨细永远与初始窗口巨细无别,现在DSW速率的窗口巨细凭据前一个窗口阴谋的数据速率动态变动。以50步的速率将窗口巨细从100增长到300,并将拉普拉斯噪声直接增加到这三种技巧的原始直方图中。如图3所示,正在全体境况下,DSW-LSTM的方差最小,比FSW和DSW-LSTM均匀分离赶过41.3%和18.8%。跟着初始窗口巨细的增长,DSW-LSTM正在方差方面的职能优于FSW和DSW速率,这是由于窗口数据量的增长可能普及LSTM的预测精度。

  直方图颁发的有用性和结果受到聚类算法的影响,SSE (Sum of Squared Error)是用来量度聚类功效的目标。SSE越小,数据点离质心越近,聚类功效越好。以是,本文正在固定窗口的Adult数据集上评估了DPHK和DPHK+算法的SSE和运转时职能。DPHK是一种基于-means的差分隐私直方图颁发技巧,它行使-means算法举办聚类和分组。通过斜率变动水准阴谋出最优值,并参预拉普拉斯噪声告终直方图颁发。

  窗口巨细每50步从100增长到300,以评估两种直方图颁发技巧的SSE和运转韶华。如图4和图5所示,DPHK+正在全体境况下都优于DPHK,它正在SSE中均匀胜过DPHK 8.8%,正在运转时均匀胜过DPHK 75.6%。以是,正在直方图颁发技巧中行使-means++可能普及颁发功效,明显节减运转韶华。

  本文对比了DPHP-DL与Baseline、FSW-DPHK、FSWDPHK+、DSWL-DPHK、SHP和DP-FC正在区别隐私预算和初始窗口巨细下正在成人数据集、癌症患者数据集和眼病数据集上的办事负载偏差,以评估其数据可用性。以0.25的步将从0.5增长到1.5,初始窗口巨细为100,用于评估五种技巧的办事负载偏差。结果显示,DPHP-DL正在成人数据集上的全体蚁合中都优于其他六种代外性技巧,它比Baseline、FSW-DPHK乐鱼体育官方网站、FSWDPHK+、DSWL-DPHK、SHP和DP-FC均匀分离赶过57.4%、48.0%、35.8%、20.9%、35.0%和29.9%。正在癌症患者数据集和眼部疾病数据集上,DPHP-DL正在全体境况下的办事量偏差都小于其他技巧,动态滑动窗口正在普及动态变动的数据流的数据可用性方面具有更好的职能。

  将初始窗口巨细从100增长到300,次序为50,并修立来评估五种技巧的办事负载偏差。结果显示,正在成人数据集上,DPHP-DL正在全体境况下都优于其他四种技巧。DPHP-DL均匀比Baseline、FSW-DPHK、FSWDPHK+、DSWL-DPHK、SHP和DP-FC分离赶过55.5%、43.8%、32.9%、15.2%、27.7%和22.1%。同样,正在癌症患者数据集和眼部疾病数据集上,DPHP-DL正在全体境况下都优于其他技巧。跟着窗口巨细的增长,窗口内的数据量也会增长,这就增长了每种技巧的偏差,DPHP-DL天生的偏差上升尤其安稳。因为每个窗口的数据都正在增长,LSTM能更确切地预测数据量,以是,正在Windows上的数据尤其均衡,而且正在全体Windows上的偏差比其他技巧要小。

  以上比较实行结果注解,DSW-LSTM、DPHK+和DPHP-DL的职能优于其他代外性技巧,证实了DPHP-DL正在普及数据可用性方面的有用性。

  本文将DPHP-DL与基线技巧、FSWDPHK、FSW-DPHK+、DSWL-DPHK、SHP和DP-FC鄙人的运转时举办对比,初始窗口巨细为100,正在成人数据集、癌症患者数据集和眼病数据集上评估结果。结果所示,所提出的技巧DPHP-DL具有超强的运转时职能,基线、FSW-DPHK、FSW-DPHK+因为其简略的颁发模子和难以保障数据隐私和可用性,具有更疾的运转韶华。

  本文对比了组件技巧和DPHP-DL的韶华丰富度、办事负载偏差和运转韶华,正在成人数据集上,初始窗口巨细为100。外3给出了DSW-LSTM、DPHK+和DPHP-DL的韶华丰富度、办事负载缺点和运转韶华的对比,这里是窗口的数目。可能看出,固然DSW-LSTM比DPHP-DL占用更众的运转韶华,但它正在普及数据可用性方面阐明的效率更为闭头。以上实行注解,DPHP-DL正在普及数据保密性和可用性方面具有有用性和高效性。

  现相闭于差分隐私直方图颁发技巧的商酌公众凑集正在静态数据集的颁发上。然而,很众运用标准必要一连颁发统计数据,近似的动态数据正在本质运用中无处不正在。对这些数据流举办正在线管制,并可能及时颁发干系统计数据,将会带来宏伟的代价。然而,这些数据流中包蕴了巨额的一面隐私讯息。以是,动态数据差分隐私直方图的颁发成为一个首要的商酌对象。

  然而,基于动态数据统计颁发的哀求和特色,现有的差分隐私直方图颁发技巧照旧存正在少许亏损。个中一点即是滑动窗口身手,它是动态数据管制中运用最通俗的身手之一,此身手中的直方图颁发技巧的窗口巨细是固定的,只可管制具有眇小变动的数据流。当数据量变动较大时,因为窗口巨细固定,会导致窗口之间的数据分散不匀称。差分隐私(DP)可用于抵御像上述示例那样的靠山常识攻击,然而,正在数据可变的境况下,照旧会导致数据隐私职能较低,数据可用性消浸。凭据数据滚动态改观窗口的巨细,可能有用地处置数据分散不匀称的题目。然而,目前数据颁发中行使的动态滑动窗口技巧无法确切预测数据流中数据量的丰富变动。

  而本文提出的一种基于LSTM动态滑动窗口的差分隐私直方图颁发技巧(DPHP-DL),便可能很好地处置数据正在窗口间分散不匀称、数据稀少以及动态数据丰富变动带来的隐私宣泄和数据不行用题目,并保障数据隐私的条件下普及数据的可用性。

  Frontiers of Computer Science (FCS)是由造就部主管、上等造就出书社和北京航空航天大学合伙主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,环球发行。紧要登载阴谋机科学范畴具有立异性的综述论文、商酌论文等。本刊主编为周志华教员,合伙主编为熊璋教员。编委会及青年 AE 团队由邦外里出名学者及卓绝青年学者构成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中邦科学引文数据库(CSCD)中央库等收录,为 CCF 举荐期刊;两次入选“中邦科技期刊邦际影响力擢升宗旨”;入选“第4届中邦邦际化精品科技期刊”;入选“中邦科技期刊杰出举动宗旨项目”。

  由造就部主管、上等造就出书社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以搜集版和印刷版向环球发行。系列期刊囊括根蒂科学、性命科学、工程身手和人文社会科学四个重心,是我邦笼盖学科最通俗的英文学术期刊群,个中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科邦际巨头检索编制收录,具有必然的邦际学术影响力。系列期刊采用正在线优先出书方法,保障著作以最火速率宣告。

 

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296