基于交叉配血的多账户识别模型研究

基于交叉配血的多账户识别模型研究韩亚全+曹春萍摘要摘要:对用户多账户检测识别是信息整合研究目标之一。针对目前用户识别技术普遍存在的准确率低和局域性问题,提出了基于交叉配血的多账户识别模型。该模型要求根据用户行为相似度和语义相似度绘制出多个账户的关系图,然后利用交叉配血原则来平衡语义和行为,在配置信息的协同下,对语义行为模型进行一致性识别。要求用户多个账户互相匹配以提高识别率,通过交叉匹配降低假种子账户对结果的影响。实验证明该算法大大提高了识别准确率。关键词关鍵词:交叉配血;账户识别;语义分析;用户相似度DOIDOI:10.11907/rjdk.162322:TP302:A:16727800(2017)0010001050引言互联网中存在大量重复的用户身份信息[1],以国外知名网站Twitter、Facebook为例,约有47%的用户拥有超过一个应用账户,整合这些重复用户信息很有意义,对网络应用中的多账户进行判定[2]并整合,能够帮助网络服务提供商全面了解用户,从而提供更好的个性化服务。从网络安全角度鉴别用户多账户,能够协助网络安全管理者发现虚假或不法身份[3],保护用户权益。为了整合用户信息,首先需要对用户进行身份识别、判定。影响网络用户身份识别的特征值主要有:配置信息、好友圈、行为和语义[4]信息等。目前识别方法主要有两种:①基于用户档案判定[5]的用户识别。该方法针对账户公有属性进行判定,然而账户公有属性相似度很大,导致准确率极其低下;②基于好友关系的多账户识别。该方案依据账户公共好友进行识别,但是多个账户并不拥有共同的好友圈,这严重影响识别准确度。目前用户识别检测处于快速发展阶段,许多学者对传统用户识别进行了改进,例如周松松等[6]提出了基于URL的相似度会话识别方法,通过对URL的处理进行用户检测;业宁等提出一种Web用户行为聚类算法,通过对Web日志的处理,提取用户的访问行为。这些基于用户日志和URL的方法,在一定程度上改善了识别的准确率,但同时也引入噪声,没有充分利用用户行为,忽视了用户的语义。为了提高用户多账户识别准确率,本文提出了基于交叉配血原则的用户身份同一性[7]判定方法。通过对行为和语义进行交叉匹配,生成准确的种子用户,进而进行综合判定识别。交叉配血最初来源于生物学,其原理是将献血人的红细胞和血清分别与受血人的血清和红细胞混合,若无凝集反应说明两血型相合,反之不相匹配。依据上述方法可以解决脏血问题,从而保证安全输血。交叉配血识别模型设计:①将各个账户的行为看作红细胞、语义看作血清,分别与其它账户进行交叉匹配;②把匹配度最高的账户作为种子用户进行下一轮测试,从而识别出用户所有账户。在交叉匹配前需要对账户的行为、语义进行处理,识别处理过程如下:①采用矩阵聚类算法对用户行为相似度进行度量;②采用GVSM的语义相似度算法对用户语义进行分析;③构造行为-语义加权无向图;④结合用户的配置相似度并按照交叉配血原则对用户行为-语义进行识别,从而得到准确的用户组。1基于交叉配血算法的行为-语义识别1.1多账户识别模型定义1:多账户识别模型:通过用户行为和语义相似度构建交叉配血的多账户识别模型G=,其中V表示账户,E表示两个账户相连,Weight表示两个账户语义、行为的相似度。根据行为、语义相似度构建无向图,行为、语义都存在噪声干扰,为防止噪声影响实验结果,经过大量实验分析,本文采取9%为行为噪声,14%为语义噪声。根据选定噪声阈值构建加权无向图,大于阈值的为有效信息,通过计算多个顶点相似距离从而得到账户相似度。其中,Wij表示用户i和用户j的相似度,作为权值参与相似计算。1.2用户行为相似度识别分析用户的行为特征主要表现在时间和空间上,时间特征包含每次浏览页面的时间及有向路径[8]的浏览时间,空间特征包含页面的浏览顺序和点击信息等浏览行为。本文主要根据账户的访问日志和登录日志提取时间和空间特征值,通过对两个特征值进行聚类分析,得出各账户之间的行为相似度,如表1所示。行为识别步骤:①通过用户访问模式分析得到账户时间特征值;②基于用户浏览相似度矩阵的聚类算法得出用户行为相似度。用户访问模式[9]的访问路径包含超链接,...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?