基于矩阵填充的众包学习模型研究

基于矩阵填充的众包学习模型研究刘天时吴琼---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---摘要:本文提出一种鲁棒低秩近似算法(ROLA)来学习标注者之间潜在的相似性,进而解决标注数据集中的噪声。ROLA通过构造一个低秩矩阵模型,来捕获---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---标签中的潜在相关信息,与问题的潜在特征向量。实验结果表明,ROLA在四个数据集上的准确率最高。并且与现有算法相比,在优化时间上也存在相应优势。关键词:低秩近似;矩阵填充;众包学习:TP311.13:ADOI:10.3969/j.issn.1003-6970.2019.04.034本文著录格式:刘天时,吴琼.基于矩阵填充的众包学习模型研究[J].软件,2019,40(4):159161【Abstract】:Thispaperproposesarobustlowrankapproximationalgorithm(ROLA)tolearnthepotentialsimilaritybetweenannotatorsandtosolvethenoiseinannotateddatasets.ROLAconstructsalowrankmatrixmodeltocapturelatentcorrelationinformationintagsandlatenteigenvectorsofproblems.TheexperimentalresultsshowthatROLAhasthehighestaccuracyonfourdatasets.Comparedwithexistingalgorithms,italsohascorrespondingadvantagesinoptimizationtime.【Keywords】:Lowrankapproximation;Matrixfilling;Crowdsourcinglearning0引言近年来在机器学习和计算机视觉方面广泛应用。然而由于雇主发布的标注任务差异,导致收集到来自于不同自由职业者的标注结果,含有大量噪声。如何甄别噪声,提高众包学习的质量是目前面临的问题[1]。本文提出基于矩阵填充的数据去噪方法:低秩近似流形优化算法(Low-RankApproximationManifoldOptimization,LRAMO)。以矩阵填充的视角看待众包学习问题,认为矩阵的低秩结构既标注着之间的潜在相关关系,以此为依据,将恶意或者具有相似不良标注习惯的标注者的噪声删去。而针对无噪声的标签矩阵,LRAMO算法直接进行黎曼优化的矩阵分解,获得完整的标签矩阵,能快速进行眾包学习。---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---1低秩矩阵模型众包学习获得数据的成本比较低廉,但是存在大量噪声[2-5]。而标签数据之间具有低秩结构,本文根据数据的低秩结构,将众包学习理解成矩阵填充问题。因此本文提出基于矩阵填充的低秩近似流形优化算法,删除恶意标注者的标注噪声,并对恶意和有不良标注习惯的标注者进行标记,优化了后续的众包学习过程。也就是说,少数恶意和不良习惯的标注者带来噪音,当众包任务发出去后,多数认真对待任务的标注者的标签是相似的,都试图给出正确答案。由于得到的众包数据具有低秩结构,可转换成一个低秩的矩阵和一个噪声矩阵相加。这样做的目的是:(1)接受标注任务的标注者得到的数据可以分成准确标注和噪声标注。而噪声是稀疏的,根据数据的低秩结构可以轻易的推断出真实的标注。(2)噪声标注导致的偏差可以用l2,1范数表示,而矩阵的低秩结构说明标注者之间存在潜在关系[6-10]。2LRAMO优化算法本节将众包学习看成矩阵填充问题,提出低秩近似流形优化算法(Low-RankApproximationManifoldOptimization,LRAMO)。通过黎曼优化求解矩阵填充,不仅降低了矩阵填充的时间复杂度,而且收敛速度也有所提升。构建众包学习的矩阵填充模型,将众包学习得到的数据矩阵Z,分解成低秩矩阵X即从标注数据中采样得到的标签,和噪声矩阵E,其中E是稀疏噪声。上式中‖?‖*表示核范数,是给定是正则参数。由于众包学习被形式化为低秩矩阵填充问题,由于矩阵填充求解秩函数是NP问题,因此这里用核函数最小化进行凸松弛。在模型中与标注者相关的噪声用l2,1范数刻画,最小化噪声矩阵E的l2,1范数对噪声进行约减。2.1标签矩阵的低秩问题---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---由于标注者的目的都是尽可能正确的完成任务,除去个别标注者粗心导致的错误,大部分标注者的标注习惯比较相似,因此无噪声的标注矩阵满足低秩结构。也就是说,无噪声标签的矩阵是可靠标注者,由他们得到的标签数据往...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?