用机器学习来计算工作技能的匹配

本文使用Word2vec结合K-Means聚类zWord2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。此项目的成员包括BrettAmdur,ChristopherRedino和Amy(Yujing)Mao他们毕业与今年1月11日至4月1日举办的为期十二周的纽约数据科学全职训练营。这篇文章基于他们的终期项目顶点项目(CapstoneProject)而完成。点击此处可见原文。I.概述此项目的主要内容是应用机器学习方法来判断简历中工作技能的匹配程度。一家机构向纽约数据科学研究院的学生陈述了此项目,他们希望找到合适的学生来完成项目。本文的三个作者接受了这个项目,他们当时都是研究院的全日制学生。作者们与该机构的几名代表合作完成了这篇文章中的分析内容尽管该机构不愿意我们透露他们的姓名,但是作者仍然想表达对此机构的感谢。这个项目的总体思路是揭示简历上展现的技能背后的语义相似性和关系。一种基于语义的评估工作技能相似性的方法有许多的潜在应用场景,它主要通过理解简历中的文本从而在简历中发现技能之间的关系。虽然有其他方法来判断工作技能之间的语义相关度,但机器学习技术带给我们更有趣和强大的结果。---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---II-词向量该机构为我们提供了大约250,000份简历的文本数据。在我们的项目开展之前,该机构已经给每份简历加上了是否与〃数据〃或是〃分析〃相关的标签。此数据还包括了一份经过机构编译的清单,罗列了大约3000种相关的工作技能。我们决定用Word2vec的词向量技术来评测清单中3000项技能的相似度这里假设简历的文本数据就是Word2vec的文本集合。也许部分读者还不熟悉Word2vec,Word2vec技术用单词在文本中的相隔距离作为相关性的指标。具体来说,Word2vec创建了一个共现矩阵,用来表示文本集中某用户可以调节窗口大小,即相邻单词的个数。然后利用奇异值分解的方法降低共现矩阵的维度。得到的结果是空间中的—个向量,空间的各个维度表示隐语义,因此:1在向量空间中相近的两个单词的语义可能更相近;2每个维度表示一种特定语义下的含义。—个经常被引用的Word2vec例子就是表示〃国王〃的词向量减去表示"男人"的词向量,再加上表示"女人"的词向量,计算结果得到的向量与表示'女王〃的词向量非常接近。自2013年谷歌研究员公布Word2vec技术以来,它在判断术语相关性方面已经显现出卓越的成绩,而且仍将是一个重要的研究方向。针对这个项目,我们在250k份简历上训练了Word2vec模型,---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---个单词在一个口〃范围内与另一个单词相邻出现的频率。口大小设为12,向量空间的维度设为100•我们用BenSchmidt开发的版本。使用skip-gram方法来创建共现矩阵z使用了8GB的内存和2.5GHz的处理器,整个处理时间大约为3.5个小时。向量空间创建之后,我们下一步任务就是评估向量空间对工作技能相关度的描述准确性。我们在向量空间使用聚类的方法,以评估词向量是否将工作技能聚集到对应的类别中。a.K-Means聚类我们以K-Means聚类方法为例。广义地定义,K-Means方法是将一组样本按照它们在特征空间中的相互距离划分为若干个子类,子类的个数可以自定义,即k的值。我们这里使用3000个技能作为样本来聚类,依据它们在Word2vec向量空间中的词向量(简历文本集和技能列表中的单词都使用Snowball方法提取了词干)。我们武断地决定将词分为15个簇。我们说自己的决定武断是因为我们用R的NbClust包来判断15〜25之间的最佳k取值z却没有很好的结论。当然,在评价一个算法识别词的意义时会含有主观性的因素。但基于我们的目测判断,Word2vec对工作技能的聚类结果相对出色。每个簇内的单词的含义与其它簇内的单词含义似步分为多个子类,但鉴于我们任意选择的K值,这个结果并不奇怪(这表明事实上选择一个更大的k值就会拆散这些簇)。最重要的是,我们没有看到非常多的混合组,这意味着我们没有看到意义相近的词被分配到不同的簇。在评估聚类结果时,我们对这15个簇的含义做了如下的解释:---本文来源于网络,仅供参考,勿...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?