搜索引擎调查报告探测大众心中的秘密隐私

搜索引擎调查报告探测大众心中的秘密隐私二月初,珍妮·杰克逊(JanetJakson)因为走光事件上升为Yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了Yahoo搜索关键词的历史最高记录。这一数字是艳星ParisHilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍。互联网上的搜索引擎已经成为反映大众趣味和关注焦点的最好工具,也许比任何其他调查统计都更为真实。高频词与社会热点纵观历史,热门词汇反映了短期内大众关注的焦点,长期来看可以连缀出世事的发展脉络。美国康奈尔大学的研究人员JonKleinberg曾经做过一项调查,通过统计1790年后每年的美国国情咨文的用词,发现了不同历史时期的热门词汇。例如美国独立战争期间出现频率最高的是“民兵”和“英军”;而在1947年到1959年这段时间内,“原子弹”则被反复地提起。如今,搜索引擎声称自己知道大众心中的秘密。搜索引擎不只是被动地答疑解惑;事实上,各大搜索引擎提供了包罗万象的统计数据,这些结果也许十分有趣。Keinberg认为:虽然计算机并不懂历史,但是可以通过统计Blog(网页访问记录)、E-mail和网页中的文本“学习”到相关的背景知识,从而更好地理解搜索请求的含义。此外,这些统计数据还可以帮助社会学者和营销人员发现某些正在显露出的大众趋势,为他们的研究或者经营提供参考信息。在国内,搜索引擎甚至借助这种反映大众趋向的能力,向更广的商业领域主动出击。2016年2月12日,百度搜索和光线传媒共同发布了“2003年全球华人明星人气榜”。热门词汇周杰伦、《无间道》、《天龙八部》、代言人、绯闻和黑幕等榜上有名。在此之前的1月8日,百度搜索还与胡润联手发布了“2003中国大陆百富人气榜”。但是,搜索引擎有时也会不知所措。比如尝试使用Google搜索哈姆雷特的名言“Tobeornottobe”,会发现Google竟然答非所问,罗列在页面上的是GNU’sNotUnix官方网站、HotorNot交友网站……就是不见莎士比亚的影子。这个经典的例子引出了搜索技术的一个术语—停止词(stopord)。顾名思义,计算机的一切能力都是以计算为基础,即使阅读也不例外。搜索引擎浏览分布在各个角落的网页的同时,还在后台不停地统计词语的出现频率。有一些词语出现率极高,带来巨大的统计成本,却不包含太多的具体意义,比如汉语的“的、是、了”和英文单词“the、and”之流。如果要得出包含该词的全部结果,实在是过多了。例如遇到哈姆雷特名言中的那些高频词汇,经常导致搜索“引擎”突然熄火,因此这些单词得名“停止词”。在Google“阅读”哈姆雷特的名言时,遇到了四个停止词,出于无奈,所以它只好对频率最低的“not”进行搜索,得到了一些有关“not”的流行网站。如果将此名言括上引号,Google便会突然开窍,顺利地寻找到相关的网站。这一功能被称作短语搜索(phrasesearh)。不过,比Google更智能的是Alltheeb,它已将这句名言列入搜索目录,在结果页面中直接提供了相关链接。搜索如何实现“已向英特网搜索geraldsalton。共有5,430项查询结果,这是第1~10项。搜索用时0.06秒。”0.06秒,体现着以Google为代表的搜索引擎的快捷和高效。这一切,又是如何实现的呢?通常情况下,一间机房只能摆放10台服务器,但是Google的机房内可以容纳80台服务器,因为它们都是拆掉了机壳和部分零件的裸机。LarrPage和SergeBrin他们将机器的外壳拆掉,再卸下没用的芯片和零件使整机体积缩小,而且容易维护,当然也节省了租用机房的花销。Google使用了超过一万台的服务器,并将其分散到五个不同地区的机房内,用以应付浩如烟海的网络信息。为了对每一次搜索请求做出快速的反应,搜索引擎在前期下足了功夫。它们在后台不停地重复三步操作。第一步,搜索引擎会不断的利用爬虫(Craler)程序搜集互联网上所有可达的网页,无论是公开的还是隐藏的—只要曾被访问过,就会招致“爬虫”上身。这样,定期外出的“爬虫”就为搜索引擎囤积起一个海量数据库。由于“爬虫”外出遵循一定的周期,有时可能跟不上网页更新的速度,所以Google的“网页快照”会出现与目标页面不尽相同的情况。第二步,另一个程序会统计出缓存网页(CahedPage)中各个字词出现的频率。第三...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?