基于版权信息新闻网页去重策略探究摘要:随着网络技术的迅速发展和互联网络规模的不断扩大,人们能够获得的新闻信息资源也日益丰富。应用搜索引擎进行检索,经常会得到内容相同或相近的新闻网页,它们不但浪费了存储资源,而且加重了用户检索和阅读的负担。网页去重处理是提高搜索引擎的关键技术之一,因此,发现并去除重复网页信息的研究工作具有重要意义。文中提出了一种基于版权信息的新闻网页去重算法,其主要思想是:应用...
动力调谐陀螺激光去重平衡设备的研发张代义,李星(九江精密测试技术研究所,江西九江332000)摘要:介绍了“动力调谐陀螺激光去重平衡设备”的结构组成、功能、技术指标、工作原理、设备特点等,对“动力调谐陀螺激光去重平衡设备”的主要设计考虑进行了论述。“动力调谐陀螺激光去重平衡设备”具备刚性转子和挠性转子平衡功能,能有效地分离动力调谐陀螺挠性转子的质心径向偏离量、质心轴向偏离量和力偶不平衡量,可广泛应用于研究、...
基于字符统计的新闻网页去重方法研究#蒋金平1,郭艳卿1,赫然2**(1.大连理工大学电信学院,辽宁大连116024;5101520253035402.中科院自动化所,北京100190)摘要:针对新闻报道网页篇幅较短的特点,提出了一种基于字符统计的新闻网页去重方法。通过字符统计和去停用词处理提取出新闻报道中具有代表性的特征字符,对字符组合形成的4-Gram特征串进行数字指纹计算,通过数字指纹之间匹配的交集大小判断网页之间的相似...