基于字符统计的新闻网页去重方法研究#蒋金平1,郭艳卿1,赫然2**(1.大连理工大学电信学院,辽宁大连116024;5101520253035402.中科院自动化所,北京100190)摘要:针对新闻报道网页篇幅较短的特点,提出了一种基于字符统计的新闻网页去重方法。通过字符统计和去停用词处理提取出新闻报道中具有代表性的特征字符,对字符组合形成的4-Gram特征串进行数字指纹计算,通过数字指纹之间匹配的交集大小判断网页之间的相似...