网络实体地理位置定位研究第33卷Vo1.33第9期No.9计算机工程ComputerEngineering2007年5月May2007?博士论文?:10oo一3428(2IⅢ7)09__0037—o3文献标识码:A网络实体地理位置定位研究刘璜,谢峰,罗军勇(解放军信息工程大学信息工程学院网络工程系,郑州450002)摘要:在建立定位实现模型的基础上,从定位,验证和聚类3个主要步骤分析Intemet实体地理位置定位的核心技术,提出了可行的目标定位算法和验证算法,并借助对定位结果的聚类分析优化结果集.与现有的实体定位技术相比,该模型提出了可信等级的概念,并围绕可信等级在验证和聚类方面进一步修正,对结果的可靠性有较深入的考虑.关健词:地理位置定位;验证;IP地址ResearchonGeographicMappingforInternetEntitiesLIUYan,XIEFeng,LUOJunyong(Dept.ofNetworkEngineering,InstituteofInformationEngineering,PLAInformationEngineeringUniversity,Zhengzhou450002)[Abstract|AmodelofgeographicmappingforIntemetentitiesisproposed.ConsideringtheunreliableIntemetinformationandtheexpensivetimeusing,threekeytechniquesarediscussedtOachievebetterresult,whicharemappingIPtOgeo—location,validatingtheoriginalresult,andclusteringtheneighborIPparedwiththepresenttechniques,themodelemphasizesonaccuratesolutionandgivesaconceptoftrustleveltOcombinemanystreamsofinformation.Itdoesmuchanalysisonthetrustlevelinvalidatingandclustering.[Keywords|Geographicmapping;Validation;IPaddress地理位置信息在现实社会中广泛用于定义法律准则和国家边界,而目前,在互联网上IP地址,自治系统号或主机名称都是逻辑层次上的概念,不包含地理位置信息,并且没有一个权威的数据库可以将网络实体定位到其地理位置….现有可查询的网络信息资源有时候会彼此冲突或不完整,面对如此庞大,复杂且凌乱的数据,需进一步探讨地理位置定位的相关技术.1相关研究针对网络实体地理位置定位,早期使用的方法是通过收集用户信息(如注册到某个网站的个人信息,存储在cookie中的用户信息等)找到与地理位置相关的结果.但这种方法存在很多弊端,如增大用户的操作负担,依赖于上网机器,无法避免虚假信息等.因此,单方面靠某个网站对网络实体地理位置信息的收集存在很大局限,需找到新的方法来解决,目前已有的方法有:(1)DNS—LOC方法:利用保存在DNS记录中的地理信息;(2)Whois方法:利用IP地址,域名在Whois服务器中的注册信息;(3)规则主机名解析法:运用traceroute原理,解析路径上规则的主机名,从中分析主机所在的地理位置.基于DNS记录的方法依赖于主机是否支持DNS.LOC,即允许将主机的地理位置记录在DNS记录中,这种扩展功能在RFC1876中定义,但由于其并没有说明使用位置和粒度,很多域名中都不支持该信息,要找到一个使用了DNS—LOC记录的域名可能需要查询多次,因此单纯通过该方法获取结点的地理位置只是一种理想的方法,实用性不强.利用Whois服务器的注册信息定位地理位置是目前常用的方法之一.NetGeo[21是一个比较成型的工具,可实现从IP地址,域名或AS号到地理位置(经纬度)的定位.但是这种方法存在以下问题:(1)Whois数据库中的信息记录有可能不准确或陈旧或不一致.(2)Whois数据库可能会将分散在不同地区的IP地址统一描述,造成定位结果错误.在traceroute基础上通过解析规则主机名获取地理位置信息是另一种常用的方法.比较有代表性的开发工具如:GTrace[31和VisualRoute2006_4J.GTrace具有对路径信息进行图形化显示和地理位置定位功能;VisualRoute有分布在全球的多个服务器,可从多个服务器对一个IP地址寻径,并图形化显示路径信息.2定位实现模型对网络实体的地理位置定位不仅是一个定位的过程,由于信息的不可靠性,需对定位结果进一步验证以排除虚假或过时信息对定位结果的影响,同时允许猜测地理位置的近似值以满足应用的需要.定位思想:信任度决定结果的可靠性,不同定位方法得到的定位结果的可信等级不同,对已得结果给出较高可信等级的描述,通过验证算法判定结果的可靠性,如果能够找到证据证明其不可靠,则降低其信任度.2.1数据集数据集是地理定位实现模型的数据基础,地理定位即是根据特...