进港航班排序强化学习模型研究武喜萍,杨红雨,杨波*(四川大学视觉合成图形图像技术国防重点学科实验室,四川成都610065)摘要:为了解决进港航班排序中智能化程度不高的现实问题,提出了进港航班排序强化学习模型。首先确定了进港航班排序强化学习模型的状态、动作、智能体、环境、奖赏函数、约束条件、Q学习等,进港航班排序强化模型中的状态是各进港航班的到达时刻,动作是对航班到达时间的调整,智能体对航班的到达时刻进行调整,环境对动作做出反应,一个新的到达时间和奖赏值传给智能体。奖赏函数考虑了延误时间、经济成本、对后续航班的影响。该模型考虑了航班不能提前降落,分配的到达时间不早于计划的到达时间,进港航班流量不能超过机场的到达容量值等约束条件。使用双流机场进港航班数据对该模型进行了验证。对比分析了先到先服务和强化学习模型的排序、延误时间、延误成本、后续航班延误成本和奖赏值。先到先服务算法的奖赏函数值为3164,强化学习算法的奖赏函数为2880,强化学习模型更优。模型中奖惩函数的评价指标、权重、约束条件可以根据管制工作实际情况进行设置,该模型可以为空中交通管制人员进行进港航班排序提供决策支持。关键词:智能体;空中交通;空中交通管制;机器学习;强化学习:V355文献标志码:AResearchonReinforcementLearningModelofArrivalFlightsSchedulingWUXi-ping,YANGHong-yu,YANGBo*(NationalKeyLaboratoryofFundamentalScienceonSyntheticVision,SichuanUniversity,Chengdu610065,China)Abstract:Inordertosolvingtheproblemoflowintelligenceofarrivalflightsscheduling,arrivalflightsschedulingreinforcementlearningmodelwasproposed.Firstofall,thestates,actions,agent,environment,rewards,constraintandQlearningofthemodelweredefined.Thestateofarrivalflightsschedulingreinforcementlearningwasthearrivaltimeofeacharrivalflight.Theactionofthemodelwastheadjustmentofthearrivaltime.Thearrivaltimewasadjustedbyagent,theenvironmentrespondedtotheaction,thenanewarrivaltimeandrewardvaluewerepassedtotheagent.Thedelay,delaycostandimpactonsubsequentflightswerechosenastherewards.Atthesametime,themodelconsideredtheflightcannotadvancelanding,thedistributedarrivaltimewasnotearlierthantheschedulearrivaltimeandthearrivalflowoftheairportcannotexceedthearrivalcapacityoftheairport.ThemodelwasvalidatedusingofShuangliuairportrealflightdata.Firstcomefirstservicemodelandreinforcementlearningmodelwerecomparedandanalyzedfromsequence,delaytime,delaycost,delaycostofsubsequentflightsandrewards.Therewardsvalueoffirstcomefirstservicemodelwas3164.Therewardsvalueofreinforcementlearningmodelwas2880.Reinforcementlearningmodelwassuperiortofirstcomefirstservicemodel.Theevaluationindex,weight,constraintcanbeadjustedaccordingtoairtrafficcontrolactualworkingconditions.Themodelprovideddecision-makingforairtrafficcontroller.KeyWords:agent;airtraffic;airtrafficcontrol;machinelearning;reinforcementlearning随着我国民航运输业的飞速发展,运输总周转量、旅客运输量和货邮运输量大幅增长,致使飞行流量剧增,航班延误日趋严重,尤其在繁忙机场和高密度空域延误问题更加突出。飞机排序是终端区飞行流量管理的收稿日期:基金项目:国家空管委科研课题“军民航空管联合运行一体化模拟训练技术研究”(GKG201403004)作者简介:武喜萍(1983—),女,博士生.研究方向:空中交通管理.E-mail:wuxipingstar@126*通信联系人E-mail:boyang@scu.edu网络出版时间:网络出版地址:---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---主要措施,对进港航班排序进行研究具有重要意义。当终端空域出现拥挤时,从不同方向、不同距离、不同高度、不同速度、不同航线上的多架飞机在同一时刻向同一机场的同一跑道进近,最后排成一列依次降落在跑道上,所有飞...