结合逆向强化学习与强化学习的晶圆批处理设备调度方法被引量：1

Wafer batch device scheduling method combining reverse reinforcement learning and reinforcement learning

下载PDF

导出

摘要针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批处理设备调度优化方法。根据批处理设备的加工特性,将问题分解为组批和批次指派两个子问题;由于子问题内部复杂的关联特性使晶圆批处理设备调度内部机理不明,且全局奖励函数设计困难,引入逆向强化学习指导奖励函数的设计;针对晶圆lot的重入加工特性,设计期望流动时间与剩余等待时间关键状态变量;批次指派智能体兼顾考虑任务的紧急程度与工艺类型切换带来的差异生产准备时间进行综合决策,满足批处理设备工艺类型的不兼容性约束;通过设计奖励函数关键参数的非线性特征,解释晶圆lot剩余加工层数与期望流动时间之间的复杂流变关系。24组标准算例的实验数据表明,IRL-RL算法的优化结果与计算效率优于一般强化学习算法和较优规则等方法;经企业实例数据验证,晶圆的生产周期缩短了15%。 Aiming at the scheduling problem of wafer batch processing equipment,to minimize the production cycle as the optimization goal,considering the characteristics of dynamic wafer arrival,reentry processing and incompatibility constraints,a scheduling optimization method of wafer batch processing equipment combining Inverse Reinforcement Learning and Reinforcement Learning(IRL-RL)was proposed.According to the processing characteristics of batch processing equipment,the problem was decomposed into two sub-problems:group batch and batch assignment.Due to the complex internal correlation characteristics of sub-problems,the internal mechanism of wafer batch processing equipment scheduling was unclear,and the design of global reward function was difficult,reverse reinforcement learning is introduced to guide the design of reward function.According to the reentry processing characteristics of wafer lot,the key state variables of expected flow time and remaining waiting time were designed.The urgency of the task and the difference in production preparation time caused by process type switching was taken into account of the batch assignment agent to make comprehensive decisions meet the incompatibility constraint of batch equipment process type.By designing the nonlinear characteristics of the key parameters of the reward function,the complex rheological relationship between the number of remaining machining layers and the expected flow time of wafer lot was explained.The experimental data of 24 sets of standard examples showed that the optimization results and computational efficiency of the IRL-RL algorithm were better than those of the general reinforcement learning algorithm and better rules.According to the data of enterprise instance,the wafer production cycle was shortened by 15%.

作者王卓君张朋张洁 WANG Zhuojun;ZHANG Peng;ZHANG Jie(School of Mechanical Engineering,Donghua University,Shanghai 201620,China;Artificial Intelligence Research Institute,Donghua University,Shanghai 201620,China)

机构地区东华大学机械工程学院东华大学人工智能研究院

出处《计算机集成制造系统》 EI CSCD 北大核心 2023年第11期3738-3749,共12页 Computer Integrated Manufacturing Systems

基金国家自然科学基金资助项目(52005099) 中央高校基本科研业务费专项资金资助项目(223202100044)。

关键词晶圆批处理调度并行批处理机动态调度逆向强化学习强化学习生产周期重入加工 wafer batch scheduling parallel batch processor dynamic scheduling inverse reinforcement learning reinforcement learning production cycle reentrant processing

分类号 TH166 [机械工程—机械制造及自动化]

引文网络
相关文献

参考文献13

1SIA发布美国半导体制造业竞争力研究报告[J].国防制造技术,2020(3):28-29. 被引量：1
2陈高峰.半导体行业建设数字化工厂离不开制造执行系统(MES)[J].中国集成电路,2020,29(10):31-37. 被引量：5
3李程,江志斌,李友,李娜,耿娜,姚世清,贾文友.基于规则的批处理设备调度方法在半导体晶圆制造系统中应用[J].上海交通大学学报,2013,47(2):230-235. 被引量：6
4黄婧颖..考虑维护的批处理机调度问题研究[D].上海交通大学,2020:
5郭乘涛,江志斌.应用混合蚁群算法求解并行批处理机组批与调度问题[J].上海交通大学学报,2010,44(8):1068-1073. 被引量：9
6李程..半导体晶圆制造系统（SWFS）炉管区组批派工策略研究[D].上海交通大学,2011:
7邓可,林杰,张鹏.基于蚁群算法的半导体生产线调度方法研究[J].计算机工程与应用,2009,45(12):198-201. 被引量：4
8孙承夏..混合进化算法及其在生产调度中的应用[D].大连理工大学,2010:
9贺俊杰,张洁,张朋,郑鹏,王明.基于多智能体强化学习的纺织面料染色车间动态调度方法[J].计算机集成制造系统,2023,29(1):61-74. 被引量：11
10李耀宇,朱一凡,杨峰,贾全.基于逆向强化学习的舰载机甲板调度优化方案生成方法[J].国防科技大学学报,2013,35(4):171-175. 被引量：20

二级参考文献55

1叶志伟,郑肇葆.蚁群算法中参数α、β、ρ设置的研究——以TSP问题为例[J].武汉大学学报（信息科学版）,2004,29(7):597-601. 被引量：155
2姜桦,李莉,乔非,吴启迪.蚁群算法在生产调度中的应用[J].计算机工程,2005,31(5):76-78. 被引量：24
3冯碧琤,乔非,王坚.基于遗传算法的半导体生产线调度方法研究[J].计算机工程,2005,31(13):145-147. 被引量：6
4梁静,钱省三,马良.基于双层蚂蚁算法的半导体炉管制程批调度研究[J].系统工程理论与实践,2005,25(12):96-101. 被引量：7
5郭永辉,钱省三.基于鼓-缓冲器-绳子理论的半导体晶圆厂车间层控制[J].计算机集成制造系统,2006,12(1):111-116. 被引量：10
6张怀,江志斌,郭乘涛,刘惠然.基于EOPN的晶圆制造系统实时调度仿真平台[J].上海交通大学学报,2006,40(11):1857-1863. 被引量：6
7Uzsoy R,Lee C Y,Martin-vega L A.A review of production planning and scheduling models in the semiconductor industry,Part II Shop-floor control[J].IIE Transactions, 1994,26(5 ) : 44-55. 被引量：1
8Goldratt E M,Cox J.Theory of constrains[M].Croton-on-Hudson, NY,USA:North River Press,1990. 被引量：1
9Melouk S, Damodaranb P, Chang P Y. Minimizing makespan for single machine batch processing with non-identical job sizes using simulated annealing[J]. International Journal of Production Economics, 2004, 87(2) : 141-147. 被引量：1
10Moneh L, Balasubramanian H, Fowler J W, et al. Heuristic scheduling of jobs on parallel batch machines with incompatible job families and unequal ready times[J]. Computers & Operations Research, 2005, 32(11): 2731-2750. 被引量：1

共引文献60

1劳钰钞,刘秀峰,杨锦礼,蒋志.基于随机森林构建集装箱堆存时间预测分类器的港口翻箱研究[J].装备制造技术,2022(2):209-212.
2邓可.基于动态数据驱动的半导体生产线调度仿真[J].上海管理科学,2011,33(3):52-56.
3胡凯林,李平.基于改进蚁群算法的炼铁原料混匀过程调度优化[J].上海交通大学学报,2011,45(8):1105-1112. 被引量：2
4杨立熙,陈可嘉.基于排队论的多等级订单下晶圆产品的工序等待时间[J].江南大学学报（自然科学版）,2013,12(2):244-248.
5邓酩,谢晓兰,程小辉.多处理机调度问题的蚁群优化算法[J].桂林理工大学学报,2013,33(2):329-332. 被引量：3
6贾文友,江志斌,李友.基于滚动变时间窗的重组批处理机调度研究[J].计算机工程与应用,2014,50(18):19-24.
7王云翔,毕玉泉,杨茂胜,王虹昙.基于空间约束的舰载机出库调度[J].指挥控制与仿真,2015,37(1):107-111. 被引量：7
8黄夏宝,周旭芳.半导体多等级订单下的批加工设备作业调度[J].武汉理工大学学报（信息与管理工程版）,2015,37(2):250-254. 被引量：1
9吴海花.改进的蚁群算法在车辆配送路线优化中的应用研究[J].电子技术与软件工程,2015(13):192-193.
10贾文友,江志斌,李友.面向产品族优化时间窗下可重入批处理机调度[J].机械工程学报,2015,51(12):192-201. 被引量：7

同被引文献4

1顾涛,李苏建,林莹璐,吴秀丽.周期式退火炉作批处理机的可重入批离散机流水车间调度[J].机械工程学报,2020,56(2):220-232. 被引量：11
2蒋小康,张朋,吕佑龙,赵新明,张洁.基于混合蚁群算法的半导体生产线炉管区调度方法[J].上海交通大学学报,2020,54(8):792-804. 被引量：6
3顾文斌,李育鑫,刘斯麒,苑明海,裴凤雀.数据驱动的智慧车间实时调度方法研究[J].机械工程学报,2023,59(12):47-61. 被引量：2
4刘琼,刘嘉豪,刘佳良.基于改进人工蜂群算法的预防性维修与柔性作业车间成组调度集成优化[J].机械工程学报,2023,59(12):89-96. 被引量：3

引证文献1

1周亚勤,刘一枫,张朋,张洁.基于强化学习的晶圆炉管区设备维护调度联合优化方法[J].东华大学学报（自然科学版）,2024,50(6):65-74.

1王圣杰,李兵,李传习,孙迎春,杨腾宇.超高性能混凝土流动性与流变性关系[J].硅酸盐学报,2023,51(8):1962-1970. 被引量：4
2李保华.基于教育大数据生态体系的智慧校园建设探究[J].辽宁青年,2023(9):0205-0207.
3刘江,田宗军,徐欣,扈勇强,刘质加.一种适合组批部署的小卫星构型与结构设计[J].航天器工程,2023,32(5):63-68. 被引量：1
4夏景旋,申国伟,郭春,崔允贺.USPS:面向算力资源高效协同的用户态跨协议代理系统[J].计算机科学,2023,50(11):348-355.
5杨艳,史兵,何胜保.民俗体育项目八卦掌对《周易》哲学的摄取[J].商洛学院学报,2023,37(3):83-88.
6岳宝强,袁森,彭静,王军,亓富军.基于自然语言处理技术的智能配电网调度优化方法研究[J].微型电脑应用,2023,39(11):55-59. 被引量：2
7潘超,蒋迪遥,李宝聚,孙勇,郝成亮.基于聚类机群关联拓扑的时空图记忆风速超短期预测[J].电网技术,2023,47(11):4607-4618.
8王若璇.人物·空间·幻影:中国早期古装、武侠与神怪电影视觉特征流变与影像制作考论[J].吉林艺术学院学报,2023(3):68-74.
9王远明,杨学春.松花江干流堤防工程防护林的功能性评价[J].东北林业大学学报,2023,51(12):19-25.
10吕飞,王力,黄石磊.基于混合C-W节约与遗传算法的多AMR拣选路径规划优化方法研究[J].工业控制计算机,2023,36(11):81-84. 被引量：1

计算机集成制造系统

2023年第11期

浏览历史

内容加载中请稍等...

结合逆向强化学习与强化学习的晶圆批处理设备调度方法被引量：1

参考文献13

二级参考文献55

共引文献60

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

结合逆向强化学习与强化学习的晶圆批处理设备调度方法 被引量：1

参考文献13

二级参考文献55

共引文献60

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

结合逆向强化学习与强化学习的晶圆批处理设备调度方法被引量：1