研究所动态

我所一篇智能决策技术的研究被国际顶级学术期刊Neural Networks录用

发布时间:2025年10月29日

      由我所师生合作完成的一篇论文Bidirectional Transition Consistency between Multi-Domain Observations for Visual Reinforcement Learning Generalization 被CCF B类国际顶级期刊Neural Networks (NN)录用,该论文由我所博士生胡小波、王金文、刘悦、在吕凯老师、林友芳老师、王硕老师,以及浙江大学范鹤鹤老师的指导下共同完成。

      视觉强化学习在处理高维图像观测的控制任务中已被证明具有显著效果。然而,在不同视觉干扰条件下获取可泛化的策略学习表征仍面临重大挑战。受人类在陌生场景中认知过程的启发,我们提出了多域双向转换(MDBT)模型。与既往仅强制视觉一致性或单纯依赖精确模型转换的方法不同,MDBT明确整合了具有视觉扰动的多域观测数据与核区域,同时着重强调任务相关动态。这种设计使MDBT既能消除噪声干扰,又能保持任务相关性,从而生成更稳健且可迁移的表征。MDBT包含三个核心组件:首先通过数据转换模块对原始观测数据进行多样化处理,获得具有不同视觉干扰程度的多域观测;其次采用双向转换模块预测环境的正向与反向转换,提取任务相关表征;最后设置一致性目标约束,确保多域转换预测的连贯性,使表征在消除噪声干扰的同时保持任务相关性。大量实验表明,MDBT在视觉强化学习领域取得了持续领先的表现。