由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement ...
近年来,随着深度强化学习(Deep Reinforcement Learning, DRL)技术的快速发展,尤其是在复杂决策和推理任务中的应用,建筑设计领域也迎来了激动人心的变革。复旦大学和同济大学的研究团队联合提出了一种基于深度强化学习的社区布局生成方法,为建筑师们在繁琐复杂的设计任务中带来了新的思路和工具。
在猎豹粪便检测犬训练中,存在犬对非目标粪便误报的问题。研究人员开展 “Using differential reinforcement and extinction to increase specificity in cheetah scat detection dogs” 的研究,结果表明该训练方法可减少误报,对提升检测犬准确性意义重大。