AdaMax 论文中也提到AdaMax作为算法的一个变种,它在某些情况下可能对特定问题进行更有效的优化。 Nadam(Nesterov-accelerated Adaptive Moment Estimation)算法是由Tim Salimans et al. 在2016年提出的。这一算法结合了Adam算法和Nesterov Accelerated Gradient(NAG)算法的优点,旨在提高 ...