UCLA - 搜索 News

2 天

鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。

2 天

揭秘Kimik1.5背后的秘密：UCLA与CMU顶尖团队合作的SPPO技术助力成功

SPPO是一种自博弈算法，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：值得一提的是，点开论文链接，你会发现原来YueWu和ZhiqingSun同为这篇文章的第一作者。紧接着，他开始对SPPO技术进行解析：通过迭代求解 ...

腾讯网16 天

假消息？UCLA中国留学生因参加集会被取消签证，遣返回国...

近日，UCLA中国留学生刘丽君（Liu Lijun，音译）因参加抗议集会而被取消签证、遣返回国的消息，在美国留学圈掀起了轩然大波。

2 天

喜讯！UCLA电气与计算机工程硕士2025年度Offer火热来袭！

近日，来自加州大学洛杉矶分校（UCLA）的好消息再次传来，我们的VH学员成功获得电气与计算机工程硕士项目（UCLA MS in Electrical & Computer Engineering）录取Offer！这一激动人心的时刻，标志着成就与努力的回报，祝贺这位未来的科技领袖!

5 天

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。