资讯
自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数,但只能得到一个 token,导致其生成昂贵且缓慢。 近日,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration ...
来自墨尔本大学、西澳大学、香港城市大学和慕尼黑工业大学提出了水印保护新范式 —— THEMIS 框架 ,首个针对移动端 AI 模型部署后保护提出的系统性解决方案。该研究已被全球顶级安全会议 USENIX Security 2025 接收。
作者|沐风来源|AI先锋官近日,DeepSeek和清华大学共同发表了一篇论文《Inference-Time Scaling for Generalist Reward Modeling》,探讨了奖励模型的推理时Scaling方法。现在,强化学习(RL ...
在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显著优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4 ...
本周五提交的一项工作中,来自 DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分,从而克服了挑战。研究者探索了某些原则可以指导 GRM ...
美通社 on MSN5 天
搭载NVIDIA B200的Supermicro系统性能优于上一代系统(全球TMT2025年4月6日讯)Super Micro Computer, Inc. (SMCI)宣布使用NVIDIA HGX B200 8-GPU在多个MLPerf Inference v5.0基准测试中率先实现了业界领先的性能。在特定基准测试中,4U液冷和10U风冷系统实现了最佳性能。与H200 8-GPU系统相比,Supermicro在Llama2-70B和Llama3.1-405B基准测 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果