资讯
自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数,但只能得到一个 token,导致其生成昂贵且缓慢。 近日,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration ...
在科技日新月异的今天,字节旗下的豆包团队刚刚发布了最新的推理模型Seed-Thinking-v1.5,其成果无疑将引爆业界讨论。这一新模型不仅在参数量上仅为DeepSeek-R1(671B)的三分之一,甚至达到200B参数,表现却令人惊艳!
字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B ...
腾讯云提供「现成的」UI组件,涵盖了AI对话、Agent智能代理所需要的大部分前端交互功能(比如对话气泡、Markdown渲染、流式输出效果、图片/文件上传等),直接接入就能用。 一个「好用」的AI ...
红板报 on MSN1 天
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B一水 发自 凹非寺量子位 | 公众号 QbitAI 刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下: ...
Deepseek成立于2023年,凭借创新的AI产品——尤其是其R1推理大模型——迅速在全球崭露头角。与OpenAI的ChatGPT等相比,Deepseek的产品价格极具竞争力。谷歌敦促美国政府增加对人工智能长期研究的投资,并提供公共数据集,以推动商业人工智能的发展——不是削减联邦开支。
红板报 on MSN4 天
清华耶鲁推理模型新范式:动态推理实现高效测试时扩展,大大节省 ...Z1团队 投稿量子位 | 公众号 QbitAI 推理性能提升的同时,还大大减少Token消耗! 清华、耶鲁团队提出推理模型新范式:动态推理实现高效测试时扩展。 测试时扩展(test-time scaling)技术加速推动了大语言模型在复杂推理领域的突破。 以OpenAI的o1系列、DeepSeek-R1等模型为代表,这些系统通过强化学习和大规模思维链(CoT)轨迹训练,在数学证明、编程竞赛等任务中 ...
DeepSeek让开源再度流行起来。这家中国初创企业决定使用开源框架来实现复杂推理,这一举动震动了人工智能生态系统:自此之后,百度将文心一言(ERNIE)模型开源,而 OpenAI 首席执行官山姆·奥特曼(Sam ...
责编 |梦依丹出品丨AI 科技大本营(ID:rgznai100)3 月的最后一天,由蚂蚁与清华大学交叉信息研究院吴翼老师团队联合推出的开源强化学习框架 AReaL 发布了里程碑版本——AReaL ...
他们在 2025 年美国数学奥林匹克竞赛(USAMO)试题发布后立即测试了多个热门模型,结果令人失望:所有模型都表现欠佳,平均得分不到 5%。 结果表明,当前的 LLM ...
Deepseek大模型横空出世以来,以其高效和开源的特性迅速火爆出圈,是现在当之无愧最为知名的AI大模型。
据媒体披露,阿里云计划于2025年4月第二周正式发布新一代大模型Qwen3,这将成为该集团上半年最重磅的AI技术产品。内部文件显示,在2024年Qwen2.5版本发布后,研发团队已启动Qwen3项目,但2025年初深度求索(DeepSeek)推出的爆 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果