资讯

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B ...
在科技日新月异的今天,字节旗下的豆包团队刚刚发布了最新的推理模型Seed-Thinking-v1.5,其成果无疑将引爆业界讨论。这一新模型不仅在参数量上仅为DeepSeek-R1(671B)的三分之一,甚至达到200B参数,表现却令人惊艳!
自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数,但只能得到一个 token,导致其生成昂贵且缓慢。 近日,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration ...
梦晨 发自 凹非寺量子位 | 公众号 QbitAI 字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。 同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。
在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好。 尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们的需求。 那么问题来了:能不能教大模型优化原始 ...