Chinchilla - 搜索 News

资讯

苹果发现原生多模态模型Scaling Laws：早融合优于后融合，MoE优于密集 ...

机器之心报道编辑：泽南、Panda让大模型进入多模态模式，从而能够有效感知世界，是最近 AI 领域里人们一直的探索目标。目前我们见到的很多多模态大模型应用是「组合式」的：其中集成了数个单独预训练的组件，例如将视觉编码器连接到 LLM 上并继续进行多模态训练；而在谷歌 Gemin 2.0 ...

27 天

谷歌推出DiLoCo：重塑AI训练的未来与Chinchilla的生死存亡

【新智元最新报道】谷歌团队再度引领AI领域，发布了新的Scaling Law，名为DiLoCo（Distributed Low-Communication），这一方法不仅更高效，还标志着分布式训练技术的重大突破。研究表明，在越来越大的人工智能模型（LLM）的训练中，DiLoCo表现出更强大的扩展性与直观的可预测性，开启了一个全新的训练时代。

36氪26 天

谷歌重磅推出全新Scaling Law，抢救Transformer，3万亿美元AI面临岔路

模型架构：Chinchilla变体研究团队用的是一个类似「Chinchilla」的纯解码器Transformer架构，加入了QK-LayerNorm，还使用了z-loss正则化来让训练更稳定。

知乎 on MSN14 天

Grok3是否已证明堆算力无用，全人类的信息量不足以支撑大模型技术 ...

现在这些主流闭源大模型，都不太愿意公布自己的训练数据量，不过我们可以根据GROK3的1.8万亿参数量简单估算一下。 Hoffmann等人2022年的时候提出过一个Chinchilla Scaling Laws，用来讨论大模型训练所需计算量和数据量的关系。训练总计算量C 与模型参数数量N和训练数据规模D之间的关系可以表示为： C = ...

新浪网27 天

谷歌重磅推出全新Scaling Law，智能的未来将是分布式的？3万亿美元AI ...

模型架构：Chinchilla变体研究团队用的是一个类似「Chinchilla」的纯解码器Transformer架构，加入了QK-LayerNorm，还使用了z-loss正则化来让训练更稳定。

腾讯网5 天

魏炜：从算力堆砌到认知革命——大模型如何开启理论创造的第四次 ...

我们推断第四次Scaling ...

12 天

2025年半导体行业专题报告：AI大模型竞赛方兴未艾，OpenAI与DeepSeek ...

（6）从国内大模型项目落地的应用领域看，2024 年落地项目数量排在前三位的分别为通信、教科和政务，落地项目金额前三位分别是政务、教科和能源。从 2024 年国内公开披露的大模型落地项目看，在教科、通信、能源、政务、金融等行业数量和金额都相对较多 ...

SBS17 天

大选在即一文了解国家党领袖大卫·利特普劳德

他出生于昆士兰州西唐斯地区（Western Downs Region）的乡村小镇钦奇拉（Chinchilla），并在那里长大。利特普劳德从政前从事什么工作？在 2016 年进入 ...

来自MSN28 天

大语言模型迷雾重重，五大误区你了解多少？

例如，DeepMind 的 Chinchilla 模型研究发现，与其盲目增加算力，不如平衡数据量和模型规模，这样可以在相同算力下获得更好效果。在实际应用中 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果