Rope - 搜索 News

来自MSN6 天

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索 ...

VideoRoPE团队投稿量子位 | 公众号 QbitAI Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE，并确定了将RoPE有效应用于视频所需的四个关键特性。在长视频检索、视频理解和视频幻觉等各种下游任务中，VideoRoPE始终优于先前的RoPE变体。用三维结构保留时空关系 RoPE是一种能够将相对位 ...

腾讯网1 天

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

具体实现中，研究人员首先提取预训练模型中的键和值参数矩阵，对这些矩阵进行联合SVD分解；然后根据模型的性能和压缩需求，构建低秩近似矩阵，用这些低秩近似矩阵替代原始的键值矩阵参与后续计算。

2 天

独家对话：谁低估了DeepSeek？解密其低成本AI模型背后的颠覆性创新

DeepSeek通过优化MoE、RoPE和Attention等技术，在模型效率上实现了突破性进展。SemiAnalysis指出，DeepSeek的V2版本相比同行展现了显著的性价比优势，而其从V2到V3的迭代能力也得到了行业内的高度认可。特别是Ant ...

中华网2 天

机构预计OpenAI将对DeepSeek保持领先创新策略引关注

DeepSeek如何以颠覆性训练策略重构大型参数模型的成本公式？1月底，美国知名半导体咨询机构SemiAnalysis发布了一篇关于“给Deepseek算经济账”的文章，引起了广泛关注。近日，心智观察所与SemiAnalysis的总裁Dylan ...

2 天

独家对话|戴兰·帕特尔：谁真正低估了Deepseek？

心智观察所： SemiAnalysis早在去年五月就发现了DeepSeek在MoE、RoPE、Attention等领域的创新贡献，你们是如何敏锐地捕捉到DeepSeek为AI模型带来的突破性？当时行业是否低估了DeepSeek从V2到V3迭代的能力？

1 天

深度解析：DeepSeek-R1如何用0.3%数据实现高效迁移

近期，复旦大学、华东师范大学及上海AILab联合推出了一项颇具创新意义的研究成果——DeepSeek-R1。该项研究由复旦教授邱锡鹏领导，提出了一种名为MHA2MLA的微调方法，使得基于多头注意力（MHA）的语言模型能够无缝迁移至多头潜在注意力（ML ...

来自MSN3 天

如何看待国产大模型阶跃星辰开源发布两个新模型？为什么中国公司 ...

不得不说，DeepSeek的含金量还在提高，DS是一条鲇鱼，搅浑了开源和闭源这摊死水，就不说春节期间疯狂发模型的Qwen啦，甚至前两天百度先宣布免费，再宣布开源。OpenAI同时也是坐不住了，先开发o1的思维链（总结版），后面也不挤牙膏了，说马上来G ...

5 天

Safety Data Sheet是什么检测/MSDS翻译如何办理/限制物质清单MSDS认证

Safety Data Sheet采用标准的 16 个章节格式，包括产品和公司标识、危害识别、成分 / 组成信息、急救措施、消防措施、意外泄漏处理措施、操作和存储、接触控制 / 个体防护、理化特性、稳定性和反应性、毒理学信息、生态学信息、废弃处置、法规信息等。

腾讯网1 天

100行纯JAX代码，完美复现Llama 3！

作为一个基于 Transformer 架构的解码器，LLaMA 3 在计算效率和可扩展性方面进行了创新。而复现大模型有多难？在最新的技术探索中，开发者 Saurabh 利用纯 JAX 成功实现了 LLaMA 3 ...

5 天

Safety Insurance每股分红0.9美元 3月3日股权登记

Safety Insurance(SAFT）2月20日公告2025年第1次现金分红方案，每股分配0.9美元，本次派息股息率为1.17%。登记日期：2025年3月3日除权日期：2025年3月3日派息日期：2025年3月14日 ...

5 天

独家对话|谁真正低估了Deepseek？

SemiAnalysis ： ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果