更重要的是,这两款全新模型扩展了新型Lightning Attention架构,突破了传统Transformer架构,同时也是线性注意力机制的首次大规模实现。 什么概念?
Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过 ...
本届大会的主题为“智能跃进创造无限”,将促成在技术、产业和研究方向的深度交流,特别是针对非Transformer架构的探讨,将引发广泛的关注与讨论。 大会上,RockAI的CTO兼联合创始人杨华将发表主题为《非Transformer架构大模型Yan在端侧的实践》的演讲,深入 ...