CODEI/O训练之后,Qwen-Coder在代码理解任务上取得了突破性进展,并且在阅读理解和推理任务 (如DROP) 上也有明显提升,这表明通过代码训练获得的推理能力确实 迁移到了其他领域 。
据悉,此前基于蚂蚁百灵医疗大模型,安诊儿已实现了基于循证医学的即时响应和多轮对话能力。此次融合DeepSeek-R1的推理能力后,安诊儿大模型底座能力再次升级,融合版模型底座基于安诊儿千万级诊疗知识,并结合蚂蚁集团在医疗安全、场景、服务生态方面的经验 ...
来自MSN6 天
DeepSeek-R1超高幻觉率解析:为何大模型总“胡说八道”?作者|郭晓静来源|腾讯科技(ID:qqtech) DeepSeek系列模型在很多方面的表现都很出色,但“幻觉”问题依然是它面临的一大挑战。 在Vectara ...
8 天
知乎 on MSN如何看待OpenAI紧急发布的最新版本o3-mini开始狂吐中文?根据R1的论文,他们观察到CoT经常出现语言混用的情况,尤其是在prompt本身多语言混合的情况下。为了解决这个问题,增加了语言一致性的奖励,使得CoT可读性更强。尽管这导致模型的能力轻微下降,但更符合人类的喜好。 ClosedAI ...
对这个曾在微博小红书被各位打工人讨论的题目,三款模型分析后给出了不同答案:o3-mini认为还是传统的5天工作制最好、R1觉得4+1弹性工作制更优、Gemini Thinking则建议改为4天工作制。
10 天
知乎 on MSNOpenAI o3-mini 被曝大量使用中文推理,有什么意义?大概是两方面原因:第一,推理模型在思考时的语言本身就是混乱的,甚至不一定是某种具体的语言;第二,OpenAI o3-mini 给出的不是真正的思维过程,而是用专门的模型总结生成的,所以可能是二次补全生成 CoT 时出现的幻觉。 OpenAI 的 o ...
在计算机视觉快速发展的背景下,图像生成技术正逐渐成为研究的重点。最近,来自香港中文大学、北京大学和上海AILab的研究团队联合推出了一项突破性的研究,将推理链(CoT)与自回归图像生成模型相结合,为提升图像生成质量提供了新的解决方案。这种创新方法不仅显示出了优于传统图像生成模型的潜力,也引发了学术界和工业界的广泛关注。本文将深入探讨这一新技术的背景、实现方式以及对建模和应用领域的影响。
在图像生成领域,港中文、北大及上海AILab的研究团队推出了一项革命性的技术,采用思维链(CoT)理念,显著提升自回归图像生成模型的性能。这一进展摆脱了传统生成模型的局限性,通过更高效的推理机制,为用户带来了更高质量的图像体验。实验结果表明,该方法不仅优于现有的扩散模型,甚至在多个关键指标上实现了质的飞跃,使得图像生成的可能性迎来新的高峰。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou ...
13 天
来自MSNOpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?编辑:编辑部 JHh 【新智元导读】这两天,国外网友纷纷发现o3-mini-high在思考过程中居然会经常出现中文!难道真如网友猜测,是借鉴DeepSeek了? 国外网友,一觉醒来,发现o3-mini-high开始用中文思考了。
在美国总统以贸易措施打击中国、加拿大和墨西哥后,欧盟警告“不必要的经济破坏”。 英国正深陷泥潭,政府应努力将其掘出。 欧洲大陆需要制定自己的产业战略,以应对来自中国和美国的挑战。 由于美国总统的决定,水果、龙舌兰酒甚至汽车的价格可能会 ...
从今天起,中文很有可能成为全球最热门的编程语言 ... Kimi k1.5的性能,如今已经全面追上现役全球最强模型——OpenAI o1满血版。 具体来说,在Long CoT模式下,Kimi k1.5的数学、代码、多模态推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果