Math - 搜索 News

7 天

阿里云通义Qwen2.5-Math-PRM：7B模型超越GPT-4o，数学推理新突破

1月16日消息，阿里云通义团队发布了新一代数学推理过程奖励模型——Qwen2.5-Math-PRM。该模型引入了72B与7B两种尺寸，其在推理过程中的表现显著优于现有的开源模型，尤其在推理错误识别方面，7B版本的性能甚至超过了闭源的GPT-4o。这一创新不仅为智能推理提供了新的可能性，也为相关领域的技术进步注入了新的活力。 Qwen2.5-Math-PRM模型的设计旨在解决大型语言模型在处理推理时 ...

腾讯网12 天

微软 rStar-Math“导师”技术登场：教小语言模型突破数学推理

IT之家 1 月 11 日消息，微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。和微软之前推出的 Phi-4 不同，rStar-Math ...

7 天

阿里云推出Qwen2.5-Math-PRM模型，7B比GPT-4o更强大

在数学推理领域，阿里云再次震撼科技界，推出了其全新的过程奖励模型——Qwen2.5-Math-PRM。于1月16日发布的这一创新，涵盖了72B及7B两种尺寸，表现显著优于同类开源模型，尤其在推理错误的识别能力上，7B版本竟然超越了广受关注的GPT-4o。

13 天

让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

今天登顶 Hugging Face 热门榜一的论文展示了小模型的潜力。来自微软亚洲研究院的研究团队提出了 rStar-Math 。rStar-Math 向我们证明，1.5B 到 7B ...

7 天

阿里云通义推出Qwen2.5-Math-PRM模型与首个推理评估标准

在科技快速发展的今天，阿里云再一次为人工智能领域推陈出新。1月16日，钛媒体App报道了阿里云通义开源了全新的数学推理过程奖励模型——Qwen2.5-Math-PRM。这一模型的推出，标志着在72B与7B尺寸下，其性能远超同类开源过程奖励模型。

腾讯网1 天

OpenAI最强大模型被曝跑分作假，原来是泄题了

人红是非多，公司也一样，目前风头正劲的OpenAI又双叒叕一次踏入了漩涡。作为OpenAI去年年末一连串新品发布中的一部分，其推理模型o3在展示了前所未有的能力之后，近期有消息人士透露，o3令人震惊的成绩是建立在作弊的基础上。数天前，知名技术社区Le ...

来自MSN54 分钟

中国2家AI公司连发新模型追赶OpenAI 迈入自主创新新阶段

本报讯（记者袁传玺）1月20日，国内两家备受关注的人工智能大模型创业公司北京月之暗面科技有限公司（以下简称“月之暗面”）（Kimi）和杭州深度求索人工智能基础技术研究有限公司（以下简称“深度求索”）（DeepSeek）均发布了最新模型。

虎嗅网7 小时

DeepSeek新模型大揭秘，为何它能震动全球AI圈

因为根据DeepSeek的研究，模型的进步并非均匀渐进的。在强化学习过程中，响应长度会出现突然的显著增长，这些“跳跃点”往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟，暗示着某种深层的认知突破。

12 天on MSN

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃 ...

和微软之前推出的 Phi-4 不同，rStar-Math 采用蒙特卡洛树搜索（Monte Carlo Tree Search）进行推理，这种方法模拟了人类逐步解决问题的思维方式，能够将复杂问题分解成更小的部分，逐步求解。

12 天on MSN

微软rStar-Math技术助力，小语言模型数学推理能力大飞跃！

微软亚洲研究院的数学与人工智能研究团队近日取得了一项新的技术突破，他们专为解决数学问题设计并开发了名为rStar-Math的技术。这项技术于1月10日通过官方博文正式对外公布。

商业新知 on MSN12 小时

中国AI双子星，在硅谷教OpenAI做事？

中国“双子星”打开了OpenAI的黑箱。此前，OpenAI定义了大模型训练的四个阶段：预训练、监督微调、奖励建模、强化学习。现在，这个范式被打破了，Kimi 和DeepSeek都证明了可以跳过和简化某些环节来提升模型的训练效率和性能。

来自MSN14 小时

如何评价 Kimi 发布的多模态推理模型 k1.5？

从技术报告看，K1.5的亮点是真的不少。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果