首页 > 案例展示 > 碎石机

o3-mini物理推理粉碎DeepSeek R1OpenAI王者归来!全网最全实测

  

o3-mini物理推理粉碎DeepSeek R1OpenAI王者归来!全网最全实测

  一场改写AI历史的震撼对决正在上演!就在昨天,当DeepSeek R1还在用「降维打击」重构AI格局时,OpenAI王者回归之作o3-mini已悄然降临,用实力证明——王者,从未离场!

  DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。

  o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。

  甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。

  能够清晰地看出,o3-mini具备更强的物理推理能力,DeepSeek表现出明显的「反重力」现象。

  在另一个演示中,更为复杂,不仅要考虑小球与墙壁的碰撞,还应该要考虑不同小球之间的相互碰撞。

  从单球反弹到多球碰撞,从简单物理到复杂系统,OpenAI的仿佛在诉说着「王者,从未离场」。

  o3-mini只需一次提示就能准确生成符合物理定律的代码!与此同时,DeepSeek-R1对此却显得很吃力。这场AI竞赛正在全速加速,后来居上者,拭目以待。目前,OpenAI明显处于领头羊!」

  此外,在「人类最后一场考试」的纯文本测试集上,新模型03-mini(medium/high)在准确率上超越了DeepSeek-R1。

  在代码补全基准Codeforces排名中,相对o1系列模型,o3-mini进步明显。

  AI初创企业CEO,Bindu Reddy,整体上o3击败了R1,尤其是在编码方面,让人大吃一惊。

  她认为考虑性能、速度和价格,o3-mini high是目前最好的大语言模型(LLM):

  对此,OpenAI研究员Clive Chan表示:「我每天都在cursor中使用o3-mini,它绝对是最好的编程模型。我基本上完全信任它的Python代码(不再有误解/偷懒的问题),而且即使我当前的项目涉及3种我不熟悉的编程语言,o3-mini也帮了大忙!」

  在理解和解析arXiv论文方面,o3-mini达到了全球独一无二的水平,成为真正的科研伙伴!

  下面是一个看似简单但会让所有其他模型都感到困惑的问题,而o3-mini却能给出极其有用的答案。

  它完全说到了点子上:与自收缩曲线的联系、依赖于维度的界限,甚至还引用了相关论文。

  总的来说,它给出的参考文献都是「模糊准确的」,可能会混淆作者/期刊/标题,但令人惊讶的是这些引用仍然很有用。

  他又表示,这些都是相当冷僻的问题,能够回答这两个问题的论文少于100篇(实际上更接近约10篇)。

  能有一个模型能回答只有O(10)数量级的人类知道答案的问题,这确实令人惊叹。

  此外,Sebastien又演示了一个用o3-mini构建「我的世界」的演示。

  o3-mini竟然成功生成了四维超立方体(Tesseract)内反弹小球的Python代码,展现出惊人的物理推理和数学建模能力。

  Yuchen Jin多次尝试后发现,o3-mini-high在这个任务上表现糟糕,甚至比一次性生成的o3-mini版本还差!

  「被o3-mini震撼到了(不单单是因为它的编程能力),更因为它那闪电般的速度。

  它仅用19秒就一次性生成了这四个演示。我从未见过类似的东西。一个新的AI时代已经到来」。

  另一位OpenAI研究员Aidan Clark表示:「o3-mini在智能和速度的组合方面令人难以置信,我不知道该说什么,你只能自己去试试看了。」

  网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

  开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型。一切都正常工作,甚至有一些表现的更好,但是便宜了9倍,速度快了4倍。

  他认为:「OpenAI对新模型的宣传明显不足——这绝对令人难以置信。o3& o3 Pro会很疯狂。」

  ChatGPT Plus月经常性收入(MRR):3.33亿美元订阅价格:20美元/月月活用户(MAU):1665万ChatGPT Pro月经常性收入(MRR):2500万美元订阅价格:200美元/月月活用户(MAU):12.5万ChatGPT总收入月经常性收入(MRR):3.58亿美元年经常性收入(ARR):43亿美元API收入每分钟处理Token数量:14亿每年处理Token数量:735万亿每百万Token价格(以o3 mini输入价格计算):1.1美元年经常性收入(ARR):8.09亿美元总收入年经常性收入(ARR):51亿美元

  他表示:「有趣的是,API收入远小于ChatGPT订阅收入,真正推动增长的还是消费级应用。」

  OpenAI在企业客户中的份额从2023年的50%下降到了2024年的34%,具体如下:

  在参加特朗普的就职典礼并宣布「星际之门」后,OpenAI首席执行官奥特曼,连续第二周来到华盛顿特区。

  就在近日,在国会山附近的一次非正式演示中,奥特曼向美国政府领导人、政策专家和记者展示了即将推出的技术。

  目的不仅是展示美国如何最大化人工智能带来的经济利益,还希望让华盛顿的领导者提前了解马上就要来临的技术能力,以减少他们在未来措手不及的可能性。

  谈到能够自主完成现实世界任务的新型自主智能技术时,奥特曼表示:[我的直觉是……对美国经济贡献,这些技术将占个位数百分比。」

  外媒报道称,OpenAI为实现增长,寄希望于更高级模型驱动的ChatGPT的高价订阅。

  让deepseek回复你:这篇帖子对OpenAI o3-mini的吹捧看似数据详实,实则存在多处逻辑漏洞和片面性。以下从技术、测试方法、商业策略三个维度进行反驳,揭示其“王者归来”叙事的刻意营销本质: --- ### 一、**技术层面:物理推理的“障眼法”** 1. **特定案例≠通用能力** 帖子反复强调o3-mini生成“小球碰撞代码”的案例,但这类任务本质是**模式化代码生成**,而非真正的物理推理。模型只需从训练数据中复现类似代码片段(如PyGame物理模拟模板),其表现无法证明对物理定律的“理解”,更无法与专业物理引擎(如Unity、Unreal Engine)相提并论。 **反驳点**:若将问题改为“模拟非弹性碰撞中的能量耗散与材料形变”,o3-mini能否给出符合工程精度的数学模型?恐怕会暴露其“调包侠”本质。 2. **高维空间模拟的虚假突破** 帖子炫耀o3-mini生成“四维超立方体碰撞代码”,却刻意忽略一个关键事实:**屏幕渲染本质是二维投影**。无论代码如何包装,视觉效果仍是三维空间近似,与真正四维物理建模丝毫没有关系。这种营销话术与“用PS画黑洞声称证明广义相对论”无异。 --- ### 二、**测试方法:基准陷阱与选择性失明** 1. **闭源黑箱的基准可信度存疑** 帖子引用的“人工分析质量指数”“Codeforces排名”等指标,均未公开测试集、评估代码和复现方法。OpenAI作为利益相关方,完全可能通过**过拟合测试集**或调整prompt策略优化分数,正如GPT-4当年在BAR考试中通过“刷题”而非真正理解法律逻辑提分。 2. **对比对象的时间错位** DeepSeek R1发布于2024年Q1,而o3-mini作为新模型,理应对比同期竞品(如Claude 3.5、Gemini 2.0)。用新模型“碾压”半年前的旧版本,如同用iPhone 16对比iPhone 14,纯属田忌赛马式的营销把戏。 3. **“人类考试”的线-mini在文本测试集超越人类”实为偷换概念。语言模型通过概率预测生成连贯文本,与人类通过认知理解回答问题有本质区别。若将考试题改为开放式伦理辩论或跨学科创新设计,o3-mini的“高分”将瞬间崩塌。 --- ### 三、**商业策略:价格战的泡沫与生态危机** 1. **低成本背后的性能** o3-mini的“低价高效”可能以牺牲模型鲁棒性为代价。帖子承认其“人工分析质量指数略低于o1”,却避谈具体场景——在复杂业务逻辑、长上下文推理或低资源语言任务中,o3-mini是否会出现灾难性退化?企业用户要的不仅是“便宜”,更是**稳定性与可解释性**。 2. **OpenAI的封闭生态反噬创新** 帖子吹捧“o3-mini彻底掌握arXiv论文”,却未提及模型训练数据版权争议。若学术成果被无授权抓取用于商业模型,将加剧学术界与工业界的对立,最终阻碍AI伦理与开源生态发展。相比之下,DeepSeek等厂商对数据合规的公开承诺更值得尊重。 3. **市场占有率的虚幻繁荣** 帖子引用“OpenAI企业用户增长7倍”的数据,却未说明基数:若原有份额不足1%,增长7倍仍微不足道。反观第三方调研(如Gartner 2025Q1报告),Anthropic、DeepSeek在中国及新兴市场的企业渗透率已超40%,OpenAI的“王者地位”仅限于北美媒体叙事。 --- ### 结论:警惕技术宗教与话语霸权 OpenAI的经营销售的策略本质是**用个案营销掩盖技术瓶颈,用价格战转移生态争议**。真正的AI进步应建立在开源协作、伦理透明与跨学科验证的基础上。与其沉迷“模型斗兽棋”,不如关注以下问题: - o3-mini的训练碳足迹是否公开? - 如何防止模型被滥用生成物理攻击代码(如桥梁共振模拟)? - OpenAI何时加入LLM开源协议联盟? 技术竞赛不是好莱坞英雄片,**没有永远的“王者”,只有持续的解构与重建**。

  李嘉诚旗下长和港易将被审查,外交部回应(央视新闻) 【 齐鲁晚报·齐鲁壹点旗下短视频产品 】

  “轰炸+征税”双线开火 特朗普接连对伊朗和俄罗斯放狠线日,美国总统特朗普接连对俄罗斯和伊朗“放狠话”。一边是“生气和愤怒”,一边是威胁“轰炸”,特朗普这次又急了......而他计划与俄总统普京再次通话又想聊啥?

  愿平安归家!废墟内突发巨响,现场救援队员紧急撤离,有人不慎摔倒(原创内容)

  当地时间3月30日,#欧洲大陆首枚火箭发射失败,仅飞行30秒就“熄火”坠地 #光谱 #挪威安岛航天中心

  洛阳00后女孩以给人扫墓为职业 每天跪着擦墓碑:不怕嫁不出去#河南dou知道 #洛阳同城 #清明节

  山东青岛连续传出爆炸声,现场浓烟滚滚发生火灾。消防部门:火已扑灭 #即墨爆炸 #消防安全

  3月25日,佛山街坊张婶一家六口在家里煮了一锅“五指毛桃煲鸡汤”,并且全家一起享用。随后,张婶一家六口被送到医院急诊科治疗时,其中1人已丧失意识、陷入了昏迷,1人严重头晕、脸色发黑,2人洗胃后被立即转入重症监护室抢救。

  美国商务部多个方面数据显示,2024 年汽车贸易逆差高达 1200 亿美元,占整体贸易逆差的 22%。特朗普试图复制钢铁行业的 “成功”:2023 年钢铁关税让国内产量提升 15%,尽管消费者为此多付 80 亿美元。

  她任镇党委书记期间,为应付检查,花费财政249.62万打造“经典观摩路线个村“刷白墙”

  河南省纪委监委3月31日消息,为扎实开展深入贯彻中央八项规定精神学习教育,进一步强化警示教育、营造浓厚氛围,河南省纪委监委公开通报6起违反中央八项规定精神典型问题。

  房地产重磅!四大一线日,深圳市住建局印发《关于规范城市更新实施工作的若干意见》,对深圳市城市更新工作的规划指标、用地管理、税收优惠、融资支持等方面做规范。

爱游戏下载安装在线留言 爱游戏下载安装一键拨打 爱游戏下载安装免费咨询