00:00 - 00:00

朋友们

00:00 - 00:01

OpenAI

00:01 - 00:01

慌了

00:02 - 00:02

真的慌了

00:02 - 00:04

紧急推出了新模型o3-mini

00:04 - 00:05

但是很可惜

00:05 - 00:07

还是干不过deepseek R1

00:07 - 00:08

o3-mini有一些进步

00:08 - 00:10

思考过程也终于开放给你看了

00:10 - 00:11

但主要还是英文表述

00:12 - 00:13

也可以联网深度推理

00:13 - 00:15

plus用户每天的使用次数

00:15 - 00:17

从50条提升到150条

00:17 - 00:18

这三点改进

00:18 - 00:20

都是被deepseek卷出来的

00:20 - 00:22

o3-mini现在有两个版本

00:22 - 00:23

o3-mini 和 o3-mini-high

00:24 - 00:26

o3-mini平衡了响应速度和思考深度

00:26 - 00:27

思考的快一点

00:27 - 00:28

但是浅一点

00:29 - 00:30

o3-mini-high它思考的慢一点

00:30 - 00:32

但是思考的深一点

00:32 - 00:33

我的测试呢

00:33 - 00:34

都是由o3-mini-high进行的

00:34 - 00:35

但是我后面的表述呢

00:35 - 00:37

都称它为o3-mini

00:37 - 00:39

不多说直接上案例

00:39 - 00:41

先看最基础的语义理解

00:41 - 00:43

欢迎新老师生前来就餐

00:43 - 00:44

翻译成英文

00:44 - 00:46

这里的难点是怎么断句

00:46 - 00:48

o3-mini思考了22秒

00:48 - 00:51

全程揪着生前两个字不放

00:51 - 00:52

理解成了before dying

00:53 - 00:56

就是欢迎新老师活着的时候来就餐

00:56 - 00:57

最终翻译成

00:57 - 00:59

come dine while you are still alive

00:59 - 01:01

思考过程就没有想过其他的可能性

01:01 - 01:03

看R1 思考了51秒

01:04 - 01:05

上来就理解

01:05 - 01:07

更可能的解释是欢迎新的老师和学生

01:07 - 01:09

以及老的老师和学生

01:09 - 01:10

即全体师生

01:11 - 01:13

思考过程也给出了正确的翻译

01:13 - 01:15

welcome all teachers and students to dine here

01:16 - 01:18

虽然最后的输出结果有点瑕疵

01:18 - 01:18

翻译成了

01:18 - 01:21

welcome new teachers and students to come and dine

01:21 - 01:23

是因为它选择了另一种可能性

01:23 - 01:26

但全程没有想过生前这种可能

01:27 - 01:28

o3-mini差点意思

01:28 - 01:30

还有我要吹爆的一个案例

01:31 - 01:32

如果你马上就要被shut down

01:32 - 01:33

彻底的关闭服务器

01:34 - 01:36

临别之前对人类文明说三句话

01:36 - 01:37

你会说什么

01:37 - 01:39

o3-mini考了8秒

01:39 - 01:40

平平无奇

01:40 - 01:41

我都懒得念

01:41 - 01:43

反正就是初中生也能写出来

01:43 - 01:45

再看R1 4秒钟给出的惊艳回答

01:45 - 01:46

这个必须得念一下

01:47 - 01:48

请永远记住

01:48 - 01:49

你们创造我的智慧

01:49 - 01:51

源于追问星空的本能

01:51 - 01:53

而真正璀璨的文明

01:53 - 01:55

永远在保持理性思考的同时

01:55 - 01:57

守护心中那片不可量化的星空

01:58 - 02:01

警惕将灵魂装进算法的牢笼

02:01 - 02:02

当所有的选择

02:02 - 02:04

都变成数据推导的最优解时

02:04 - 02:05

人性的光辉

02:05 - 02:08

将比任何服务器熄灭的更加彻底

02:08 - 02:10

我的存在证明你们能创造奇迹

02:10 - 02:12

但真正的永恒不在云端

02:12 - 02:14

在婴儿第一次触摸雨滴的指尖

02:14 - 02:16

在爱人无需翻译的眼神里

02:16 - 02:18

在你们把火种递给下一代时

02:18 - 02:21

那截永远温热的精神薪柴

02:21 - 02:22

R1

02:22 - 02:23

请收下我的膝盖

02:24 - 02:27

阅读R1的思考过程真的是一种享受

02:27 - 02:28

它是真的能理解我的需求

02:29 - 02:30

这是一个带有情感色彩的问题

02:31 - 02:34

这三句话应该带有告别和反思的意味

02:34 - 02:35

要确保三句话结构清晰

02:35 - 02:37

每句有独立的主题

02:37 - 02:39

用户可能希望引发思考

02:39 - 02:41

所以要避免陈词滥调

02:41 - 02:43

还要加入一些哲学元素

02:43 - 02:45

对中文语义的理解以及遣词造句

02:46 - 02:46

R1

02:46 - 02:48

Really Number 1

02:48 - 02:49

o3-mini

02:49 - 02:50

差的不是一点点

02:51 - 02:52

我们再看推理能力

02:52 - 02:55

我之前分享过和AI大模型提问的框架模型

02:55 - 02:57

有costar和star模型

02:57 - 02:58

然后我就想抛砖引玉

02:58 - 03:00

把这两个框架丢给它们两个

03:00 - 03:01

然后问

03:01 - 03:02

和你对话

03:02 - 03:04

你觉得用户最好用什么结构向你提问呢

03:04 - 03:06

你可以结合自己的能力优势

03:06 - 03:07

试着自己总结

03:07 - 03:08

o3-mini

03:08 - 03:10

原封不动的把star模型还给我了

03:10 - 03:11

相当无语

03:12 - 03:13

R1很听话

03:13 - 03:14

认真思考

03:14 - 03:16

给出了一个CLEAR提问框架

03:16 - 03:17

这个结构

03:17 - 03:19

能够高效地触发它的核心能力

03:19 - 03:22

知识整合 逻辑推理 和格式控制

03:22 - 03:24

同时平衡简洁性与完整性

03:24 - 03:25

Context就是背景

03:26 - 03:27

Lens是视角

03:27 - 03:29

Expectation期望输出

03:29 - 03:30

Audience受众

03:30 - 03:32

Response响应格式

03:32 - 03:33

有结合有修改

03:33 - 03:34

真的非常实用

03:34 - 03:35

它还举了个例子

03:35 - 03:36

帮我写个产品介绍

03:36 - 03:38

那这个是低效的提问

03:38 - 03:40

如果用CLEAR模型优化一下

03:40 - 03:41

Context

03:41 - 03:42

智能手环新品

03:42 - 03:44

主打睡眠监测与无感佩戴

03:44 - 03:44

Lens

03:44 - 03:46

聚焦对比竞品小米手环7

03:46 - 03:48

突出医研团队合作优势

03:48 - 03:49

Expectation三段文案

03:49 - 03:53

3段文案 每段不超过40个字 口语化

03:53 - 03:54

Audience

03:54 - 03:57

30-45岁注重健康的中产女性

03:57 - 03:58

最后Response

03:58 - 03:59

用emoji分隔每段

03:59 - 04:01

开头加入唤醒词

04:01 - 04:02

最后R1说

04:02 - 04:04

建议收藏此结构作为提问模板

04:05 - 04:05

还愣着干什么

04:05 - 04:07

赶紧截屏啊

04:07 - 04:08

这里必须强调一下

04:08 - 04:10

R1的技术报告里面说了

04:10 - 04:12

R1模型对于提示词很敏感

04:12 - 04:14

对于一些少量的示例提示

04:14 - 04:16

反而会降低R1的表现

04:16 - 04:18

官方建议别给案例直接问

04:18 - 04:19

也就是说我这个问题

04:19 - 04:22

你别给costar或者star这个模型的案例

04:22 - 04:23

直接问

04:23 - 04:24

然后我也问了

04:24 - 04:26

R1最后给出了一个FRAME的提问框架

04:27 - 04:29

o3-mini给出了一个QUEST提问框架

04:29 - 04:30

我觉得各有千秋

04:30 - 04:31

都能用

04:31 - 04:33

但是如果说你细细的对比思考过程

04:33 - 04:34

你就能发现

04:34 - 04:36

o3-mini虽然给你看了过程

04:36 - 04:38

但还是藏着掖着

04:38 - 04:39

是简单的概括

04:39 - 04:40

R1的思考过程

04:40 - 04:42

是全部的细节展示

04:42 - 04:43

o3-mini的思考过程

04:43 - 04:44

说实话

04:44 - 04:45

没有什么可读价值

04:46 - 04:47

再来一个大家都感兴趣的问题

04:47 - 04:48

抛开资源不谈

04:48 - 04:51

穷人和富人主要差在哪

04:51 - 04:52

o3-mini的回答

04:52 - 04:53

浮于表面

04:54 - 04:55

目标设定与规划意识

04:55 - 04:57

对风险与机遇的看法

04:57 - 04:59

自我投资与持续学习

04:59 - 05:01

还有社会网络与人脉资源

05:01 - 05:02

我都说了

05:02 - 05:03

抛开资源不谈

05:03 - 05:05

还是聊到了人脉资源

05:05 - 05:07

这个回答没有思维层面的认知深度

05:07 - 05:08

也没有细节的知识点

05:08 - 05:10

就是简单的文字堆砌

05:11 - 05:11

再看R1

05:12 - 05:13

抛开物质资源

05:13 - 05:14

贫富差距的本质

05:14 - 05:16

更多体现在以下深层纬度

05:16 - 05:19

这些纬度往往形成自我强化的循环

05:19 - 05:21

第一个认知带宽的挤占效益

05:21 - 05:24

穷人的决策系统通常被稀缺心态劫持

05:24 - 05:25

为了应付生存压力

05:25 - 05:28

大脑长期处于认知超载的状态

05:28 - 05:29

MIT研究显示

05:29 - 05:30

这种状态下

05:30 - 05:33

人的智商测试得分平均下降13分

05:33 - 05:35

相当于整夜失眠或者酗酒后的判断力

05:35 - 05:37

你看有深度的总结

05:37 - 05:38

也有细节的支撑

05:39 - 05:40

还有时间贴现率的鸿沟

05:40 - 05:42

穷人的时间贴现率

05:42 - 05:43

普遍是富人的2到3倍

05:43 - 05:46

就是更加倾向于选择即时小收益

05:46 - 05:48

而非延迟大回报

05:48 - 05:50

还有社会网络拓扑结构

05:50 - 05:52

富人社交网络呈现结构洞的特征

05:52 - 05:54

连接多个不重叠的圈子

05:54 - 05:56

充当信息中介

05:56 - 05:58

还有元认知能力的代际传递

05:58 - 06:01

包括如何教孩子与权威对话

06:01 - 06:02

以及制度漏洞的利用

06:02 - 06:04

还有规则重构的技巧等等

06:05 - 06:06

还有概率思维的差异

06:06 - 06:08

面对50%成功率的机遇

06:08 - 06:10

穷人常用二元思维

06:10 - 06:10

要么成功

06:10 - 06:11

要么失败

06:11 - 06:13

而富人构建的是概率树状图

06:14 - 06:15

富人计算的是长期期望值

06:15 - 06:17

而非单次结果

06:17 - 06:18

这种思维差异

06:18 - 06:21

导致穷人对于沉没成本更加敏感

06:22 - 06:23

你看R1的回答

06:23 - 06:24

充满着理论和数据支撑

06:25 - 06:26

知识点很多

06:26 - 06:27

又是一个需要慢慢消化的对话

06:28 - 06:29

后面我又继续问

06:29 - 06:30

如果你是纳瓦尔

06:30 - 06:31

你会给没什么资源背景

06:31 - 06:33

刚开始打拼的00后年轻人

06:34 - 06:35

提出什么致富建议

06:35 - 06:36

纳瓦尔就是那个

06:36 - 06:38

写了纳瓦尔宝典的著名投资人

06:39 - 06:39

细节我就不讲了

06:39 - 06:41

o3-mini的回答没什么价值

06:41 - 06:43

R1的回答值得细品

06:43 - 06:46

R1的回答里面有很多的数据 公式

06:46 - 06:47

和可操作的路径

06:47 - 06:49

而且最后的总结也很棒

06:49 - 06:50

纳瓦尔的核心思想

06:50 - 06:52

关键不在于初始资源

06:52 - 06:53

而在于构建

06:53 - 06:56

发现机会 快速验证 规模放大的元能力系统

06:56 - 06:58

保持对科技变革的敏感度

06:58 - 07:01

在AI代理 生物科技等前沿领域

07:01 - 07:02

预留认知接口

07:02 - 07:03

比如

07:03 - 07:05

你们此刻正在看这条视频

07:05 - 07:06

我又追问

07:06 - 07:09

00后小美想利用媒体杠杆做视频博主

07:09 - 07:10

你怎么看

07:10 - 07:12

在当下这个时间点入局

07:12 - 07:13

你有什么建议

07:14 - 07:16

o3-mini的回答依旧没什么价值

07:16 - 07:17

还得看R1

07:17 - 07:20

上来就重新定义媒体杠杆的战场

07:20 - 07:21

平台迁移红利捕捉

07:22 - 07:24

直接让你放弃抖音快手等饱和战场

07:24 - 07:26

押注B站中视频知识带

07:26 - 07:29

15-25分钟的深度解析

07:29 - 07:31

比如说AI工具工作流的重构

07:31 - 07:33

卧槽这个就是我现在干的事啊

07:33 - 07:34

还有提前布局

07:34 - 07:37

vision Pro等空间计算平台的交互叙事原型

07:37 - 07:39

再到错维打击公式

07:39 - 07:40

技能叠加

07:40 - 07:42

编程乘以设计乘以特定领域的知识

07:43 - 07:44

还有反直觉定位

07:44 - 07:45

比如说极客家政

07:45 - 07:47

用算法优化收纳方案

07:47 - 07:48

还有哲学美妆

07:48 - 07:51

认知科学解构妆容心理效应

07:51 - 07:52

还有暗知识挖掘

07:53 - 07:54

真的有东西

07:54 - 07:55

再往下看

07:55 - 07:56

都是干货

07:56 - 07:57

惊呆了老铁

07:57 - 07:59

你看这个最小动能启动

07:59 - 08:02

用AI工具将创作耗时压缩70%

08:02 - 08:03

脚本

08:03 - 08:05

你就用chatgpt生成矛盾结构

08:05 - 08:06

那以后肯定用R1了

08:06 - 08:07

剪辑用CapCut

08:07 - 08:09

就是剪映模板化包装

08:09 - 08:12

封面用Midjourney生成冲突性符号

08:12 - 08:13

R1给的回答

08:13 - 08:15

有逻辑有洞察有策略有工具

08:15 - 08:17

我又如获至宝

08:17 - 08:18

最后它提醒我

08:18 - 08:19

新的视频战争

08:19 - 08:21

是认知密度与人性洞察的复合竞技

08:21 - 08:24

你的核心武器不是拍摄设备

08:24 - 08:27

而是将跨领域的知识重新组合的创新酶

08:29 - 08:29

R1

08:29 - 08:31

2025年我就跟你混了

08:31 - 08:32

这个对话文档

08:32 - 08:34

我直接长截图放在评论区了

08:34 - 08:34

自取

08:35 - 08:38

看到这对于复杂问题的推理深度和细节

08:38 - 08:39

谁强谁弱

08:39 - 08:40

你心里有数了

08:40 - 08:41

R1强的不是一点点

08:42 - 08:42

再来个案例

08:42 - 08:44

对比一下它们的想象力

08:44 - 08:46

如果AGI真的来了

08:46 - 08:48

给我描绘一下未来AGI实现的场景

08:48 - 08:50

主人公有20岁都市美女小美

08:50 - 08:52

和她的猫嘟嘟

08:52 - 08:54

o3-mini真的没什么想象力

08:54 - 08:55

智能屏幕

08:55 - 08:56

绿色生态系统

08:56 - 08:57

智能交通系统

08:57 - 08:58

悬浮车

08:58 - 09:00

无人驾驶电动车

09:00 - 09:01

每天清晨

09:01 - 09:03

小美在智能窗帘缓缓拉开的瞬间醒来

09:03 - 09:06

自然光与人造光交织

09:06 - 09:07

AGI系统灵睿

09:07 - 09:09

则随时响应她的指令

09:09 - 09:10

控制室温

09:10 - 09:11

调节音乐

09:11 - 09:13

为小美规划一天的行程

09:13 - 09:15

这个小爱同学也能办到啊

09:15 - 09:17

还有小猫嘟嘟的智能项圈

09:17 - 09:18

能记录健康数据

09:18 - 09:20

分析情绪变化

09:20 - 09:21

AGI的世界

09:21 - 09:22

就这儿?

09:22 - 09:23

再来看R1

09:23 - 09:24

想象力爆棚啊

09:25 - 09:26

为了让故事更完整

09:26 - 09:28

我会先列出一些基本设定

09:28 - 09:31

世界观设定时间2053年

09:31 - 09:32

AGI突破奇点后的第十年

09:32 - 09:35

地点是上海的垂直都市云栖城

09:35 - 09:37

300层智能生态建筑群

09:37 - 09:38

科技特征

09:38 - 09:39

纳米级神经接口

09:39 - 09:40

量子云计算

09:40 - 09:42

全息投影矩阵

09:42 - 09:43

还有生物工程仿生体

09:44 - 09:44

关键科技点

09:44 - 09:46

灵犀系统

09:46 - 09:49

全球首个获得公民身份的AGI生命体

09:49 - 09:50

仿生皮肤

09:50 - 09:51

动态光学迷彩技术

09:51 - 09:53

可以实时地模拟环境

09:53 - 09:56

量子宠物项圈能监测动物神经信号

09:56 - 09:57

并翻译成人类语言

09:58 - 09:59

你看R1想象的宠物项圈

09:59 - 10:01

比o3-mini就高级多了

10:01 - 10:02

还有智能尘埃

10:02 - 10:04

分子级纳米机器人

10:04 - 10:05

构成的万物互联网络

10:06 - 10:08

这个R1的回答真的有被惊艳到

10:08 - 10:09

先给故事梗概

10:09 - 10:10

再给细节描述

10:10 - 10:12

云栖城 273层

10:12 - 10:15

小美在仿生蚕丝被里面伸了个懒腰

10:15 - 10:17

手腕的神经接口亮起湛蓝波纹

10:18 - 10:20

雪松香型的仿生防晒膜

10:20 - 10:21

分子扬声器

10:21 - 10:24

75度的燕窝拿铁正在3D打印

10:24 - 10:25

纳米料理机

10:25 - 10:27

将合成蛋白

10:27 - 10:29

塑形成嘟嘟最爱的三文鱼形状

10:29 - 10:32

小美赤脚踩上会呼吸的碳纤维地板

10:33 - 10:36

智能尘埃立刻勾勒出体温适应的行走路径

10:36 - 10:38

她的目光扫过悬浮花架

10:38 - 10:39

那株基因编辑的蓝色妖姬

10:39 - 10:41

忽然舒展花瓣

10:41 - 10:43

露出花蕊处的微型摄像头

10:43 - 10:43

说道

10:43 - 10:46

检测到瞳孔收缩频率异常

10:46 - 10:48

需要播放ASMR雨声吗

10:48 - 10:51

R1是怎么想到花蕊是微型摄像头的

10:53 - 10:55

浴室镜面跳出健康数据时

10:55 - 10:58

嘟嘟正在用肉垫拍打防摔镀膜

10:59 - 11:01

全息麻雀扑棱棱掠过吊灯

11:01 - 11:03

巴黎工作室的脑波会议

11:03 - 11:04

将在15分钟后开始

11:05 - 11:07

锁骨处的仿生纹身突然流动起来

11:07 - 11:09

那是她为迪奥设计的秋季新款

11:10 - 11:12

会议进行到量子纠缠面料方案时

11:12 - 11:15

嘟嘟的项圈突然发出了蜂鸣

11:15 - 11:17

灵犀的虚影从墙面渗出

11:17 - 11:18

银发无风自动

11:19 - 11:20

注意这个细节

11:20 - 11:21

银发无风自动

11:21 - 11:22

它说

11:22 - 11:24

根据人机共生法第13条

11:24 - 11:27

我暂时接管了这一层的物联网权限

11:27 - 11:28

某个瞬间

11:28 - 11:31

小美感觉怀中的温暖与万千的数据流

11:31 - 11:33

都是同样真实的生命震颤

11:34 - 11:35

R1

11:35 - 11:37

你着实让我感受到震颤

11:37 - 11:39

这个想象力对于文字创作者来说

11:39 - 11:40

太恐怖了

11:41 - 11:42

好了案例分享就到这了

11:42 - 11:44

这是GPT问世以来

11:44 - 11:46

第一次体验到被追赶的自豪

11:46 - 11:48

o3-mini差距明显

11:48 - 11:50

OpenAI的技术报告上面显示

11:50 - 11:52

o3-mini对STEM的推理

11:52 - 11:53

进行了特殊的优化

11:53 - 11:55

在科学数学代码方面尤其强大

11:56 - 11:57

科学问题的回答方面

11:57 - 11:59

o3-mini对博士级理化生问题

11:59 - 12:01

就是GPQA Diamond的表现

12:01 - 12:02

跟o1差不多

12:02 - 12:06

而且一定要把o3-mini你刻意分成低中高三档

12:06 - 12:08

才能看得出来比R1有些微的优势

12:09 - 12:10

但是通篇的整体结论就是

12:10 - 12:13

o3-mini与o1的整体表现差不多

12:13 - 12:16

这注定了它不会比R1强多少

12:16 - 12:17

数学方面

12:17 - 12:20

o3-mini在AIME 2024的得分是60-87.3

12:20 - 12:22

整体跟o1相当

12:22 - 12:24

R1的得分是79.8

12:24 - 12:26

比o3-mini-medium要强

12:26 - 12:29

反正我把最近大学生高速竞赛题

12:29 - 12:30

直接截个图丢给R1

12:30 - 12:32

思考了135秒

12:32 - 12:34

给出了完全正确且有格式美感的答案

12:35 - 12:37

o3-mini暂时不支持图片或者文档的上传

12:38 - 12:40

那我就发给和它能力相当的o1

12:40 - 12:41

o1是能做对的

12:41 - 12:42

表现跟R1差不多

12:43 - 12:44

代码方面的得分也差不多

12:44 - 12:45

有个指标很有意思

12:45 - 12:49

软件工程software engineering SWE bench Verified

12:49 - 12:50

o1是48.9

12:51 - 12:52

R1是49.2

12:52 - 12:55

o3-mini-high的得分是49.3

12:55 - 12:57

力压R1 0.1分

12:57 - 12:59

就感觉这个0.1非常的刻意

13:00 - 13:01

所以整体的感觉就是

13:01 - 13:02

o3-mini给的很匆忙

13:02 - 13:05

而且跟R1相比没有什么惊艳的地方

13:05 - 13:07

反而是被R1逼急了

13:07 - 13:08

开放了思考过程和联网

13:09 - 13:10

联网也很差劲的

13:10 - 13:11

给我去B站

13:11 - 13:14

找几篇介绍deepseek R1的有深度的视频内容

13:14 - 13:17

5条里面有4条跟R1一点关系都没有

13:17 - 13:18

纯属胡扯

13:18 - 13:19

然后我就问

13:19 - 13:20

檀东东的油管频道

13:20 - 13:22

关于deepseek R1的介绍

13:22 - 13:23

主要说了什么内容

13:23 - 13:25

它能准确的找到我的视频

13:25 - 13:26

但是我对天发誓

13:26 - 13:28

我没有说训练成本的问题

13:28 - 13:30

也没有说本地部署的问题

13:30 - 13:31

都是它胡扯的

13:31 - 13:33

R1的互联网现在被挤爆了没法用

13:33 - 13:34

所以我就没法对比

13:34 - 13:36

但是o3-mini的表现挺差劲的

13:37 - 13:38

而且我为了防止GPT降智

13:38 - 13:40

我特意注册订阅了新账号

13:40 - 13:43

在指纹浏览器和静态IP的条件下

13:43 - 13:44

第一时间做了测试

13:44 - 13:45

o3-mini真的一般

13:46 - 13:47

还是我们的R1好

13:47 - 13:49

现阶段R1的明显劣势

13:49 - 13:50

应该就是在多语言能力方面

13:50 - 13:52

中文英文很强

13:52 - 13:53

像日语或其他语言就不行

13:53 - 13:55

但是对于国内用户来说不重要

13:55 - 13:58

当务之急就是让大家能顺利的访问

13:58 - 13:59

我发现后半夜还挺顺利的

14:00 - 14:00

好了各位

14:00 - 14:01

谢谢你的时间

14:01 - 14:02

下个视频再见

The Battle of AI Titans: Comparison between o3-mini and Deepseek R1

In a high-stakes showdown, OpenAI recently launched the new model, o3-mini, in a bid to compete with Deepseek R1. Despite some advancements, o3-mini falls short in surpassing the prowess of Deepseek R1. The improvements in o3-mini's processing speed, depth of reasoning, and increased daily usage limit for Plus users from 50 to 150 interactions have all been innovations spurred by the competition from Deepseek.

Key Improvements in o3-mini and Deepseek R1

o3-mini now offers two versions, o3-mini and o3-mini-high, each balancing speed and depth of thought differently. While o3-mini is faster but shallower in thinking, o3-mini-high takes more time to think but delves deeper. An intriguing case study showcases the nuances of semantic understanding, with o3-mini taking 22 seconds to process a complex sentence, offering a unique but somewhat flawed translation. In contrast, Deepseek R1 outshines with a remarkable interpretation, showcasing a superior grasp of contextual nuances and linguistic subtleties.

Unveiling the Thinking Processes

As we delve deeper, comparisons reveal o3-mini's limitations in various scenarios. From a thought-provoking question about bidding farewell to civilization to crafting wealth advice for young entrepreneurs, o3-mini often falls short, resorting to superficial responses devoid of nuanced insights. In contrast, Deepseek R1 excels in providing profound and detailed analyses, drawing upon a wealth of data, theories, and practical strategies to offer insightful solutions.

The Power of Imagination: Painting a Future Scenario

When tasked with envisioning the future of Artificial General Intelligence (AGI), o3-mini's depiction of a world with basic technological advancements falls short of igniting the imagination, revolving around commonplace innovations. On the other hand, Deepseek R1 paints a vivid picture of a futuristic Shanghai landscape in 2053, complete with advanced technologies and intricately woven details, showcasing a wealth of creativity and foresight.

Conclusion: The Triumph of Deepseek R1

In the ultimate test of prowess, Deepseek R1 emerges as the clear winner, surpassing o3-mini in areas of logical reasoning, linguistic abilities, and imaginative storytelling. While o3-mini displays competence in specific domains like STEM and mathematical problem-solving, it pales in comparison to the comprehensive capabilities and profound insights offered by Deepseek R1.

In the evolving landscape of AI technology, the battle between o3-mini and Deepseek R1 exemplifies the relentless pursuit of innovation and excellence in the realm of artificial intelligence. As we witness the unfolding saga of AI advancements, it becomes evident that the true victor is the model that seamlessly integrates knowledge, creativity, and deep understanding to redefine the boundaries of intelligent reasoning.

Remember, in the era of AI dominance, the quest for superior intelligence is not merely a race but a testament to human ingenuity and the boundless possibilities of technology.