00:00 - 00:01

OpenAI也坐不住了

00:01 - 00:03

就在DeepSeek爆火后不久

00:03 - 00:05

它们就提前发布了其最强的推理模型

00:05 - 00:06

o3 Mini

00:06 - 00:08

这款大语言模型

00:08 - 00:10

它和这个OpenAI o1模型是类似的

00:10 - 00:12

但是o3 Mini

00:12 - 00:14

针对深度推理进行了优化

00:14 - 00:18

在数学、编码和科学方面表现得相当惊人

00:18 - 00:20

同时它的响应速度也比o1更快

00:20 - 00:21

好消息是

00:21 - 00:22

在竞争压力下

00:22 - 00:24

虽然如此强悍的模型

00:24 - 00:27

现在即使是免费用户也可以直接使用

00:27 - 00:30

这就是大语言模型竞争给我们带来的好处

00:30 - 00:32

稍后我会拿它和DeepSeek进行对比

00:32 - 00:35

看看在深度推理方面谁更胜一筹

00:35 - 00:37

我们现在先来看一下

00:37 - 00:39

OpenAI o3 Mini的性能参数

00:39 - 00:41

和它的前辈们相比有何不同

00:41 - 00:43

为了方便演示

00:43 - 00:44

我们先把这个网页给它翻译成中文

00:44 - 00:46

目前o3 Mini模型

00:46 - 00:48

它是在1月31号发布的

00:48 - 00:49

就在前两天

00:49 - 00:50

它上方是这么说的

00:50 - 00:52

目前正式发布的o3 Mini

00:52 - 00:54

这是我们在推理系列中

00:54 - 00:56

最新最具成本效益的模型

00:56 - 00:59

现在已经在ChatGPT和API中提供

00:59 - 01:01

这款功能强大且快速的模型

01:01 - 01:03

于2024年12月进行了预览

01:03 - 01:06

它已经突破了小型模型所能实现的界限

01:06 - 01:07

提供了卓越的推理能力

01:07 - 01:10

尤其擅长科学 数学和编码

01:10 - 01:13

同时保持了前辈们的低成本和低延迟

01:13 - 01:16

重点强调了快速且强大的深度推理能力

01:16 - 01:17

我们来看一下在下方

01:17 - 01:20

AIME2024数学竞赛方面

01:20 - 01:22

目前o3 Mini最高版本

01:22 - 01:24

它的得分是87.3

01:24 - 01:26

跟之前最强的o1模型相比

01:26 - 01:28

它已经提高了将近4个百分点

01:28 - 01:30

也就意味着o3 Mini模型

01:30 - 01:32

在数学竞赛性能方面

01:32 - 01:33

它是明显优于之前版本的

01:33 - 01:36

而且即使像中杯的o3 Mini

01:36 - 01:38

它目前得分已经逼近80分

01:38 - 01:40

远高于o1 Mini模型

01:40 - 01:43

而且即使是最低版本的o3 Mini模型

01:43 - 01:46

它也是可以把前辈们的o1预览版

01:46 - 01:47

按在地上摩擦的

01:47 - 01:49

然后下方是博士级别的科学难题的解答

01:49 - 01:51

我们来看一下

01:51 - 01:53

目前o3 Mini最高版本

01:53 - 01:54

它得分是79.7

01:54 - 01:56

比目前最强的o1模型

01:56 - 01:58

高了将近1.4个百分点

01:58 - 02:00

虽然目前这仅仅是o3 Mini版本

02:00 - 02:03

但它性能已经可以和o1相媲美了

02:03 - 02:05

但是如果发布o3正式版本

02:05 - 02:07

那么它的性能会更加恐怖

02:07 - 02:09

然后下方是研究级的数学推理方面

02:09 - 02:11

目前o3 Mini版本

02:11 - 02:14

比o1高了将近4个百分点

02:14 - 02:17

不管是Pass1或是Pass4还是Pass8

02:17 - 02:19

都是比它前身的o1模型

02:19 - 02:20

提升了将近一倍的性能

02:20 - 02:23

然后下方是Codeforces 竞赛编程

02:23 - 02:24

目前o3 Mini版本

02:24 - 02:26

最高得分是2130分

02:26 - 02:28

像之前最强的o1模型的话

02:28 - 02:29

只有1891分

02:29 - 02:31

高了将近300多分

02:31 - 02:33

而且无论是o3 Mini最低版本

02:33 - 02:34

或者中杯版

02:34 - 02:36

都是比它们前辈的分数都更高

02:36 - 02:38

然后下方是软件工程的验证

02:38 - 02:40

我们来看一下得分

02:40 - 02:42

o3 Mini模型

02:42 - 02:43

都已经做到对前辈们的碾压

02:43 - 02:46

然后下方是LiveBench编码

02:46 - 02:47

我们先来看一下它们对比

02:47 - 02:49

像目前最低的o3 Mini版本

02:49 - 02:52

它几乎可以和o3最强版本

02:52 - 02:53

旗鼓相当了

02:53 - 02:55

但像o3 Mini版本

02:55 - 02:56

它中杯版或者高级版

02:56 - 02:57

都已经实现了

02:57 - 02:59

对最强的o1模型进行了碾压

02:59 - 03:00

也就意味着

03:00 - 03:02

它在编码能力方面

03:02 - 03:03

已经超越了最强的o1模型

03:03 - 03:05

代码能力准确性

03:05 - 03:06

以及速度都会更强

03:06 - 03:08

然后下方是个知识常识领域

03:08 - 03:10

o3 Mini都是优于

03:10 - 03:11

o1模型的Mini版本的

03:11 - 03:14

然后下方是人类偏好评估

03:14 - 03:15

也就是通过人类主观判断

03:15 - 03:17

来评估模型生成结果的质量

03:17 - 03:18

对自然语言处理

03:18 - 03:19

生成式的对话

03:19 - 03:21

或者文本模型的领域尤为重要

03:21 - 03:22

我们来看一下第一个

03:22 - 03:25

就是o3 Mini它的中杯版

03:25 - 03:27

跟之前的o1模型的Mini版进行对比

03:27 - 03:28

之前的o1Mini版

03:28 - 03:29

它的得分是50分左右

03:29 - 03:31

但是目前这个

03:31 - 03:32

即使是o3的Mini中杯版

03:32 - 03:34

它已经飙到将近60分

03:34 - 03:35

这表明着o3的Mini版本

03:35 - 03:37

它在回答我们人类提问的时候

03:37 - 03:39

会更加准确 更加清晰

03:39 - 03:41

推理能力也比o1模型的Mini版更强

03:41 - 03:43

尤其是在STEM方面

03:43 - 03:47

也就是数学 科学 技术 工程数学方面

03:47 - 03:48

测试人员发现

03:48 - 03:50

在56%的时间里

03:50 - 03:52

他们都更喜欢o3的Mini的回答

03:52 - 03:53

因为他们发现

03:53 - 03:55

在一些比较难的推理方面

03:55 - 03:57

o3的Mini版本它的错误率更低

03:57 - 03:59

然后下方这个是它的反应速度对比

03:59 - 04:01

这个值是越低越好的

04:01 - 04:03

通过上方这个对比

04:03 - 04:05

我们可以发现o3的Mini版本

04:05 - 04:08

它的第一个token平均比o1Mini版本

04:08 - 04:09

快了2500毫秒

04:09 - 04:11

介绍完参数对比

04:11 - 04:12

然后接下来我们来说一下

04:12 - 04:15

如何免费使用目前最强的o3的Mini版本

04:15 - 04:17

首先我们打开OpenAI的官网

04:18 - 04:19

目前这个深度推理能力

04:19 - 04:21

就是目前最强的o3的Mini版本

04:21 - 04:22

它所提供的功能

04:22 - 04:24

下面上面有个try on ChatGPT

04:24 - 04:26

打开我们就可以看到

04:26 - 04:27

在下方这里它出现一个推理按钮

04:27 - 04:29

无论你当前是免费用户

04:29 - 04:31

还是游客都是支持这个推理能力的

04:31 - 04:33

然后现在我们点击登录一下

04:33 - 04:35

目前我当前账号是免费账号

04:35 - 04:36

并没有开启任何的会员功能

04:36 - 04:38

如果是免费用户的话

04:38 - 04:39

那么跟我一样

04:39 - 04:41

把下方的推理按钮打开就可以了

04:41 - 04:43

这样的话我们就可以直接免费使用

04:43 - 04:46

拥有超强深度推理能力的o3的Mini模型

04:47 - 04:48

比如我让它用Python语言

04:48 - 04:50

帮我编写一个贪吃蛇小游戏

04:50 - 04:52

它立马就可以帮我们搞定

04:52 - 04:54

在这个o3的Mini模型加持下

04:54 - 04:56

它代码准确性是非常高的

04:56 - 04:58

然后现在测试一下它提供代码看行不行

04:58 - 04:59

能否正常运行

04:59 - 05:01

我们先把上面的代码给copy出来

05:01 - 05:02

点击复制就可以了

05:02 - 05:04

复制好代码以后

05:04 - 05:06

然后现在在桌面上新建一个TXT文档

05:06 - 05:09

打开以后在里面把这个代码给它贴进去

05:09 - 05:11

粘贴以后保存确认一下

05:11 - 05:14

然后先把这个后缀

05:14 - 05:15

还有这个名字给它重命名一下

05:15 - 05:16

比如给它重命名的game

05:16 - 05:18

然后后缀的TXT

05:18 - 05:20

我们需要给它改成py

05:20 - 05:21

就是Python脚本的后缀

05:21 - 05:23

然后现在把它执行运行一下

05:23 - 05:25

我们现在鼠标右键

05:25 - 05:26

点击在当前终端下打开

05:26 - 05:29

进入以后然后现在输入命令

05:29 - 05:30

Python

05:30 - 05:32

然后后面跟上game

05:32 - 05:35

后缀py

05:35 - 05:36

确认一下

05:36 - 05:37

这样的话就可以玩了

05:37 - 05:41

又撞墙了

05:41 - 05:44

它只要用几行简短代码就可以写好一个游戏

05:44 - 05:44

自杀一下

05:44 - 05:45

05:45 - 05:45

05:45 - 05:50

然后接下来

05:50 - 05:52

我们拿它和DeepSeek的R1模型来进行对比

05:52 - 05:55

看一下在深度推理能力方面谁更强一点

05:55 - 05:56

为了公平对比

05:56 - 05:59

我们把两者深度推理功能都给打开

05:59 - 06:02

左边是ChartGPT o3 Mini版本

06:02 - 06:04

右侧是DeepSeek R1模型

06:04 - 06:06

然后现在我们来测试第一道

06:06 - 06:07

比较难的逻辑推理题

06:07 - 06:09

就是我有一个大西瓜

06:09 - 06:11

用水果刀平整地切

06:11 - 06:12

总共切九刀

06:12 - 06:14

那么最多可以切成多少份

06:14 - 06:15

或者最少能切成多少份

06:15 - 06:17

然后先把这个问题扔给他们

06:17 - 06:18

看一下谁可以做对

06:18 - 06:24

好 在速度方面明显是ChatGPT更快一点

06:24 - 06:27

目前ChatGPT已经做出来了

06:27 - 06:31

ChatGPT做出的答案是最多可以切成130份

06:31 - 06:32

最少可以切成10块

06:32 - 06:35

目前明显这个o3 mini模型更快一点

06:35 - 06:36

它早就做出来了

06:36 - 06:38

但是DeepSeek目前还在这个推理

06:38 - 06:39

我们等它一下

06:39 - 06:41

好 第一道逻辑推理题的话

06:41 - 06:42

它们两者都是答对的

06:43 - 06:44

只不过是DeepSeek的速度会慢很多

06:44 - 06:46

第一个回合的话

06:46 - 06:48

两者都答对 都得1分

06:48 - 06:49

然后接下来我们测试第二道题

06:49 - 06:51

就如果1=5

06:51 - 06:52

2=15

06:52 - 06:53

3=215

06:53 - 06:55

4=2145

06:55 - 06:56

那么5等于几

06:56 - 06:59

大家先猜一下这个答案是多少

06:59 - 07:00

同时发送一下

07:00 - 07:02

我们来看一下它们能否答对

07:02 - 07:05

左边这个ChatGPT推理过程用的是英文的

07:05 - 07:07

这道题看上去很简单

07:07 - 07:09

但是它们就推了那么长时间 还没出来

07:09 - 07:11

好 目前ChatGPT它已经答出来了

07:11 - 07:12

它说按照它的思路

07:12 - 07:15

这个5=21435

07:15 - 07:17

这里我先不公布答案

07:17 - 07:20

我们等右边这个DeepSeek打出来以后再说

07:20 - 07:22

这个DeepSeek的R1深度推理的话

07:22 - 07:23

这个过程确实有点长

07:23 - 07:26

最后这个DeepSeek它已经做出来了

07:26 - 07:28

它说根据它上面这个分析

07:28 - 07:31

若1=5则根据对称型

07:31 - 07:32

那么5就等于1

07:32 - 07:34

其它等式的话可能是用于混淆的

07:34 - 07:36

但是核心逻辑在于首页的映射关系

07:36 - 07:38

它最后给的结论是

07:38 - 07:39

根据首先的逻辑陷阱

07:39 - 07:41

1=5那么5就等于1

07:41 - 07:42

大家觉得它有没有做对

07:42 - 07:43

现在我们来公布答案

07:43 - 07:46

答案就是因为这个1=5

07:46 - 07:48

所以5就等于1

07:48 - 07:50

像后面这个等式都是混淆的

07:50 - 07:51

都是为了迷惑它们的

07:51 - 07:53

所以在这一道逻辑推理题的话

07:53 - 07:55

那很明显这个DeepSeek它是答对的

07:55 - 07:58

但是这个o3 mini模型它答的是错的

07:58 - 08:00

所以在第二个回合下

08:00 - 08:02

这个DeepSeek再胜一分

08:02 - 08:03

然后接下来测试第三题

08:03 - 08:06

就是马匹运石块的问题

08:06 - 08:07

同样给它发送一下

08:07 - 08:09

在推理速度方面的话

08:09 - 08:10

还是o3 mini更快点

08:11 - 08:11

它现在给出答案了

08:11 - 08:13

然后这DeepSeek它就宕机了

08:13 - 08:15

上面显示服务繁忙

08:15 - 08:16

请稍后再试

08:16 - 08:19

那这样的话我只能把这个深度思考模型关闭了

08:19 - 08:21

否则的话它是没法进行继续的

08:21 - 08:23

发送一下

08:23 - 08:25

关闭这个深度思考就可以了

08:25 - 08:28

看它关闭深度思考模型以后能不能答对

08:28 - 08:29

大家看一下

08:29 - 08:31

目前就是AI它自己在计算这个题目

08:31 - 08:33

不知道以后AI越来越聪明

08:33 - 08:34

我们人会不会越来越笨

08:34 - 08:36

它现在做出来了

08:36 - 08:38

也就意味着目前DeepSeek

08:38 - 08:40

在关闭深度思考模型以后

08:40 - 08:42

它总给出了 7种这个组合

08:42 - 08:44

但是ChatGPT的话它给出是6种

08:44 - 08:47

然后现在揭晓答案

08:47 - 08:48

来看一下

08:48 - 08:50

答案是6种结果

08:50 - 08:51

也就意味着

08:51 - 08:53

在DeepSeek关闭深度思考模型以后

08:53 - 08:55

这个o3 mini模型胜出

08:55 - 08:57

目前两者评分是持平的

08:57 - 08:58

都是得分2分

08:58 - 08:59

但这里需要注意下的是

08:59 - 09:02

由于DeepSeek R1模型服务中止

09:02 - 09:03

它目前深度思考是没有开启的

09:03 - 09:06

所以这一局的话也不能说这个完全公平

09:06 - 09:08

然后现在测试第四道题

09:08 - 09:09

来看一下谁能作对

09:10 - 09:13

就小明和小强都是张老师的学生

09:13 - 09:15

张老师的生日是在某月某日

09:15 - 09:18

两人都知道张老师的生日是以下十组中的一天

09:18 - 09:20

张老师把这个月份告诉了小明

09:20 - 09:22

然后把这个日期告诉了小强

09:22 - 09:24

然后根据下方的提示

09:24 - 09:25

来推断一下

09:25 - 09:26

这张老师的生日到底是哪一天

09:26 - 09:29

我们先看一下把这深度思考打开

09:29 - 09:30

这要公平点

09:30 - 09:31

就不知道能不能使用

09:31 - 09:32

发一下

09:32 - 09:37

还是ChatGPT更快

09:37 - 09:39

这个深度思考可以使用了

09:40 - 09:44

ChatGPT很快它已经答出来了

09:44 - 09:46

这个生日是在9月1号

09:46 - 09:48

我们现在先看一下这个DeepSeek

09:48 - 09:50

给出答案到底是多少

09:50 - 09:54

它最终答案是通过以上三步步骤

09:54 - 09:56

唯一符合条件的日期是9月1号

09:56 - 09:58

它两者答案都是9月1号

09:58 - 10:00

现在看一下到底是多少

10:00 - 10:02

答案是9月1号

10:02 - 10:04

说明这道题的话它们两者都答对的

10:04 - 10:05

都各得1分

10:05 - 10:07

因为在上道题的话

10:07 - 10:08

因为刚才我们这个深度思考没打开

10:09 - 10:10

所以为了公平起见

10:10 - 10:11

我们把上道题再给它一下

10:11 - 10:13

看它能不能答对

10:13 - 10:14

因为之前这个这道题的话

10:14 - 10:16

它是没打开这个深度思考

10:16 - 10:17

它答错了

10:17 - 10:18

这道题正答是6组

10:18 - 10:19

我们看一下它能不能答对

10:19 - 10:21

如果它还是答错的话

10:21 - 10:22

那么两者现在还是齐平的

10:22 - 10:25

好 即使我们打开这深度思考以后

10:25 - 10:27

它最终给出答案还是错的

10:27 - 10:28

它上方显示7种

10:28 - 10:29

也就意味着到目前为止

10:29 - 10:31

它两者评分都是齐平的

10:31 - 10:33

然后现在我们进行最后一组对比

10:33 - 10:34

来一决高下

10:34 - 10:35

看下谁更厉害

10:35 - 10:37

就这个逻辑推理题

10:37 - 10:39

就有一个牧场已知养牛27头

10:39 - 10:41

7天把草吃尽了

10:41 - 10:42

养牛23头

10:42 - 10:44

9天就会两把草吃尽

10:44 - 10:45

如果养27头

10:45 - 10:48

那么几天内就可以把这个牧场的草吃尽了

10:48 - 10:50

必须要提醒它这个牧场上的草是不断生长的

10:50 - 10:52

答案是12天

10:52 - 10:53

然后我们现在看一下

10:53 - 10:54

看谁能做对

10:54 - 10:57

目前这两者评分是齐平的

10:57 - 10:58

来看一下最后这道题

10:58 - 11:00

看看谁能够答对

11:00 - 11:02

来看一下

11:02 - 11:04

还是这个ChatGPT更快

11:04 - 11:06

它说如果是养牛21头

11:07 - 11:08

那么就需要12天

11:08 - 11:09

才能把牧场上的草吃尽

11:09 - 11:10

它这答案是对的

11:10 - 11:11

现在我们主要看一下

11:11 - 11:12

这DeepSeek能不能答对了

11:12 - 11:15

它上方显示服务繁忙

11:15 - 11:16

请稍后再试

11:16 - 11:19

现在我们只能把这个

11:19 - 11:20

深度思考模型关闭掉了

11:20 - 11:22

来看一下它能不能答对吧

11:22 - 11:24

关闭深度思考模型以后

11:24 - 11:25

大家看一下

11:25 - 11:27

它的推理速度明显比之前快很多

11:27 - 11:28

它现在做出来了

11:28 - 11:30

它的最终答案是

11:30 - 11:31

养牛21头

11:31 - 11:33

需要12天把牧场上的草吃尽

11:33 - 11:35

它给的答案也是正确的

11:35 - 11:36

也就意味着到目前为止

11:37 - 11:38

总共是5道这个推理题

11:38 - 11:39

各错了一道题

11:39 - 11:40

做对4道

11:40 - 11:42

目前在这方面的话

11:42 - 11:43

它们两者推理能力是不相上下的

11:43 - 11:45

当然图片能力方面

11:45 - 11:46

目前应该是

11:46 - 11:47

还是这个OpenAI更强力的

11:47 - 11:49

好 右侧这里它直接直显是

11:49 - 11:51

上传失败

11:51 - 11:53

那我们只能用这个ChatGPT来试一下

11:53 - 11:57

它问你是怎么搞到这张图片的

11:57 - 11:58

是拍摄时的某种特效

11:58 - 11:59

还是手工制作的

11:59 - 12:01

它已经看到这个胶片上的这个

12:01 - 12:03

塑料上挤压的导致的扭曲了

12:03 - 12:05

它说这是一个有趣的视觉效果

12:06 - 12:08

这种变形效果让你联想到搞笑的滤镜

12:08 - 12:10

或者是一些恶搞的物理变形方式

12:10 - 12:12

给人一种喜感或者是怪诞的感觉

12:12 - 12:14

在图片识别方面

12:14 - 12:15

还是ChatGPT更胜一筹

12:15 - 12:16

这边是无法上传不知道怎么回事

Revolution of Language Modeling in Deep Reasoning: OpenAI o3 Mini

OpenAI is pushing forward swiftly in the realm of language modeling, unveiling their latest powerhouse - o3 Mini. This cutting-edge model has been optimized for deep reasoning, excelling in mathematics, coding, and scientific domains. It represents a leap forward in both speed and performance when compared to its predecessor, the o1 model. The o3 Mini, released on January 31, has already gained recognition for providing exceptional reasoning capabilities, especially in scientific, mathematical, and coding scenarios.

Performance Parameters

The o3 Mini model boasts top scores in various domains, showcasing its superiority over the o1 model. In the realm of the AIME2024 mathematics competition, the highest version of o3 Mini achieves an impressive score of 87.3, demonstrating a substantial improvement over the o1 model. Even the mid-tier version of o3 Mini outperforms the o1 model, standing at nearly 80 points. The advancements in mathematical reasoning continue as the model surpasses the o1 version by almost four percentage points.

Coding Prowess

In the realm of competitive programming on Codeforces, the o3 Mini dazzles with a high score of 2130, surpassing the previous o1 model by over 300 points. The model showcases remarkable coding abilities across its versions, exhibiting enhanced accuracy and speed, leaving its predecessors trailing in its wake.

User Evaluation and Comparison

ChatGPT and DeepSeek are pitted against each other for a comprehensive evaluation of their reasoning capabilities. Across a series of logic reasoning puzzles, the models are tested for speed and accuracy. While ChatGPT excels in prompt responses, DeepSeek proves to be a formidable competitor in terms of logical deductions.

Experience the Power of o3 Mini for Free

Users can now experience the formidable capabilities of the o3 Mini model for free, courtesy of OpenAI. By visiting the OpenAI website, users can access the deep reasoning functions of o3 Mini, enabling them to harness its remarkable capabilities. Whether you are a casual visitor or a free user, the "Try on ChatGPT" feature allows direct access to the model's reasoning abilities. Utilize the model to generate code snippets, solve complex mathematical problems, or engage in compelling logical puzzles, showcasing the prowess of o3 Mini in diverse scenarios.

Unveiling the Future of Deep Reasoning

As the landscape of language modeling continues to evolve, models like o3 Mini pave the way for advanced reasoning and problem-solving capabilities. With the democratization of access to these powerful tools, users across the globe can leverage the strengths of AI for a myriad of applications. The future promises even greater advancements in deep reasoning models, reshaping the way we interact with technology and unlocking new possibilities across various fields.

In a world where AI capabilities are expanding rapidly, the introduction of models like o3 Mini underscores the ongoing quest for excellence in language modeling and deep reasoning. Prepare to witness a new era of intelligence, where AI-driven solutions redefine problem-solving and reasoning across diverse domains.