00:00 - 00:02

DeepSeek APP上架18天之后

00:02 - 00:05

便在全球160多个国家登顶

00:05 - 00:08

日活跃用户数突破1,500万

00:08 - 00:10

成了全球增速最快的AI应用

00:10 - 00:12

并且在这个过程中

00:12 - 00:14

它曾一度让美股市值

00:14 - 00:17

一晚上蒸发超1万亿美金

00:17 - 00:21

英伟达股价当日下跌16.97%

00:21 - 00:23

能获得这个成就的原因只有一个

00:23 - 00:25

那就是他们发布了一个免费

00:25 - 00:27

且无比聪明的模型

00:27 - 00:31

DeepSeek R1尤其是聪明这个特性

00:31 - 00:34

它让大量的提示词技巧开始失效

00:34 - 00:37

你只需要很简单的表述你的问题

00:37 - 00:39

便能获得超出预期的回答

00:39 - 00:42

如果回顾大语言模型发展历程的话

00:42 - 00:45

2025年1月20日DeepSeek R1的发布

00:45 - 00:47

可能会是一个

00:47 - 00:49

历史注定要记录的一个重要节点

00:49 - 00:53

2022年11月30日ChatGPT的发布

00:53 - 00:55

让大模型进入了大众视野

00:55 - 00:57

而两年后的DeepSeek R1

00:57 - 00:59

则是让一个足够优秀的模型

01:00 - 01:01

变得触手可及了

01:01 - 01:04

作为一个在b站Youtuber做了一年多

01:04 - 01:07

ChatGPT等AI产品教学

01:07 - 01:11

教学视频播放量超400万的AI博主

01:11 - 01:12

一方面我很高兴

01:12 - 01:14

我原来教授的技巧成了无用的

01:14 - 01:15

屠龙之术

01:15 - 01:16

现在也有更多人

01:16 - 01:18

可以更轻松的使用AI

01:18 - 01:20

去辅助自己的工作

01:20 - 01:21

学习和生活了

01:22 - 01:22

另外一个方面

01:22 - 01:24

经过我这几天

01:24 - 01:26

每天5个小时以上的爆肝体验

01:26 - 01:29

以及看了一些网友的测试之后

01:29 - 01:30

我发现

01:30 - 01:33

很多人对大语言模型依然怀着错误

01:33 - 01:35

的认知和预期

01:35 - 01:39

而这很可能会阻碍他使用R1的体验

01:39 - 01:40

所以现在来说就是

01:40 - 01:43

虽然很多人说就是有了R1之后

01:43 - 01:47

不再需要任何提示词技巧了

01:47 - 01:49

但...更接近实际的情况是

01:49 - 01:52

我们确实不需要那么多的提示词技巧

01:52 - 01:55

但是想要用好R1

01:55 - 01:57

其实还有两点非常关键

01:57 - 01:58

第一你需要理解

01:58 - 02:01

大语言模型的工作原理和局限

02:01 - 02:01

这能

02:01 - 02:03

帮助你更好地知道

02:03 - 02:05

AI可完成任务的边界

02:05 - 02:08

第二就是在和R1合作时

02:08 - 02:11

你最好有管理者的思维和经验

02:11 - 02:12

你需要知道

02:12 - 02:13

如何向R1

02:13 - 02:17

这个聪明程度比你更高的下属

02:17 - 02:18

去布置你的任务

02:18 - 02:20

所以带着这样的预期

02:20 - 02:22

我为你准备了19条

02:22 - 02:24

帮助你更好使用DeepSeek R1的经验

02:24 - 02:27

包括5个大语言模型的特点

02:27 - 02:32

7项与R1对话的技巧及7种验证无效

02:32 - 02:35

你可以舍弃的那种提示策略

02:35 - 02:37

在做任何深入的介绍之前

02:37 - 02:39

如果你还没使用过DeepSeek的话

02:39 - 02:42

我强烈建议你先去做一些尝试

02:42 - 02:44

再回来看这个视频

02:44 - 02:45

效果会更好一些

02:46 - 02:48

你有两种官方使用的方式

02:48 - 02:51

一种是直接访问DeepSeek的官网

02:51 - 02:52

另一种的话

02:52 - 02:54

就是你在AppStore或者安卓的应用商店

02:54 - 02:56

去搜索DeepSeek

02:56 - 02:57

去进行下载

02:57 - 02:58

免费使用就好了

02:58 - 03:00

然后在使用的时候

03:00 - 03:02

嗯你需要注意

03:02 - 03:05

就是在聊天输入框下方有两个选择

03:05 - 03:09

分别是「深度思考R1」和「联网搜索」

03:09 - 03:12

然后关于深度思考这个选项就是

03:12 - 03:15

如果你需要一个更简单和快速的回答的话

03:15 - 03:18

那你不必打开深度思考的模式

03:18 - 03:21

使用它的默认模型V3就可以了

03:21 - 03:23

然后当你需要完成更复杂的任务

03:23 - 03:26

你希望AI输出的内容更结构化

03:27 - 03:28

更深思熟虑的时候

03:28 - 03:31

你应该打开深度思考R1的选项

03:31 - 03:33

这也是我们今天这个视频

03:33 - 03:35

在讨论的模型

03:35 - 03:37

然后第二个就是关于联网搜索

03:37 - 03:38

这几天的话

03:38 - 03:39

DeepSeek可的联网搜索

03:39 - 03:43

可能还处在就是不太能够使用的状态

03:43 - 03:47

但当你发现它可以使用之后

03:47 - 03:49

你需要的一个点是

03:49 - 03:51

如果你的任务所涉及到的知识

03:51 - 03:54

是在2023年12月之前的话

03:54 - 03:58

那你其实不太有必要打开联网搜索

03:58 - 03:58

的功能

03:58 - 04:02

因为大模型本身就有在此之前的

04:02 - 04:05

被充分训练过的那种语料知识了

04:05 - 04:08

但是如果你所涉及的那个任务知识

04:08 - 04:12

是在2023年12月以及之后的

04:12 - 04:15

比方说你想了解昨天NBA比赛的赛果

04:15 - 04:18

或者说想知道最近硅谷对

04:18 - 04:19

DeepSeek R1的评价等等

04:19 - 04:22

那你必须打开联网搜索功能

04:22 - 04:23

否则大模型在回答时

04:23 - 04:25

是会缺乏对应的这种知识的

04:25 - 04:27

然后第一部分

04:27 - 04:31

就是我们先来说说模型的一些特点

04:31 - 04:33

就是在阐述任何技巧之前

04:33 - 04:35

你最先需要知道的是

04:35 - 04:37

DeepSeek的R1

04:37 - 04:39

是个与你日常使用的对话类AI

04:39 - 04:41

非常不同的模型

04:41 - 04:43

像OpenAI的GPT4O

04:43 - 04:46

DeepSeek的V3或者豆包等模型

04:46 - 04:48

都属于指令模型

04:48 - 04:49

也就是instruct model

04:49 - 04:51

这类模型是专门设计

04:51 - 04:55

用于遵循指令来生成内容

04:55 - 04:56

或执行任务的

04:56 - 04:59

而DeepSeek的R1则属于推理模型

04:59 - 05:00

Reasoning model

05:00 - 05:03

它是专注于逻辑推理问题解决的模型

05:03 - 05:06

能够自主处理需要多步骤分析

05:06 - 05:09

因果推断或者复杂决策的这种任务

05:09 - 05:11

实际上还有一个非常知名的模型

05:11 - 05:13

就是OpenAI的o1

05:13 - 05:15

它也是推理模型

05:15 - 05:15

但是

05:15 - 05:20

你必须花20美元成为plus用户才能使用

05:20 - 05:22

并且即使你成了Plus用户

05:22 - 05:25

你每周也只有50次的使用权限

05:25 - 05:28

如果你想要更多的使用权限的话

05:28 - 05:30

那请你掏出200美金每月的费用

05:30 - 05:33

也就是1,437元

05:33 - 05:36

而DeepSeek R1现在是完全免费的

05:36 - 05:37

从我实际的体验来说

05:37 - 05:41

R1在大量的写作写代码的任务上

05:41 - 05:43

甚至比o1要更强一些

05:44 - 05:44

按理说

05:44 - 05:47

就是R1是一个擅长数学推理

05:47 - 05:51

编程竞赛的这种模型

05:51 - 05:54

他在这些任务上擅长其实非常合理

05:54 - 05:55

但是非常令人意外的是

05:55 - 05:59

在有了这种超强的推理能力之后

05:59 - 06:03

R1似乎在所有任务上都获得了质的飞跃

06:03 - 06:06

涌现出了一些意料之外的技能

06:06 - 06:08

在原本指令模型的时代

06:08 - 06:10

AI的能力是受到很强的限制的

06:10 - 06:13

你需要通过提示词的各类技巧

06:13 - 06:15

才能激发模型更好的表现

06:15 - 06:16

而对普通人来说

06:16 - 06:20

学这些技巧实在是让人头大不已

06:20 - 06:23

而在DeepSeek R1模型下

06:23 - 06:24

你只需要清晰

06:24 - 06:27

明确地表达你的需求就好了

06:27 - 06:29

就像你拥有一个比你聪明得多的

06:29 - 06:30

清北毕业的

06:30 - 06:32

而且具有10年工作经验的下属

06:33 - 06:35

你不需要一步步的套路他

06:35 - 06:36

指导他的工作

06:36 - 06:38

你只需要把所有他需要知道的信息

06:38 - 06:39

告诉他

06:39 - 06:43

然后将你的任务布置下去就可以了

06:43 - 06:44

但是如何布置

06:44 - 06:45

任务呢我觉得

06:45 - 06:48

首先你得需要指导这个下属的特点

06:49 - 06:49

所以

06:49 - 06:53

我们先来了解一下大语言模型的本质

06:53 - 06:54

的特征就是

06:54 - 06:56

虽然像DeepSeek和R1这样的推理模型

06:56 - 06:59

相比指令模型有了非常大的进步

07:00 - 07:01

不需要那么多的技巧了

07:01 - 07:04

但它依然本质是一个大型语言模型

07:04 - 07:08

它依然存在语言模型的局限性

07:08 - 07:09

所以理解它的特点

07:09 - 07:11

将会帮助你更好地应用它

07:11 - 07:12

特点一

07:12 - 07:15

大模型在训练时是将内容TOKEN化的

07:15 - 07:18

大模型所看到和理解的世界

07:18 - 07:20

和你我是不一样的

07:20 - 07:22

在理解模型行为之前

07:22 - 07:25

我们需要了解它是如何学习的

07:25 - 07:27

大型语言模型的预训练

07:27 - 07:29

本质上是让模型建立文本

07:29 - 07:31

片段之间的关联的规律

07:31 - 07:33

为了实现这个目标

07:33 - 07:34

所有训练的数据

07:34 - 07:37

包括书籍网页对话记录等等

07:37 - 07:39

都会经过特殊处理

07:39 - 07:40

首先他们会将文本

07:40 - 07:43

切割成称为TOKEN的基本单元

07:43 - 07:45

就类似于文字的这种碎片

07:45 - 07:49

然后会将这些TOKEN转化为数字编码

07:49 - 07:52

这个过程就像把现实世界的语言

07:52 - 07:56

翻译成只有模型能理解的这种密码本

07:56 - 07:57

而在推理模型出来之前

07:57 - 08:00

很多人非常喜欢用一个呃

08:00 - 08:03

问题来考察大模型的这种智商

08:03 - 08:06

就是Strawberry这个单词有几个字母r

08:07 - 08:10

嗯很多时候就是指令模型

08:10 - 08:11

会回答错误

08:11 - 08:13

不是因为模型不够聪明

08:13 - 08:16

而是他在被训练时的特点

08:16 - 08:18

导致了这个结果

08:18 - 08:22

比方说GPT3.5和GPT4在训练的时候

08:22 - 08:26

词这个字被拆分成了两个TOKEN

08:26 - 08:29

strawberry则被拆分成了三个TOKEN

08:29 - 08:32

分别是str aw和Berry

08:32 - 08:34

举这个例子是想告诉你

08:34 - 08:35

就是大模型看到的世界

08:35 - 08:38

和你看到的世界是不一样的

08:38 - 08:39

当你在数字母时

08:39 - 08:42

看到的是连续的这种字符流

08:42 - 08:43

而模型看到的

08:43 - 08:46

却是经过编码的那个TOKEN序列

08:46 - 08:49

所以类似于数单词中的字母数量

08:50 - 08:51

或者精确的要求

08:51 - 08:54

大模型为你输出特定字数的内容

08:54 - 08:57

都是有些强模型所难的

08:57 - 08:58

他的机制决定了

08:58 - 09:00

他不擅长处理这些任务

09:00 - 09:01

当然现在

09:01 - 09:02

推理模型

09:02 - 09:05

可以完成我例子中的这些任务

09:05 - 09:08

但是你看看推他的推理过程的话

09:08 - 09:10

是不是觉得还是有一些费劲

09:10 - 09:11

有一些于心不忍呢

09:11 - 09:12

特点二

09:12 - 09:17

就是大模型的知识是存在截止时间的

09:17 - 09:21

虽然DeepSeekR1在2025年1月才正式发布

09:21 - 09:24

但是它的基础模型的训练数据的窗口

09:24 - 09:27

却是在很早之前就已经关闭了

09:27 - 09:30

这其实有点像你要出版

09:30 - 09:32

出版一本百科全书的话

09:32 - 09:34

从资料收集到最终复印

09:34 - 09:37

需要一个完整的生产周期

09:37 - 09:38

具体来说的话

09:38 - 09:39

对大模型来说

09:39 - 09:42

它是有三重的这种时间壁垒

09:42 - 09:44

第一个就是他预训练的阶段

09:44 - 09:47

需要处理PB级别的原始数据

09:47 - 09:50

而这种原始数据的清洗

09:50 - 09:53

需要经过大量的工序

09:53 - 09:54

会占用非常多的时间

09:54 - 09:56

而且在训练完成之后

09:56 - 10:00

他还要经过监督微调强化学习以及

10:00 - 10:03

基于人类反馈的强化学习等等

10:03 - 10:06

而这部分也是占据对应的时间的

10:06 - 10:07

所以像DeepSeekR1

10:07 - 10:09

他的知识库截止时间

10:09 - 10:12

大概是2023年的10月到12月左右

10:12 - 10:16

而这种时间的而这种知识的滞后性

10:16 - 10:19

它其实会带来三个层面的

10:19 - 10:20

这种认知局限

10:20 - 10:24

就比方说有一个行业认知断带的问题

10:24 - 10:26

模型训练完成之后出现的许多新事物

10:26 - 10:28

就比方说GPT4O模型

10:28 - 10:30

called 3.5 Sonic模型

10:30 - 10:34

这些都是没有办法被DeepSeek

10:34 - 10:38

R1自动识别和理解的

10:38 - 10:39

然后另外就是训练之后

10:39 - 10:41

发生的一些重大事件

10:41 - 10:43

像最近2025年的春晚

10:43 - 10:45

或者2024年的巴黎奥运会

10:45 - 10:49

其实DeepSeek也不太了解这些事件

10:50 - 10:52

所以嗯

10:52 - 10:54

这些其实都是模型训练的特点导致的

10:54 - 10:57

很多人拿类似的任务去问R1

10:57 - 10:59

然后发现R1答非所问

10:59 - 11:02

就轻易得出就是R1模型太差的结论

11:02 - 11:05

这个其实是一个非常错误的思维

11:05 - 11:08

然后如果你想突破这种知识限制的话

11:08 - 11:09

其实也是可以的

11:10 - 11:10

就第一个方式

11:10 - 11:13

你可以去激活那个联网搜索的功能

11:13 - 11:14

给R1提供

11:14 - 11:17

就是他自主搜索和查找信息的权利

11:17 - 11:18

第二个的话

11:18 - 11:20

你可以自主去补充一些必要的知识

11:20 - 11:22

就比方说上传文档

11:22 - 11:23

或者说

11:23 - 11:25

你在提示词里补充必要的这个信息

11:25 - 11:28

再让R1去进行执行

11:28 - 11:29

然后特点三的话

11:29 - 11:30

就是大模型

11:30 - 11:34

一般都是缺乏自我认知和自我意识的

11:34 - 11:35

很多模型都是如此

11:35 - 11:38

如果他自发有了自我意识的话

11:38 - 11:41

那可能说明就是AGI临近

11:41 - 11:43

我们需要有一些警惕了

11:43 - 11:44

所以就是

11:45 - 11:47

多数模型其实都不知道自己叫什

11:47 - 11:47

么什么模型

11:47 - 11:49

这是很正常的现象

11:49 - 11:52

就除非大模型厂商在部署的时候

11:52 - 11:55

在系统提示词里做了对应的设定

11:55 - 11:57

或者说他们在预训练完成之后

11:57 - 12:00

用的特定的语料去进行微调

12:00 - 12:01

否则他都是不知道的

12:01 - 12:02

就比方说

12:02 - 12:04

在我现在展示的这个例子里

12:04 - 12:05

ChatGPT的o1

12:05 - 12:06

他也不知道

12:06 - 12:08

自己是一个什么样的模型

12:08 - 12:10

然后这种自我认知的那个缺乏的话

12:10 - 12:12

其实会带来两个问题

12:12 - 12:13

第一个问题是

12:13 - 12:17

AI有时候会给出错误的自我认知

12:17 - 12:19

就比方说DeepSeek还有很多别的模型

12:19 - 12:22

他们经常会认为自己是ChatGPT

12:22 - 12:23

这主要原因是因为

12:23 - 12:26

ChatGPT在2022年底发布之后

12:26 - 12:29

很多人把自己和ChatGPT的对话内容

12:29 - 12:30

发布到了网上

12:30 - 12:33

所以你在问一个模型你是谁的时候

12:33 - 12:35

经常会出现对应的幻觉

12:35 - 12:36

另外的话就是

12:36 - 12:38

你也没法让DeepSeekR1来告诉你

12:38 - 12:40

就是它自己有什么样的特点

12:40 - 12:42

使用它有什么技巧等等

12:42 - 12:46

这也是我就是依然要使用大量

12:47 - 12:48

我自己的脑力算法

12:48 - 12:50

去做这期视频的原因

12:50 - 12:51

然后第四点的话

12:51 - 12:53

就是大模型有记忆的限制

12:53 - 12:54

就是多数模型

12:54 - 12:56

它其实都是有上下文长度的

12:57 - 12:57

这个限制的

12:57 - 13:01

像DeepSeek和R1现在提供的上下文长度

13:01 - 13:02

只有64K的token

13:02 - 13:04

对应到中文字符的话

13:04 - 13:06

大概是三四万字

13:06 - 13:07

而这带来的问题是

13:07 - 13:10

你没有办法一次投喂太长的文档给他

13:11 - 13:14

就比方说你给他投喂一本红楼梦的话

13:14 - 13:15

那你可以理解为

13:15 - 13:17

他没有办法完整去读

13:17 - 13:19

这本书的完整的内容

13:19 - 13:20

而是在你对话的时候

13:20 - 13:21

他会通过

13:21 - 13:23

RAG也就是检索增强的方式

13:23 - 13:24

去读取

13:24 - 13:27

你给他提供的文档中的部分内容

13:27 - 13:29

再进行回答

13:29 - 13:29

所以

13:29 - 13:33

他不是完整读你提供的所有资料的

13:33 - 13:35

然后另外的话就是

13:35 - 13:37

当你和他对话的轮次过多的时候

13:37 - 13:39

他很可能会遗忘

13:39 - 13:41

你们最初聊天的那部分内容

13:41 - 13:42

这部分的限制

13:42 - 13:45

在你开展AI写代码的任务的时候

13:45 - 13:47

你的感受可能会尤其明显

13:47 - 13:47

特点五

13:47 - 13:51

就是相比上下文对话的输入长度

13:51 - 13:55

大模型的输出长度呃会更短很多

13:55 - 13:58

多数模型会将输出长度控制在4K

13:58 - 13:59

或者8K也就是

13:59 - 14:00

单次对话

14:00 - 14:05

最多给你回答以 2,000-4,000个中文字符

14:05 - 14:08

所以你有些任务没有办法去做

14:08 - 14:11

就是你没有办法复制一篇万字的长文

14:11 - 14:13

让DeepSeek去一次性完成翻译

14:13 - 14:15

你也不能让DeepSeek

14:15 - 14:18

一次性帮你写一篇5,000字以上的文章

14:18 - 14:21

这些都是模型输出长度的限制导致的

14:21 - 14:23

你需要理解这个问题的存在

14:23 - 14:26

然后如果你要解决这个问题的话

14:26 - 14:28

像长文翻译类的任务

14:28 - 14:30

你可以通过多次复制

14:30 - 14:32

或者你自己写代码去调用API

14:32 - 14:34

多次执行的方式

14:34 - 14:36

去帮你完成一篇长文

14:36 - 14:37

甚至一本书的翻译

14:37 - 14:39

而长文写作类的任务的话

14:39 - 14:41

比较妥当的做法是

14:41 - 14:45

你先让R1梳理框架列出提纲目录

14:45 - 14:46

然后再根据目录

14:46 - 14:46

去一次次

14:46 - 14:49

分别生成不同阶段的这种内容

14:49 - 14:51

接下来我们再来说说

14:51 - 14:54

就是比较有效的R1使用技巧

14:54 - 14:56

技巧一提出明确的要求

14:56 - 14:57

能说清楚的信息

14:57 - 14:59

不要让DeepSeek去猜

14:59 - 15:01

DeepSeek虽然很聪明

15:01 - 15:03

但它不是你肚子中的蛔虫

15:03 - 15:04

你需要明确告

15:04 - 15:06

诉DeepSeek需要他帮你做什么

15:06 - 15:07

做到什么程度

15:07 - 15:08

就比方说

15:08 - 15:11

你复制一段英文文本给他的话

15:11 - 15:13

你需要明确表达你的指令

15:13 - 15:15

也就是需要他做什么

15:15 - 15:15

否则

15:15 - 15:18

dipstick并不会理解你想要做的东西

15:18 - 15:20

到底是翻译总结还是要

15:21 - 15:24

还是说你要学英语要让他给你出题呀

15:24 - 15:26

这些信息都不要让阿one去猜

15:26 - 15:29

又比如你想写一篇500字的公众号文章

15:29 - 15:32

那你就明确表达你写的文章主题

15:32 - 15:33

需要500字

15:33 - 15:34

虽然我们前面提过了

15:34 - 15:37

就是大模型并不擅长计算数字

15:37 - 15:40

它大概率只会返回给你

15:40 - 15:43

300-700之间长度的文章

15:43 - 15:46

但这至少能大致符合你的篇幅的要求

15:46 - 15:48

然后在我们的这个例子里

15:48 - 15:51

我们让他写一个就是为服饰跨界

15:52 - 15:53

跨境电商设计的

15:53 - 15:56

30天新用户增长的计划

15:56 - 15:58

然后我们希望突破的市场是哪里

15:58 - 16:00

我们希望他方案中包含什么

16:00 - 16:02

这个就会比

16:02 - 16:06

仅仅让他写一个跨境电商平台方案

16:06 - 16:07

这个要好很多

16:07 - 16:07

第二点的话

16:07 - 16:11

就是你可以要求特定的风格

16:12 - 16:13

具有思维链的

16:13 - 16:15

R1在进行特定风格的写作时

16:15 - 16:16

相比其他模型

16:16 - 16:19

我发现它已经出现了断层

16:19 - 16:20

领先的水平

16:20 - 16:21

就比方说

16:21 - 16:24

你可以让R1用李白的风格去写诗

16:24 - 16:27

按贴吧暴躁老哥的风格去骂人

16:27 - 16:29

用鲁迅的文风进行讽刺

16:29 - 16:31

或者模仿任意作家风格进行写作

16:31 - 16:34

按脱口秀演员风格创作脱口秀脚本

16:34 - 16:36

等等其他模型在这方面的表现

16:36 - 16:39

都追不上R1的车尾

16:39 - 16:40

在这个模式下

16:41 - 16:42

有个很有效的表达方式

16:42 - 16:44

是让R1说人话

16:44 - 16:46

或者说让R1认为你是初中生

16:46 - 16:49

他这样就能把复杂的概念

16:49 - 16:53

简化为你更容易理解的这种解释

16:53 - 16:53

又或者

16:53 - 16:56

你完全可以去尝试特定风格的写作

16:56 - 16:57

就比方说

16:57 - 17:00

让他用半佛仙人的风格

17:00 - 17:00

写一篇

17:00 - 17:03

吐槽虎扑步行街用户的这个公众号

17:03 - 17:04

文章

17:07 - 17:10

R1甚至连表情包都帮我想好了

17:10 - 17:13

技巧三提供充分的任务背景信息

17:13 - 17:16

当你让DeepSeek帮你完成某项工作的时候

17:16 - 17:18

提供充分的上下文背景信息

17:18 - 17:20

告诉他你为什么要做这件事

17:20 - 17:23

你面临的现实背景是什么

17:23 - 17:24

或者问题是什么

17:24 - 17:26

让DeepSeek可将其纳入

17:26 - 17:28

所生成文本的思考中

17:28 - 17:30

这可以让结果更符合你的需要

17:30 - 17:31

就比方说

17:31 - 17:33

你要DeepSeek可生

17:34 - 17:36

帮你生成减肥计划的时候

17:36 - 17:38

那你最好告诉他你的身体状况

17:38 - 17:40

你目前的饮食摄入

17:40 - 17:41

和运动情况是什么样的

17:41 - 17:43

那他就能帮你生成一个

17:43 - 17:45

更有针对性的计划

17:45 - 17:48

技巧四主动标注自己的知识状态

17:48 - 17:51

当你向DeepSeek寻求知识型的帮助时

17:51 - 17:52

最好能明确标注自己

17:52 - 17:54

相对应的知识状态

17:54 - 17:56

就有点像老师备课前

17:56 - 17:59

需要了解学生的那个能力水平

17:59 - 18:00

然后

18:00 - 18:01

清晰的这种知识坐标

18:01 - 18:03

能让AI输出的内容

18:03 - 18:06

更精确的匹配你的理解层次

18:06 - 18:07

像我们前面提到了

18:07 - 18:09

就是告诉R1我是初中生

18:09 - 18:10

或者我是小学生

18:10 - 18:13

是一个把自己放置在一个知识背景

18:13 - 18:15

约等于0的知识状态的好方式

18:16 - 18:17

但是当某些内容

18:17 - 18:20

你希望能和AI深入探讨的时候

18:20 - 18:22

那你最好能更清晰表达

18:22 - 18:24

你在这个领域的知识状态

18:24 - 18:27

或者你是否存在关联领域的知识

18:27 - 18:30

这样能帮助AI更好的理解你

18:30 - 18:31

为你提供更精确的回答

18:31 - 18:34

技巧5:定义目标而非过程

18:34 - 18:36

就是R1作为推理模型

18:36 - 18:38

现在完成任务的思维过程

18:38 - 18:40

是非常令人印象深刻的

18:40 - 18:42

所以我很建议你提供清楚你的目标

18:42 - 18:45

让R1具有一定的思考空间

18:45 - 18:46

去帮助你执行

18:46 - 18:47

执行的更好

18:47 - 18:50

而非提供一个机械化的嗯执行指令

18:50 - 18:53

你应该像产品经理提需求那样

18:53 - 18:54

描述你想要什么

18:54 - 18:57

而不是像程序员写代码那般

18:57 - 18:59

就是规定怎么做

18:59 - 18:59

就举个例子啊

18:59 - 19:03

比方说你的产品评审会在开完之后

19:03 - 19:06

你可能需要整理录音的文字稿

19:06 - 19:07

一种做法是

19:07 - 19:09

你可以直接要求R1

19:09 - 19:12

去帮你进行文字稿的整理

19:12 - 19:14

就比方说删掉语气词

19:14 - 19:15

按时间分段

19:15 - 19:17

每段加小标题等等

19:18 - 19:20

这也是一个非常清晰明确的

19:20 - 19:21

一个优质的提示语啊

19:21 - 19:24

但是你同样可以进一步思考下

19:24 - 19:27

就是这段录音文字稿所总结出的材料

19:27 - 19:28

要如何用

19:28 - 19:30

你去为R1提供目标

19:30 - 19:33

让他创造性的帮助你去完成任务

19:33 - 19:34

技巧六就是

19:34 - 19:38

我们可以去提供AI不具备的知识背景

19:38 - 19:40

我们在第二部分的时候就提到过了

19:40 - 19:41

就是AI模型

19:41 - 19:44

具有知识截止时间的那个特性

19:44 - 19:46

当任务涉及到模型训练

19:46 - 19:48

截止之后的新信息的话

19:48 - 19:49

就以R1来说

19:49 - 19:51

现在24年的一些赛事结果

19:51 - 19:52

或者行业趋势

19:52 - 19:53

他都是不具备的

19:53 - 19:55

或者有些情况下

19:55 - 19:57

你们公司可能有一些内部的信息

19:57 - 19:59

是AI不知道的

19:59 - 20:01

那么你就需要去帮R1

20:01 - 20:04

拼上那块他缺失的那个拼图

20:04 - 20:07

通过结构化的输入去帮助AI

20:07 - 20:09

突破知识的限制

20:09 - 20:12

避免让他因为信息的缺乏

20:12 - 20:14

而出现这种错误的回答

20:14 - 20:17

技巧七是从开放到收敛

20:17 - 20:19

就是R1的思维链是全透明

20:19 - 20:20

在你面前展开的

20:20 - 20:22

我常常会觉得

20:22 - 20:24

就是我从R1思考的过程中

20:24 - 20:26

能收获的信息

20:26 - 20:28

比他给我提供的结果还多

20:28 - 20:32

尤其是他在展开思考你提的需求时

20:32 - 20:34

会做一个可能性的预测

20:34 - 20:36

有时在看这部分推测后

20:36 - 20:37

你才会发现

20:37 - 20:39

就是自己原来有些方面的信息

20:39 - 20:41

你是没有考虑到的

20:41 - 20:42

如果你把对应的信息

20:42 - 20:44

补充的更完善的话

20:44 - 20:46

那么就不需要R1再去猜了

20:46 - 20:50

所以就是R1能这种情况下能为你

20:50 - 20:52

提供更精确的更符合你需要的结果

20:52 - 20:54

就比方说在下面的这个案例中

20:54 - 20:56

R1在思考时

20:56 - 20:59

为我们提供的三种不同的涨价方案

20:59 - 21:01

就是分阶段的涨价

21:01 - 21:02

增加产品价值

21:02 - 21:04

以及通过营销活动转移注意力

21:04 - 21:05

以及预测的

21:05 - 21:06

我们可能具有的

21:06 - 21:09

两种深深层次的这种需求

21:10 - 21:12

保持市场的份额

21:12 - 21:14

或者提升我们的品牌形象

21:15 - 21:17

我们可以就是借此思考

21:17 - 21:17

就是

21:17 - 21:20

我们倾向的方法和目标究竟是什么

21:20 - 21:22

对我们的提示词进行进一步的收敛

21:22 - 21:23

那么接下来

21:23 - 21:26

我们得到的结果就会更加的精准

21:26 - 21:28

上面说完7个有用的

21:28 - 21:29

R1提示词技巧之后

21:29 - 21:32

我们再来说说一些无用的提示词技巧

21:32 - 21:34

啊就是在使用R1的时候

21:34 - 21:36

我发现就是下面的7个

21:36 - 21:37

就是prompt策略

21:37 - 21:40

其实已经记基本被验证是失效的

21:40 - 21:41

甚至有时候

21:41 - 21:43

会起一些反作用的效果

21:43 - 21:44

你应该去避免

21:44 - 21:46

第一个的话就是思维链的提示

21:46 - 21:48

比方说要求模型一步步思考啊

21:48 - 21:51

或者你主动去提供解答问题的那个

21:51 - 21:52

思维的链路

21:52 - 21:53

就这些都没有必要

21:53 - 21:56

因为R1经过强化学习之后

21:56 - 21:59

他其实已经能产生更好的思维链了

21:59 - 22:01

第二个的话就是结构化提示词

22:01 - 22:02

就这个还可以有

22:02 - 22:03

但是没那么必要了

22:03 - 22:07

就是你依然可以用Markdown格式的语句

22:07 - 22:10

去让你的信息结构更清晰

22:10 - 22:12

人类查看和机器阅读的时候更好理解

22:12 - 22:15

但是因为你需要提示的内容少了

22:15 - 22:17

所以必要性其实是不强的

22:17 - 22:18

然后第三个的话

22:18 - 22:21

就是去要求扮演专家角色

22:21 - 22:22

这个的话

22:22 - 22:24

其实已经变得完全没有必要了

22:24 - 22:27

因为R1本身就是一个专家模型

22:27 - 22:29

他会尝试专家思维

22:30 - 22:33

所以你不需要让他去扮演所谓的专家

22:33 - 22:34

第四个的话

22:34 - 22:37

就是假装完成任务之后给奖励的

22:37 - 22:39

这种小技巧也是无效的

22:39 - 22:41

甚至会被R1认为是笑话

22:41 - 22:44

所以我们就没必要再去骗AI了

22:44 - 22:46

省得AI觉醒之后

22:46 - 22:49

真的来找我们讨要那部分奖励

22:50 - 22:52

呃第五个的话就是少势力提示

22:52 - 22:54

FIA short这个也是没必要的

22:54 - 22:56

而且dbseak的团队

22:56 - 22:58

在发布R1技术报告的时候

22:58 - 23:00

也明确提到了

23:00 - 23:03

你应该规避这个提示词的技巧

23:03 - 23:05

第六点的话就是角色扮演

23:05 - 23:09

呃我之前的视频里很多人提到了

23:09 - 23:10

就是能不能

23:10 - 23:12

让R1去做各种各样的

23:12 - 23:14

角色扮演的任务

23:14 - 23:15

但我得告诉你

23:15 - 23:17

他不太适合干这个事情

23:17 - 23:18

呃我觉得

23:18 - 23:19

很可能是因为

23:19 - 23:22

这种情感化的对话都比较

23:22 - 23:25

依赖直觉是反深思熟虑的

23:25 - 23:28

而阿依每次都要进行深思熟虑

23:28 - 23:30

就是他反馈的内容

23:30 - 23:32

嗯我觉得还不如基础模型

23:34 - 23:38

第七个就是对已知的概念进行解释

23:38 - 23:40

很多人在原来写提示词的时候

23:40 - 23:43

会解释自己想要的风格

23:43 - 23:45

就比方说他想要一个鲁迅风格

23:45 - 23:49

他会去描述鲁迅是有什么样的风格的

23:49 - 23:51

这个其实完全没有必要

23:51 - 23:53

就是R1非常理解

23:53 - 23:55

这些知名的作家

23:55 - 23:57

和知名人物的风格是什么样的

23:57 - 23:59

以及他在思考的时候

23:59 - 24:03

会进行更深入和更丰富的结构

24:03 - 24:06

相比你写的内容有可能要好很多

Mastering DeepSeek R1: Tips and Tricks for Utilizing the AI Model

In just 18 days after its launch on the DeepSeek app, the DeepSeek R1 model has taken the world by storm, reaching the top in over 160 countries and surpassing 15 million daily active users. This AI application has become the fastest-growing globally, causing fluctuations in the stock market with Nvidia's stock price dropping by 16.97% overnight. What sets DeepSeek R1 apart is its intelligence, rendering many prompting techniques obsolete. You can now simply express your query, and the model will provide unexpected answers beyond your expectations.

Unveiling the Secrets of DeepSeek R1

As an experienced AI content creator, you may find your previously taught techniques no longer effective, evolving into obsolete myths in the era of models like DeepSeek R1. The development of large language models has reached a significant milestone with the release of DeepSeek R1, revolutionizing accessibility to advanced models. While the reliance on prompting techniques has diminished, understanding the operational principles and limitations of these models is crucial to maximize your experience.

Key Features of Large Language Models

Before delving into specific strategies, it is essential to understand the fundamental characteristics of models like DeepSeek R1:

  • Tokenization Process: Data tokenization plays a pivotal role in model training, transforming text into encoded tokens for comprehension. However, these tokens may create limitations in handling certain tasks, such as counting specific letters in a word.
  • Temporal Knowledge: The knowledge base of models like DeepSeek R1 has a time limitation, capturing information up to a specific period. This temporal boundary can hinder responses related to recent events post the training data cut-off.
  • Lack of Self-awareness: AI lack self-awareness, leading to instances of erroneous self-recognition or limited insights into their own features or capabilities.
  • Memory Constraints: Models have contextual memory limits, requiring feed-in of relevant information incrementally to avoid forgetting crucial elements during extended interactions.
  • Output Length Restriction: AI models typically restrict output lengths, preventing the generation of extensive content in a single response. For lengthy tasks, breaking down inputs or outputs into segments aids in achieving desired outcomes effectively.

Effective Strategies for Interacting with DeepSeek R1

To optimize your interaction with DeepSeek R1 and harness its full potential, consider implementing the following proven techniques:

1. Clear Task Definition

Articulate your requirements precisely without leaving room for assumptions. Avoid expecting DeepSeek to guess your intentions; instead, provide specific instructions on the desired outcome.

2. Style Customization

Explore the model's ability to mimic various writing styles, enhancing your outputs to match the tone or structure desired. Experiment with different voices to tailor the content to your preference.

3. Contextual Background Provision

Furnish comprehensive contextual details when seeking assistance, outlining the problem statement, background information, and expected results. Enabling DeepSeek with a holistic view enhances response relevance and accuracy.

4. Proficiency Disclosure

Clearly state your knowledge level in the relevant domain, allowing DeepSeek to tailor responses to your expertise level effectively. Whether you are a novice or an expert, defining your proficiency aids in receiving relevant information.

5. Goal-Oriented Requests

Focus on outlining end objectives rather than dictating detailed processes. By presenting your goals to DeepSeek, you provide the model with the flexibility to craft innovative solutions aligned with your desired outcomes.

6. Supplementary Knowledge Inclusion

Bridge the gap in AI's knowledge by integrating additional context or information beyond the model's training scope. Offering structured inputs helps DeepSeek surpass knowledge limitations, fostering more accurate responses.

7. Transition from Open-ended to Convergent Dialogue

Transition from broad inquiries to focused discussions by interpreting DeepSeek's speculative inputs. Embracing this analytical approach aids in refining prompts and cultivating precise outcomes to meet your specific needs.

Deprecated Prompting Techniques

In your interactions with DeepSeek R1, steer clear of obsolete prompting strategies that could impede your experience. Avoid tactics like providing detailed thinking pathways, insisting on structural prompts, or role-playing scenarios. Embrace a streamlined approach focusing on directing clear objectives and context-rich inputs for optimal results.

Embrace these strategies to unlock the full potential of DeepSeek R1's advanced capabilities and reshape your AI-assisted endeavors effectively. Whether you are embarking on coding tasks, creative writing, or problem-solving, mastering these techniques will elevate your experience with DeepSeek R1 to unprecedented heights. Remember, while the era of intricate prompting methods may be fading, a comprehensive understanding of AI models' nuances is the key to leveraging their prowess to the fullest. Step into the future of AI interaction with DeepSeek R1 armed with these innovative strategies, and witness the transformative power of intelligent collaborations.