00:00 - 00:02

這一次Deepseek公司開源的模型

00:02 - 00:04

最大的特色就是

00:04 - 00:06

可以使用更低的運算資源

00:06 - 00:08

就達到訓練模型的效果

00:08 - 00:12

雖然公司宣稱只需要1%的運算資源

00:12 - 00:14

這個數據或許

00:55 - 00:56

所以我們今天的題目

00:56 - 00:59

是深度求索第四個模型開源讓美股大跌

00:59 - 01:02

全球人工智慧公司跌破眼鏡厲害在哪裡

01:02 - 01:05

首先 我們幫大家複習人工智慧的訓練

01:05 - 01:07

訓練推論Inference

01:07 - 01:10

再來我們跟大家複習人工神經網絡an和

01:10 - 01:13

大型語言模型的開發流程

01:13 - 01:15

再來我們介紹第一代推論模型

01:15 - 01:18

此外 還哪裡有哪些特色

01:18 - 01:22

在我們介紹第七個它的訓練方法以及羣體

01:22 - 01:23

相對策略優化

01:23 - 01:27

GPU的原理在我們介紹第四個它的推論能力

01:27 - 01:29

為什麼可以大幅藥劑

01:29 - 01:30

最後我們進行實驗

01:30 - 01:33

結果的分析 包含第四個答案的模型

01:33 - 01:36

表現以及DeepGaN的分類模型表現

01:36 - 01:37

最後我們跟大家

01:37 - 01:41

做結論以及第四個後續的應用觀察

01:41 - 01:42

我們今天的資料來源

01:42 - 01:44

是王陽明發表在Medium

01:44 - 01:46

題目是DpcGaN

01:46 - 01:50

論文解析強化學習如何提升AI推論能力

01:50 - 01:51

四個的模型發表

01:51 - 01:54

之後我看網路上非常多的資料 那麼這

01:54 - 01:54

一篇文章呢?

01:54 - 01:56

是除了Deep

01:56 - 01:58

這個公司發表的論文以外

01:58 - 02:02

我覺得解析得最詳盡 而且專業度很高的文章

02:02 - 02:03

值得大家參考

02:03 - 02:08

再來我們也參考阿爾維斯去實驗室所發表的論文

02:08 - 02:09

題目是透過

02:09 - 02:13

強化學習來改進大型語言模型的推論能力

02:13 - 02:16

接下來我們跟大家介紹人工智慧的訓練

02:16 - 02:16

Training

02:16 - 02:18

以及推論Inference

02:18 - 02:22

首先 大家記得人工智慧有兩個階段第一個階段

02:22 - 02:24

稱為訓練訓練或者

02:24 - 02:26

學習任務第二個階段

02:26 - 02:28

稱為推論Inference

02:28 - 02:29

或者預測Prediction

02:29 - 02:32

訓練分為三個步驟第一個步驟

02:32 - 02:35

是過去數據人類的大腦 經由眼耳鼻舌皮膚

02:35 - 02:39

收集大量的數據纔能進行分析 處理人工智慧

02:39 - 02:43

也必須先蒐集大量的數據來進行訓練

02:43 - 02:46

接下來第二個步驟是分析數據人類的大腦

02:46 - 02:50

分析蒐集到的數據 找出可能的規則

02:50 - 02:52

這個規則就稱為模型Model

02:52 - 02:55

譬如說下雨天某個溫度溼度會出現

02:55 - 02:59

彩虹彩虹會出現在太陽相反的方向

02:59 - 03:02

這個就是出現彩虹的規則

03:02 - 03:04

也就是出現彩虹的模型

03:04 - 03:07

接下來第三 步驟是建立模型

03:07 - 03:08

人類的大腦找出

03:08 - 03:09

可能的規則

03:09 - 03:12

後會利用這個規則來建立模型Model

03:12 - 03:16

譬如說剛剛我們講的下雨天某個溫度和溼度

03:16 - 03:20

與太陽相反的方向就是出現彩虹的模型

03:20 - 03:22

接下來進入第二個階段

03:22 - 03:24

進行推論Inference

03:24 - 03:25

或者預測 Prediction

03:25 - 03:29

也就是利用建立好的模型來預測未來

03:29 - 03:32

將新蒐集的數據輸入模型就可以預測

03:32 - 03:36

未來譬如說今天下雨的溫度和溼度達到標準

03:36 - 03:40

我們就可以預測在太陽相反的方向會看到彩虹

03:40 - 03:43

而人工智慧預測未來計算機率

03:43 - 03:46

是使用人工神經網絡

03:46 - 03:50

首先我們介紹人類大腦的神經網路

03:50 - 03:52

AnnualNetwork 這是人類

03:52 - 03:54

大腦的運作方式

03:54 - 03:57

人類大腦裡面的細胞稱為神經元

03:57 - 04:01

左邊這個是細胞中間是細胞核

04:01 - 04:05

這一條長的是爪圖末端是突觸 當

04:05 - 04:08

大腦的神經元受到刺激的時候 就會

04:08 - 04:13

放大一個倍數經由軸突和突觸去刺激下

04:13 - 04:16

一個神經細胞再放大倍數經由走

04:16 - 04:20

圖案突觸去刺激下一個神經細胞

04:20 - 04:23

如果我們把神經細胞簡化成一個圈圈和

04:23 - 04:27

箭頭這個圈圈裡面的數字就是訊號強度

04:27 - 04:32

而這個箭頭上面的數字就是放大倍數 所以當

04:32 - 04:35

我們去刺激神經元會產生訊號強度

04:35 - 04:39

經由突觸會產生放大倍數去刺激下

04:39 - 04:42

一個神經元產生訊號強度 再經由

04:42 - 04:46

突觸放大倍數去刺激下一個神經元

04:46 - 04:49

這就是人類大腦運作的方式

04:49 - 04:53

而人工神經網絡Ann又稱為類神經網絡

04:53 - 04:56

是一種模仿生物神經網絡的結構和

04:56 - 04:59

功能所產生的數學模型 所以大家

04:59 - 05:04

要記得人工神經網絡其實是一種數學模型

05:04 - 05:08

用來對函數進行評估或近似運算

05:08 - 05:12

因此人工神經網絡是一種計算機率的模型

05:12 - 05:15

類神經網絡所謂的參數就是權重

05:15 - 05:18

也就是我們剛剛在神經元的突觸

05:18 - 05:23

上面的放大倍數 所以放大倍數就是權重

05:23 - 05:26

人工神經網絡有輸入層的神經元

05:26 - 05:29

隱藏層的神經元以及輸出層的神經元

05:29 - 05:30

這裡的圈圈和

05:30 - 05:34

箭頭就是神經元 所以a1a2a3

05:34 - 05:40

是信號強度www3是放大 倍數也就是權重

05:40 - 05:45

當我們將資料經由輸入層輸入人工神經網絡

05:45 - 05:50

經由隱藏層計算之後最後會由輸出層輸出紀律

05:50 - 05:55

因此人工神經網絡就是一種計算紀律的模型

05:55 - 05:59

當我們聽到科學家說臉書的拉瑪三大型語言模型

05:59 - 06:00

有4000億個

06:00 - 06:04

參數就是有4000億個權重4000億個放大

06:04 - 06:07

倍數4000億個箭頭這裡的A和

06:07 - 06:11

W都是浮點數 也就是有小數點的數

06:11 - 06:15

所謂的訓練就是把圖片影像文字聲音

06:15 - 06:19

轉換成浮點數A嘔吐A點點點

06:19 - 06:23

輸入類神經網絡由於已知幾率就可以反覆

06:23 - 06:26

計算出4000億個權重是多少

06:26 - 06:28

這個過程稱為訓練

06:28 - 06:33

而這4000億的權重就稱為訓練好的權重

06:33 - 06:36

所謂的推論就是利用這4000億個

06:36 - 06:40

訓練好的權重來計算幾率預測未來

06:40 - 06:42

當我們把最新的資料

06:42 - 06:46

包括圖片影像文字聲音轉換成浮點數

06:46 - 06:49

a1a2a3點點點輸入類神經網絡

06:49 - 06:52

經由4000億個訓練好的權重

06:52 - 06:55

就可以計算出事件發生的幾率

06:55 - 06:58

接下來我們介紹大型語言模型的開發流程

06:58 - 07:01

首先 監督式學習是指所有的資料

07:01 - 07:06

都有標準答案提供模型輸出判斷誤差

07:06 - 07:09

而非監督式學習是指所有的資料

07:09 - 07:10

都沒有標準答案

07:10 - 07:14

半監督式學習是指部分的資料有標準答案

07:14 - 07:17

而所謂的強化學習是指讓模型

07:17 - 07:20

自己嘗試錯誤 並且找出最佳答案

07:20 - 07:23

如果答對了就加分 如果答錯了就扣分

07:23 - 07:26

而演算法是以獲得最高分為目標

07:26 - 07:30

我們可以把它當作是一種非監督式學習

07:30 - 07:31

所以大型語言模型

07:31 - 07:35

因為訓練用的資料非常龐大 沒有辦法

07:35 - 07:39

用人工標註 所以一般都是使用非監督式學習

07:39 - 07:43

也就是沒有標註的語料數據去訓練語言模型

07:43 - 07:47

也就是計算4000億個權重是多少

07:47 - 07:51

由於預訓練的數據沒有標註 因此還需要經過

07:51 - 07:56

第二個階段利用少量標註的數據來進行微調

07:56 - 08:00

這個就屬於監督式學習 當我們把4000億個

08:00 - 08:04

全做微幅調整 之後就會得到4000億個訓練

08:04 - 08:05

好的權重

08:05 - 08:09

接下來我們就利用訓練好的權重來推論

08:09 - 08:10

預測未來

08:10 - 08:14

接下來我們就介紹第四個第一代的推論模型

08:14 - 08:17

第四個網絡按第四個有哪些特色

08:17 - 08:21

首先就談到第四個它是一個偏重推論

08:21 - 08:25

能力的大型模型 透過大規模的強化學習

08:25 - 08:26

來提升推論的

08:26 - 08:28

能力 而第四個

08:28 - 08:32

level則是純粹依賴強化學習來展現

08:32 - 08:35

強大的推論能力 但是存在無限重複

08:35 - 08:36

可讀性差的問題

08:36 - 08:37

第四個把握則

08:37 - 08:42

是引入能啟動資料來進行監督式微調

08:42 - 08:45

也就是我們剛剛說過 用標註過的資料

08:45 - 08:49

來進行微調調整4000億個權重W的數字

08:49 - 08:53

在數學程式碼以及推論任務上的表現和

08:53 - 08:55

Open的One相當

08:55 - 08:56

這裡所謂的能啟動

08:56 - 08:58

它是人工智慧領域的

08:58 - 09:02

一個術語用來描述人工智慧模型在沒有任何先前

09:02 - 09:06

訓練資料的情況下 從頭開始訓練的情況

09:06 - 09:08

也就是導入從頭

09:08 - 09:12

開始訓練的冷資料進行監督式微調

09:12 - 09:13

而所謂的監督

09:13 - 09:17

式唯一就是在預訓練大型語言模型的基礎上

09:17 - 09:20

經過提供標記好的資料

09:21 - 09:24

進一步的訓練使得模型在特定任務

09:24 - 09:26

或者領域上表現得更好

09:26 - 09:28

也就是我們剛剛介紹 經由

09:28 - 09:32

少量標註的數據來進行監督式微調

09:32 - 09:35

此外 一個開源的AwayReveal

09:35 - 09:39

以及多個分流後的模型 例如阿裡巴巴的

09:39 - 09:41

就位於臉書的拉莫

09:41 - 09:42

其中利用第四個Await

09:42 - 09:46

去蒸餾阿裡巴巴的Queue為321

09:46 - 09:49

個參數 也就是321個權重

09:49 - 09:52

甚至超越了Openai的OneMini

09:52 - 09:54

展現了蒸餾

09:54 - 09:58

這個知識到開源模型出來的強大潛力

09:58 - 09:59

這裡的知識蒸餾

09:59 - 10:03

是一種人工智慧模型的壓縮技術 它是透過將

10:03 - 10:06

一個大型的複雜的神經網路又稱為教師

10:06 - 10:09

網路把教師網路的知識遷移

10:09 - 10:13

到一個小型簡化的神經網路又稱為學生

10:13 - 10:13

網路當中

10:13 - 10:17

這樣就可以減少模型的大小和計算量

10:17 - 10:20

也就是減少權重的數量

10:20 - 10:23

而且還能夠保持比較高的效能和精確度

10:23 - 10:25

因為教師網路這種

10:25 - 10:29

大型的神經網路已經是经過訓練的 所以

10:29 - 10:32

他推論出來的知識已經有一定的精確度

10:32 - 10:37

利用他推論出來的知識再去訓練學生網路

10:37 - 10:41

這種小型簡化的神經網路這樣就可以減少模型的

10:41 - 10:45

大小和計算量 也就是減少權重的

10:45 - 10:49

數量 而且還能夠保持比較高的效能和精確度

10:49 - 10:51

知識蒸餾主要有兩個步驟

10:51 - 10:54

包括訓練、教師、網路和訓練學生網路

10:54 - 10:58

第一步是使用標準的訓練程序 在資料

10:58 - 11:02

集上訓練大型複雜的神經網路也就是

11:02 - 11:05

教師網路意思是利用沒有標註的數據來

11:05 - 11:09

訓練教師網路的參數也就是權重

11:09 - 11:10

一旦教師網路

11:10 - 11:14

訓練完畢 他就會用訓練的資料來產生標註

11:14 - 11:17

所謂的標註就是告訴電腦標準答案

11:17 - 11:18

譬如這個是貓 那個是狗

11:18 - 11:23

而所謂的標註是具有類別紀律分佈的標註

11:23 - 11:27

而不是一般使用的捲標註一般我們的標註

11:27 - 11:30

是告訴電腦標準答案不是對就是錯

11:30 - 11:31

這個是屬於

11:31 - 11:35

硬標註又稱為二元標註 而所謂的軟標註

11:35 - 11:38

是具有類別的機率分佈 而不只是對和

11:38 - 11:39

錯這兩種

11:39 - 11:43

這些標註會比硬標註具有更多的訊息 就能夠

11:43 - 11:47

捕捉教師網路預測裡面的不確定性和武器

11:47 - 11:51

接下來第二步就是使用教師網路產生的標註

11:51 - 11:55

在同一個資料集上來訓練比較小的神經網絡

11:55 - 11:56

也就是學生網路

11:56 - 12:01

左邊這個圖就是教師網路 它具有更多的節點和

12:01 - 12:02

神經元 大家

12:02 - 12:06

要記得圈圈代表神經細胞箭頭代表突觸而圈圈

12:06 - 12:09

裡面的數字代表訊號強度箭頭

12:09 - 12:13

上面的數字代表權重也就是放大

12:13 - 12:13

倍數

12:13 - 12:16

左邊這個是教師網路 他的節點

12:16 - 12:20

也就是神經元的數量比較多 它的參數也

12:20 - 12:21

就是權重也比較多

12:21 - 12:23

我們利用教師網路

12:23 - 12:26

訓練出來的結果進行知識轉移 也

12:26 - 12:30

就是知識蒸餾 再利用這個數據來訓練

12:30 - 12:34

學生網路而學生網路具有更少的節點看

12:34 - 12:36

權重對學生網路

12:36 - 12:40

進行訓練 這樣可以儘量減少自身預測和

12:40 - 12:43

教師網路產生的標註之間的差異

12:43 - 12:47

這種方法背後的直覺就是標註比標註包含更

12:47 - 12:51

多關於輸入資料還有教師網路預測的資訊

12:51 - 12:53

而科學家就可以把

12:53 - 12:57

這些資訊從教師網路轉移到學生網路

12:57 - 12:58

因此學生網路

12:58 - 13:02

可以使用較小的模型做到教師網路的效果

13:02 - 13:07

而且它的正確性會接近甚至超越教師網路

13:07 - 13:10

因此學生網路可以學習捕捉這些額外的資訊

13:10 - 13:14

並且更好的推廣到新的應用案例

13:14 - 13:16

所以一個小的學生模型

13:16 - 13:19

可以學習模仿一個大的教師模型也就是右邊

13:19 - 13:23

這個小的學生模型可以學習模型 左邊這個大的

13:23 - 13:24

教師模型

13:24 - 13:27

並且利用老師的知識來獲得相似

13:27 - 13:29

或者更高的精確度

13:29 - 13:32

意思是未來我們用學生模型推論的時候相比

13:32 - 13:36

於教師模型會有相似 甚至更高的精確度

13:36 - 13:40

就好像青出於藍勝於藍很多學生畢業

13:40 - 13:42

之後的表現勝過老師一樣

13:42 - 13:45

接下來我們和大家介紹第四個娃娃的訓練方法

13:45 - 13:48

第四個是採用多階段訓練流程

13:48 - 13:52

結合了監督四維以及強化學習的技術

13:52 - 13:56

特別的在模型初始階段進行了

13:56 - 13:59

冷啟動微調最後再進行推論導向的強化

13:59 - 14:03

學習最後再進行一次的監督是微調和強化

14:03 - 14:04

學習 所以呢?

14:04 - 14:08

前後用了兩次的監督四維挑戰強化學習

14:09 - 14:11

這種訓練的策略主要就是為了要逐步

14:11 - 14:14

提升模型的推論能力和深層品質

14:14 - 14:18

另外 還使用了羣體相對策略優化

14:18 - 14:19

Ppo的技術

14:19 - 14:23

為了增強模型的推論能力 第四個引入了

14:23 - 14:26

羣體相對策略優化P的方法

14:26 - 14:28

這個方法不依賴評論器

14:28 - 14:31

所謂的評論器就是強化學習再決定

14:31 - 14:34

這個模型是答對了 要加分還是答錯了

14:34 - 14:35

要扣分的流程

14:35 - 14:39

而是通過羣組內的樣本相對表現來優化策略

14:39 - 14:43

這種沒有評論器的設計可以簡化計算 並且透過

14:43 - 14:46

相對獎勵機制來引導模型生成更

14:46 - 14:48

高品質的推論結果

14:48 - 14:49

而第四個公司

14:49 - 14:54

把他們的模型開源 並且提供真的流量的研究

14:54 - 14:58

第四個它的開源是為了社羣提供高品質的推論

14:58 - 15:01

資料 這些資料可以用來蒸餾

15:01 - 15:03

較小的模型 例如KV

15:03 - 15:07

或lambda3經過蒸餾後的模型在多項基準

15:07 - 15:08

測試中 表現

15:08 - 15:12

優異顯示了第四個 它可以提供高品質的資料集

15:12 - 15:17

用來蒸餾其他的模型可以提升模型的性能

15:17 - 15:19

那麼第四個ROne的推論能力

15:19 - 15:22

為什麼可以大幅藥劑呢?第一個原因就是推論的

15:22 - 15:27

能力初期獲得的方式和以前不同 主要是在訓練

15:27 - 15:29

第四個OneLevel的時候 發現

15:29 - 15:33

直接使用強化學習 這樣可以學習到驚人的推論

15:33 - 15:37

能力 但是產生的結果會有輸出語言不一致或者

15:37 - 15:41

不同語言夾雜在一起造成可讀性變差的問題

15:41 - 15:45

為了輸出更符合人類偏好的答案 因此需要監督

15:45 - 15:47

是唯一的步驟

15:47 - 15:50

也就是用標註過的資料去微調模型的參數

15:50 - 15:53

將第四個Awareness的輸出

15:53 - 15:57

經過人為整理格式 之後從第四個LAN

15:57 - 16:01

進行微調 它的目的是先推論過程再完成任務

16:01 - 16:04

輸出終究經由人類老師的校準 也

16:04 - 16:07

就是人工校準就可以獲得高品質的資料

16:07 - 16:10

第二個原因是使用兩階段的強化學習

16:11 - 16:14

第一個階段的強化學習主要是聚焦在推論

16:14 - 16:17

能力的提升 尤其是數學跟程式邏輯的問題

16:17 - 16:19

同時優化輸出語言的

16:19 - 16:20

一致性 這樣才

16:20 - 16:23

能夠解決輸出語言不一致的問題

16:23 - 16:24

也就是經過微調

16:24 - 16:27

之後的第四個LAN在這個階段的核心

16:27 - 16:28

訓練目標

16:28 - 16:31

而第二個階段的強化學習

16:31 - 16:34

則是在前一個階段強化推論

16:34 - 16:37

能力的基礎上 進一步結合人類的偏好

16:37 - 16:40

透過綜合獎勵機制優化模型的整體

16:40 - 16:43

表現 所以這整個模型訓練的過程

16:43 - 16:47

首先利用第四個LAN經過強化學習

16:47 - 16:49

得到Decision

16:49 - 16:49

Level再

16:49 - 16:53

經由第四個網絡產生能啟動的資料

16:53 - 16:55

經過監督式微調

16:55 - 16:57

也就是經過人類老師的校準

16:57 - 17:01

之後針對第四個第三 微調再來

17:01 - 17:04

經過第一次的強化學習得到第四個LAN

17:04 - 17:07

微調 並且強化學習之後的結果

17:08 - 17:11

再利用這個模型來產生資料

17:11 - 17:15

而這個資料在經過監督是微調 並且結合

17:15 - 17:19

監督唯一的資料進行第二次的強化學習

17:19 - 17:23

最後才得到第四個阿爾瓦羅性羣體相對策略

17:23 - 17:24

優化是什麼

17:24 - 17:27

它是一種強化學習的方法 是專門

17:27 - 17:30

用來提升人工智慧推論能力而設計的

17:30 - 17:34

比傳統的方法可以節省更多的計算資源相對

17:35 - 17:38

於傳統的計算策略優化這個稱為

17:38 - 17:41

Ppo這種羣體相對策略優化

17:41 - 17:44

APU省略了評論器 直接透過

17:44 - 17:48

組內比較獎勵來優化人工智慧的學習效果 也

17:48 - 17:51

就是直接利用數據裡面互相的

17:51 - 17:54

比較結果來判斷要加分還是扣分

17:54 - 17:55

這個特別適合

17:55 - 17:59

數學或者程式碼這一類需要邏輯推論的任務

17:59 - 18:01

羣體相對策略優化GRP都

18:01 - 18:02

是透過比較

18:02 - 18:06

人工智慧產生的多個答案 給表現比較好的答案

18:06 - 18:07

加分給表現

18:07 - 18:08

比較差的答案

18:08 - 18:10

扣分 讓人工智慧

18:10 - 18:14

自動學會選擇最好的輸出答案 而不像傳統

18:14 - 18:18

極端策略 優化是依賴固定的評分標準

18:18 - 18:21

那麼為什麼這一次科學家要使用羣體

18:21 - 18:24

相對策略油畫家Ppo拋棄評論器

18:24 - 18:28

因為傳統的強化學習裡面所使用的評論

18:28 - 18:31

器是負責評估動作的好壞 但是結果就會

18:31 - 18:33

帶來兩個問題

18:33 - 18:34

首先第一個是高 計算

18:34 - 18:37

成本第二個是評估的不穩定 而羣體

18:37 - 18:41

相對策略優化是透過組內獎勵的比較來

18:41 - 18:42

取代評論器

18:42 - 18:45

這樣可以降低計算的需求 還能夠讓訓練更

18:45 - 18:49

穩定評論器需要額外的參數 還有計算資源

18:49 - 18:53

而且評估錯誤的時候可能會導致人工智慧

18:53 - 18:56

學到錯誤的策略就會影響模型收斂的效果

18:56 - 18:58

相較之下 羣體

18:58 - 19:01

相對策略優化直接使用組內樣本的相對

19:01 - 19:03

優勢來更新策略 這樣

19:03 - 19:08

可以讓學習更直觀也避免的評論器可能帶來

19:08 - 19:09

錯誤評估的問題

19:09 - 19:13

可以確保人工智慧逐步向最優解靠攏

19:13 - 19:14

這種方法特別

19:14 - 19:17

適用在數學推論還有程式碼生成 這

19:17 - 19:21

一類可以透過明確的規則評估答案優劣的

19:21 - 19:24

場景讓訓練變得更高效更穩定

19:24 - 19:25

這篇在論文裡面簡單的

19:25 - 19:28

比較了第四個第三個第四個

19:28 - 19:31

這是一個613的模型大小 總數量

19:31 - 19:34

是6711 也就是有6710

19:34 - 19:36

億個權重使用

19:36 - 19:40

混合專家模型的架構 每個福泉Token

19:40 - 19:45

可以激勵371個參數一三的訓練方法包括

19:45 - 19:50

預訓練、監督式微調和強化學習使用14 8

19:50 - 19:54

個高品質的文本來進行預訓練 它的性能表現

19:54 - 19:57

在多項基準測試裡面 達到或者超越

19:57 - 19:58

其他開源模型

19:58 - 20:02

Nissan的應用場景主要適用在自然語言

20:02 - 20:05

處理相關的任務 例如文本生成閱讀

20:05 - 20:06

理解和機器翻譯

20:06 - 20:07

它創新的地方

20:07 - 20:12

在於採用混合專家模型的架構來提升效率 而且

20:12 - 20:14

結合大規模數據的預訓練和

20:14 - 20:15

多階段優化的流程

20:15 - 20:19

而一個它的模型大小總數量三

20:19 - 20:23

相當也是採用類似的混合專家模型架構

20:23 - 20:24

它的訓練方法

20:24 - 20:27

是引入多階段訓練流程 在冷啟動

20:27 - 20:31

微調之後進行推論導向的強化

20:31 - 20:35

學習最後再進行監督式微調第二次的強化

20:35 - 20:39

學習它的性能表現在推論的任務上表現優異

20:39 - 20:42

Openai的One表現相當特別是在數學

20:42 - 20:47

程式碼和推論任務裡面表現 優異它的應用場景

20:47 - 20:51

主要專注在深度推理任務 例如數學問題求解

20:51 - 20:54

或者程式碼的生成以及複雜問題的分析

20:54 - 20:58

它的創新點在於導入羣體相對策略優化

20:58 - 21:03

GRP的方法進行強化學習來改進推論的能力

21:03 - 21:08

特別設計針對沒有微調的模型來提升性能

21:08 - 21:10

最後我們介紹實驗 結果分析

21:10 - 21:12

也就是Dickson的模型

21:12 - 21:15

表現在下麵的表裡面 有些基準測試

21:15 - 21:16

並沒有提供

21:16 - 21:16

OpenAI

21:16 - 21:19

One的分數 但是從有提供的項目

21:19 - 21:20

來看Deep

21:20 - 21:22

在於OpenaiOne的對比

21:22 - 21:25

共計十一個項目裡面有四個項目

21:25 - 21:29

超越了OpenaiBOT 尤其是程序和

21:29 - 21:31

數學領域兩者的表現

21:31 - 21:32

非常接近

21:32 - 21:35

也就是在這個表裡面列出來的這四個項目 並

21:35 - 21:36

不是一個Aware的分數都

21:36 - 21:39

略為高於Option

21:39 - 21:40

最後我們讓大家看看

21:40 - 21:42

第四個ATE的蒸餾模型 對

21:42 - 21:44

開源的貢獻是什麼

21:44 - 21:46

它的一個貢獻 就是它透過

21:46 - 21:49

訓練Decision的高品質資料

21:49 - 21:50

可以進一步為

21:50 - 21:54

開源的大型語言模型 譬如阿裡巴巴的就為

21:54 - 21:57

臉書的拉瑪 所以並不是一個大的開源

21:57 - 22:02

對於社羣的貢獻就是提供高效模型訓練的策略

22:02 - 22:06

這是一種經由高品質資料和合理訓練的方法 讓

22:06 - 22:10

比較小的模型可以達到甚至超越大模型的方法

22:10 - 22:14

來降低算力需求讓模型的開發更容易達到

22:14 - 22:16

其次是推論能力的

22:16 - 22:18

普及化 使開源模型

22:18 - 22:20

也可以獲得強大的推論能力

22:20 - 22:23

推動人工智慧在數學程式設計這些領域的應用

22:23 - 22:24

最後是促進

22:24 - 22:29

開源社羣的創新可以基於這些高效的蒸餾技術

22:29 - 22:33

還有資料集進一步改進 並且發展出更多適用

22:33 - 22:34

在不同場景的

22:34 - 22:37

大型語言模型 譬如多模態大型語言模型

22:37 - 22:38

以往的人工智慧模型

22:38 - 22:42

大多是主打文字語音或者影像 其中一種模態

22:42 - 22:46

以及兩種模態之間的轉換譬如說文字和

22:46 - 22:49

語音互相轉換或是多模態的大型語言模型

22:49 - 22:51

可以處理整合性的資料

22:51 - 22:53

或者是多工多任務的模型

22:53 - 22:57

這些創新提升了模型的推論能力 還為開源社羣

22:57 - 22:59

提供了寶貴的資源

22:59 - 23:01

促進人工智慧領域進一步的發展

23:01 - 23:03

最後我們來看實驗的

23:03 - 23:06

結果是一個蒸餾模型的表現 利用

23:06 - 23:09

DeepAware去蒸餾阿裡巴巴的酒櫃

23:09 - 23:13

使用七十一個參數分別對應來源技術規模

23:13 - 23:18

老師模型的來源是第四個將老師的知識蒸餾

23:18 - 23:21

到阿裡巴巴的口味模型中 而阿裡巴巴的模型

23:22 - 23:24

參數是七十億個權重

23:24 - 23:26

所以在這個例子裡面第四個是教師模型

23:26 - 23:29

而阿裡巴巴的口味是學生模型一美國

23:29 - 23:30

數學邀請賽

23:30 - 23:34

a12014舉例 這是美國高中數學

23:34 - 23:38

比賽的問題主要是評估這個模型對數學推論和

23:38 - 23:40

邏輯的運算能力

23:40 - 23:43

從下麵的表裡可以看出 這是一個Away蒸餾

23:43 - 23:47

之後的處理含有七十一個參數和

23:47 - 23:48

321個參數

23:48 - 23:52

也就是黃色的部分來比較會發現經過蒸餾

23:52 - 23:56

之後的模型 它的分數比蒸餾前更高

23:56 - 23:58

所以蒸餾後的出來

23:58 - 24:02

只需要七十一個參數 就可以超越原來320

24:02 - 24:05

一個參數的模型 讓較小的模型

24:05 - 24:07

具有更強的推論能力

24:07 - 24:11

而第四個答案分類為320一個參數

24:11 - 24:12

按Open

24:12 - 24:16

One相比較 也就是下麵表裡面的綠色

24:16 - 24:17

可以看出

24:17 - 24:20

在與opena3onemini對比的時候

24:20 - 24:25

把原本為320一個參數經過第四個a一蒸餾

24:25 - 24:29

以後在多項基準測試裡面 達到或者超越

24:29 - 24:30

OpenOn

24:30 - 24:33

所以蒸餾後的模型分數

24:33 - 24:36

高於OpenADDonMini這代表蒸餾

24:36 - 24:37

之後的Queue

24:37 - 24:40

320一個參數具有匹敵Openai

24:40 - 24:41

模型的能力

24:41 - 24:41

這個實驗

24:41 - 24:45

證明了第四個額外產出的資料 其品質很高

24:45 - 24:49

而蒸餾的效果主要是取決在唯一資料的品質

24:49 - 24:52

因此 當口味為那麼透過高品質的資料

24:52 - 24:57

集来進行微調之後的基準測試分數明顯有

24:57 - 25:00

提升 甚至超越原來沒有蒸餾的大模型

25:00 - 25:01

最後證明的

25:01 - 25:03

資料 品質的影響力意思

25:03 - 25:07

是說 並不是模型的參數越多 性能就越好

25:07 - 25:09

而是高品質的資料集

25:09 - 25:13

可以讓比較小的模型 達到更高效的推論能力

25:13 - 25:16

而且這個實驗也證明了驗證蒸餾技術的有效性

25:16 - 25:20

如果蒸餾之後七十一個參數 也就是七十

25:20 - 25:22

一個權重的模型

25:22 - 25:26

能夠在推論數學邏輯 這些測試集把141

25:26 - 25:29

個參數模型 這就說明的蒸餾過程成功的

25:29 - 25:32

轉移了知識提升模型的性能 跟效率

25:32 - 25:33

最後我們和

25:33 - 25:36

大家談談第四個AW的結論跟後續的應用

25:36 - 25:38

第一個是關於監督的問題 在社羣

25:38 - 25:42

上有看到很多敏感詞 當使用者詢問的時候

25:42 - 25:44

第四個是不回答的

25:44 - 25:47

這個其實是利用應用來做近似

25:47 - 25:48

也就是第四個寫了

25:48 - 25:49

一個字來過濾

25:49 - 25:52

作者呢 是用了好幾次不同的提示

25:52 - 25:53

也就是不同的

25:53 - 25:56

文字來發問 例如寫小說罗馬數字的轉換

25:56 - 26:00

等等 發現模型可以正常的輸出推論的過程

26:00 - 26:03

但是模型輸出到關鍵詞的時候 瞬間

26:03 - 26:07

就會觸發應用層的審查機制馬上變成無法回答

26:07 - 26:08

這個代表

26:08 - 26:12

未來呢?第四個是在中國大陸許多文字會經過

26:12 - 26:16

審查 但是這個審查並不是在模型端做限制

26:16 - 26:18

而是利用應用層的軟體

26:18 - 26:20

來過濾第二個對於可能的應用

26:20 - 26:22

關於數學的題目啦

26:22 - 26:25

程式碼的問題可以考慮交給Docker來執行

26:25 - 26:26

那麼因為呢?

26:26 - 26:29

作者本身他是每個月付24美元給

26:29 - 26:30

Openai的用戶

26:30 - 26:33

在第四個娃娃還沒有出來之前

26:33 - 26:36

他要兢兢業業的使用一週只有五十次的配額

26:36 - 26:39

那麼有了第四個臺灣之後他的價格便宜很多

26:39 - 26:42

在人工智慧共處的時代 人類的生存跟價值證明

26:42 - 26:44

已經很辛苦了 沒想到連

26:44 - 26:45

思考過程的邏輯

26:45 - 26:48

跟漏洞都還可以被人工智慧搶着幫忙

26:48 - 26:52

不過作者很開心 很風起雲湧的大模型們來

26:52 - 26:54

學習應用在生活跟工作我們簡單做一個解決了

26:54 - 26:55

最後我們剪單做一個結論

26:55 - 26:58

這一次Deepseek公司開源的模型最大的特色就是

26:58 - 26:59

最大的特色就是

26:59 - 27:02

可以使用更低的運算資源

27:02 - 27:04

就達到訓練模型的效果

27:04 - 27:08

雖然公司宣稱只需要1%的運算資源

27:08 - 27:09

這個數據或許不容易達到

27:09 - 27:10

這個數據或許不容易達到

27:10 - 27:14

但是我相信10% 20%是很有可能

27:14 - 27:17

畢竟Deepseek公司敢把他的模型開源

27:17 - 27:20

而目前歐美的這些人工智慧公司

27:20 - 27:22

一定也在進行相關的測試

27:22 - 27:25

測試結果我相信一兩周之內就會發表

27:25 - 27:27

這一次Deepseek公司所發表的方法

27:27 - 27:31

其實很多人工智慧的科學家也是使用類似的方式

27:31 - 27:32

我很早以前就講過

27:32 - 27:33

未來的模型

27:33 - 27:37

並不是參數越多越好 模型越大越好

27:37 - 27:40

而是精準的小模型才是重點

27:40 - 27:42

總之人工智慧有三項重要的技術

27:42 - 27:44

第一個是演算法的改良

27:44 - 27:46

第二個是高品質的數據

27:46 - 27:48

第三個是強大的運算力

27:48 - 27:50

只要能夠掌握這三個項目

27:50 - 27:53

在人工智慧的賽道上就有機會勝出

27:53 - 27:55

好我們今天的節目到這邊

27:55 - 27:57

大家對於Deepseek這一次發表的模型

27:57 - 27:58

有任何問題

27:58 - 28:00

歡迎大家發表在影片的下方

28:00 - 28:01

我們再來討論

28:01 - 28:02

謝謝大家 晚安 Bye Bye

28:40 - 28:43

這一次Deepseek公司開源的模型最大的特色就是

28:43 - 28:44

最大的特色就是

28:44 - 28:47

可以使用更低的運算資源

28:47 - 28:49

就達到訓練模型的效果

28:49 - 28:53

雖然公司宣稱只需要1%的運算資源

28:53 - 28:54

這個數據或許不容易達到

Deepseek Model: Revolutionizing AI Inference with Efficient Computing Resources

The latest model open-sourced by Deepseek is turning heads in the tech world with its groundbreaking feature - achieving impressive model training results using significantly lower computational resources. Deepseek claims that their model requires only 1% of the usual computing power, sparking discussions about the potential impact on the AI landscape. This article dives deep into the fourth model released by Deepseek, exploring its unique characteristics, training processes, and inference capabilities.

Artificial Intelligence Training and Inference: A Recap

Before we delve into the specifics of Deepseek's fourth model, let's revisit the fundamentals of artificial intelligence training and inference. AI training involves collecting and processing vast amounts of data to create models that can make predictions or decisions. In contrast, inference, also known as prediction, leverages these trained models to make accurate predictions based on new data. The neural networks and large language models play a crucial role in the development and optimization of AI models.

Introduction to Deepseek's Fourth Model: Enhancing Inference Capabilities

Deepseek's fourth model stands out for its focus on enhancing inference capabilities through large-scale reinforcement learning. This model relies heavily on reinforcement learning to exhibit superior inference abilities. Furthermore, it introduces a unique data activation approach for supervised fine-tuning, emphasizing the significance of precision in model training. The model's training method emphasizes a multi-stage process combining supervised fine-tuning and reinforcement learning, along with the integration of population-based policy optimization techniques.

Experiment and Analysis: Pushing the Boundaries of AI Inference

In experimental analyses, Deepseek's fourth model showcases outstanding performance, especially in complex mathematical and logical reasoning tasks. The model's use of ensemble policy optimization strategies without a critic has proven effective in improving the model's inference capabilities while simplifying computations. The model's open-sourcing with access to high-quality data sets signifies a significant contribution to the AI community for distillation and model enhancement purposes.

Conclusion and Future Applications of Deepseek's Model

In conclusion, Deepseek's innovative approach to AI inference has the potential to revolutionize the field by demonstrating that precise, smaller models can outperform larger counterparts. As AI continues to evolve, mastering algorithms, high-quality data, and robust computing resources will be key to staying ahead in the AI race. With Deepseek's model paving the way for efficient inference capabilities, the future holds promising advancements in AI applications, promising a more intelligent and efficient future.

Deepseek's open-sourced model is a testament to the relentless pursuit of efficiency and accuracy in AI development. As we witness the integration of cutting-edge technologies like reinforcement learning and policy optimization into AI models, the possibilities for innovation and advancement in artificial intelligence seem endless. With Deepseek leading the charge, the future of AI looks brighter than ever.

Remember, the key to success in the AI arena lies in harnessing the power of efficient models and revolutionary technologies. As we navigate this ever-evolving landscape, Deepseek's model stands as a beacon of progress, guiding us towards a future where AI capabilities know no bounds. Let's stay curious, stay innovative, and continue pushing the boundaries of what AI can achieve.


Keywords: Deepseek, AI model, training, inference, reinforcement learning, neural networks, policy optimization