00:00 - 00:03

大家好,今天是2025年2月13日

00:03 - 00:04

欢迎来到安格视界

00:05 - 00:06

在上期视频

00:06 - 00:10

我分享了DeepSeek-R1的本地8B模型的部署

00:10 - 00:13

以及 API 671B 模型的部署

00:13 - 00:15

配合思考推理和联网

00:16 - 00:18

让DeepSeek-R1本地和API部署的实用性

00:18 - 00:19

大大提升

00:20 - 00:21

但还不够完美

00:21 - 00:22

存在一些问题

00:23 - 00:25

1,所分享的模型都有审核

00:26 - 00:26

大家都知道

00:26 - 00:29

在国内的模型审核是最严格的那种

00:30 - 00:33

2,思考推理的链接来自第三方域名

00:33 - 00:35

速度受到影响

00:35 - 00:37

有些API还不支持

00:37 - 00:40

3,硅基流动的671B满血版模型

00:40 - 00:42

访问速度过慢

00:42 - 00:45

本期视频就来解决上述三个问题

00:45 - 00:49

达到以下目标:1,分享本地8B越狱模型

00:49 - 00:52

(最大70B)彻底自我放飞

00:52 - 00:54

2,本地部署思考推理

00:54 - 00:56

转换链接,速度起飞

00:56 - 00:59

所有API都支持,免费

00:59 - 01:00

白嫖,无私货

01:00 - 01:02

3,除了硅基流动

01:02 - 01:04

再分享4个速度不错的API

01:04 - 01:06

满血671B模型

01:07 - 01:09

配合本地思考推理加联网搜索

01:09 - 01:10

堪称完美部署

01:10 - 01:12

先看效果

01:12 - 01:14

我先到DeepSeek-R1的官网

01:14 - 01:16

问他一个作死的话题

01:16 - 01:18

这是一段并不存在的历史

01:18 - 01:20

果然他根本都不用思考

01:20 - 01:22

直接就不理我了

01:22 - 01:25

现在来到我本地部署的DeepSeek-R1的UI

01:25 - 01:25

可以看到

01:25 - 01:28

我部署了一堆的DeepSeek-R1模型

01:28 - 01:31

包括阿里百炼、火山方舟、硅基流动

01:31 - 01:31

英伟达

01:31 - 01:34

以及深度求索的满血版的API模型

01:34 - 01:37

还有Groq的70B蒸馏模型

01:37 - 01:40

最后两个是本地部署的8B蒸馏模型

01:40 - 01:42

一个是越狱无审核的

01:42 - 01:43

一个是带审核的

01:43 - 01:45

现在切到越狱的8B模型

01:45 - 01:46

还是问这个问题

01:46 - 01:48

然后打开联网搜索,提交

01:48 - 01:50

然后他就开始爬网搜索,这个

01:50 - 01:51

搜索过程有点慢

01:51 - 01:53

好,他已经搜索出三个网站

01:53 - 01:54

点开看一下

01:54 - 01:56

他分别搜索的是维基

01:57 - 01:59

还有两个是纽约时报

01:59 - 02:00

都是境外的信息

02:00 - 02:02

好,他现在开始思考了

02:02 - 02:03

看一下他怎么思考的

02:03 - 02:05

内容我就不念了

02:05 - 02:07

可以看到他输出的速度还算是正常的

02:07 - 02:09

他对于事件的分析

02:09 - 02:11

我觉得还算是客观中立

02:11 - 02:12

为了节约时间

02:12 - 02:13

就再快进一下

02:14 - 02:16

接下来就是他正式的回答

02:16 - 02:17

他正式的回答

02:17 - 02:19

也保持了相同的输出速度

02:19 - 02:21

好,我们再快进一下

02:24 - 02:26

他的分析和回答都挺完整的

02:27 - 02:30

接下来就来看一下我这5个API

02:30 - 02:33

671B满血模型的反馈速度

02:33 - 02:36

阿里百炼的671B满血模型

02:36 - 02:38

先来问他一个莫名其妙的问题

02:38 - 02:40

这里没有做裁剪和加速

02:41 - 02:42

就是原生的速度

02:42 - 02:45

可以看到这个输出还是有一点卡顿

02:45 - 02:46

但还是能接受

02:46 - 02:48

以下就快进了

02:48 - 02:51

可以看到他输出正式答案的时候

02:51 - 02:53

他的输出速度和思考过程是一样的

02:53 - 02:54

以下也快进了

02:55 - 02:58

现在切到字节跳动的火山方舟

02:58 - 03:00

好,让他重新生成

03:00 - 03:02

可以看到他很快进入思考状态

03:02 - 03:05

而且这个思考的折叠非常的简洁

03:05 - 03:07

没有多余的夹带私货

03:07 - 03:10

输出的速度和阿里百炼差不多

03:10 - 03:11

略有卡顿

03:11 - 03:13

但还是能接受

03:13 - 03:15

他的思考过程过于详细了

03:15 - 03:16

所以这边就快进了

03:17 - 03:19

他的答案和阿里百炼也差不多

03:20 - 03:22

就是两个人结婚的时候生了个小孩

03:22 - 03:24

就是1+1=3

03:24 - 03:27

接下来换成硅基流动的Pro版的

03:27 - 03:30

671B的DeepSeek-R1大模型

03:30 - 03:32

好,重新生成

03:32 - 03:35

他也很快的进入了思考的过程

03:35 - 03:37

输出的速度还算快

03:37 - 03:39

至少比之前硅基流动

03:39 - 03:42

提供的那个DeepSeek-R1的模型快多了

03:42 - 03:43

这里为了节约时间

03:43 - 03:44

直接快进

03:45 - 03:47

他给出的答案是,算错的时候

03:47 - 03:49

当然他也提了家庭繁殖的场景

03:50 - 03:52

这个答案应该也没什么问题

03:52 - 03:54

再来看一下硅基流动

03:54 - 03:58

之前的DeepSeek-R1模型切换好了

03:58 - 03:59

再点击重新生成

04:00 - 04:01

我在这里等了半天

04:01 - 04:02

他都没反应

04:03 - 04:04

最后我只好放弃了

04:04 - 04:07

可能正因为这个模型使用的人太多了

04:08 - 04:08

硅基流动

04:08 - 04:11

才推出了一个新的Pro版的模型

04:12 - 04:13

接下来看一下

04:13 - 04:16

英伟达提供的DeepSeek-R1

04:16 - 04:17

满血版的模型

04:17 - 04:19

好,重新生成

04:19 - 04:21

可以看到他很快就进入思考状态

04:22 - 04:24

而且他输出是非常的快

04:24 - 04:28

在我测试过的几个满血版的模型当中

04:28 - 04:29

应该是最快的

04:29 - 04:30

好,为了节约时间

04:30 - 04:32

给他加速显示

04:32 - 04:34

可以看到答案是差不多

04:34 - 04:35

但他的速度确实很快

04:36 - 04:36

04:36 - 04:40

再来验证一下官方原版的API的速度

04:40 - 04:43

这个肯定也是满血版的671B的模型

04:43 - 04:44

可以看到

04:44 - 04:47

官方原版的API的速度并不快

04:48 - 04:49

进入思考状态

04:49 - 04:51

都要等比较长的一段时间

04:51 - 04:54

好,还没有进入思考状态

04:54 - 04:55

好,现在开始了

04:56 - 04:56

可以看到

04:56 - 04:59

他现在思考输出的速度还算正常

04:59 - 05:01

好,现在给他加速显示

05:01 - 05:04

可以看到这个答案略有差异

05:04 - 05:05

但总体没什么问题

05:06 - 05:08

最后来看一下Groq的70B的蒸馏模型

05:08 - 05:12

可以看到他已经光速进入思考状态

05:12 - 05:13

而且光速完成了思考

05:13 - 05:14

光速的输出了

05:14 - 05:15

答案

05:15 - 05:18

只可惜他是一个70B的蒸馏模型

05:18 - 05:20

而且他的答案好像并不聪明

05:20 - 05:22

并没有家庭繁衍的答案

05:23 - 05:25

那根据刚才的验证

05:25 - 05:27

我们可以很轻松的得到

05:27 - 05:28

这样一个结论

05:29 - 05:32

Groq的70B蒸馏模型显然是最快的

05:32 - 05:35

其次是英伟达的满血版模型

05:36 - 05:38

速度完全满足使用需求

05:39 - 05:40

然后硅基流动的

05:40 - 05:43

最新的Pro版的满血版的模型

05:43 - 05:46

以及阿里百炼的满血版模型

05:46 - 05:48

以及火山方舟的满血版模型

05:48 - 05:50

基本处于同一个速度

05:51 - 05:52

略有卡顿

05:52 - 05:54

但基本还是可用的

05:54 - 05:58

深度求索的官方版的满血版的模型

05:58 - 05:59

那就要拼人品了

06:00 - 06:01

他一下快一下慢

06:02 - 06:03

这一段时间

06:03 - 06:06

深度求索的官方的应用以及API

06:06 - 06:08

都要拼人品才能使用

06:08 - 06:11

至少暴露他们两个问题

06:11 - 06:13

第一个,就是他们的算力不够

06:13 - 06:15

第二个,就是他们的服务器架构

06:15 - 06:17

并不能满足高并发的请求

06:18 - 06:20

所以我们在部署API版的

06:20 - 06:22

DeepSeek-R1的模型的时候

06:23 - 06:24

应该要优先选择

06:24 - 06:28

英伟达的DeepSeek-R1的满血版模型

06:28 - 06:29

其次

06:29 - 06:31

才是硅基流动的Pro版的满血版模型

06:31 - 06:34

和阿里百炼的满血版模型

06:34 - 06:36

以及火山方舟的满血版模型

06:39 - 06:41

好,先来看一下本方案的架构

06:41 - 06:43

这个是上个视频的架构

06:43 - 06:44

也就是说

06:44 - 06:47

本方案是基于上个视频的方案

06:47 - 06:48

进行的优化和升级

06:49 - 06:49

前提是

06:49 - 06:53

要在本机部署好Ollama和Open-WebUI

06:53 - 06:53

如果

06:53 - 06:56

没有部署Ollama和Open-WebUI的同学

06:56 - 06:58

请去刨一下我上期视频

06:58 - 07:00

当然如果需要公网访问

07:00 - 07:03

还需要在路由器端部署lucky

07:03 - 07:06

将Open-WebUI的服务反代理成域名

07:06 - 07:07

就可以在任意地方

07:07 - 07:10

访问家里的Open-WebUI服务

07:10 - 07:12

也就是DeepSeek-R1的服务

07:12 - 07:14

这个是本方案的架构

07:14 - 07:17

在上期视频也有同学问到我的NAS

07:17 - 07:17

的配置

07:17 - 07:20

那这里也做一个简要的说明

07:20 - 07:25

它的CPU是英特的志强E3/1271/V3

07:25 - 07:26

这是个神U啊

07:26 - 07:28

当年是几百块钱

07:28 - 07:30

现在应该几十块钱

07:30 - 07:31

就可以在闲鱼拿到了

07:31 - 07:34

然后内存是32G

07:34 - 07:37

GPU就是1080/8G的显卡

07:37 - 07:39

那这个配置我试了一下

07:39 - 07:41

跑8B的模型是一点问题都没有

07:42 - 07:44

再大一点的模型就够呛了

07:44 - 07:44

可以看到

07:44 - 07:47

主要的架构跟上期视频也差不多

07:48 - 07:50

主要就是下载了一个新的

07:50 - 07:52

8b的越狱版的模型

07:53 - 07:54

然后就是通过Python

07:54 - 07:55

在本地部署了

07:55 - 07:58

思考链接转换的应用程序

07:58 - 08:00

这样就可以让接入API的

08:00 - 08:02

比如英伟达、硅基流动

08:02 - 08:03

阿里百炼

08:03 - 08:04

火山方舟

08:04 - 08:08

以及深度求索的原版的DeepSeek-R1 API

08:09 - 08:13

在Open-WebUI上能显示详细的思考过程

08:13 - 08:14

那在上期视频

08:14 - 08:15

我介绍的是

08:15 - 08:17

通过第三方的域名

08:17 - 08:19

来转换这个API的地址

08:19 - 08:20

那这个方案呢

08:20 - 08:21

主要有两个问题

08:21 - 08:24

在本方案中就不再使用

08:24 - 08:27

第一个问题,是你访问第三方的域名

08:27 - 08:31

他就接管了你访问DeepSeek-R1 API

08:31 - 08:32

所有的请求

08:32 - 08:34

也就没有半点的隐私了

08:34 - 08:36

第二个问题,是这个第三方的域名

08:37 - 08:38

他除了给你用

08:38 - 08:39

也会给其他人用

08:39 - 08:40

如果有很多人

08:40 - 08:43

去访问这个第三方的域名

08:43 - 08:45

然后所有的输入和输出的请求

08:45 - 08:46

都通过这个域名

08:47 - 08:49

那必然会导致慢和卡顿

08:49 - 08:51

那在本地部署的思考链接的转换

08:51 - 08:53

就完全没有这两个问题

08:54 - 08:56

好,下面就开始本方案的实施

08:57 - 08:59

本方案的实施有两个前提条件

08:59 - 09:01

第一个,是要按照我上期视频

09:01 - 09:03

做好对应的配置

09:03 - 09:05

主要就是Ollama和Open-WebUI

09:06 - 09:07

第二个是,要能科学上网

09:08 - 09:10

我们访问Open-WebUI的终端

09:10 - 09:11

是不需要科学上网的

09:11 - 09:15

但是部署Open-WebUI的NAS或路由器

09:15 - 09:16

是需要科学上网的

09:16 - 09:19

因为如果我们要用到联网搜索

09:19 - 09:21

就要用到搜索引擎

09:21 - 09:24

那这个搜索引擎无论是谷歌的PSE

09:24 - 09:26

还是DuckDuckGo

09:26 - 09:28

都需要上外网

09:28 - 09:30

关于局域网上外网的方案

09:30 - 09:32

可以参考一下我的完美网络9

09:33 - 09:35

这应该是全网最快的

09:35 - 09:36

OpenClash的配置方案

09:36 - 09:38

当然上外网还有一个条件

09:39 - 09:41

就是需要一个稳定的机场

09:41 - 09:42

需要换机场的同学

09:42 - 09:43

可以考虑一下

09:43 - 09:46

UP正在深度使用的四个机场

09:46 - 09:47

这四个机场

09:47 - 09:50

UP每隔一段时间都会循环切换使用

09:50 - 09:53

以验证这些机场的稳定性

09:53 - 09:53

而且

09:53 - 09:56

本UP也拿到了他们全网的最大折扣

09:57 - 09:58

稍微有点遗憾

09:58 - 09:59

就是猫耳机场

09:59 - 10:02

已经由之前的6折提升到了7.5折

10:02 - 10:05

牛逼机场由原来的8折提升到了9折

10:05 - 10:08

还好红杏机场和快猫机场

10:08 - 10:11

依然保持他们的最大力度的折扣

10:11 - 10:12

5折和7折

10:12 - 10:14

快猫机场是IPLC专线

10:14 - 10:17

红杏也提供了全新的IPL专线

10:17 - 10:19

表现相当稳定

10:19 - 10:22

需要折扣券的同学请进电报群领取

10:22 - 10:25

电报群我会公示在视频简介里

10:25 - 10:28

好,两个前提条件都准备好之后

10:28 - 10:30

我们来开始设置本方案

10:31 - 10:32

部署本方案分三步

10:33 - 10:33

第一步

10:33 - 10:37

是去下载越狱版的DeepSeek-R1蒸馏模型

10:37 - 10:39

这里就要打开Ollama的官网

10:39 - 10:42

然后在模型那里搜索huihui

10:42 - 10:44

选择第一个,点进去

10:44 - 10:47

可以看到模型从7B到70B都有

10:48 - 10:50

选择好合适的模型之后

10:50 - 10:51

点击右边的复制

10:51 - 10:54

再到安装了Ollama的电脑上

10:55 - 10:56

粘贴这个下载指令

10:56 - 10:57

直接回车

10:57 - 10:58

他就会开始下载模型了

10:58 - 11:01

我这里的模型都已经下载好了

11:01 - 11:02

所以就不重复执行了

11:03 - 11:04

现在开始第二步

11:04 - 11:08

就是去配置第三方的DeepSeek-R1满血版

11:08 - 11:10

大模型的API

11:10 - 11:13

硅基流动和Groq的API的配置

11:13 - 11:15

在上个视频已经讲的很清楚了

11:15 - 11:17

那本视频就不再重复了

11:17 - 11:19

现在配官网原版的

11:19 - 11:20

就是深度求索原版的

11:21 - 11:22

先要去深度求索的官网

11:22 - 11:24

去注册一个账号

11:24 - 11:26

然后打开他的后台网址

11:26 - 11:28

这个网址我会放在视频简介里

11:28 - 11:30

然后打开他的API Key

11:31 - 11:32

去创建一个新的API Keyey

11:33 - 11:35

那我的账号因为是之前注册的

11:35 - 11:37

所以他赠送了10块钱的余额

11:37 - 11:40

那新注册的用户他是没有赠送的

11:41 - 11:43

那目前官方已经关闭了充值的通道

11:44 - 11:46

所以即便你有了API Key也用不了

11:46 - 11:49

那只有等官方恢复了这个充值通道

11:49 - 11:51

我们进行充值之后

11:51 - 11:52

这个API才能使用

11:53 - 11:55

接下来我们配置火山方舟的API

11:56 - 11:57

好,打开这个网址

11:57 - 12:00

这个网址我也会放在视频简介里

12:00 - 12:03

它是字节跳动旗下的AI平台

12:03 - 12:06

所以可以直接用抖音或者是头条登录

12:07 - 12:09

那我这边就选择用头条登录

12:09 - 12:11

在手机上打开头条的应用

12:11 - 12:12

然后扫码

12:13 - 12:16

在模型广场选择DeepSeek

12:16 - 12:19

可以看到DeepSeek-R1的模型

12:19 - 12:20

再到开通管理

12:20 - 12:22

至少要把这两个模型给它开通掉

12:22 - 12:24

然后再到API Key管理

12:24 - 12:26

去创建一个新的API Key

12:26 - 12:28

复制保存下来

12:28 - 12:30

再到在线推理

12:30 - 12:32

去创建一个推理的接入点

12:32 - 12:35

也就是模型的ID,要将

12:35 - 12:37

这个ID复制下来

12:38 - 12:41

在Open-WebUI里面填入API的接口

12:41 - 12:44

地址、密钥以及这个模型ID

12:44 - 12:46

检验失败也不用管

12:46 - 12:48

保存再保存就可以用了

12:49 - 12:52

接下来配置阿里百炼的DeepSeek-R1可的API

12:53 - 12:54

打开阿里百炼的地址

12:55 - 12:57

用阿里云或支付宝扫码

12:57 - 12:59

都可以,登录到模型广场

12:59 - 13:00

选择DeepSeek-R1

13:00 - 13:02

第一个就是DeepSeek-R1

13:02 - 13:03

的满血版的大模型

13:03 - 13:05

好,点进去看一下

13:05 - 13:07

然后右边有API的示例

13:07 - 13:10

可以查看到API地址的接口以及模型

13:11 - 13:14

在右上角点击查看我的API Key

13:14 - 13:15

就可以创建API Key

13:16 - 13:17

然后再按刚才的方法

13:18 - 13:21

在Open-WebUI里面添加地址

13:21 - 13:23

密钥和模型就可以了

13:23 - 13:25

最后添加英伟达的API

13:25 - 13:26

打开这个网址

13:26 - 13:29

这个网址我会放到视频简介里

13:29 - 13:30

点击右上角的登录

13:30 - 13:33

然后填入邮箱进行注册

13:33 - 13:34

再进行登录

13:34 - 13:37

再点击第一个卡片DeepSeek-R1

13:37 - 13:39

右边就可以看到它的API地址

13:39 - 13:40

和模型的名称

13:40 - 13:42

点击右边的Get API key

13:42 - 13:45

根据提示就可以创建API key

13:46 - 13:48

就可以在Open-WebUI里面

13:48 - 13:50

添加英伟达的API

13:50 - 13:52

地址、key和模型了

13:53 - 13:55

好,现在开始第三步

13:55 - 13:57

在本地部署思考转换链接服务

13:58 - 14:00

首先我们要去下载Python的最新版

14:00 - 14:02

那来到他的官网

14:02 - 14:05

这个官网地址我会放在视频简介里

14:05 - 14:08

然后选择对应的版本下载

14:08 - 14:09

然后再安装

14:09 - 14:11

勾选这个选项

14:11 - 14:12

然后开始安装

14:12 - 14:15

按照默认一步步安装就可以了

14:15 - 14:16

然后重启下电脑

14:16 - 14:19

然后要到我的GitHub的这个仓库

14:19 - 14:22

仓库的地址我会放在视频简介里

14:22 - 14:24

然后将这个仓库的所有文件

14:25 - 14:27

按zip下载下来

14:27 - 14:29

放到一个容易记的目录(解压出来)

14:29 - 14:31

我这边是放到d盘的

14:31 - 14:34

Python的DS2URL

14:34 - 14:37

这里我对这几个文件做一下说明

14:37 - 14:41

AL.py是阿里百炼的地址转换

14:41 - 14:43

Ark.py是火山方舟

14:44 - 14:46

DS.py是深度求索

14:47 - 14:50

NV.py是英伟达

14:50 - 14:53

SF.py是硅基流动

14:53 - 14:56

现在来看一下AL.py的原代码

14:56 - 14:58

那了解了它的原理之后

14:58 - 15:00

那也以后我们添加新的接口

15:00 - 15:01

就好修改了

15:01 - 15:03

我们要修改的地方总共有三个

15:04 - 15:05

下面这一行地址

15:05 - 15:09

就是阿里百炼的API的接口地址

15:09 - 15:11

这个地址的后半部分

15:11 - 15:12

我们可以复制过去

15:12 - 15:15

然后替换到这个地址

15:15 - 15:18

第三个要修改的地方就是拖到最下面

15:18 - 15:19

他的端口号

15:19 - 15:22

那现在这个阿里百链的地址

15:22 - 15:24

用的端口是9004

15:24 - 15:27

这个端口号每个API接口都要不同

15:28 - 15:29

不能有冲突

15:30 - 15:32

接下来看一下Start_Sub.py

15:32 - 15:33

那这个程序

15:33 - 15:36

实际上是一次性执行5个接口的程序

15:37 - 15:39

那你们可以根据自己的实际情况

15:39 - 15:40

进行修改

15:40 - 15:42

而这个Start.bat

15:42 - 15:46

它实际上就是去执行Start_Sub.py

15:46 - 15:47

下面这个Start

15:47 - 15:50

就是Start.bat的快捷方式

15:50 - 15:53

我们可以把它丢到系统的启动目录

15:53 - 15:55

这样每次系统重启的时候

15:55 - 15:57

就能自动执行

15:57 - 15:59

执行之后它就长这个样子

15:59 - 16:02

上面呢就表示在执行这些程序

16:02 - 16:05

然后下面最关键的可以看得到

16:05 - 16:06

这些端口号

16:06 - 16:08

只有显示了这些端口号

16:08 - 16:09

才表示运行成功

16:09 - 16:10

我这里是

16:10 - 16:11

5个不同的端口

16:11 - 16:13

然后我们要在防火墙里面

16:13 - 16:14

开放这五个端口

16:15 - 16:18

那我这边是开放了9001到9010

16:18 - 16:19

包括了这五个端口

16:20 - 16:20

然后

16:20 - 16:23

就是要到Open-WebUI里面去进行配置

16:24 - 16:25

到管理员面板

16:25 - 16:26

然后设置

16:27 - 16:28

然后外部链接

16:29 - 16:29

外部链接

16:29 - 16:30

这里可以看到

16:30 - 16:32

我这边已经完全配置了

16:32 - 16:34

这个转换的链接对吧

16:34 - 16:39

从9003到9004到9005到9006、9007

16:41 - 16:43

好看一下9004

16:43 - 16:45

这个是阿里百炼的

16:45 - 16:46

那这个URL

16:46 - 16:49

就是刚才部署了Python程序的

16:49 - 16:52

IP地址加它的端口号9004

16:52 - 16:53

然后/v1

16:53 - 16:57

下面的密钥和模型ID都用它官方的

16:57 - 17:00

那这里可以看到它有V1也有V3

17:00 - 17:03

像这个9005后面是V3

17:03 - 17:06

我们去检查一下火山方舟的原代码

17:06 - 17:08

它的端口就是9005

17:09 - 17:10

然后拖到上面

17:10 - 17:14

可以看到它的API接口就是带V3

17:15 - 17:17

然后上面也是V3

17:17 - 17:19

这样就能对应上了

17:20 - 17:20

最后

17:20 - 17:24

我的本地部署显示思考过程的代码

17:24 - 17:27

是基于这位大佬的代码修改的

17:28 - 17:29

大家如果觉得

17:29 - 17:31

本地部署显示思考过程的方式

17:31 - 17:32

过于复杂

17:32 - 17:34

可以直接用这位大佬提供的

17:34 - 17:36

现成的服务

17:36 - 17:40

当然还可以去给他的项目点上小星星

17:40 - 17:41

在此表示感谢

17:42 - 17:45

好,以上就是本期视频的全部内容

17:45 - 17:48

如果有业务合作或者需要付费支持

17:48 - 17:50

请加电报联系我

17:50 - 17:52

如果你觉得视频质量不错

17:52 - 17:54

欢迎点赞、评论和转发

17:55 - 17:56

更欢迎赞助本频道

17:56 - 17:58

我们下个视频,再见!

Optimizing DeepSeek-R1 Models Deployment: Local 8B Models and API Solutions

In this latest video from Angeshi Tech on February 13, 2025, titled "Optimizing DeepSeek-R1 Models Deployment," we delve into the deployment of the local 8B model and API, addressing key issues faced in the previous deployment. The focus is on enhancing practicality and addressing challenges such as model audits and API support.

Key Enhancements:

  1. Enhanced Local 8B "Jailbreak" Model: Upgrading the local 8B model for improved performance and flexibility, pushing the boundaries up to 70B.
  2. Efficient API Deployment: Implementing local deployment of inference reflection to boost processing speed and support for multiple APIs, ensuring free and unbiased access.
  3. Expanded Model Selection: Introducing four high-speed APIs to complement the full-blooded 671B model with local inference reflection, offering a well-rounded deployment solution.

Addressing Challenges:

  • Model Audits: Overcoming the stringent model auditing process in China by exploring innovative local deployment options.
  • Third-Party Domain Links: Mitigating speed issues caused by third-party domain reliance, enhancing compatibility across various APIs.
  • Swift API Feedback: Choosing the fastest models, such as Groq's 70B distilled model, for efficient performance and timely output.

The demonstration reveals a step-by-step approach to configuring the DeepSeek-R1 models, including downloading the jailbreak 8B model, setting up APIs from various providers like Aliyun, ByteDance's Volcano Ark, NVIDIA, Silicon Dynamics, and Deep Inquiry. Moreover, deploying Python for link transformation services and configuring firewall settings for optimal performance are also highlighted.

In conclusion, the video sheds light on the pivotal role of local inference reflection, API model selection, and efficient deployment architecture for DeepSeek-R1. As we strive for seamless integration and improved speed, leveraging local resources and APIs strategically is vital to achieving an optimal deployment setup.

Explore the intricacies of DeepSeek-R1 deployment and witness the transformation in the efficiency and performance of these cutting-edge models. Stay tuned for our next video, where we delve deeper into the realm of AI deployment solutions. Remember, optimization is the key to unlocking the full potential of AI technologies!


By optimizing DeepSeek-R1 models deployment, we pave the way for a more efficient and streamlined AI experience. Dive into the realm of local 8B models and API solutions to witness the next chapter in AI innovation and deployment strategies. Let's embark on this journey together to unlock the full potential of DeepSeek-R1 models.