00:00 - 00:01

哈喽大家好

00:01 - 00:02

我是你们喜欢的牛哥

00:03 - 00:04

时光飞逝

00:04 - 00:06

如白驹过隙

00:06 - 00:07

光阴荏苒

00:07 - 00:09

恰似岁月蹉跎

00:09 - 00:10

不经意间

00:10 - 00:13

时间的沙漏从我们的指缝间流走

00:13 - 00:17

恍惚间不知觉2024它过完了

00:18 - 00:19

对今天呢

00:19 - 00:22

我们这期视频就聊一聊经历了2024年

00:22 - 00:25

那AI又发展到什么程度了

00:25 - 00:27

在那个时候

00:27 - 00:28

AI呢

00:28 - 00:30

我记得是牛哥最开始起源

00:30 - 00:31

想做这个频道

00:31 - 00:32

就是因为AI

00:32 - 00:34

这二三年其实是蛮火的

00:34 - 00:37

当时呢主要表现在两个地方

00:37 - 00:38

一个是ChatGPT

00:38 - 00:40

带火了一个文本这个领域

00:40 - 00:41

然后stable diffusion呢

00:41 - 00:43

它带火了这个图

00:43 - 00:45

就是这个生图的这种能力

00:45 - 00:47

其实他们两个能火起来呢

00:47 - 00:50

源于 人们就是猎奇的这一种本性

00:50 - 00:51

为什么呢

00:51 - 00:52

首先ChatGPT呢

00:52 - 00:54

它带给我们的就是一种神奇

00:54 - 00:56

发现电脑真的变得智能了

00:56 - 00:58

连OpenAI自己的人都说哦

00:58 - 00:59

它智能了

00:59 - 01:01

然后他们也会觉得很神奇

01:01 - 01:02

所以大家都会去了解

01:02 - 01:04

当然它确实也能够实际的

01:04 - 01:06

去产生很多很多东西

01:06 - 01:06

所以说

01:06 - 01:09

网上后来就各种AI生成的文字满天飞

01:09 - 01:10

然后呢

01:10 - 01:11

stable depution呢

01:11 - 01:13

它属于一个创意

01:13 - 01:14

就是以前做图

01:14 - 01:16

那真的是是吧

01:16 - 01:17

专业美工是吧

01:18 - 01:19

专业深造

01:19 - 01:21

但stable depution让这个图片突然间

01:21 - 01:22

就能生成了

01:22 - 01:24

这样好这样天衣无缝

01:24 - 01:26

所以也是玩的人越来越多

01:26 - 01:27

他们两个呢

01:27 - 01:28

一个是在云端玩的

01:28 - 01:29

一个是在本地玩的

01:29 - 01:32

这是2023年底的一个状况

01:32 - 01:33

那么到今天

01:33 - 01:35

2024年又成长了一年

01:35 - 01:37

那AI到了什么程度

01:37 - 01:38

那不废话

01:38 - 01:40

还是牛哥给大家曾经分过类

01:40 - 01:42

看AI就看四个方面

01:43 - 01:44

首先呢就是文本

01:44 - 01:45

然后图片

01:45 - 01:46

音频视频

01:46 - 01:47

就万变不离其中

01:47 - 01:49

它离不开这几块

01:49 - 01:52

文本呢不管是内容本身

01:52 - 01:53

就是说

01:53 - 01:54

还是说

01:54 - 01:56

它其实是可以拟人的

01:56 - 01:57

怎么理解呢

01:57 - 01:58

内容本身

01:58 - 01:59

它本身可以去创作

01:59 - 02:01

我最近听说

02:01 - 02:04

有人用那个最新的ChatGPT4O

02:04 - 02:06

O1 去微调之后

02:07 - 02:08

然后去做什么呢

02:08 - 02:09

做那个标书定制

02:09 - 02:12

就是 你给他把招标的信息发里

02:12 - 02:14

然后把你的信息发里

02:14 - 02:15

标书自动就出来了

02:15 - 02:16

一套卖几万

02:16 - 02:17

据说还卖的不错

02:18 - 02:19

还卖的不错

02:20 - 02:21

这是一个内容本身的

02:21 - 02:22

然后拟人化就不用说了

02:22 - 02:24

就是说我们人与人沟通

02:24 - 02:25

人与人交流

02:25 - 02:28

那这种文字的表达就是内核

02:28 - 02:31

就像就像本视频开始一样

02:31 - 02:34

是吧牛哥也简单写写了一首小诗

02:34 - 02:36

是吧就是文本

02:36 - 02:38

其实核心就是文本

02:38 - 02:39

虽然你听到的是声音

02:39 - 02:41

但是最终还是文本

02:41 - 02:42

那种属于语言的艺术

02:42 - 02:43

也就是语文嘛

02:43 - 02:44

语言的文化

02:45 - 02:46

这是文本这一块

02:46 - 02:47

文本这一块

02:47 - 02:49

嗯这一块来讲

02:49 - 02:51

就是目前已经达到非常非常

02:52 - 02:54

我认为是比较成熟的状态了

02:54 - 02:56

不管是你是用这个ChatGPT

02:56 - 02:58

花钱的还是你本地呢

02:58 - 03:00

你去应用一些大模型

03:00 - 03:01

这里给大家推荐几个

03:01 - 03:02

如果你是做

03:02 - 03:05

西方的那你没什么可说的

03:05 - 03:06

llama就是

03:06 - 03:07

就是llama

03:07 - 03:10

3.2 为什么不用3.33.3

03:10 - 03:11

只有70B

03:11 - 03:12

而且3.22呢

03:12 - 03:13

还有一个vison版本

03:13 - 03:14

它是支持图片识别的

03:15 - 03:17

如果你是玩亚洲语系列的

03:17 - 03:19

那么同样我推荐你一个叫千问

03:19 - 03:20

这大家应该都知道

03:20 - 03:21

Qwen2.5

03:22 - 03:25

2.5他要上至少上14B

03:25 - 03:27

上14B的3.2呢

03:27 - 03:29

你要上至少7B以上

03:30 - 03:31

大概是这样

03:31 - 03:33

如果你是vison的话就是11B

03:33 - 03:34

vison是11B

03:34 - 03:36

所以说这块就不多说了

03:36 - 03:37

所以说

03:37 - 03:38

大家都可以玩的起来

03:38 - 03:39

03:39 - 03:42

包括牛哥也做了很多这个这个本地跑

03:42 - 03:42

这些模型的

03:42 - 03:44

这些视频本地部署 等等

03:44 - 03:46

大家可以不知道去翻一下

03:46 - 03:48

我们不浪费时间往下走

03:49 - 03:50

然后图片这一块呢

03:50 - 03:53

其实图片这块主要呢就分两类

03:53 - 03:54

一个是质量提升

03:54 - 03:56

一个是创意生成

03:57 - 04:00

主图片其实跟视频有一定共通

04:00 - 04:02

但是他会比视频的这个要求会低

04:02 - 04:03

然后这一块呢

04:03 - 04:05

随着stable defusion的发展

04:05 - 04:09

其实它相对来讲就算是蛮成熟的了

04:09 - 04:10

所以这块我们也不再去赘述

04:11 - 04:13

那真正在24年比较常驻发展的

04:13 - 04:14

就是下面这块

04:14 - 04:15

就是音频和视频

04:15 - 04:16

音频和视频

04:16 - 04:18

那音频这块呢

04:18 - 04:20

我们可以简单理解音频

04:20 - 04:23

它是一个语言发声

04:23 - 04:25

互动的这样一个途径

04:25 - 04:26

那从源头起呢

04:26 - 04:27

第一件事是什么呢

04:27 - 04:29

叫就是识别声音

04:29 - 04:30

也就是声音识别

04:30 - 04:33

专业叫speech recugnation

04:33 - 04:35

就是语音识别

04:35 - 04:35

这一块呢

04:35 - 04:38

其实大家也不用去找各种各样的绕

04:38 - 04:39

是吧

04:39 - 04:40

最好的whisper

04:40 - 04:43

whisper 这里面提到了很多项目

04:43 - 04:44

是吧提到很多项目

04:44 - 04:46

大家可以去这个发

04:46 - 04:46

04:46 - 04:47

牛哥其实也收藏了

04:47 - 04:49

牛哥的这个Github官网

04:49 - 04:52

就是就是folk了一堆的项目

04:52 - 04:53

其中可能就有这些

04:53 - 04:54

比如说这个whisper就在这里

04:54 - 04:55

你们怕找不对的

04:55 - 04:58

可以直接去牛哥的这个

04:58 - 04:59

这个

04:59 - 05:00

这个Github上

05:00 - 05:02

然后去再找你相关要的这些子项目

05:02 - 05:04

就是基本上太多的这个AI项目

05:04 - 05:05

都都在这上面了

05:06 - 05:08

我们回过来嗯

05:09 - 05:11

whisper我好像没有做过太多的介绍

05:11 - 05:13

但是我觉得这个应该介绍的蛮多的了

05:13 - 05:14

就是外边

05:14 - 05:15

包括他自己官方

05:15 - 05:16

如果有感兴趣的

05:16 - 05:18

觉得whisper这块不太了解

05:18 - 05:20

可以单独去q一下牛哥

05:20 - 05:22

如果大家需求在这块

05:22 - 05:24

牛哥也可以大家去做一些这种

05:24 - 05:26

语音识别的这种

05:26 - 05:28

工具链去给大家去使用

05:28 - 05:29

windsport

05:29 - 05:32

最好就是它的那个MIDO的那个模型

05:32 - 05:34

效果还挺不错的

05:34 - 05:35

然后呢就是TTS

05:35 - 05:37

TTS正好是反过来

05:37 - 05:39

上面是把语音识别成文字

05:39 - 05:42

TTS就是把文字变成语音

05:42 - 05:45

但 英文全称叫touched to speech

05:46 - 05:48

嗯这是行业内的专业叫法

05:48 - 05:49

那这一块呢

05:49 - 05:50

牛哥介绍太多了

05:50 - 05:51

因为牛哥做数字人嘛

05:51 - 05:53

因为下半年一直在做数字人

05:53 - 05:54

这个了解牛哥小伙都知道

05:55 - 05:56

所以在上面花的精力很多

05:56 - 05:58

现在TTS这块基本是解决了

05:58 - 06:00

效果已经非常好了

06:00 - 06:00

我记得之前

06:00 - 06:03

应该不断的给大家去听过一些案例了

06:03 - 06:05

那给大家听一下现在最新的吧

06:06 - 06:07

我也不特意去找了

06:07 - 06:09

就直接打开牛哥之前数字而生成的

06:09 - 06:11

这个牛哥认为比比较不错

06:11 - 06:12

现在TTS效果大

06:12 - 06:13

家听一下

06:13 - 06:15

我在本视频中

06:15 - 06:16

我们深入解析了

06:16 - 06:17

清华大学最新推出的

06:17 - 06:19

文本到视频生成模型

06:19 - 06:21

牛逼TTS1.5B

06:21 - 06:24

该模型支持任意分辨率的生成

06:24 - 06:27

呈现出了极佳的生成效果和流畅度

06:27 - 06:28

好了不全听完了

06:28 - 06:30

就是说像TTS这一块

06:30 - 06:32

基本上没什么太大问题了

06:32 - 06:33

嗯效果非常好

06:33 - 06:33

这只是牛哥纸

06:33 - 06:35

集成了一个比较好的模型

06:35 - 06:37

因为要一个速度与质量兼顾嘛

06:37 - 06:40

其实后续还会往里面集成其他的

06:40 - 06:40

这种效果非常

06:40 - 06:42

更多的就是前后置的处理

06:42 - 06:43

可能要去处理一些

06:43 - 06:44

这个不再不是本文的内容

06:44 - 06:45

我们继续

06:45 - 06:47

本文是AI大总结

06:47 - 06:49

那其他的就是我们继续说额外的

06:49 - 06:51

额外的比如说音色调整

06:51 - 06:52

这个也有很多

06:52 - 06:53

开模型这个就不说了

06:53 - 06:54

然后去噪

06:54 - 06:56

去噪为什么会会了

06:56 - 06:57

就是用的人比较多呢

06:57 - 06:59

主要它有应用场景

06:59 - 07:00

一个是视频会议等等

07:00 - 07:02

这些地方你肯定是要去噪的

07:02 - 07:03

包括一些影视的

07:03 - 07:04

背景音的一些处理

07:04 - 07:05

你都是要去噪的

07:05 - 07:07

再一个就是去噪

07:07 - 07:10

是指TTS语音训练中的一部分

07:11 - 07:12

就是TTS

07:12 - 07:15

我们刚刚说它就是把文本变成声音嘛

07:15 - 07:19

那在 他们要发声

07:19 - 07:21

就要训练很多这种音色的素材

07:21 - 07:22

那这种音色呢

07:22 - 07:24

就要求他是纯净的

07:24 - 07:26

所谓纯净就是没有背景照声

07:26 - 07:29

所以他们就用到去噪了典型的UVR5

07:29 - 07:30

以及他的很多变体

07:30 - 07:32

这个就不展开了

07:32 - 07:34

然后其他的还有一些

07:34 - 07:36

比如说音源分离这种vocal

07:37 - 07:38

就是人声分离 之类的

07:38 - 07:41

或者一一首音乐给你分解出大鼓声

07:41 - 07:42

什么贝斯声 等等这些

07:42 - 07:45

东西 这也是大一堆开模型

07:45 - 07:46

现在做的也非常好

07:46 - 07:48

国内的也做得非常不错

07:48 - 07:50

然后再包括这种音乐合成

07:50 - 07:52

说白了就是音乐合成之类的

07:52 - 07:55

牛哥之前也给大家去做过

07:55 - 07:56

比如Suno

07:56 - 07:58

Suno是行业的一个代表

07:58 - 08:01

当时牛哥也去用它去做了一些歌

08:01 - 08:02

等等这个效果是非常好

08:02 - 08:03

给大家听两句

08:21 - 08:24

这就这个就有点感觉是 强

08:24 - 08:25

强行拼凑

08:25 - 08:28

对吧这是它就是效果的下限

08:28 - 08:29

那么给你听一下它的上限

09:09 - 09:11

好听吧好听也不给你听了

09:11 - 09:12

我们得考虑一下

09:12 - 09:12

视频时长

09:13 - 09:14

感兴趣的管牛哥要

09:14 - 09:15

我可以发给你们

09:16 - 09:18

好我们继续

09:18 - 09:19

最后呢就是要说视频了

09:19 - 09:21

视频呢首先要分传统的

09:21 - 09:22

传统的就是up scaler

09:22 - 09:24

就是视频的放大嘛

09:24 - 09:25

放大这个蛮火的

09:25 - 09:26

好多做放大的

09:26 - 09:29

这种专门靠放大就能

09:29 - 09:30

赚了不少钱

09:30 - 09:30

就做一些软件

09:30 - 09:31

在国外卖等等

09:31 - 09:32

那对吧

09:32 - 09:34

毕竟放大是有这种强项需求的

09:34 - 09:35

比如说一些老电影

09:35 - 09:36

或者老视频呐

09:36 - 09:39

甚至你以前看的DVD VCD 是吧

09:39 - 09:40

或者是老的那些电视节目

09:40 - 09:42

都是低分辨率的嘛

09:42 - 09:43

那这一块呢

09:43 - 09:44

开源模型呢

09:44 - 09:45

做的比较好的

09:45 - 09:46

其实主要就两块吧

09:46 - 09:47

第一块就是通用的

09:47 - 09:49

通用的没什么可说的

09:49 - 09:53

realesrgan

09:53 - 09:55

反正牛的英文你们就这样听就好了

09:55 - 09:56

就这个模型呢

09:56 - 09:58

就是现在它做到4X

09:58 - 09:59

然后一直在迭代

09:59 - 10:00

一直在更新

10:00 - 10:03

这个很多用到放大都会直接用它

10:03 - 10:04

会引用它

10:04 - 10:06

然后如果你要是用卡通放大

10:06 - 10:07

可能你会觉得它慢一点

10:07 - 10:08

因为它可能还是推理

10:08 - 10:09

不是很快

10:10 - 10:10

如果你专门用

10:10 - 10:11

于卡通放大

10:11 - 10:14

还有一个叫叫叫waifu2x

10:14 - 10:16

这卡通放大也是做的蛮不错的

10:16 - 10:17

大概就是这样

10:17 - 10:18

这个没什么可说的

10:18 - 10:20

拿着关键字去搜

10:20 - 10:21

Github一堆对

10:21 - 10:22

不能说一堆

10:22 - 10:23

官方的就一个

10:23 - 10:24

直接去看就好了

10:25 - 10:25

修复的呢

10:25 - 10:28

就是包括一些降噪

10:28 - 10:29

降噪只是最初级

10:29 - 10:30

包括去抖

10:30 - 10:34

包括这个老视频的这个修复

10:34 - 10:35

刚刚也说嘛

10:35 - 10:38

老视频修复放大只是一步

10:38 - 10:40

可能还会有一些锐度不够

10:40 - 10:40

等等的问题

10:40 - 10:41

而且老视频呢

10:41 - 10:44

当时受限的这种拍摄的设备

10:44 - 10:46

画面的对比度 等等

10:46 - 10:47

包括施展范围

10:47 - 10:48

都不是很好

10:48 - 10:49

这一块

10:49 - 10:52

牛哥统一给了一个评价就是一般般

10:52 - 10:53

目前还做的不是很好

10:53 - 10:56

但是我觉得2025年这是一个重点发力点

10:56 - 10:58

肯定会有所突破

10:58 - 10:59

然后视频生成呢

10:59 - 11:00

视频生成

11:00 - 11:04

最初就是由这个sora引起的

11:04 - 11:05

open sora

11:05 - 11:05

当时带火

11:05 - 11:07

然后一直咯咯咯

11:07 - 11:08

虽然现在是发布了是吧

11:08 - 11:10

但是可能的热度也过去了

11:10 - 11:12

我记得第一个发布的这种视频生成

11:12 - 11:15

应该是那个国内的快手吧

11:15 - 11:16

还是什么他们发布的

11:16 - 11:18

那我也去试了

11:18 - 11:20

效果当时确实也还凑合

11:20 - 11:22

然后呢本着开源实用精神

11:22 - 11:23

咱也不能花点卡

11:23 - 11:24

哎对吧

11:24 - 11:26

那牛哥也是给大家找到一个最好的

11:26 - 11:27

其实是我目前用过

11:27 - 11:29

其实目前看他依然是最好的

11:29 - 11:30

就是这个

11:30 - 11:33

就是这个PyramidFlow

11:33 - 11:34

哈哈哈

11:34 - 11:36

金字塔工作流

11:36 - 11:37

哈哈说我会读

11:37 - 11:40

我我我认识他就只读不太好

11:40 - 11:42

咱牛哥也做了相关的视频大包是吧

11:42 - 11:44

包括后来什么cos video等等等

11:44 - 11:45

牛哥也去试过

11:45 - 11:46

要么就是速度太慢

11:46 - 11:48

要么就是对机器要求太高

11:48 - 11:49

要么就是效果太拉

11:49 - 11:51

这个目前呢是综合上

11:51 - 11:53

你可以理解是最具性价比

11:53 - 11:55

进来本地玩点事情你就可以用它

11:55 - 11:56

然后最后呢

11:56 - 11:57

就是唇形同步

11:58 - 11:58

唇形同步

11:58 - 11:59

老生常谈问题了

11:59 - 12:01

就是LibSync嘛

12:01 - 12:02

什么叫唇形同步

12:02 - 12:03

就是数字人说话

12:03 - 12:04

然后拿一段视频

12:04 - 12:08

让他嘴根据我这个语音 去去说话嘛

12:08 - 12:10

那个就是就是音频驱动吧

12:10 - 12:12

我也不翻译那个英文了

12:12 - 12:13

然后典型的就两类

12:13 - 12:15

一类呢是图层视频

12:15 - 12:16

就比如Hallo2

12:16 - 12:17

或者EchoMimic2

12:17 - 12:18

现在都出2了

12:18 - 12:20

一的时候我就给大家做过来这两个

12:20 - 12:20

然后2的是呢

12:20 - 12:22

我正在测试

12:22 - 12:23

据说效果比一好很多

12:23 - 12:25

但是其实我没太看出来

12:26 - 12:27

然后另一块就是视频

12:27 - 12:28

生视频的

12:28 - 12:30

就是用输入也是视频

12:30 - 12:31

输出也是视频

12:31 - 12:35

典型就是videoretalking或者是DHLive

12:35 - 12:37

据说DHLive呢

12:37 - 12:39

它训练到2万步的效果是不错的

12:39 - 12:41

但是我目前开源的模型呢

12:41 - 12:43

它都很一一般般

12:43 - 12:45

一般般video talk talking呢

12:45 - 12:47

这个对素材的要求度比较高

12:47 - 12:49

素材好效果是非常好的

12:49 - 12:50

然后像素材不好

12:50 - 12:52

那也是非常拉的

12:52 - 12:55

目前牛哥数值第一款集成就是它

12:55 - 12:56

当然了我也不满意它效果

12:56 - 12:57

我们不能止步嘛

12:57 - 13:01

那后续还要去处理一些更好的模型

13:01 - 13:03

一般这种图层视频的模型呢

13:03 - 13:04

那个嘴型对的都不错

13:04 - 13:06

当然时效性慢一点咱另说

13:07 - 13:08

那这一类的

13:08 - 13:10

但是他们都会有些问题

13:10 - 13:12

然后牛哥的数值项目其实就是

13:12 - 13:13

在解决这些问题

13:13 - 13:13

什么问题

13:13 - 13:16

他们只能是输入一张512乘以512的图像

13:16 - 13:17

没了

13:17 - 13:19

所有视频基于这样图像去生成

13:19 - 13:21

那我们要想用到视频中

13:21 - 13:24

就比如说前一段比较火那种1234567822345678

13:24 - 13:26

就变成你的这个

13:26 - 13:27

大家往这里看

13:27 - 13:27

我的产品怎么样

13:27 - 13:29

这种宣传视频的话

13:29 - 13:31

那那这种开源他肯定达不到嘛

13:31 - 13:32

这也可以理解

13:32 - 13:33

我开源的时候

13:33 - 13:35

我要是做一个比较好的出行同步

13:35 - 13:37

我开源也是支持图片输入嘛

13:37 - 13:39

他毕竟开源的东西嘛

13:39 - 13:41

跟商业我总是要跟你有一些距离的嘛

13:42 - 13:44

那牛哥就是要解决这个距离问题

13:44 - 13:45

大概思路基本也有

13:45 - 13:46

最近正在做

13:46 - 13:47

基本就是原视频

13:47 - 13:49

我提取出512*51的图头

13:49 - 13:50

头像视频

13:50 - 13:52

我跟着你的头像去走

13:52 - 13:53

你头像动物就跟着动

13:53 - 13:54

就始终保持你头像

13:54 - 13:56

在这个512乘512的中间

13:56 - 13:59

我把这个整体我都给它每一帧

13:59 - 14:00

这个数据都存下来

14:00 - 14:02

然后原始位置我都知道

14:02 - 14:03

而在基于这个视频呢

14:03 - 14:06

我在魔改一下他们原来的这些

14:07 - 14:07

基于一张图

14:07 - 14:08

一张图生视频

14:08 - 14:09

再让他变成多张图

14:09 - 14:12

也就是多张图就是视频生视频了吧

14:12 - 14:14

最后呢

14:14 - 14:15

再合成这个视频

14:15 - 14:16

合成回原视频

14:16 - 14:17

当然了如果有必要

14:17 - 14:19

那中间可能加一个人脸增强

14:19 - 14:20

目前我是都加了的

14:21 - 14:22

人脸增强我这里没有单独列

14:22 - 14:25

人脸增强现在比较典型的就是GLPK

14:25 - 14:28

code form基本不怎么不怎么维护了

14:28 - 14:30

主要就是就是GLPK

14:31 - 14:32

然后基本上呢

14:32 - 14:35

大部分的我就都介绍到了

14:35 - 14:36

这就是目前

14:36 - 14:38

开源的就就这个能力

14:38 - 14:39

但是却说实话

14:39 - 14:40

进步还是蛮大的

14:40 - 14:41

蛮大的

14:41 - 14:43

然后本文提到所有项目

14:43 - 14:44

基本上就3个点

14:44 - 14:45

第一个点呢

14:45 - 14:46

你可以在牛哥官网

14:46 - 14:47

都有一键打包

14:47 - 14:48

或者这个步入视频

14:48 - 14:49

如果没有

14:49 - 14:49

你就圈我

14:49 - 14:50

我觉得OK

14:50 - 14:51

我就给大家做

14:51 - 14:53

牛哥官网还有不知道的呢

14:53 - 14:54

我就放在这了

14:54 - 14:55

然后提到过

14:55 - 14:56

稍稍多说一句

14:57 - 15:00

牛哥官网有好多这个广告

15:00 - 15:02

是吧本来我想把这广告都去掉了

15:02 - 15:03

但不知道为什么

15:03 - 15:05

最近他又他又加回来了

15:05 - 15:06

然后我也我也曾经去想

15:06 - 15:08

把他们都彻底干掉

15:08 - 15:09

牛哥就不要广告了

15:09 - 15:10

对吧嗯

15:10 - 15:13

但是呢我看了一个非常悲催的事实

15:13 - 15:14

就是目前牛哥官网的广告

15:14 - 15:16

给牛哥带了一年下来

15:16 - 15:18

带来了86.84刀的收入

15:18 - 15:20

我现在要是把它广告全去下去

15:20 - 15:21

他不满100刀

15:21 - 15:22

我也收不到这个钱

15:22 - 15:23

好歹是吧

15:24 - 15:27

这个也能 100刀是吧

15:27 - 15:31

也也也也也可以有那么一点点价值吗

15:31 - 15:33

是吧那我也不能这么浪费掉

15:33 - 15:34

所以我呼吁一下大家

15:34 - 15:36

就是都去牛哥官网

15:36 - 15:37

没事去逛几圈

15:37 - 15:39

让牛哥这块早日过100

15:39 - 15:41

然后牛哥就把这个广告全停掉了

15:41 - 15:43

我不想让牛哥

15:43 - 15:44

本来做的非常漂亮的一个网站

15:44 - 15:46

被他广告把我的layer out

15:46 - 15:48

把这个布局全都搞坏了

15:48 - 15:49

所以呼吁一下得空呢

15:49 - 15:51

都去牛哥官网逛一逛

15:51 - 15:53

我们早日过到过100

15:53 - 15:54

我就把广告

15:54 - 15:55

广告全停掉了

15:56 - 15:57

然后回过来

15:57 - 15:58

然后第二个呢

15:58 - 15:59

就是所有的相关源码

15:59 - 16:01

基本都是Github上

16:01 - 16:02

就是开源嘛

16:02 - 16:03

这是最最牛逼的

16:03 - 16:04

最古老的社区嘛

16:04 - 16:06

现在是微软收购了

16:06 - 16:07

没什么可说的

16:07 - 16:09

然后牛哥把牛哥的这个gthop地址

16:09 - 16:09

放在这里了

16:09 - 16:11

里面没有任何牛哥开源的项目

16:11 - 16:12

都是Folk的

16:12 - 16:14

别人的项目别人有好找

16:14 - 16:17

然后你要是找这些项目

16:17 - 16:19

你一个月搜不方便的话

16:19 - 16:21

就去看牛哥的这个里面的项目就好了

16:21 - 16:22

然后模型

16:22 - 16:24

基本都是在huggingface上可以下载

16:24 - 16:26

全称叫huggingface

16:26 - 16:26

哈哈对

16:26 - 16:27

是这么写的

16:27 - 16:29

我把它的网址粘在这里了

16:29 - 16:30

牛哥虽然huggingface也有账号

16:30 - 16:31

但是没有去Folk

16:31 - 16:33

只是基本上就只是用来克隆模型

16:33 - 16:34

所以就不给大家留了

16:34 - 16:35

就去官网就好了

16:36 - 16:37

然后最后这俩呢

16:37 - 16:40

是你要玩AI开源你必须要了解的网站

16:40 - 16:42

如果还有不会用的呢

16:42 - 16:44

那你就官网头有小白扫盲视频

16:44 - 16:45

大家可以去看

16:45 - 16:46

那最后呢

16:46 - 16:48

就是说纵观2024年牛哥做的这些视频

16:48 - 16:49

其实核心呢

16:49 - 16:50

就两个点

16:50 - 16:51

一个第一个点呢

16:51 - 16:53

我真的希望能让更多的小白

16:53 - 16:54

可以去上手

16:54 - 16:55

玩一下AI

16:55 - 16:57

时代浪潮前咱们别掉队

16:57 - 16:58

别过几年

16:58 - 16:59

不知道怎么时候

16:59 - 16:59

发现这个

16:59 - 17:01

整个东西都发生了翻天覆地的变化

17:01 - 17:05

然后就被彻底甩在后面了是吧

17:05 - 17:05

第二点呢

17:05 - 17:07

当然也是更实际一点的

17:07 - 17:08

有想法有能力的呢

17:08 - 17:10

可以去AI去赚点钱

17:10 - 17:11

梦想总是要有的嘛

17:11 - 17:13

有句话说你站在风口上

17:13 - 17:15

猪都会飞对吧

17:15 - 17:16

何况咱们都是精英

17:16 - 17:16

所以说

17:16 - 17:19

真的是希望大家可以把这个东西呢

17:19 - 17:20

如果真正理解透了

17:20 - 17:22

然后结合到自己的行业中

17:22 - 17:24

去解决一些行业问题

17:24 - 17:25

那这就是机会

17:25 - 17:27

这就是机遇

17:27 - 17:28

然后牛哥呢

17:28 - 17:29

就是致力于让大

17:29 - 17:30

家低成本的玩起来

17:30 - 17:32

并并且低成本的应用出去

17:32 - 17:36

所以才有了牛哥这在AI视频的同时呢

17:36 - 17:39

也会去穿插一些 云服务

17:39 - 17:41

或者到本地的这样一些桥街呀

17:41 - 17:43

有了各种必备的这种部署

17:43 - 17:45

就比如说从小白的第一台服务器开始

17:45 - 17:47

到最终建立自己专业网站呢

17:47 - 17:49

怎么去架设本地II服务器

17:49 - 17:51

怎么去建立这种知识库

17:51 - 17:53

wiki 等等

17:53 - 17:55

才会有这些相关的视频

17:55 - 17:55

其实目的就是

17:55 - 17:59

让大家就是用不用去了解技术

17:59 - 18:00

然后呢你就可以做出很专业

18:00 - 18:02

很专业的应用和网站

18:02 - 18:05

然后让AI融入到你的工作中去

18:05 - 18:07

然后你把它变成工具

18:07 - 18:08

解决自己的问题

18:08 - 18:09

最好再把它卖出去

18:09 - 18:12

那你就

18:12 - 18:14

就是怎么说你就站在风口上了

18:14 - 18:16

好 都到这里了

18:16 - 18:20

那我觉得应该给牛哥点个赞吧

18:20 - 18:20

同时也希望

18:20 - 18:23

有实力小伙伴能够给牛哥开个会员

18:23 - 18:24

牛会员也不贵

18:24 - 18:26

2.99-1个月

18:26 - 18:28

也算支持一下牛哥成长吧

18:28 - 18:30

那然后希望呢

18:30 - 18:31

我们2025年呢

18:31 - 18:32

大家去一起成长

18:32 - 18:33

一起努力

18:33 - 18:36

然后牛哥的会员是有福利的哦

18:36 - 18:37

行OK

18:37 - 18:38

那本期视频呢

18:38 - 18:39

就到这里

18:39 - 18:41

我们下期再会

Unveiling AI Developments in 2024: ChatGPT, Stable Diffusion, and Beyond

In this comprehensive review, our beloved AI aficionado, the "Cow Brother," delves into the remarkable advancements in AI that unfolded throughout 2024. The rapid evolution of AI technologies, particularly in the realms of ChatGPT and Stable Diffusion, captured the curiosity of the masses, fueling an era marked by innovation and creativity.

Reflecting on the AI Buzz of 2024

2024 witnessed a surge in AI's capabilities, epitomized by cutting-edge technologies like ChatGPT and Stable Diffusion. ChatGPT revolutionized the realm of text generation, while Stable Diffusion unlocked the potential for effortless image creation. These breakthroughs resonated with the innate human curiosity that propels us towards the extraordinary.

The Four Pillars of AI: Text, Image, Audio, Video

The paradigm of AI in 2024 revolved around four key pillars: text, image, audio, and video. Text generation, now seemingly human-like, redefined content creation, enabling novel applications such as automatic proposal writing. Noteworthy models like ChatGPT 4.0 paved the way for personalized experiences in various domains.

Image processing, characterized by quality enhancement and creative generation, reached new heights with tools like Stable Diffusion. The realm of audio, encompassing speech recognition and text-to-speech technologies, witnessed exceptional advancements, allowing for seamless communication and interaction.

In the domain of video, traditional upscaling tools like Realesrgan thrived, presenting opportunities for enhancing visual content. The advent of video synthesis technologies like PyramidFlow epitomized the fusion of creativity and practicality, setting the stage for transformative applications in the visual domain.

Empowering AI Enthusiasts

Amidst the AI renaissance in 2024, the Cow Brother beckons AI enthusiasts, from novices to seasoned professionals, to join the AI revolution. Embracing AI not only fosters personal growth but also opens doors for lucrative opportunities. By integrating AI into one's professional toolkit, one can navigate the winds of change and soar to new heights.

Striving Towards a Bright Future

As we bid adieu to the AI revelations of 2024, it's imperative to engage with AI technologies, learn, evolve, and harness them for personal and professional growth. The Cow Brother's dedication to democratizing AI and empowering individuals underscores a shared journey towards progress and innovation. Let's forge ahead together, embrace the AI wave, and pave the way for a promising future of endless possibilities.

In conclusion, the Cow Brother's insights and endeavors propel us towards a future where AI transcends boundaries and catalyzes transformative change. Let's embark on this journey, leverage AI's potential, and shape a tomorrow where innovation knows no bounds. Stay tuned for the next chapter in the AI saga!

Note: For a more enriching experience and exclusive perks, consider subscribing as a member to support the Cow Brother's endeavors in the AI landscape.