00:00 - 00:01

大家好

00:01 - 00:02

这里是零度解说

00:02 - 00:03

就在刚刚

00:03 - 00:06

Google 正式发布了全新的Gemma 3

00:06 - 00:08

开源的多模态AI大模型

00:08 - 00:10

作为Gemma系列的最新版本

00:10 - 00:11

它们带来了更强大的性能

00:11 - 00:13

和令人惊艳的新特性

00:13 - 00:16

在最新的大语言竞技场榜单上我们看到

00:16 - 00:18

27B的Gemma 3中等模型

00:18 - 00:20

在初步人类偏好评估中

00:20 - 00:23

它已经完全胜过405B的Llama3

00:23 - 00:25

还有671B的Deepseek V3模型

00:26 - 00:29

目前27B的Gemma 3它评分是1,338分

00:30 - 00:32

像这个Deepseek V3模型的话

00:32 - 00:33

它是671B的

00:33 - 00:36

它目前评分是1,318分(口误)

00:36 - 00:38

像这目前最新的o3 mini的话

00:38 - 00:40

它也才这个1,304分

00:40 - 00:42

而且27B的Gemma 3开源模型

00:42 - 00:43

它已经做到

00:43 - 00:46

可以和671B的Deepseek R1满血版相媲美

00:46 - 00:48

两者评分只差25分左右

00:48 - 00:49

但是别忘了

00:49 - 00:51

这Deepseek R1模型它可是671B的

00:51 - 00:52

它是满血版

00:53 - 00:55

但Gemma 3它只有27B模型

00:55 - 00:56

大小相差非常大

00:56 - 00:59

这就意味着这Gemma 3模型

00:59 - 01:01

它只需要一个GPU就可以进本地部署

01:02 - 01:03

但Deepseek R1模型的话

01:03 - 01:03

它的满血版

01:03 - 01:05

它可是需要8张这个H100

01:06 - 01:07

才可以进行本地部署

01:07 - 01:09

普通用户的话几乎是运行不了的

01:09 - 01:12

但这个Gemma 3 27B对单显卡来说

01:12 - 01:14

可以做到很好的适配和运行

01:14 - 01:16

在后面我会给大家做演示

01:16 - 01:17

目前Gemma 3它总共有四个模型

01:17 - 01:21

大小分别是1B 4B 12B

01:21 - 01:24

还有27B并且同时提供基础模型

01:24 - 01:25

也就是预训练

01:25 - 01:26

还有指令调整版

01:26 - 01:29

可以让开发者根据需要进行灵活选择

01:29 - 01:30

关键是Gemma 3

01:30 - 01:31

它是多模态的

01:31 - 01:32

除了1B以外

01:32 - 01:35

其它版本都是可以同时处理图像文本

01:35 - 01:36

甚至是短视频

01:36 - 01:38

让它在AI运用场景更加广泛

01:39 - 01:40

除此之外

01:40 - 01:40

Gemma 3

01:40 - 01:42

还进一步提升了上下文理解能力

01:42 - 01:44

像这个1B版本的话

01:44 - 01:47

它上下文窗口从之前的8K扩展到32K

01:47 - 01:50

而且其它版本更是达到了惊人的128K

01:50 - 01:51

这意味着

01:51 - 01:53

它拥有更强的上下文处理能力

01:53 - 01:56

无论是代码编写分析、文档总结

01:57 - 01:58

还是处理复杂的对话场景

01:58 - 02:00

Gemma 3都能应对自如

02:00 - 02:01

不仅如此

02:01 - 02:03

它还支持140多种语言

02:03 - 02:05

从而打破了语言壁垒

02:05 - 02:08

让AI能够更自然地与全球用户交流

02:08 - 02:09

目前的Gemma 3

02:09 - 02:10

相较于上一代Gemma2来说

02:11 - 02:12

它的核心技术实际上有三大突破

02:13 - 02:14

第一个是更长的上下文处理

02:14 - 02:16

因为它通过优化的编码

02:16 - 02:17

还有KV Cache管理

02:18 - 02:20

显著提升了长文本处理能力

02:20 - 02:21

而且最新的多模态能力

02:21 - 02:24

它采用的是SigLIP作为图像编码器

02:24 - 02:27

使AI能够更加精准地理解视觉信息

02:27 - 02:29

而且在多语言支持下

02:29 - 02:31

可以让AI在不同语言间的理解

02:31 - 02:31

和生成能力

02:31 - 02:32

更上一层楼

02:33 - 02:35

从而可以实现更广泛的应用场景

02:35 - 02:36

这项技术上的突破

02:36 - 02:39

可以让 Gemma 3在问答、图像分析

02:39 - 02:40

代码辅助

02:40 - 02:43

文本摘要等任务中拥有更出色的表现

02:43 - 02:46

接下来我们就来说下如何进行本地部署

02:46 - 02:47

来测试它的效果

02:47 - 02:48

在开始之前

02:48 - 02:50

首先我们需要打开这个帖子

02:50 - 02:52

这个地址我会放到视频下方和零度博客上

02:52 - 02:53

打开以后

02:53 - 02:54

然后在下方这里

02:54 - 02:56

我们找到本地部署教程

02:56 - 02:57

首先第一步

02:57 - 02:58

我们需要去Ollama官方

02:58 - 02:59

来去下载客户端

02:59 - 03:00

来进行本地部署

03:01 - 03:01

到时候跟我一样

03:01 - 03:03

我们点击前往

03:03 - 03:03

打开以后

03:03 - 03:05

我们看到目前这款Ollama

03:05 - 03:08

它的支持Llama3 Deepseek R1模型

03:08 - 03:09

还是Mistral

03:09 - 03:11

以及最新版本的Gemma 3 大模型

03:11 - 03:13

然后点击下面有个下载按钮

03:13 - 03:14

我们下载一下

03:15 - 03:16

好 打开以后

03:16 - 03:18

它是支持多平台的

03:18 - 03:21

像macOS还有Linux Windows版本都是支持的

03:22 - 03:23

因为我电脑是Windows系统

03:23 - 03:24

所以我就选择Windows版本

03:25 - 03:26

然后我们点击下载

03:27 - 03:28

总共是0.9G

03:28 - 03:29

我们点下载

03:31 - 03:33

好 下载好这个Ollama客户端以后

03:33 - 03:35

然后先双击打开进行安装一下

03:36 - 03:37

打开以后我们点击install

03:37 - 03:38

当然如果你电脑之前

03:38 - 03:40

已经安装过Ollama客户端的话

03:40 - 03:42

那么这一步可以跳过

03:42 - 03:43

好 安装好以后

03:43 - 03:45

然后就把它安装包给删掉就用不到了

03:45 - 03:46

删掉好以后

03:46 - 03:47

在下方这里看到

03:47 - 03:49

它会出现在Ollama客户端的图标

03:49 - 03:50

这我们不用管它

03:50 - 03:51

然后现在回到刚才帖子下

03:51 - 03:52

来执行第二步

03:52 - 03:54

就通过下方命令来安装对应的版本

03:54 - 03:56

如果你是普通用户的话

03:56 - 03:58

那么建议选择4B的或12B的

03:58 - 04:00

显卡是在12G左右的

04:00 - 04:01

那么建议选择12B的就行了

04:02 - 04:03

当然如果显卡比较好的话

04:03 - 04:04

你可以直接上这个27B

04:04 - 04:05

会更强

04:05 - 04:07

这里为了方便绝大部分用户的观看

04:07 - 04:08

这里我就选择12B的

04:08 - 04:10

然后先把这个安装命令给Copy出来

04:10 - 04:11

Copy好以后

04:11 - 04:12

然后在下方搜索栏里

04:12 - 04:14

我们输入关键词CMD

04:14 - 04:16

来打开这个命令提示符

04:17 - 04:18

好 打开以后

04:19 - 04:20

然后现在我们鼠标右键

04:20 - 04:21

粘贴一下我们刚才复制的命令

04:21 - 04:23

当然如果想安装其它版本的话

04:23 - 04:25

那么可以把这12B改成对应的版本

04:25 - 04:26

比如说4B

04:26 - 04:27

或者27B都可以

04:27 - 04:28

但是不要选择1B的

04:28 - 04:30

因为1B它是没有多模态功能的

04:30 - 04:31

好 粘贴以后

04:31 - 04:32

然后我们确定一下

04:32 - 04:33

来安装一下这个模型

04:33 - 04:35

这个安装过程需要点时间

04:35 - 04:36

我们稍微耐心等待一下

04:36 - 04:38

它总共是8G左右

04:38 - 04:40

但这里需要注意的是

04:40 - 04:41

如果你不在海外的话

04:41 - 04:43

那么你要做好全局科学上网才可以

04:43 - 04:45

否则的话肯定是没法下载的

04:45 - 04:47

好 大概过了1分钟左右

04:47 - 04:48

它现已经下载完成了

04:48 - 04:50

现在已经可以直接使用了

04:50 - 04:51

比如我输入 你好

04:51 - 04:52

请自我介绍一下

04:53 - 04:54

确认一下就可以了

04:54 - 04:55

它立马就开始了

04:55 - 04:56

它说你好

04:56 - 04:56

我是Gemma 3

04:56 - 04:57

一个由Google DeepMind

04:57 - 04:59

训练的大语言模型

04:59 - 05:01

我是一个开放权重的AI助手

05:01 - 05:03

这意味着我的模型权重是公开的

05:03 - 05:04

任何人都可以使用和研究我

05:04 - 05:06

当然如果在终端下使用的话

05:06 - 05:07

肯定不方便

05:07 - 05:08

而且上传图片的话也不方便

05:09 - 05:10

现在我们给它关闭掉

05:10 - 05:11

接下来我们进行第二步

05:11 - 05:13

就通过Google浏览器插件

05:13 - 05:14

来进行本地调用Gemma 3

05:14 - 05:16

视觉大模型

05:16 - 05:16

到时跟我一样

05:16 - 05:18

点击下载

05:18 - 05:19

好 打开以后

05:19 - 05:19

然后

05:19 - 05:21

现在需要把这款可以调用本地的AI模型的

05:21 - 05:23

WebUI插件进行安装一下

05:23 - 05:25

点击上面有个添加至Chrome浏览器就可以了

05:26 - 05:27

当然你也可以把它直接安装到Edge浏览器

05:27 - 05:28

也是可以的

05:29 - 05:29

好 安装好以后

05:29 - 05:31

它会在上方显示出来

05:31 - 05:32

然后现在打开它

05:33 - 05:34

打开以后我们看到

05:34 - 05:34

在左上方

05:34 - 05:35

这里

05:35 - 05:37

它就可以直接调用刚才安装好的Gemma 3

05:37 - 05:38

12B的模型

05:38 - 05:40

而且它也支持联网使用

05:40 - 05:41

在下方这里

05:41 - 05:43

把这个联网搜索功能打开就可以了

05:43 - 05:45

但是在开启这个联网搜索功能之前

05:45 - 05:46

你需要先设置一下

05:46 - 05:47

到时我们点击上方有个设置按钮

05:47 - 05:48

就这里了

05:49 - 05:50

打开以后它默认是英文的

05:51 - 05:52

然后先把这切换到中文上去

05:53 - 05:55

在上方这里我们选择中文就行了

05:56 - 05:57

在底部它是有支持中文

05:57 - 05:58

简体、繁体都有的

06:00 - 06:00

好 切换好以后

06:00 - 06:02

然后把下方的语言切换中文

06:03 - 06:03

这样

06:03 - 06:05

它不仅可以通过语音识别这个中文

06:05 - 06:07

也可以把整个这个界面语言改成中文

06:07 - 06:09

这样可以方便我们使用

06:09 - 06:09

接着我们需要

06:09 - 06:11

在上方这个一般设置这里来设置下

06:11 - 06:12

搜索引擎

06:12 - 06:13

打开以后

06:13 - 06:15

在下方这里会看到有个搜索引擎管理

06:15 - 06:16

就这里了

06:16 - 06:18

我们需要把这搜索引擎进行切换一下

06:18 - 06:19

它默认是duckduckgo啊

06:19 - 06:21

当然你可以把切换成这个Google

06:21 - 06:22

或其它都可以

06:22 - 06:23

这我建议它选择Google就行了

06:23 - 06:25

因为它毕竟它是Google的模型

06:25 - 06:26

切换好以后

06:26 - 06:28

在下方这里切换对应的地址

06:28 - 06:30

这里一般来我们选择默认就可以了

06:30 - 06:32

下方有个总的搜索结果

06:32 - 06:33

它默认是2个

06:33 - 06:34

当然你可以设置更多个

06:34 - 06:35

比如5个啊

06:35 - 06:35

6个都可以

06:35 - 06:37

然后在下方有默认的开启网络搜索

06:38 - 06:39

如果你需要默认开启的话

06:39 - 06:40

那就把它功能给打开

06:40 - 06:42

最后我们保存下就可以了

06:42 - 06:43

好 这样的话

06:43 - 06:45

它就会正式打开这个联网功能了

06:45 - 06:47

然后接下来测试一下它多模态能力

06:47 - 06:48

比如现在

06:48 - 06:49

我随便拿几张这个肺部的x光扫描片

06:49 - 06:51

让它进行分析一下

06:51 - 06:52

看看它能不能找出来什么问题的

06:53 - 06:54

我先目前用的是12b

06:55 - 06:56

然后先把图片上传上去

06:57 - 06:58

我先拿第一张吧

06:58 - 06:59

然后我们输入

06:59 - 07:01

这是一张肺部的X光扫描片

07:01 - 07:02

你发现了什么

07:03 - 07:04

为了验证它的效果

07:04 - 07:06

我先把这联网搜索功能关闭掉啊

07:06 - 07:06

输入后以后

07:06 - 07:08

我们点击发送一下

07:08 - 07:09

来看它怎么分析的

07:09 - 07:10

它说好的

07:10 - 07:11

我来分析下

07:11 - 07:12

这张就是胸部的X光扫描

07:12 - 07:13

它速度非常快啊

07:14 - 07:15

它这么说的

07:15 - 07:16

它初步观察

07:17 - 07:18

肺部整体看起来比较清晰

07:18 - 07:20

没有明显的异常阴影

07:20 - 07:22

然后心脏方面看起来正常

07:22 - 07:24

它还对这骨骼和纵隔进行分析了

07:25 - 07:26

大部分没有问题

07:26 - 07:27

但它发现可能存在一些问题

07:27 - 07:30

就是肺部有轻微的模糊

07:30 - 07:31

在左侧肺部下部

07:31 - 07:33

我注意到有些轻微的模糊

07:33 - 07:35

这可能需要进一步评估

07:35 - 07:37

这可能是由于多种原因造成的

07:37 - 07:40

比如轻微的炎症感染或者肺部的积液

07:40 - 07:41

而肋骨细节

07:41 - 07:43

它说的肋骨细节需要仔细观察

07:43 - 07:45

以排除任何细微的骨折或者异常

07:46 - 07:48

它在肺部左侧发现有轻微的这个模糊

07:48 - 07:50

这里啊这是一个正常的x光扫描件

07:50 - 07:51

然后我们第二张图片

07:52 - 07:52

然后输入

07:52 - 07:54

那么这一张呢?

07:54 - 07:55

因为它是有上下文理解能力的

07:55 - 07:56

它是理解我的问题

07:56 - 07:57

我们点击递交下

07:57 - 07:59

它说根据这张x光片

07:59 - 08:00

可能存在的问题是

08:00 - 08:01

肺部可能有炎症

08:02 - 08:03

因为它发现肺部纹理增多

08:03 - 08:05

可能表现有存在炎症

08:05 - 08:06

它看到了肺水肿

08:06 - 08:07

它肺部纹理增多

08:07 - 08:09

也可能表面有肺水肿

08:09 - 08:11

还有肺部的纤维化

08:11 - 08:12

这可需要进一步观察

08:12 - 08:13

因为这是个早期的肺癌患者

08:13 - 08:14

的二次关闭啊

08:15 - 08:16

它已经看到肺水肿

08:16 - 08:17

还是肺部的纤维化了

08:17 - 08:19

然后第三个来看下

08:19 - 08:22

这张就更严重了

08:22 - 08:23

它这么说的

08:23 - 08:24

它通过这项CT扫描件

08:24 - 08:25

显示出是非常值得关注的

08:25 - 08:28

发现它的弥漫性小结节

08:28 - 08:29

肺部存在大量的小结节

08:29 - 08:31

这些结节分布广泛

08:31 - 08:32

弥漫性的存在于肺组织中

08:33 - 08:34

它看到磨玻璃影

08:34 - 08:36

在一些区域可以看到磨玻璃影

08:36 - 08:38

这表明肺组织密度降低

08:38 - 08:39

可能存在炎症

08:39 - 08:41

水肿纤维化

08:41 - 08:44

它说根据这张CT扫描件可以知道肺结核

08:44 - 08:45

还有肺纤维化

08:45 - 08:46

以及肺癌

08:46 - 08:47

还有非典型肺炎

08:47 - 08:48

这样就比较严重了

08:49 - 08:52

它明显可以看出来 非常厉害

08:52 - 08:53

这就是多模态AI的能力

08:54 - 08:55

当然我们可以用它来看图编故事

08:56 - 08:57

比如现我们让它通过这个图片

08:57 - 08:59

来编写一个恐怖故事

08:59 - 09:01

我们先把这图片上传上去

09:01 - 09:02

然后我们输入

09:02 - 09:03

通过分析这个图片

09:03 - 09:05

来编写一个恐怖的故事

09:05 - 09:07

字数在2,000字左右

09:07 - 09:08

好 输入好以后

09:08 - 09:09

我们点击递交下

09:10 - 09:11

这样它就开始了

09:12 - 09:13

立马就可以搞定

09:13 - 09:14

大家如果想尝试更强悍的

09:14 - 09:16

这个27B模型的话

09:16 - 09:17

那么也是可以的

09:17 - 09:19

到时候回到刚才帖子下

09:19 - 09:20

来复制最后这个命令

09:20 - 09:22

就把它安装命令给copy出来

09:22 - 09:23

copy好以后

09:23 - 09:24

同样的进入到这个终端下

09:25 - 09:27

我们输入CMD打开这个命令终端

09:28 - 09:29

打开以后

09:29 - 09:31

然后现在鼠标右键粘贴一下

09:31 - 09:33

我们把这27B模型给下载下来

09:34 - 09:35

来看它总共有多大啊

09:35 - 09:36

它总共是17G

09:37 - 09:38

如果你显卡是达标的

09:39 - 09:40

那么建议选择这模型

09:40 - 09:42

它会更强悍

09:42 - 09:43

它现在已经安装好了

09:44 - 09:44

将它关闭掉

09:45 - 09:46

然后现在同样打开插件

09:47 - 09:48

打开以后

09:48 - 09:48

然后在上方

09:48 - 09:50

选择我们刚下载好的27B模型

09:50 - 09:51

就可以了

09:51 - 09:52

然后同样来测试它的效果

09:52 - 09:53

比如我经常使用的封面

09:53 - 09:54

点击率测试

09:54 - 09:55

我来问它一下

09:55 - 09:57

这两个封面哪个点击率会更高一点

09:57 - 09:58

然后我输入

09:58 - 09:59

我现在会上传2个封面

09:59 - 10:02

让你猜这那个点击率会更高

10:02 - 10:03

输入后我们点击发送下

10:03 - 10:04

它说好的

10:04 - 10:05

请上传封面

10:05 - 10:06

我会尽力分析

10:06 - 10:08

并给出我的猜想以及我的判断理由

10:09 - 10:10

很期待看到它们

10:10 - 10:11

现在上传第一张

10:13 - 10:15

然后这是第一张

10:15 - 10:16

发送下

10:17 - 10:17

大说好的

10:17 - 10:19

我已经看到第一张封面了

10:19 - 10:20

然后它可以进行分析了

10:20 - 10:21

然后它做了初步的分析

10:21 - 10:23

下面是它的分析结果

10:23 - 10:23

然后它说

10:23 - 10:25

请上传第二个封面

10:25 - 10:27

我将比较两张封面

10:27 - 10:28

并给出我猜想

10:28 - 10:29

它是有上下文理解能力的

10:31 - 10:32

然后现在我上传第二张封面

10:33 - 10:34

发给它 它说

10:34 - 10:36

好的 我已经看到第二张封面了

10:36 - 10:37

它的最终猜想是

10:37 - 10:39

我认为第二张封面点击率会更高一点

10:39 - 10:41

特别是这个R1的版本号

10:41 - 10:42

增加具体性

10:42 - 10:44

对于关注Deepseek特定版用户来说

10:44 - 10:45

会更加具有吸引力

10:46 - 10:46

因为第二封面

10:46 - 10:48

它增加了一个R1版本

10:48 - 10:49

第一个是没有的

10:50 - 10:51

它说明确的版本号

10:51 - 10:53

可以吸引目标用户来提高点击率

10:53 - 10:54

它说虽然两张风格相似

10:54 - 10:56

但第二张风格细节上更加明确

10:56 - 10:58

更吸引用户点击

10:58 - 10:59

它说你觉得我猜想对吗

11:00 - 11:01

大家觉得它猜对了没有啊

11:01 - 11:02

后来经过我的测试啊

11:02 - 11:03

它的选择是正确的

11:03 - 11:04

这是它选择的封面

11:04 - 11:06

它点击率是34.2%

11:06 - 11:08

然后与之对比是33.3%

11:08 - 11:10

将近相差一个百分点

11:10 - 11:11

所以它的准确性还是非常高的

11:12 - 11:13

当然我们也可以让它帮我们修图

11:13 - 11:14

既然是多模态的话

11:14 - 11:15

那么它对图片的分析

11:15 - 11:16

肯定是非常擅长的

11:16 - 11:17

来看它怎么分析的

11:17 - 11:19

它说这张图片整体来说非常不错

11:19 - 11:20

拍的很有氛围感

11:21 - 11:22

模特也特别漂亮

11:22 - 11:24

以下是我对这张图片的评价和建议

11:25 - 11:26

上面是它优点

11:26 - 11:27

比如光线啊

11:27 - 11:29

色彩构图清晰度都不错

11:29 - 11:30

可以改进的地方像是头发

11:30 - 11:31

头发虽然很飘逸

11:31 - 11:32

但有些凌乱

11:32 - 11:33

可以稍微整理一下

11:33 - 11:35

让线条更加流畅

11:35 - 11:38

肤色、背景锐度等等都可以适当性调节

11:39 - 11:39

它说总的来说

11:39 - 11:41

这张图片是一张高质量的肖像图片

11:41 - 11:43

具有很强的视觉冲击力

11:43 - 11:45

通过对细节调整

11:45 - 11:46

可以使照片更加完美

11:46 - 11:48

任何图片它都可以轻松拿捏啊

11:48 - 11:50

当然它下方还有一个OCR识别功能

11:50 - 11:52

就是从图片中提取文字

11:53 - 11:54

当然文字识别的话也不在话下

11:54 - 11:56

更多好玩的大家可以自己去尝试

11:56 - 11:58

当然如果想识别短视频的话

11:58 - 12:00

那么在Google的实验中心也可以进行识别

12:00 - 12:02

在 Google AI Studio这里

12:02 - 12:04

你不仅可以直接上传视频

12:04 - 12:04

或者

12:04 - 12:06

你可以在上面直接贴入YouTube链接

12:06 - 12:09

让它分析视频也是可以的

12:09 - 12:10

上传好以后

12:10 - 12:11

你让它分析一下

12:11 - 12:12

它都可以对视频进行分析

12:13 - 12:14

或者我们直接上传视频来看一下

12:14 - 12:16

它可以直接通过Google 网盘

12:16 - 12:18

或者相机拍摄上传等等

12:18 - 12:19

都可以啊

12:19 - 12:20

我们测试一个

12:21 - 12:23

它目前用的版本是谷歌Gemini 2.0

12:23 - 12:24

Flash版本是目前最新的

12:25 - 12:27

目前能够分析视频的AI模型的话

12:27 - 12:28

只有 Google 这家了

12:28 - 12:29

没有其它的了

12:29 - 12:30

大家看一下

12:30 - 12:31

非常厉害啊

12:31 - 12:33

它的链接我同样会放到视频下方

12:33 - 12:34

到时候打开链接

12:34 - 12:36

然后在下方这里看到

12:36 - 12:37

下方有个点击前往就可以了

12:37 - 12:38

就会进入到 Google AI Studio

12:38 - 12:41

好 今天视频所用的全部资料

12:41 - 12:42

它们的下载链接

12:42 - 12:43

我都会放在视频下方

12:43 - 12:44

还有零度博客上

Unveiling Google's Gemma 3: Revolutionizing Multi-Modal AI Models

In the fast-moving world of artificial intelligence, Google's Gemma 3 has taken the spotlight with its multi-modal AI capabilities. Gemma 3, the latest addition to the Gemma series, has introduced groundbreaking features and performance enhancements. In the realm of AI language competitions, Gemma 3's 27B medium model has outperformed the 405B Llama3 and the 671B Deepseek V3 models, scoring an impressive 1,338 points. This feat showcases Gemma 3's prowess in AI capabilities, competing closely with the powerful yet resource-intensive Deepseek R1 model. The stark difference in size between Gemma 3's 27B model and the behemoth Deepseek R1 model highlights Gemma 3's advantage in local deployment, requiring only a single GPU compared to Deepseek R1's 8 H100 GPUs.

Gemma 3 stands out further with its four different models, ranging in size from 1B to 27B, offering both base and fine-tuned versions for developers to choose from based on their specific requirements. What sets Gemma 3 apart is its multi-modal nature; except for the 1B model, all versions can handle image, text, and even short video processing simultaneously, expanding its application in various AI scenarios. Moreover, Gemma 3 has enhanced its contextual understanding capabilities, with the 1B version now boasting an expanded context window of up to 32K, while other versions reach an impressive 128K, enabling more robust context processing suitable for tasks like code analysis, document summarization, and complex conversational settings.

One of the key breakthroughs in Gemma 3's core technology is its extended context processing, facilitated by optimized encoding and KV cache management. Additionally, its latest multi-modal capabilities leverage SigLIP as an image encoder, enabling more precise visual understanding. With support for over 140 languages, Gemma 3 breaks language barriers, allowing AI to interact more naturally with global users. This technological leap empowers Gemma 3 to excel in tasks like question answering, image analysis, code assistance, and text summarization.

The journey doesn't end here. Gemma 3 offers a streamlined local deployment process, allowing users to test its capabilities firsthand. By following simple steps to install the Gemma 3 model via the Ollama client and further invoking it through Google Chrome extensions, users can experience the power of Gemma 3's visual AI model locally. Whether analyzing X-ray scans for medical insights, predicting click-through rates for images, or enhancing portrait photography, Gemma 3 showcases its AI prowess across various applications.

To delve deeper into Gemma 3's AI capabilities, users can explore its multi-modal analysis of images, storytelling from pictures, and even text extraction from images using OCR functionality. Moreover, Gemma 3 shines in video analysis, allowing users to analyze videos either by directly uploading them or using YouTube links in Google AI Studio. With Gemma 3, the possibilities are endless, and the world of AI exploration opens up with each analysis and interaction.

In a world driven by data and technology, Gemma 3 emerges as a beacon of innovation, transforming the landscape of AI with its multi-modal prowess and seamless user experience. The future holds boundless opportunities as Gemma 3 continues to push the boundaries of AI applications, making complex tasks simpler and interactions more intuitive.

Discover the limitless potential of Gemma 3, where innovation meets intelligence, and the future of AI unfolds before your eyes.


Explore the limitless potential of Gemma 3, the AI model of tomorrow, where innovation meets intelligence, and the possibilities are endless.