AI PC几乎成为所有新款笔记本宣传的标配,本地运行大模型、高阶人工智能助手成为新款笔记本的基础操作。但很多时候,笔记本厂商原配的本地大模型功能未必合适,自己动手部署本地DeepSeek自然变成了很好的选择。特别是随着酷睿Ultra 200V(Lunar Lake)和酷睿Ultra 200H/HX(Arrow Lake)推动AI PC概念普及,围绕NPU、GPU、CPU构建的AI加速框架已然成型,现在不妨让我们以华硕灵耀14 2025为例,看看本地大模型如何部署。
先利其器
华硕灵耀14 2025是近段时间较为热门的轻薄型笔记本,不仅拥有1.19kg重量,还拥有全铝合金机身设计,2.8K OLED 120Hz屏幕,现阶段电商顶配售价配合国补只需要5759元。
重点在配置上,华硕灵耀14 2025使用了酷睿Ultra 9 285H,32GB LPDDR5X-7467,1TB SSD存储,在配置满足了本地运行大模型的基本需求。酷睿Ultra 9 285H基于Arrow Lake-H打造,配备6个Lion Cove P-Core,8个Skymont E-Core,2个LP E-Core,相对上一代Meteor Lake-H在单线程和多线程性能上提升15%,并配备了Xe iGPU,为AI加速奠定基础。
酷睿Ultra 9 285H的AI TOPS达到99 TOPS,其中包括11 TOPS的NPU,iGPU的77 TOPS,以及CPU的11 TOPS。得益于英特尔打通生态链的能力,后面我们提到的部署方案,很大程度上都源自于英特尔提供的完整解决方案。
同时华硕灵耀14 2025也提供了足够的性能释放空间,在长时间压力测试状态下,CPU功耗维持在33W左右,瞬时最高功耗60W,用来应对本地大模型运算已经足够。
一步到位
现在进入到部署环节。本地大模型部署,少不了先提到Ollama。Ollama作为开源的轻量级架构,可以在AI PC上轻松的构建、运行和管理大语言模型(LLM)。由于Ollama允许完全本地部署,无需依赖外部服务器或者云端,因此在数据保护上更具有隐私性和安全性。这时候,英特尔提供的IPEX-LLM部署平台就是一个相当便捷的方式。
IPEX-LLM完整称呼是Intel LLM Library for PyTorch,是英特尔开发的一个开源的大语言模型(LLM)加速库,旨在优化英特尔CPU、GPU、NPU上的LLM推理和微调性能。仅需要通过安装完成部署,然后加载DeepSeek即可。
在魔搭社区搜索Intel/ollama既可以直接跳转到Ollama 英特尔优化版页面,在这个页面内提供了所有部署大模型所需的文件。这套基于IPEX-LLM的Ollama英特尔优化版已经针对11代到14代酷睿,酷睿Ultra系列,以及英特尔Arc A系列和B系列GPU优化。在正式安装之前,确保驱动更新到最新即可。
按照教程提示,将下载好后的Ollama解压到一个文件夹中,运行文件夹中的start-ollama.bat启动Ollama Serve,弹出的窗口不要关闭,通过cmd命令提示符窗口在解压缩的文件夹中运行Ollama即可。执行命令如下:
.ollama run deepseek-r1:7b
这时候就会看到Ollama开始下载对应的DeepSeek模型,完成后,即可进入对话模式。如果觉得纯文字界面当然还差点意思,后续还可以通过ChatBox AI客户端,或者Edge浏览器插件,安装之后,客户端或者插件就会自动检测到之前安装的Ollama Serve,不需要更多的设置,就能获得更直观的交流界面。

比起直接部署,借助第三方应用运行DeepSeek也是可以的,借助类似于Flowy AIPC等应用,就可以一步到位获得DeepSeek大模型。搜索Flowy AIPC进入官网,下载安装程序,登陆,就可以一气呵成获得一套完整的人工智能对话界面。在模型市场本地模型中,就可以找到7b到32b的DeepSeek R1,点击安装,完成后既可以在对话框中进行对话。
LM Studio同样是本地开发和运行大语言模型的另一个选择,同样是在不联网的情况下实现本地大模型运行,支持AI助手、离线语言处理、AI集成等功能。安装方式很简单,在官网lmstudio.ai一键下载安装之后,在模型搜索中DeepSeek-R1相应的模型,比如DeepSeek-R1-Distill-Qwen-14B,点击下载,然后等待完成即可。
最后一个方案则是华硕灵耀14 2025自带的。在更新到最新一版的华硕大厅之后,点击华硕大厅左下角的小硕知道即可展开部署,整个过程也不需要复杂的操作。
安装完成后,小硕知道扮演了类似Copilot的工作,笔记本的基础设置就可以通过自然对话来实现,比如向小硕知道要求调整屏幕亮度、控制扬声器音量,都不必专门去调用设置,直接在对话框中解决。不过小硕知道的自然语义了解目前还没有这么顺畅,似乎要触发一定程度的关键词才能召唤出对应功能。
特别是在离线模式下,依靠酷睿Ultra 9 285H的AI加速,就能协助总结文档内容,在短时间内给出准确的总结。在运行的过程中,可以看到iGPU全负荷运作,酷睿Ultra 9 285H对AI加速已经提供了很好的调用。
效果如何?
得益于华硕灵耀14 2025拥有32GB LPDDR5X-7467内存,实际上分配给酷睿Ultra 9 285H的Arc 140T iGPU作为显存的容量可更多,运行诸如DeepSeek-R1:8B的大模型已经非常容易。
举个例子,在一段文字生成过程中,Ultra 9 285H Arc 140T iGPU满负荷运作,并以25 tokens/s的速度生成文字内容,体感上已经非常顺畅。同样,如果运行Moonlight-16B-A3B模型进行数学公式计算或者诗词生成,生成速度可以做到40 token/s以上,生成的速度非常快了。
为了让对比更具有参考性,这里我们引入UL Procyon AI Text Generation Benchmark作为文字AI文本测试参考,在文本生成测试中包含了Phi-3.5-mini-3.8B,Mistral-7B-v0.2 7B,Llama -3.1 8B,Llama-2 13B。同时也对显存提出了严苛的要求,只有在16GB以上显存才能实现Llama-2 13B的测试。
得益于灵耀14 2025的32GB LPDDR5X-7467,四个应用场景都达到了可用的程度。例如Phi-3.5-mini-3.8B中,可以实现20.58 Tokens/s的速度,Mistral-7B-v0.2 7B中也做到了13.13 Tokens/s,已经能够确保在离线的状态下,获得流畅的AI文本生成体验。
从体验上来看,这款国补仅需要5759元的华硕灵耀14 2025轻薄笔记本已经具备了不错的端侧AI运行能力。在信息不上传网络、离线的状态下,笔记本就可以实现流畅的文字内容整理、创作,甚至优秀的AI助理。很大程度得益于酷睿Ultra平台对端侧大模型提供了很好的适配,配合亮眼的能效表现,让轻薄型笔记本也变得智能了起来。
更重要的是,现在端侧AI大模型的部署在DeepSeek火爆的半年内已经构建出了一条完整、高效的部署方案,只需要简单几步,原本复杂的界面和调试被轻松略过,让普通玩家也能轻松获得一套高效的本地AI助手,光凭这一点就相当厉害了。