你的手机也能跑“视觉大模型”？苹果发布的FastVLM到底怎么样？

什么？苹果开源了视觉大模型？ FastVLM是什么东西？手机上也能运行大模型了？

一连串的问号，在我脑海中炸开。当我看到“苹果”、“开源”、“视觉大模型”这几个关键词组合在一起，就感觉事情没那么简单。苹果最近在Github上开源了一个“视觉大模型”项目，官方的描述是：“该存储库包含“FastVLM：视觉语言模型的高效视觉编码”的官方实现”。FastVLM (Efficient Vision Encoding for Vision Language Models：视觉语言模型的高效视觉编码)。运行截图

上代码

直接去github把代码拉下来： git clone https://github.com/apple/ml-fastvlm.git 然后按照文档说明进行操作，先配置环境：

conda create -n fastvlm python=3.10
conda activate fastvlm
pip install -e .

这里介绍了如何使用，我们要在手机上运行，所以按照Apple Devices部分的步骤，去app页找安装步骤。

app页的步骤很简单，我们只需要下载一个get_pretrained_mlx_model.sh脚本，这个脚本能够自动下载代码和模型放到合适的目录结构，下载完成后，就可以在XCode中直接编译运行了。执行以下步骤：

//使脚本可执行
chmod +x app/get_pretrained_mlx_model.sh
//下载 FastVLM
app/get_pretrained_mlx_model.sh --model 0.5b --dest app/FastVLM/mode

然后用XCode打开项目，

编译过程遇到了依赖报错，尝试切换网络、清理缓存，最后解决。

清理缓存：File > Packages > Reset Package Caches
重新resolve：点击 File > Packages > Resolve Package Versions

手机上运行效果：

识别速度还是挺快的：

试玩体验

先说优点

首先就是“快”，官方宣称其 Time-to-First-Token (TTFT) 速度相比一些现有模型有着巨大的提升，这在我简单的测试中也得到了印证，我在iPhone13pro上运行，识别速度虽然有延迟（1～2s），但是已经是令人可以接受的程度了，要知道这可是4年前的机器。

其次是FastVLM 在模型尺寸和资源消耗表现优秀，0.5B的尺寸小巧、快速，非常适合注重速度的移动设备。这让我看到了未来在各种资源受限的设备上运行高性能视觉 AI 的可能性。

不过也存在很多问题

功能相对基础，0.5B的模型，在理解和回答上还是比较简单的，如果想要更复杂更细腻的回答，就要上更大的模型，目前来看1.5B应该可以勉强运行，7B的话在手机上肯定跑不起来的。

功耗较高，没有具体数据，从体感上来讲，运行时发热量很大，使用1分钟后手机就开始卡顿（平时运行大游戏都没这么卡）。所以目前想要应用在实际项目上可能不太现实，未来的路还很长。

总结

苹果开源的 ml-fastvlm项目是一项令人兴奋的技术，它在视觉语言模型的效率方面取得了显著的进展，为未来的应用带来了新的可能性。然而，作为一项非常新的技术，它仍然需要进一步的开发和完善。对于普通开发者来说，目前可能更适合关注其技术原理和未来的发展趋势。

上代码

试玩体验

总结

内容导航

推荐阅读

AI编程的终极形态？亚马逊Kiro的“规范驱动”到底好不好用？

什么，你个浓眉大眼的Trae也开始收费了？我先买个首充尝尝鲜！

再见Cursor，你好Augment Code

别再瞎用DeepSeek了！清华这份指南，让你的 AI 使用效率飙升（送完整文档）

当"AI取代程序员"成为新型焦虑贩卖？醒醒吧！