Profile of Emmy Noether

你的手机也能跑“视觉大模型”?苹果发布的FastVLM到底怎么样?

什么? 苹果开源了视觉大模型? FastVLM是什么东西? 手机上也能运行大模型了?

一连串的问号,在我脑海中炸开。当我看到“苹果”、“开源”、“视觉大模型”这几个关键词组合在一起,就感觉事情没那么简单。 苹果最近在Github上开源了一个“视觉大模型”项目,官方的描述是:“该存储库包含“FastVLM:视觉语言模型的高效视觉编码”的官方实现”。FastVLM (Efficient Vision Encoding for Vision Language Models:视觉语言模型的高效视觉编码)。 运行截图

上代码

直接去github把代码拉下来: git clone https://github.com/apple/ml-fastvlm.git 然后按照文档说明进行操作,先配置环境:

conda create -n fastvlm python=3.10
conda activate fastvlm
pip install -e .

这里介绍了如何使用,我们要在手机上运行,所以按照Apple Devices部分的步骤,去app页找安装步骤。

app页的步骤很简单,我们只需要下载一个get_pretrained_mlx_model.sh脚本,这个脚本能够自动下载代码和模型放到合适的目录结构,下载完成后,就可以在XCode中直接编译运行了。 执行以下步骤:

//使脚本可执行
chmod +x app/get_pretrained_mlx_model.sh
//下载 FastVLM
app/get_pretrained_mlx_model.sh --model 0.5b --dest app/FastVLM/mode

然后用XCode打开项目,

编译过程遇到了依赖报错,尝试切换网络、清理缓存,最后解决。

清理缓存:File > Packages > Reset Package Caches
重新resolve:点击 File > Packages > Resolve Package Versions

手机上运行效果:

识别速度还是挺快的:

试玩体验

先说优点

首先就是“快”,官方宣称其 Time-to-First-Token (TTFT) 速度相比一些现有模型有着巨大的提升,这在我简单的测试中也得到了印证,我在iPhone13pro上运行,识别速度虽然有延迟(1~2s),但是已经是令人可以接受的程度了,要知道这可是4年前的机器。

其次是FastVLM 在模型尺寸和资源消耗表现优秀,0.5B的尺寸小巧、快速,非常适合注重速度的移动设备。这让我看到了未来在各种资源受限的设备上运行高性能视觉 AI 的可能性。

不过也存在很多问题

功能相对基础,0.5B的模型,在理解和回答上还是比较简单的,如果想要更复杂更细腻的回答,就要上更大的模型,目前来看1.5B应该可以勉强运行,7B的话在手机上肯定跑不起来的。

功耗较高,没有具体数据,从体感上来讲,运行时发热量很大,使用1分钟后手机就开始卡顿(平时运行大游戏都没这么卡)。所以目前想要应用在实际项目上可能不太现实,未来的路还很长。

总结

苹果开源的 ml-fastvlm项目是一项令人兴奋的技术,它在视觉语言模型的效率方面取得了显著的进展,为未来的应用带来了新的可能性。然而,作为一项非常新的技术,它仍然需要进一步的开发和完善。对于普通开发者来说,目前可能更适合关注其技术原理和未来的发展趋势。

Maple
Maple
作者
分享:
本文采用 CC BY-NC-SA 4.0 许可协议 | 请在转载时保留原文链接
最后更新:2025/5/17