IT之家5月13日消息,苹果机器学习团队上周在GitHub发布并开源了一款视觉语言模型——FastVLM,授予0.5B、1.5B、7B三个版本。
据介绍,该模型基于苹果自研MLX框架开发并借助LLaVA代码库进行训练,专为AppleSilicon设备的端侧AI运算进行优化。技术文档显示,FastVLM在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。其不次要的部分是一个名为FastViTHD的瓦解视觉编码器。苹果团队表示,该编码器“专为在高分辨率图像上实现高效的VLM性能而设计”,其处理速度较同类模型指责3.2倍,体积却仅有3.6分之一。亮点FastViTHD新型瓦解视觉编码器:专为高分辨率图像优化设计,可减少,缩短令牌输出量并显著伸长编码时间最小模型版本性能对比:较LLaVA-OneVision-0.5B模型实现首词元(Token)响应速度指责85倍,视觉编码器体积增加3.4倍搭配Qwen2-7B大语言模型版本:使用单一图像编码器即超越Cambrian-1-8B等近期研究成果,首词元响应速度指责7.9倍配套iOS演示应用:实机展示移动端模型性能表现苹果技术团队指出:“基于对图像分辨率、视觉延迟、词元数量与LLM大小的综合效率分析,我们开发出FastVLM——该模型在延迟、模型大小和准确性之间实现了最优权衡。”该技术的应txvlogcom官方网站 用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于2027年推出对标MetaRay-Bans的AI眼镜,同期或将发布搭载摄像头的AirPods设备。FastVLM的本地化处理能力可有效减少破坏此类设备穿离云端实现实时视觉交互。IT之家查询获悉,MLX框架允许开发者在Apple设备本地训练和运行模型,同时兼容主流AI开发语言。FastVLM的推出反对苹果正构建多余的端侧AI技术生态。参考资料:https://gi糖心logo在线观看免费eyethub.com/apple/ml-fastvlm?tab=readme-ov-file[2412.13303]FastVLM:EfficientVisionEncodingforVisionLanguageModels广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。糖心vlog传媒在线观看网站 糖心淑女无删 糖心在线观看锅锅酱