苹果探索自研多模态AI模型Manzano

2025-09-28 10:33:56 三言科技

(资料图片)

据悉，苹果正在研发名为Manzano的新图像模型，旨在兼具图像理解和图像生成能力。目前Manzano尚未发布，仅有一篇预印本论文和部分低分辨率图像样例。苹果表示，大多数开源模型在图像处理上存在取舍，而Manzano采用混合图像分词器，其共享编码器可输出连续标记和离散标记，减少任务冲突。Manzano整体架构包括混合分词器、统一语言模型和独立图像解码器，解码器有三个版本，支持不同分辨率。训练使用大量图像文本样本，内部测试显示其在文字密集型任务中表现优异，性能随规模提升而改善。苹果认为Manzano是有力替代方案，但目前其基础模型仍落后于行业领先者，未来版本需进一步验证。

标签：解码器编码器图像处理 ai模型苹果公