微软的Florence-2：弥合LLMs和大型视觉模型之间的差距

realtime news Jul 16, 2024 05:01 UTC 21:01

1 Min Read

微软的Florence-2代表了计算机视觉领域的一个显著飞跃，借鉴了大型语言模型（LLMs）的进展，创造了一个能够执行广泛任务的基础图像模型。根据AssemblyAI，Florence-2几乎可以执行计算机视觉中的每一个常见任务，这标志着大型视觉模型（LVMs）发展的一个关键时刻。

Florence-2的能力

Florence-2设计用于处理各种图像语言任务，生成图像级、区域级和像素级输出。它可以开箱即用地执行一些任务，包括图像描述、光学字符识别（OCR）、物体检测、区域检测、区域分割和词汇分割。這种多功能性不需要架构修改，为用户提供了无缝体验。

开发LVM的一个主要挑战是赋予其在不同语义和空间分辨率级别上操作的能力。Florence-2通过利用统一架构和大型多样化数据集解决了这个问题，遵循了LLM研究的成功策略。这种方法使Florence-2能够学习到适用于各种任务的通用表示，成为计算机视觉领域的基础模型。

Florence-2采用经典的seq2seq变压器架构，将视觉和文本输入映射到嵌入中，并输入变压器编码器-解码器。该模型使用FLD-5B数据集进行训练，包含126百万张图像上的5.4十亿个注释。这一广泛的数据集包括文本注释、文本区域注释和文本短语区域注释，使模型能够在不同粒度级别上学习。

Florence-2的训练过程涉及使用交叉熵损失的标准语言建模。该模型使用单一网络架构、大型多样化数据集和统一的预训练框架，实现了显著的性能提升。将位置标记包含在分词器的词汇表中，使Florence-2能够在统一学习格式下处理特定区域的信息，消除了针对不同任务的特定头部需求。

开始使用Florence-2很简单，资源如Florence-2推理Colab和GitHub存储库提供了有用的指南和代码示例。用户可以按照提供的说明执行各种任务，如图像描述、OCR、物体检测、分割、区域描述和短语定位。

Florence-2是LVM开发中的一大进步，展示了强大的零样本性能，并在许多任务上通过微调达到了最先进的结果。然而，进一步的工作需要开发能够通过上下文学习执行新任务的LVM，这类似于LLMs。研究人员和开发人员被鼓励探索Florence-2并为其持续发展做出贡献。

有关LVM开发和其他AI进展的更多信息，请订阅AssemblyAI的通讯，并查看他们关于AI进展的其他资源。