本文介绍了一项名为YOLO-World的创新研究,该研究由Tianheng Cheng、Lin Song、Yixiao Ge、Wenyu Liu、Xinggang Wang和Ying Shan等作者共同完成,研究团队来自腾讯AI Lab、ARC Lab(腾讯PCG)以及华中科技大学电子与信息工程学院。该研究发表于2024年的IEEE/CVF计算机视觉与模式识别会议(CVPR),旨在解决传统YOLO(You Only Look Once)系列目标检测器在开放场景中的局限性。
目标检测是计算机视觉领域的一个长期挑战,广泛应用于图像理解、机器人和自动驾驶等领域。尽管基于深度神经网络的目标检测方法取得了显著进展,但这些方法通常只能检测预定义类别的物体,例如COCO数据集中的80个类别。这种固定词汇表的限制使得这些方法在开放场景中的适用性受到限制。近年来,研究者们开始探索基于视觉-语言模型(vision-language models)的开放词汇表目标检测(open-vocabulary object detection, OVD),以解决这一问题。然而,现有的方法往往计算负担重,且难以在边缘设备上部署。
YOLO-World通过引入视觉-语言建模和大规模数据集的预训练,增强了YOLO的开放词汇表检测能力。具体来说,研究团队提出了一种新的可重参数化的视觉-语言路径聚合网络(Re-parameterizable Vision-Language Path Aggregation Network, RepVL-PAN)和区域-文本对比损失(region-text contrastive loss),以促进视觉和语言信息的交互。YOLO-World能够在零样本(zero-shot)情况下高效检测多种物体。
研究的主要流程包括以下几个步骤: 1. 模型架构设计:YOLO-World基于YOLOv8架构,结合了预训练的CLIP文本编码器,用于编码输入文本。RepVL-PAN用于增强图像和文本特征的表示,通过跨模态融合提升视觉-语义表达能力。 2. 预训练策略:研究团队提出了基于区域-文本对比学习的预训练方案,将检测、定位和图像-文本数据统一为区域-文本对进行训练。通过大规模数据集的预训练,YOLO-World展示了强大的开放词汇表检测能力。 3. 推理优化:为了进一步提高开放词汇表目标检测的效率,研究团队提出了一种提示-检测范式(prompt-then-detect paradigm)。在这种范式下,用户可以根据需求生成一系列提示词,这些提示词被编码为离线词汇表,从而避免了每次输入的重复计算。
在LVIS数据集上,YOLO-World在零样本检测中取得了35.4的平均精度(AP),并在V100 GPU上实现了52.0帧每秒(FPS)的推理速度,显著优于许多现有的开放词汇表检测方法。此外,经过微调的YOLO-World在多个下游任务中表现出色,包括目标检测和开放词汇表实例分割。
YOLO-World的提出为开放词汇表目标检测提供了一种高效且易于部署的解决方案。通过引入RepVL-PAN和区域-文本对比学习,YOLO-World不仅提升了检测的准确性,还显著提高了推理速度。该研究的成果表明,视觉-语言预训练在小模型上同样具有强大的潜力,为未来的研究提供了新的方向。
研究团队还开源了YOLO-World的代码和预训练模型,以促进更多实际应用的发展。此外,研究还展示了YOLO-World在开放词汇表实例分割和参考目标检测等任务中的潜力,进一步验证了其广泛的应用前景。
YOLO-World为开放词汇表目标检测领域提供了一个新的基准,具有重要的科学价值和应用潜力。