介绍

在大语言模型(LLM)中,instruction tuning是一个重要的研究方向。简单来说,就是训练LLM理解和执行人类的指令,而不是简单地预测下一个词。比如:

传统的instruction tuning主要是在纯文本领域,比如ChatGPT就是一个很好的例子。而LLaVA的创新之处在于将这个概念扩展到了视觉领域,让AI不仅能看懂图片,还能按照人类的指令来讨论图片内容。

在LLM中,通常instruction tuning的做法是,构造高质量的数据集,在大规模pretrain LLM之后,在这个特定的instruction tuning的数据集上做finetune. 这样模型就能更好的服从人们的指令去完成任务。那么怎么将这套方法扩展到视觉领域? 创建这么一个能按照人类的指令来讨论/回答图片内容的AI助手,面临着两个主要挑战:

LLaVA文章就对这两个问题提供了答案和思路。

创建数据集

创建数据集最简单的做法用人工标注,但是这样的话有一些缺点比如,既耗时又昂贵,而且质量难以统一。借鉴文本领域的做法,比如文章:[^ Fabrizio Gilardi, Meysam Alizadeh, and Maël Kubli. Chatgpt outperforms crowd-workers for text-annotation tasks. arXiv preprint arXiv:2303.15056, 2023],LLaVA 从现有的图像描述数据(如 COCO 数据集)中,利用GPT/ChatGPT 的in context learning 的能力来自动生成适用于视觉任务的指令微调数据。

那么为什么要这么做呢?这样的做法有两个显然的好处:

为了得到更高质量的数据,作者直接利用了image caption 数据里的caption Ground Truth. 作为图片的描述。具体做法是,利用已有的标注,将其表达成image的symbolic representation: caption和bbox。比如下面的例子:

image_feat.png