微软团队发布:多模态大模型GPT-4V(ision)
2023-10-06 11:36:46 | 来源:网络多模态大模型GPT-4V(ision),以下简称GPT-4V,指南书详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示。
还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。
值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。
在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。
相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:
1、GPT-4V的用法:
5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。
3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。
2、GPT-4V在10大任务中的表现:
开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)
3、类GPT-4V多模态大模型的提示词技巧:
提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。
4、多模态大模型的研究&落地潜力:
预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。