admin管理员组

文章数量:1530846

Visual ChatGPT

 

GitHub - microsoft/visual-chatgpt: VisualChatGPT

Visual ChatGPT 将 ChatGPT 和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。

近年来,大型语言模型(LLM)取得了令人难以置信的进展,尤其是去年 11 月 30 日,OpenAI 重磅推出的聊天对话模型 ChatGPT,短短三个月席卷社会各个领域。ChatGPT 会的东西五花八门,能陪你聊天、编写代码、修改 bug、解答问题……

但即便是非常强大的 ChatGPT 也存在短板,由于它是用单一语言模态训练而成,因此其处理视觉信息的能力非常有限,相比较而言,视觉基础模型(VFM,Visual Foundation Models)在计算机视觉方面潜力巨大,因而能够理解和生成复杂的图像。例如,BLIP 模型是理解和提供图像描述的专家;大热的 Stable Diffusion 可以基于文本提示合成图像。然而由于 VFM 模型对输入 - 输出格式的苛求和固定限

本文标签: 来了开源微软发布视觉代码