GPT-4: 多模态模型即将开启人工智能的新篇章

Mar 13, 2023

本周值得关注的big thing: GPT-4 发布

目前的GPT-3.5只能理解文字，所以之前推荐的Youtube摘要工具glarity只能基于有字幕的视频。

而GPT-4是多模态模型，可以同时理解图像、声音、文本和视频。也就是说，万物皆可作为输入和输出，AI 可以直接通过摄像头和扬声器和人类沟通，越来越像「人」甚至超越「人」。

也许未来某一天，你很难分辨出来对面的是人还是机器人。改变人类的通用人工智能（AGI）和西部世界要来了吗？

本文带你从月初已发布的多模态Kosmos-1模型略窥一二👇

多模态语言模型Kosmos-1

3月初微软低调推出了一种名为 Kosmos-1 的多模态语言模型 MLLM，输入源从GPT-3.5 的文本扩展到了图像，并提供了论文下载，感觉就是在为GPT-4的发布铺垫

示例1展示了Kosmos-1的3大关键能力

零样本图像识别：识别出兔子
带上下文的图像问答：分辨出绒啄木鸟(downy)
以及图形推理：完成需要理解图形规律的 IQ 测试

我梳理了这篇论文的摘要

能够识别语言和图像，在上下文中学习和生成文本输出
可应用于语言任务（如推理，理解，生成，文字分类）和视觉任务（如图像识别，描述，提问，答复）
该模型基于Transformer语言模型，并使用一个名为Magneto的预训练模型，具有 1.6 亿参数
训练目标是预测下一个token，输入包括文本，图像嵌入，文档
能够在上下文中学习新的概念和关系，例如根据给定的图片或声音识别出其中的物体或动作 5. 该模型在数据集（如 MSCOCO，Raven IQ， Hateful Memes）上进行评估，并与其他模型（如 Clip 和 Flamingo）进行比较
其在语言和视觉任务上获得了不错的结果，且超过其他基准模型
作者还介绍了一个新颖的数据集——Raven IQ test，用于评估 MLLMs 的非语言推理能力
作者认为 MLLMs 是实现人工通用智能（AGI）的关键一步，并展望了未来可能面临的挑战和机遇

Kosmos-1完整能力&示例

完整能力

语言任务
- 语言理解
- 语言生成
- OCR-free文本分类
跨模式转移
- 常识推理
非语言推理
- 智商测试(Ravev渐进矩阵)
感知语言任务
- 图像说明
- 视觉问答
- 网页问答
视觉任务
- 零样本图像分类(zero-shot classification, ZSC)
- 带描述的零样本图像分类

示例 2

- 图像解释(1)-(2)

- 图像问题回答(3)-(4)

- 网页问题回答(5)

- 简单数学计算(6)

- 数字识别(7)-(8)

示例 3

- 图像说明 (1)-(2)

- 图像问题回答 (3)-(6)

- OCR (7)-(8)

- 基于图像的对话 (9)-(11)

示例 4

- 在Raven IQ测试中评估 KOSMOS-1

- Prompt 由平面图像矩阵和口头指令组成

- 我们将每个候选图像分别附加到提示上，并询问模型是否正确。最终的预测是促使模型产生最高概率的 "是 "的候选答案，使得 KOSMOS-1 具备非语言领域的推理能力

示例 5

- 多模态思维链：使KOSMOS-1首先产生一个理由，然后处理复杂的答题和推理任务

Kosmos-1总结&GPT-4

可以看出，多模态模型让 Kosmos-1 具备了可以理解图片的能力，识别图片内容，学习与图片相关的知识，甚至完成 IQ 测试，越来越向「人」的能力接近。

微软在月初表示其计划向开发人员提供 Kosmos-1，但该论文引用的GitHub页面还没有出现包括 Kosmos 的特定代码，会在 GPT-4 发布后一并更新吗？

GPT-4 除了能理解图像，还有声音和视频。也就是说，万事万物都可以被其理解和输出，我们又向 AGI（通用人工智能）迈进了一步，在有生之年可能会进入人和 AI 共存的世界，AI 可以直接通过摄像头和扬声器和人类沟通，越来越像「人」甚至超越「人」。

未来是像流浪地球2这样充满摄像头的世界，还是充满人造人的西部世界？

这样的世界很难想象，我们只能不断提升自己的能力来面对，驾驭 AI 而不是被 AI 淘汰

starzq.eth⛩️ @starzqeth

TL;DR 1. ChatGPT会替代大量职位，我们需要具备差异化能力：想象力、决策和沟通能力 2. 传统的人才培养体系将失效，我们需要为自己设计培训系统 3. 2023将是 solopreneur（个体企业家）元年，个人创作者必须升级自己下面我将详细介绍 2/21

欢迎来推特一键三连。我会定期分享案例与思考，AI和NFT这类科技如何为企业、创作者和消费者带来改变

starzq.eth⛩️ @starzqeth

本周值得关注的big thing: GPT-4 发布目前的GPT-3.5只能理解文字，所以之前推荐的Youtube摘要工具只能基于有字幕的视频而GPT-4是多模态模型，可以同时理解图像、声音、文本和视频。也就是说，万物皆可作为输入和输出改变人类的通用人工智能要来了吗？本文带你从已发布的Kosmos-1模型略窥一二👇

Discussion about this post

No posts

#nojs-banner { position: fixed; bottom: 0; left: 0; padding: 16px 16px 16px 32px; width: 100%; box-sizing: border-box; background: red; color: white; font-family: -apple-system, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; font-size: 13px; line-height: 13px; } #nojs-banner a { color: inherit; text-decoration: underline; } This site requires JavaScript to run correctly. Please turn on JavaScript or unblock scripts