OpenAI 宣布推出 GPT-4o mini,它表示 GPT-4o mini 是至今为止最具成本效益的小型模型。这一突破预计将大幅扩展使用 AI 构建的应用范围,让智能技术变得更加经济实惠。
Table of Contents
以合理价格提供卓越性能
GPT-4o mini 的定价为每百万个 input token 15 美分,每百万个 output token 60 美分。这比之前的模型便宜了一个数量级,并且比 GPT-3.5 Turbo 便宜超过 60%。尽管价格低廉,GPT-4o mini 在 MMLU 基准测试 (Multi-task Language Understanding) 中得分达到 82%,并且在 LMSYS 排行榜的聊天偏好中表现优于 GPT-4.1。
GPT-4o Mini 更快速的聊天回应
GPT-4o mini 的低成本和低延迟使其适用于广泛的任务,包括连结或并行多次模型调用的应用,例如调用多个 API,向模型传递大量上下文 (如:整个代码库或对话历史),或透过快速的即时文本回应与客户互动(如:客服聊天机器人)。
目前,GPT-4o mini 支持 API 中的文本和视觉功能。
未来的更新将包括对文本、图像、影片和音讯输入和输出的支持。凭借 128K 标记的上下文窗口和每次请求最多支持 16K output token 的能力,GPT-4o mini 能够处理各种任务。该模型还拥有截至 2023 年 10 月的知识,并且透过与 GPT-4o 共享新的 tokenizer,可以更具成本效益地处理非英语文本。
文本智能和多模态推理超越 GPT-3.5 Turbo
GPT-4o mini 在学术基准测试中超越了 GPT-3.5 Turbo 和其他小型模型,无论是文本智能还是多模态推理方面。它支持与 GPT-4o 相同范围的语言,并在函数调用方面表现出色,使开发人员能够构建能够从外部系统获取数据或采取行动的应用。此外,与 GPT-3.5 Turbo 相比,它在长上下文性能方面也有所改善。
主要基准测试表现亮点
- 推理任务: GPT-4o mini 在 MMLU 中得分 82.0%,优于 Gemini Flash(77.9%)和 Claude Haiku(73.8%)。
- 数学和编码能力: 在数学推理和编码任务中,GPT-4o mini 分别在 MGSM 和 HumanEval 中得分为 87.0% 和 87.2%,相比之下,Gemini Flash 和 Claude Haiku 的得分较低。
- 多模态推理: 在 MMMU 这个多模态推理评估中,GPT-4o mini 得分 59.4%,超越了 Gemini Flash(56.1%)和 Claude Haiku(50.2%)。
内建安全措施:审查政策、抗破解
OpenAI 表示,在预训练阶段,我们过滤掉了有害内容,例如仇恨言论和垃圾信息。训练后,使用人类反馈强化学习 (RLHF) 等技术来使模型的行为与政策保持一致。
GPT-4o mini 继承了 GPT-4o 的安全缓解措施,并根据 OpenAI 的准备框架透过自动和人工评估进行评估。超过 70 位外部专家的见解帮助改进了 GPT-4o 和 GPT-4o mini 的安全性。
不用怕指令被破解
GPT-4o mini 是首个在 API 中应用我们的指令层次方法的模型,增强了其抵抗破解、提示 (prompt) 注入和系统提示提取的能力,这使得模型的回应在大规模应用中更加可靠和安全。
免费版也可以用 GPT-4o mini
OpenAI 表示,在 ChatGPT 中,免费、Plus 和 Team 用户将从今天开始获得 GPT-4o mini 的使用权,取代 GPT-3.5。企业用户将在下周获得使用权。未来,强大的 AI 将更便宜!