文章

JetBrainsAI 模型对比 20250425

目录

主要模型概述

OpenAI系列

  • GPT-4.1:OpenAI于2025年4月发布的旗舰模型,具有100万token上下文窗口,支持多模态输入
  • GPT-4.1 Mini:GPT-4.1的轻量化版本,性能与价格之间取得良好平衡
  • GPT-4.1 Nano:GPT-4.1家族中最小最经济的版本,专为低延迟应用设计
  • GPT-4o:2024年5月发布的多模态模型,擅长处理文本、图像和音频
  • GPT-4o Mini:GPT-4o的轻量版本,保持大部分功能但价格更低
  • o1:专注于深度思考与推理的模型,采用"思维链"方法解决复杂问题
  • o1-Mini:o1的轻量版本,保持部分推理能力但响应速度更快
  • o3:专为科学、数学和编程任务优化的推理模型
  • o3-Mini:o3的轻量版本,为STEM领域优化,同时保持200K上下文窗口
  • o4-Mini:OpenAI最新的轻量级推理模型,性能与速度之间取得平衡

Anthropic系列

  • Claude 3.5 Sonnet:Anthropic的中型模型,擅长编码和内容生成
  • Claude 3.5 Haiku:Anthropic的轻量高速模型,适合实时应用
  • Claude 3.7 Sonnet:Anthropic最新的旗舰模型,支持计算机使用功能

Google系列

  • Gemini 1.5 Pro:Google的高性能模型,拥有200万token上下文窗口
  • Gemini 1.5 Flash:更快速、更经济的Gemini版本
  • Gemini 2.0 Flash:提供新一代功能和增强能力的多模态模型
  • Gemini 2.5 Pro:Google最新的旗舰思考型模型,推理能力强化
  • Gemini 2.5 Flash:高性价比模型,具有100万token上下文窗口和思考预算功能

性能对比

基准测试成绩对比

模型 MMLU MATH HumanEval GPQA MMMU
Claude 3.7 Sonnet 90.2% 96.2% 94.5% 不适用 75%
Claude 3.5 Sonnet 89.3% 78.3% 93.7% 不适用 71.4%
Claude 3.5 Haiku 不适用 69.4% 88.1% 41.6% 不适用
GPT-4.1 90.5% 88% 95% 83% 72%
GPT-4.1 Mini 85.3% 76% 89% 68% 63%
GPT-4.1 Nano 80.1% 不适用 不适用 50.3% 55.4%
GPT-4o 88.7% 83.5% 90.2% 75.8% 69.8%
GPT-4o Mini 82.4% 74.1% 83.6% 58.4% 60.2%
o1 90% 87% 89% 79% 70%
o1-Mini 84% 78% 82% 65% 不适用
o3-Mini 86.9% 97.9% 不适用 79.7% 不适用
Gemini 2.5 Pro 90.0% 84.2% 92.1% 76.3% 74.5%
Gemini 2.0 Flash 83.5% 76.8% 86.2% 65.2% 65.3%
Gemini 1.5 Pro 81.2% 73.5% 84.7% 63.8% 63.4%

MMLU: 大规模多任务语言理解;MATH: 数学问题解决;HumanEval: 代码生成;GPQA: 研究生级物理问题;MMMU: 多模态多任务理解

上下文窗口与响应速度

模型 上下文窗口 最大输出token 推理速度(token/秒) 思考延迟(TTFT)
Claude 3.7 Sonnet 200K 64K 约55 中等
Claude 3.5 Sonnet 200K 8K 约50 0.64秒
Claude 3.5 Haiku 200K 8K 约52 0.36秒
GPT-4.1 1M 32K 约50
GPT-4.1 Mini 1M 32K 约60 中等
GPT-4.1 Nano 1M 32K 约75
GPT-4o 128K 16K 约65
GPT-4o Mini 128K 16K 约75 很低
o1 200K 100K 约30 非常高
o1-Mini 128K 64K 约40
o3-Mini 200K 100K 约55 中等
o4-Mini 128K 不适用 约60 中等
Gemini 2.5 Pro 1M 65K 约45 中等
Gemini 2.5 Flash 1M 65K 约55
Gemini 2.0 Flash 1M 8K 约60 很低
Gemini 1.5 Pro 2M 8K 约40 中等

价格对比

输入价格(每百万token,美元)

模型 文本输入 图像/视频输入 音频输入
Claude 3.7 Sonnet $3.00 $3.00 不适用
Claude 3.5 Sonnet $3.00 $3.00 不适用
Claude 3.5 Haiku $1.00 $1.00 不适用
GPT-4.1 $2.00 $2.00 不适用
GPT-4.1 Mini $0.40 $0.40 不适用
GPT-4.1 Nano $0.10 $0.10 不适用
GPT-4o $2.50 $2.50 $40.00
GPT-4o Mini $0.15 $0.15 $10.00
o1 $15.00 $15.00 不适用
o1-Mini $1.10 不适用 不适用
o3-Mini $1.10 不适用 不适用
o4-Mini 不适用 不适用 不适用
Gemini 2.5 Pro $1.25 $1.25 不适用
Gemini 2.5 Flash $0.15 $0.15 $1.00
Gemini 2.0 Flash $0.10 $0.10 $0.70
Gemini 1.5 Pro $1.25 $1.25 不适用

输出价格(每百万token,美元)

模型 文本输出 音频输出
Claude 3.7 Sonnet $15.00 不适用
Claude 3.5 Sonnet $15.00 不适用
Claude 3.5 Haiku $5.00 不适用
GPT-4.1 $8.00 不适用
GPT-4.1 Mini $1.60 不适用
GPT-4.1 Nano $0.40 不适用
GPT-4o $10.00 $80.00
GPT-4o Mini $0.60 $20.00
o1 $60.00 不适用
o1-Mini $4.40 不适用
o3-Mini $4.40 不适用
o4-Mini 不适用 不适用
Gemini 2.5 Pro $10.00 不适用
Gemini 2.5 Flash ​0.60 (非思考)/3.50 (思考) 不适用
Gemini 2.0 Flash $0.40 不适用
Gemini 1.5 Pro $5.00 不适用

各模型优缺点分析

OpenAI系列

GPT-4.1系列

  • 优点
    • 具有1M token的超大上下文窗口
    • 性能全面,在各项基准测试中表现出色
    • 知识更新到2024年6月
    • 支持多模态输入
  • 缺点
    • 高端版本价格昂贵
    • 部分专业领域知识深度不足

GPT-4o系列

  • 优点
    • 多模态能力强,包括文本、图像、音频等
    • 交互速度快,延迟低
    • 支持音频输入输出
    • GPT-4o Mini提供极高性价比
  • 缺点
    • 上下文窗口(128K)小于最新的GPT-4.1和Claude模型
    • 在某些复杂推理任务上不如专用推理模型

o系列

  • 优点
    • o1系列具有出色的深度思考和复杂推理能力
    • o3系列在科学、数学和编程任务上表现卓越
    • 大多具有200K的上下文窗口
  • 缺点
    • o1系列响应速度较慢,需要更长的思考时间
    • 价格较高,尤其是o1和o1-Pro
    • 不如GPT-4o系列的多模态能力强

Anthropic系列

  • 优点
    • Claude 3.7 Sonnet具有计算机使用功能
    • 在代码生成方面表现出色(HumanEval成绩高)
    • 安全性和可控性良好
    • Claude 3.5 Haiku速度快且价格合理
  • 缺点
    • 多模态能力不如GPT-4o系列全面
    • 价格相对较高,尤其是输出token
    • 对某些复杂科学推理任务的支持有限

Google系列

  • 优点
    • Gemini 2.5系列思考能力强化
    • Gemini 1.5 Pro拥有行业最大的2M token上下文窗口
    • Gemini 2.5 Flash提供思考预算功能,可按需平衡性能与速度
    • 整体价格比竞争对手更经济实惠
  • 缺点
    • 某些基准测试中表现略逊于OpenAI和Anthropic模型
    • 调用API的稳定性有待提高
    • 多模态处理能力不如GPT-4o系列完善

使用场景推荐

开发者和编程

  • 最佳选择
    • Claude 3.7 Sonnet (HumanEval 94.5%,输出价格$15/1M tokens)
    • Claude 3.5 Sonnet (HumanEval 93.7%,输出价格$15/1M tokens)
    • GPT-4.1 (HumanEval 95%,输出价格$8/1M tokens)
  • 经济选择
    • GPT-4o Mini (HumanEval 83.6%,输出价格仅$0.60/1M tokens)
    • Claude 3.5 Haiku (HumanEval 88.1%,输出价格$5/1M tokens)
    • GPT-4.1 Nano (输出价格仅$0.40/1M tokens,适合简单编程任务)

内容创作和写作

  • 最佳选择
    • Claude 3.7 Sonnet (MMLU 90.2%,创意写作能力强,输出价格$15/1M tokens)
    • GPT-4.1 (MMLU 90.5%,内容全面性最佳,输出价格$8/1M tokens)
    • o1 (深度思考生成高质量内容,但输出价格高达$60/1M tokens)
  • 经济选择
    • GPT-4o Mini (输出价格仅$0.60/1M tokens,多模态支持强)
    • Gemini 2.0 Flash (输出价格仅$0.40/1M tokens,适合大量内容生成)

数据分析和科学研究

  • 最佳选择
    • o3 (STEM专用模型,科学推理能力卓越,价格未公开)
    • GPT-4.1 (GPQA 83%,全面科学能力,输出价格$8/1M tokens)
  • 经济选择
    • o3-Mini (MATH 97.9%,STEM优化,输出价格$4.40/1M tokens)
    • Gemini 2.5 Pro (科学推理能力强,输出价格$10/1M tokens)

聊天机器人和客服应用

  • 最佳选择
    • GPT-4o (多模态支持全面,响应速度快,但输出价格$10/1M tokens)
    • Claude 3.5 Haiku (0.36秒思考延迟,适合实时对话,输出价格$5/1M tokens)
    • Gemini 2.0 Flash (高速响应,输出价格仅$0.40/1M tokens)
  • 经济选择
    • GPT-4o Mini (延迟低,多模态能力强,输出价格仅$0.60/1M tokens)
    • GPT-4.1 Nano (1M上下文窗口,输出价格仅$0.40/1M tokens)
    • Gemini 2.5 Flash (思考预算功能,基础输出价格仅$0.60/1M tokens)

多模态应用

  • 最佳选择
    • GPT-4o (完整多模态支持,语音输出能力,MMMU 69.8%,输出价格$10/1M tokens)
    • GPT-4.1 (强大多模态支持,MMMU 72%,输出价格$8/1M tokens)
    • Gemini 2.5 Pro (MMMU 74.5%,最优多模态评分,输出价格$10/1M tokens)
  • 经济选择
    • GPT-4o Mini (完整多模态支持,输出价格仅$0.60/1M tokens)
    • Gemini 2.0 Flash (多模态支持,最低输入价格$0.10/1M tokens)

处理大量文档和长上下文

  • 最佳选择
    • Gemini 1.5 Pro (2M上下文窗口,业界最大,输出价格$5/1M tokens)
    • GPT-4.1 (1M上下文窗口,顶级理解能力,输出价格$8/1M tokens)
    • Gemini 2.5 Pro (1M上下文窗口,输出价格$10/1M tokens)
  • 经济选择
    • GPT-4.1 Nano (1M上下文窗口,最低输出价格仅$0.40/1M tokens)

性价比排行榜

  1. GPT-4.1 Nano - 最高性价比,参数量100-300B,1M上下文窗口,输入价格​0.10/1M tokens,输出价格0.40/1M tokens,适合大规模部署
  2. GPT-4o Mini - 参数量500-800B,多模态能力强,输出价格$0.60/1M tokens,语音输入输出支持,性价比卓越
  3. Gemini 2.5 Flash - 参数量500-800B,1M上下文窗口,思考预算功能(基础​0.60/思考3.50),可灵活平衡成本与性能
  4. Claude 3.5 Haiku - 参数量300-500B,高速度(0.36秒思考延迟),输出价格$5/1M tokens,适合需要速度的场景
  5. Gemini 2.0 Flash - 参数量300-500B,1M上下文窗口,输出价格$0.40/1M tokens,预算极其有限时的理想选择
  6. GPT-4.1 Mini - 参数量500-800B,全功能支持,1M上下文窗口,输出价格$1.60/1M tokens,性能与价格平衡
  7. o3-Mini - 参数量300-500B,STEM领域专精,MATH 97.9%,输出价格$4.40/1M tokens,科学应用性价比高
  8. Gemini 2.5 Pro - 参数量1000-2000B,顶级功能但输出价格$10/1M tokens,比同级竞争对手便宜
  9. o1-Mini - 参数量300-500B,强大推理能力,输出价格$4.40/1M tokens,比o1便宜约93%
  10. GPT-4o - 参数量1000-2000B,全面多模态能力,输出价格$10/1M tokens,对多模态应用的投资回报率高

综合实力排行榜

  1. GPT-4.1 - 参数量1000-2000B,全面顶级性能(MMLU 90.5%),1M上下文窗口,输出价格​8/1M tokens,输入价格2/1M tokens
  2. Claude 3.7 Sonnet - 参数量1000-2000B,顶级代码能力(HumanEval 94.5%),支持计算机使用功能,输出价格$15/1M tokens
  3. o1 - 参数量1000-2000B,深度思考能力(MMLU 90%),输出价格$60/1M tokens,适合复杂决策支持
  4. Claude 3.5 Sonnet - 参数量800-1000B,编码能力出色(HumanEval 93.7%),输出价格$15/1M tokens
  5. GPT-4o - 参数量1000-2000B,多模态交互全面,输出价格​10/1M tokens,支持语音输入(40/1M)和输出($80/1M)
  6. Gemini 2.5 Pro - 参数量1000-2000B,强大思考能力,1M上下文窗口,输出价格$10/1M tokens,比类似性能模型更经济
  7. o3 - 参数量未公开,STEM领域专用,价格未公开,科学任务最佳选择
  8. o3-Mini - 参数量300-500B,STEM领域优化(MATH 97.9%),输出价格$4.40/1M tokens
  9. Gemini 1.5 Pro - 参数量1000-2000B,超大2M上下文窗口,输出价格$5/1M tokens,长文档处理最具成本效益

价格与参数汇总

模型 参数规模 文本输入($/1M) 文本输出($/1M) 图像/视频输入($/1M) 音频输入($/1M) 音频输出($/1M) 上下文窗口
GPT-4.1 1000-2000B $2.00 $8.00 $2.00 不适用 不适用 1M
GPT-4.1 Mini 500-800B $0.40 $1.60 $0.40 不适用 不适用 1M
GPT-4.1 Nano 100-300B $0.10 $0.40 $0.10 不适用 不适用 1M
GPT-4o 1000-2000B $2.50 $10.00 $2.50 $40.00 $80.00 128K
GPT-4o Mini 500-800B $0.15 $0.60 $0.15 $10.00 $20.00 128K
o1 1000-2000B $15.00 $60.00 $15.00 不适用 不适用 200K
o1-Mini 300-500B $1.10 $4.40 不适用 不适用 不适用 128
o3-Mini 300-500B $1.10 $4.40 不适用 不适用 不适用 200K
Claude 3.7 Sonnet 1000-2000B $3.00 $15.00 $3.00 不适用 不适用 200K
Claude 3.5 Sonnet 800-1000B $3.00 $15.00 $3.00 不适用 不适用 200K
Claude 3.5 Haiku 300-500B $1.00 $5.00 $1.00 不适用 不适用 200K
Gemini 2.5 Pro 1000-2000B $1.25 $10.00 $1.25 不适用 不适用 1M
Gemini 2.5 Flash 500-800B $0.15 ​0.60-3.50 $0.15 $1.00 不适用 1M
Gemini 2.0 Flash 300-500B $0.10 $0.40 $0.10 $0.70 不适用 1M
Gemini 1.5 Pro 1000-2000B $1.25 $5.00 $1.25 不适用 不适用 2M

场景应用排行榜

1. 成本敏感型应用

  1. GPT-4.1 Nano - 参数量100-300B,输入​0.10/输出0.40/1M tokens,拥有1M上下文窗口
  2. Gemini 2.0 Flash - 参数量300-500B,输入​0.10/输出0.40/1M tokens,多模态支持
  3. GPT-4o Mini - 参数量500-800B,输入​0.15/输出0.60/1M tokens,全面多模态支持
  4. Gemini 2.5 Flash - 参数量500-800B,基础输出​0.60/思考输出3.50/1M tokens,可按需调整推理深度
  5. Claude 3.5 Haiku - 参数量300-500B,输入​1.00/输出5.00/1M tokens,速度与成本平衡性好

2. 实时应用与聊天机器人

  1. Claude 3.5 Haiku - 思考延迟仅0.36秒,速度52 tokens/秒,输出价格$5/1M tokens
  2. GPT-4o Mini - 速度约75 tokens/秒,思考延迟很低,输出价格$0.60/1M tokens
  3. Gemini 2.0 Flash - 速度约60 tokens/秒,输出价格$0.40/1M tokens,成本效益最高
  4. GPT-4.1 Nano - 速度约75 tokens/秒,输出价格$0.40/1M tokens,上下文窗口大
  5. GPT-4o - 延迟低,速度约65 tokens/秒,多模态实时交互能力强,但输出价格$10/1M tokens

3. 编程与开发辅助

  1. Claude 3.7 Sonnet - HumanEval 94.5%,最佳代码生成能力,但输出价格$15/1M tokens
  2. Claude 3.5 Sonnet - HumanEval 93.7%,输出价格$15/1M tokens,专业编程能力强
  3. GPT-4.1 - HumanEval 95%,输出价格$8/1M tokens,性价比较Claude系列高
  4. Gemini 2.5 Pro - HumanEval 92.1%,输出价格$10/1M tokens,性价比适中
  5. o3-Mini - 专为STEM优化,输出价格$4.40/1M tokens,科学编程性价比高

4. 科学与学术研究

  1. o3-Mini - MATH 97.9%,GPQA 79.7%,专为STEM优化,输出价格$4.40/1M tokens,性价比最高
  2. GPT-4.1 - GPQA 83%,全面顶级性能,输出价格$8/1M tokens,适中预算选择
  3. Claude 3.7 Sonnet - MATH 96.2%,数学能力出色,输出价格$15/1M tokens
  4. o1 - 参数量1000-2000B,复杂问题解决能力强,但输出价格$60/1M tokens

5. 处理长文档与大数据

  1. Gemini 1.5 Pro - 2M上下文窗口,输出价格$5/1M tokens,最佳长文档经济选择
  2. GPT-4.1 - 1M上下文窗口,顶级理解能力,输出价格$8/1M tokens
  3. GPT-4.1 Nano - 1M上下文窗口,输出价格仅$0.40/1M tokens,处理大量文档最经济选择
  4. Gemini 2.5 Pro - 1M上下文窗口,输出价格$10/1M tokens,高性能大数据处理
  5. o1 - 200K上下文窗口,深度理解能力强,但输出价格高达$60/1M tokens

6. 多模态交互应用

  1. GPT-4o - 最全面多模态支持,文本输出​10/1M,音频输出80/1M,图像输入$2.50/1M
  2. GPT-4o Mini - 全面多模态支持,但价格更低:文本输出​0.60/1M,音频输出20/1M
  3. GPT-4.1 - 多模态支持与顶级性能结合,图像输入​2.00/1M,文本输出8.00/1M
  4. Gemini 2.5 Flash - 经济型多模态支持,音频输入仅​1.00/1M,文本输出基础0.60/1M
  5. Gemini 2.0 Flash - 最低价格多模态支持,图像输入​0.10/1M,音频输入0.70/1M

7. 企业级应用和产品集成

  1. GPT-4.1 - 全面顶级性能,1M上下文窗口,输出价格$8/1M tokens,企业级可靠性
  2. Claude 3.7 Sonnet - 计算机使用功能,安全可控,输出价格$15/1M tokens,适合高安全需求
  3. Gemini 2.5 Pro - 1M上下文窗口,输出价格$10/1M tokens,比同类产品经济
  4. GPT-4.1 Mini - 平衡性能与成本,输出价格$1.60/1M tokens,企业大规模部署适合
  5. GPT-4o - 多模态交互能力强,输出价格$10/1M tokens,适合客户体验提升
License:  CC BY 4.0