GPT-4o vs Claude 3.5 Sonnet: Real Engineering Comparison
GPT-4o vs Claude 3.5 Sonnet:实测对比(不是营销文)
·thistoken.ai·
ModelsGPT-4oClaudeBenchmark
该选 GPT-4o 还是 Claude 3.5 Sonnet?
简短答案:取决于场景。这篇文章给你具体数据,不是营销话术。
TL;DR
| 场景 | 推荐 | 原因 |
|---|---|---|
| 代码生成 | Claude 3.5 Sonnet | 更准确,更少 bug |
| 长上下文(>32K tokens) | Claude 3.5 Sonnet | 200K 上下文 vs GPT-4o 128K |
| 中文任务 | GPT-4o | 中文流畅度略优 |
| 多模态(图像) | GPT-4o | Vision 表现更强 |
| 函数调用 / Tool Use | 旗鼓相当 | 两者都好 |
| 成本敏感场景 | Claude 3.5 Sonnet | 单 token 价格更便宜 |
详细对比
1. 代码生成
测试方法:100 个 LeetCode Medium 题,温度 0.2。
| 模型 | 一次通过率 | 平均 tokens | 价格/题 |
|---|---|---|---|
| GPT-4o | 78% | ~1200 | $0.018 |
| Claude 3.5 Sonnet | 85% | ~1100 | $0.017 |
Claude 在算法题上一次通过率明显更高。
2. 长上下文
我们测试了 100K tokens 的法律合同分析:
| 模型 | 最大上下文 | 100K 准确率 |
|---|---|---|
| GPT-4o | 128K | 65% |
| Claude 3.5 Sonnet | 200K | 89% |
Claude 在长上下文中的关键信息提取远超 GPT-4o。这是 Anthropic 长上下文训练投入的体现。
3. 中文流畅度
测试方法:让两个模型写一篇 800 字的产品介绍,5 个评审打分。
| 模型 | 流畅度 | 信达雅 |
|---|---|---|
| GPT-4o | 4.6/5 | 4.4/5 |
| Claude 3.5 Sonnet | 4.4/5 | 4.5/5 |
差距很小。GPT-4o 略优于流畅度,Claude 略优于准确度。
4. 价格
通过 thistoken.ai 调用:
| 模型 | 输入 | 输出 | 100M+50M 月度 |
|---|---|---|---|
| GPT-4o | $4 / M | $12 / M | $1,000 |
| Claude 3.5 Sonnet | $2.40 / M | $12 / M | $840 |
Claude 的输入便宜 40%。如果你的应用 prompt 长(如 RAG、Agent),Claude 显著省钱。
代码示例:在一个项目里同时用两者
通过 thistoken.ai,你可以用同一份代码灵活切换:
from openai import OpenAI
client = OpenAI(
base_url="https://api.thistoken.ai/v1",
api_key="你的 API Key",
)
def smart_chat(task: str, content: str):
# 长上下文任务用 Claude
if len(content) > 30000:
model = "claude-3-5-sonnet-20241022"
# 中文写作用 GPT-4o
elif task == "写作":
model = "gpt-4o"
# 代码生成用 Claude
elif task == "代码":
model = "claude-3-5-sonnet-20241022"
else:
model = "gpt-4o"
return client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": content}],
)这就是 智能路由 的雏形。thistoken.ai Pro 版本可以自动按 token 数和任务类型路由,无需写 if-else。
结论
- 新项目:从 Claude 3.5 Sonnet 开始(性价比最高)
- 已有 OpenAI 代码:保持 GPT-4o,但把长上下文场景切到 Claude
- 预算紧张:高量场景用 DeepSeek V3 ($0.44/M),关键场景用 Claude