一、Groq 是谁?
Groq 是一家成立于 2016 年的 AI 基础设施公司,总部位于美国。与大多数依赖 GPU 的推理服务商不同,Groq 自研了名为 LPU(Language Processing Unit,语言处理单元) 的专用芯片,从硬件层重新设计 AI 推理的每一个环节。
“Inference is Fuel for AI” — 推理是 AI 的燃料。
这句话精准概括了 Groq 的使命:让 AI 推理足够快、足够便宜,让开发者不再被延迟和成本束缚。截至 2026 年,GroqCloud 已服务超过 300 万开发者,客户包括迈凯伦 F1 车队、Dropbox、大众汽车、Riot Games 等知名企业和团队。2025 年,Groq 还被 Gartner 评为 AI 基础设施领域 Cool Vendor,Meta 也与其达成合作,将 Llama 模型通过 Groq 提供官方高速推理 API。
二、核心技术:为什么 Groq 这么快?
LPU vs GPU:架构层面的降维打击
传统 GPU 的瓶颈在于 内存墙(Memory Wall)——模型权重存储在 DRAM 中,每次计算都需要从内存搬运数据,带宽成为硬性限制。Groq 的 LPU 采用了完全不同的思路:
- 片上 SRAM 架构:将模型权重直接存储在芯片上的高速 SRAM 中,彻底消除 DRAM 带宽瓶颈
- 确定性执行:编译器在编译阶段就精确规划每条指令的执行周期,不存在 GPU 动态调度带来的延迟波动
- 数据流架构:计算、存储、通信在硬件层面紧密协调,实现流水线式的 token 生成
实测速度有多快?
根据官方数据和独立评测,Groq 的速度表现令人印象深刻:
| 模型 | Groq 速度 | GPU 对比速度 | 领先倍数 |
|---|---|---|---|
| Llama 3 70B | ~800 tok/s | ~55 tok/s(A100) | 14.5x |
| Llama 3.1 8B | ~2,100 tok/s | ~280-450 tok/s | 5-7x |
| Mixtral 8x7B | ~727 tok/s | ~75-120 tok/s | 6-9x |
| Gemma 7B | ~2,800 tok/s | — | — |
| GPT-OSS 20B | 1,000 tok/s | — | — |
| GPT-OSS 120B | 500 tok/s | — | — |
| Whisper Large V3 | 189x 实时 | 25-40x 实时 | 5-7x |
实际体验上,一个 200 token 的回复在 Groq 上只需约 250ms 就能生成完毕——快到用户感觉是即时的。TTFT(首 token 延迟)通常低于 10ms,而 GPU 方案通常在 200-500ms。
三、支持的模型阵容
GroqCloud 目前支持以下核心模型(截至 2026 年 5 月):
大语言模型
| 模型 | 上下文窗口 | 速度 | 输入价格 | 输出价格 |
|---|---|---|---|---|
| GPT-OSS 120B | 128k | 500 tok/s | $0.15/M | $0.60/M |
| GPT-OSS 20B | 128k | 1,000 tok/s | $0.075/M | $0.30/M |
| GPT-OSS Safeguard 20B | 128k | 1,000 tok/s | $0.075/M | $0.30/M |
| Llama 4 Scout (17Bx16E) | 128k | 594 tok/s | $0.11/M | $0.34/M |
| Qwen3 32B | 131k | 662 tok/s | $0.29/M | $0.59/M |
| Llama 3.3 70B Versatile | 128k | 394 tok/s | $0.59/M | $0.79/M |
| Llama 3.1 8B Instant | 128k | 840 tok/s | $0.05/M | $0.08/M |
| Kimi K2 Instruct | 262k | — | $1.00/M | $3.00/M |
| DeepSeek R1 Distill 70B | — | — | $0.75/M | $0.99/M |
语音模型
- Whisper Large V3:217x 实时转录,$0.111/小时
- Whisper Large V3 Turbo:228x 实时转录,$0.04/小时
- Orpheus TTS:英文/阿拉伯语语音合成
Compound AI 系统
Groq 还提供 Compound 智能体系统,可自动调用网页搜索、代码执行、浏览器自动化等工具来回答复杂查询。
四、价格方案
免费层(Free Tier)
Groq 提供免费 API 访问,适合个人开发者和小型项目:
| 模型 | RPM | RPD | TPM | TPD |
|---|---|---|---|---|
| Llama 3.1 8B Instant | 30 | 14,400 | 6,000 | 500,000 |
| Llama 4 Scout | 30 | 1,000 | 30,000 | 500,000 |
开发者层(Developer Tier)
自助式付费,按量计费:
- 所有模型按 token 用量计费(见上方价格表)
- Batch API:批量处理享 50% 折扣,24 小时至 7 天处理窗口,不影响常规速率限制
- Prompt Caching:缓存命中时输入 token 价格减半
企业层(Enterprise Tier)
- 自定义 SLA 和专属容量
- 私有化部署(GroqRack 机架)
- 专属技术支持
五、API 接入:两行代码搞定
Groq 的 API 完全兼容 OpenAI 格式,迁移成本极低:
import openai
client = openai.OpenAI(
base_url="https://api.groq.com/openai/v1",
api_key=os.environ.get("GROQ_API_KEY")
)
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.groq.com/openai/v1",
apiKey: process.env.GROQ_API_KEY
});
只需改一个 base_url,就能把现有 OpenAI 代码无缝切换到 Groq。此外,Groq 还被 LiteLLM、OpenRouter 等主流 AI 网关广泛支持。
六、适用场景
🚀 实时对话应用
首 token 延迟低于 10ms,回复生成速度超快,是构建高响应聊天助手的理想选择。
📊 批量文档处理
Llama 3.1 8B 在 Groq 上可达 2,100 tok/s,一份 1,000 token 的分析不到 500ms 即可完成,适合大规模文档分类、摘要、提取。
🎙️ 实时语音转录
Whisper Large V3 以 189x 实时速度运行,1 分钟音频不到 0.3 秒即可转录完成,完美支持实时字幕和会议记录。
🔧 代码生成与辅助
GPT-OSS 120B 和 Llama 4 Scout 在 Groq 上的极速推理,让代码补全和生成几乎无感知延迟。
🤖 Agent / Compound 系统
内置网页搜索、代码执行、浏览器自动化等工具,适合构建需要多步推理和工具调用的智能体应用。
七、优缺点总结
✅ 优点
- 速度碾压级领先:自研 LPU 芯片带来 5-18 倍于 GPU 的推理速度,首 token 延迟低于 10ms
- 价格极具竞争力:最低 $0.05/M 输入 token,比主流 GPU 云便宜 30-50%
- 免费额度慷慨:免费层提供每日数十万 token 额度,入门零门槛
- OpenAI 兼容:API 格式完全兼容,迁移只需改一行代码
- 确定性延迟:无 GPU 动态调度的抖动,延迟可预测,适合实时应用
- Prompt Caching:缓存命中后输入价格减半,长上下文场景显著省钱
- Batch API 半价:异步批量处理享 50% 折扣,大规模任务成本更低
❌ 缺点
- 仅支持开源模型:不提供 GPT-4o、Claude 等闭源模型,只有开源模型的高速推理
- 高并发下速度可能下降:单个请求速度极快,但在极高并发场景下队列等待可能增加
- 容量相对有限:相比 AWS/Azure 的庞大 GPU 集群,Groq 的 LPU 基础设施规模仍较小
- 上下文长度影响速度:超长上下文(32K+)下 tok/s 会有所下降
- 不支持微调:目前不支持在平台上进行模型微调训练
💡 适合谁?
- 需要极低延迟的实时 AI 应用开发者
- 预算有限但需要高频调用的初创团队
- 想用开源模型替代闭源方案的技术团队
- 做原型验证需要快速免费试水的个人开发者
八、结语
在 AI 推理赛道上,Groq 走出了一条独特的路——不是堆更多 GPU,而是从芯片层重新定义推理效率。LPU 架构带来的速度优势是真实可验证的,不是营销话术。
如果你正在构建对延迟敏感的 AI 应用,或者单纯想体验”快到飞起”的开源模型推理,Groq 的免费层就是最好的起点。注册 GroqCloud,两行代码,马上就能感受到速度的差距。