谷歌Gemini预训练负责人首曝52页PPT!揭秘大模型预训练核心逻辑与未来方向

发布日期:2025-04-28

近日,谷歌Gemini项目Flash预训练负责人Vlad Feinberg在普林斯顿大学分享了其内部技术报告的核心内容。这份长达52页的PPT首次系统揭示了Gemini预训练的技术细节,包括算力分配、数据优化及推理效率等关键问题,为人工智能领域的大模型发展提供了重要参考。

Vlad Feinberg的分享围绕“推理感知”的Scaling Laws展开。与传统经验主义不同,Gemini团队通过IsoFlops方法重新定义了模型参数(N)、数据量(D)与算力(C)的关系。研究发现,当总算力固定时,模型参数与数据量应以相近速率增长(幂律指数约0.5),而非此前Kaplan定律建议的“优先扩大参数”策略。这一发现颠覆了行业对大模型训练的固有认知,指出过度堆砌参数可能导致“训练不足”和推理成本激增的问题。

在实际应用中,Gemini团队面临高通量服务(如搜索、聊天机器人)和实时交互(如Project Astra)等场景的严苛要求。以实时Web Agent为例,模型需在1秒内处理128k上下文、8k新Token及生成128个Token,而Llama3-70B模型仅预处理阶段便需6秒。为此,Gemini采用“小钢炮”策略,通过Flash版本平衡性能与效率,并引入蒸馏、量化等技术降低推理成本。

此次分享不仅为学术界提供了大模型训练的系统性方法论,也为产业界指明了平衡算力、数据与推理成本的实践路径。随着Gemini技术的持续迭代,人工智能或将进入更高效、更普惠的新阶段。