商业内幕报道,去年,亚马逊庞大的零售业务遇到了一个大问题:它无法获得足够的人工智能芯片来完成关键工作。据大量亚马逊文件显示,由于项目被推迟,该企业对内部流程和技术进行了彻底改革,以解决这一问题。
2024年初,在亚马逊内部,一些员工数月都无法获得GPU,这扰乱了公司零售部门项目的及时推出,该部门涵盖其电子商务平台和庞大的物流业务。
当时,亚马逊的零售部门遭受了1000多个P5实例的供应短缺,P5是AWS的云服务器,最多可包含8个英伟达H100 GPU。
2024年7月,亚马逊启动了“格陵兰计划”,这是一个“集中式GPU协调平台”,旨在更好地管理和分配其有限的GPU供应。文件显示,该公司还收紧了内部GPU使用的审批程序。
文件解释说,该平台可以跟踪每个计划的GPU使用情况,共享闲置服务器,并实施“回收”措施,将芯片重新分配给更紧急的项目。该系统还提供简化的网络设置和安全更新,同时提醒员工和领导注意GPU使用率低的项目。
今年,亚马逊员工被“强制要求”通过格陵兰项目来获取“所有未来需求”的GPU容量,该公司预计这将通过“减少闲置容量和优化集群利用率”来提高效率。
亚马逊的一项指导方针指出:“GPU太宝贵了,不能先到先得。相反,分配应该基于投资回报率,并结合常识性考虑来决定,以促进公司自由现金流的长期增长。”
这一努力带来了成效。2024年12月,亚马逊内部预测表明,2025年芯片短缺情况将有所缓解,芯片供应有望改善。
在一封电子邮件中,亚马逊的一位发言人表示,该公司通过亚马逊网络服务(AWS)采购GPU的零售部门现在已完全能够使用人工智能处理器。
这位发言人说:“亚马逊有充足的GPU容量,能够继续为我们的零售业务和公司的其他客户进行创新。AWS很早就认识到,生成式人工智能的创新推动了所有客户(包括亚马逊)对云计算服务的快速采用,我们迅速评估了客户不断增长的GPU需求,并采取措施提供他们推动创新所需的容量。”
但即便有这些努力,仍有迹象表明亚马逊仍然担心GPU供应问题。
格陵兰计划团队最近的一份招聘启事承认,GPU需求的爆炸式增长已成为这一代的决定性挑战:“我们如何获得更多的GPU容量?”