AI 在某些任务上已经超越了人类,例如图像识别、视觉推理和英语理解等领域,但在一些更复杂的任务上,例如高水平数学竞赛、视觉常识推理和规划等,AI 的表现仍然落后于人类。
工业界仍然是 AI 前沿研究的主导力量。2023 年,工业界研发了 51 个重要的机器学习模型,而学术界只研发了 15 个。值得注意的是,2023 年还有 21 个重要模型是工业界和学术界合作的成果,创下了历史新高。
开发最先进的 AI 模型的成本越来越高。根据 AI 指数的估计,训练这些模型所需的计算资源已经达到了前所未有的水平。例如,OpenAI 的 GPT-4 模型的训练使用了价值约 7800 万美元的计算资源,而 Google 的 Gemini Ultra 模型的训练成本更是高达 1.91 亿美元。
美国在顶级 AI 模型的研发方面处于领先地位。2023 年有 61 个重要的 AI 模型来自美国机构,远远超过了欧盟的 21 个。
目前,针对大型语言模型 (LLM) 的责任评估缺乏可靠且统一的标准。AI 指数的最新研究表明,在负责任 AI 报告方面缺乏标准化。包括 OpenAI、Google 和 Anthropic 在内的领先开发人员,主要使用不同的负责任 AI 基准来测试他们的模型。这种做法使得系统地比较顶级 AI 模型的风险和局限性变得更加困难。