OpenAI推出大模型测试基准SWE-Lancer
OpenAI官方宣布推出一款名为SWE-Lancer的大模型测试基准,旨在评估大模型的编程能力。该基准包含1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由资深软件工程师进行评分,管理决策则根据最初聘用的工程经理的选择进行评估。为了推动未来的研究,OpenAI开源了统一的Docker映像和公共评估拆分,即SWE-Lancer Diamond。
OpenAI官方宣布推出一款名为SWE-Lancer的大模型测试基准,旨在评估大模型的编程能力。该基准包含1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由资深软件工程师进行评分,管理决策则根据最初聘用的工程经理的选择进行评估。为了推动未来的研究,OpenAI开源了统一的Docker映像和公共评估拆分,即SWE-Lancer Diamond。