Devin Devin是由人工智能初创公司Cognition推出的全球首个全自主的AI软件工程师智能体,具备强大的编程和软件开发能力,能够在多个方面协助或完全独立地完成软件开发任务。在SWE-bench基准测试中,Devin解决实际问题的表现远超如GPT-4和Claude 2等AI模型。
MMBench MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。