DevOps-Eval

蚂蚁集团联合北京大学开源的DevOps领域大模型评测套件,包含专业数据集和自动化评测脚本,覆盖8大类53小类4850道题目,支持HuggingFace格式模型评测。

【项目地址】https://github.com/codefuse-ai/codefuse-devops-eval【项目类别】LLM、DevOps、AIOps、评测数据集【项目介绍】DevOps-Eval是 蚂蚁集团联合北京大学 开源的针对DevOps领域大模型的评测套件,也是首个该领域的开源项目。该项目的核心目的,是为了帮助开发者能够可量化的评测各个DevOps领域大模型的性能,跟踪相关大模型的进展,并了解各个大模型的优势和不足之处。该项目主要由DevOps领域专业评测数据集和自动化评测脚本组成。- 评测数据集是根据DevOps的通用流程进行划分,包含8个大类,53个小类,共计4850道单项选择题。此外,该项目还特别针对AIOps场景做了细分,场景覆盖了日志解析、时序异常检测、时序分类和根因分析等常见智能运维领域;- 该项目提供了完整的评测脚本,方便用户评测各种符合HuggingFace格式的大模型,只需简单注册即可开始评测;目前,DevOps-Eval已经发布了第一期的评测榜单,首批评测大模型包含蚂蚁DevOps-Model、Qwen、Baichuan、Internlm等开源模型。作为一个开源项目,我们欢迎开发者们积极参与和贡献,共同推动DevOps大模型领域的发展和进步!【项目截图】<img width="877" alt="截图" src="https://github.com/ruanyf/weekly/assets/38549212/1e56a142-61db-4dcc-b378-2037663a957e">【联系我们】<img width="312" alt="image" src="https://github.com/ruanyf/weekly/assets/38549212/2c82b08b-1946-43a4-a1fd-7add06e7cdf7">