DevOps-Eval - CurateClick

【项目地址】https://github.com/codefuse-ai/codefuse-devops-eval【项目类别】LLM、DevOps、AIOps、评测数据集【项目介绍】DevOps-Eval是蚂蚁集团联合北京大学开源的针对DevOps领域大模型的评测套件，也是首个该领域的开源项目。该项目的核心目的，是为了帮助开发者能够可量化的评测各个DevOps领域大模型的性能，跟踪相关大模型的进展，并了解各个大模型的优势和不足之处。该项目主要由DevOps领域专业评测数据集和自动化评测脚本组成。- 评测数据集是根据DevOps的通用流程进行划分，包含8个大类，53个小类，共计4850道单项选择题。此外，该项目还特别针对AIOps场景做了细分，场景覆盖了日志解析、时序异常检测、时序分类和根因分析等常见智能运维领域；- 该项目提供了完整的评测脚本，方便用户评测各种符合HuggingFace格式的大模型，只需简单注册即可开始评测；目前，DevOps-Eval已经发布了第一期的评测榜单，首批评测大模型包含蚂蚁DevOps-Model、Qwen、Baichuan、Internlm等开源模型。作为一个开源项目，我们欢迎开发者们积极参与和贡献，共同推动DevOps大模型领域的发展和进步！【项目截图】<img width="877" alt="截图" src="https://github.com/ruanyf/weekly/assets/38549212/1e56a142-61db-4dcc-b378-2037663a957e">【联系我们】<img width="312" alt="image" src="https://github.com/ruanyf/weekly/assets/38549212/2c82b08b-1946-43a4-a1fd-7add06e7cdf7">