### 问题/痛点描述 1、当前SWE-Bench_Pro数据集测评结束后,会统一进行临时资源清理,但识别临时资源时未考虑多Session场景,需要优化清理逻辑 2、当前SWE-Bench数据集和SWE-Bench_Pro数据集的镜像操作流程有一些重复,可以优化归一 ### 建议方案 通过 Session_ID 作为key,进行临时资源的生命周期管理 ### 备选方案 _No response_ ### 预期价值 支持多Session测评场景 ### 参与意向 - [x] 我愿意参与此功能的开发或测试
问题/痛点描述
1、当前SWE-Bench_Pro数据集测评结束后,会统一进行临时资源清理,但识别临时资源时未考虑多Session场景,需要优化清理逻辑
2、当前SWE-Bench数据集和SWE-Bench_Pro数据集的镜像操作流程有一些重复,可以优化归一
建议方案
通过 Session_ID 作为key,进行临时资源的生命周期管理
备选方案
No response
预期价值
支持多Session测评场景
参与意向