复现问题及指标真实性存疑

作者你好，我对你的工作很感兴趣，在复现时出现以下几个问题：
1、你的奖励函数为“格式+正确性+条件性toolcall”奖励，但是你给出的代码为“格式+正确性+逻辑一致性+代码执行”奖励，经过比对这应该是直接搬运thyme的奖励函数吧，与论文中的不符！
2、评测指标问题：请问推理时的采样参数为多少？我在vtbench评测了几个小模型，普遍结论是直接推理比coding可以涨若干点，是否论述coding是否有益以及指标是否虚假？