作者你好,我对你的工作很感兴趣,在复现时出现以下几个问题: 1、你的奖励函数为“格式+正确性+条件性toolcall”奖励,但是你给出的代码为“格式+正确性+逻辑一致性+代码执行”奖励,经过比对这应该是直接搬运thyme的奖励函数吧,与论文中的不符! 2、评测指标问题:请问推理时的采样参数为多少?我在vtbench评测了几个小模型,普遍结论是直接推理比coding可以涨若干点,是否论述coding是否有益以及指标是否虚假?
作者你好,我对你的工作很感兴趣,在复现时出现以下几个问题:
1、你的奖励函数为“格式+正确性+条件性toolcall”奖励,但是你给出的代码为“格式+正确性+逻辑一致性+代码执行”奖励,经过比对这应该是直接搬运thyme的奖励函数吧,与论文中的不符!
2、评测指标问题:请问推理时的采样参数为多少?我在vtbench评测了几个小模型,普遍结论是直接推理比coding可以涨若干点,是否论述coding是否有益以及指标是否虚假?