sky-2002
/

SmolLM2-360M-GRPO-v1

@@ -26,13 +26,15 @@ print(output["generated_text"])
 ```
 ## Evals
-Referring this [blog post](https://datawizz.ai/blog/grpo-fine-tuning-qwen-0-5b-vs-openai-o1-preview), used a similar evaluation method:
-| Model | Average ROUGE-L |
-|-------|-----------------|
-| Qwen-0.5B | 0.3313 |
-| SmolLM2-360M-GRPO-v0 | 0.1644 |
-| SmolLM2-360M-GRPO-v1 | 0.1672 |
 ## Quick start

 ```
 ## Evals
+Referring this [blog post](https://datawizz.ai/blog/grpo-fine-tuning-qwen-0-5b-vs-openai-o1-preview), used a similar evaluation method.
+However, since llm-judge was being used in one of the reward functions, I tried with different models as judges and observed the changes.
+| Model | Average ROUGE-L | LLM-Judge Model |
+|-------|-----------------|-----------------|
+| Qwen-0.5B finetuned | 0.3313 | Qwen-0.5B  |
+| SmolLM2-360M-GRPO-v0 | 0.1644 | llama3.2:1B |
+| SmolLM2-360M-GRPO-v1 | 0.1672 | deepseek-r1:1.5b |
 ## Quick start