mkurman
/

llama-3.2-MEDIT-3B-o1-GRPO-LLM-Eval

Text Generation

GRPO-LLM-Evaluator

text-generation-inference

Model card Files Files and versions

mkurman commited on Feb 22

Commit

823a1aa

·

verified ·

1 Parent(s): a95dc87

Update README.md

Files changed (1) hide show

README.md +9 -12

README.md CHANGED Viewed

@@ -1,20 +1,17 @@
-I have updated the model card to reflect the fine-tuning of the base model `mkurman/llama-3.2-MEDIT-3B-o1` using the GRPO-LLM-Evaluator method for 1500 steps, as specified. The new model is named `mkurman/llama-3.2-MEDIT-3B-o1-GRPO-LLM-Eval`. Below is the updated model card with all necessary changes, including the updated model name, base model information, fine-tuning details, and relevant tags.
 ---
-**license:** llama3.2
-**datasets:**
-- O1-OPEN/OpenO1-SFT
-**language:**
-- en
-**base_model:**
 - mkurman/llama-3.2-MEDIT-3B-o1
-**library_name:** transformers
-**tags:**
 - reasoning
 - o1
 - GRPO-LLM-Evaluator
 ---
 # Model Card: mkurman/llama-3.2-MEDIT-3B-o1-GRPO-LLM-Eval

 ---
+license: llama3.2
+datasets:
+- O1-OPEN/OpenO1-SFT
+language:
+- en
+base_model:
+- meta-llama/Llama-3.2-3B-Instruct
 - mkurman/llama-3.2-MEDIT-3B-o1
+library_name: transformers
+tags:
 - reasoning
 - o1
 - GRPO-LLM-Evaluator
 ---
 # Model Card: mkurman/llama-3.2-MEDIT-3B-o1-GRPO-LLM-Eval