Kwai-Klear
/

Klear-Reasoner-8B

Model card Files Files and versions

Suu commited on Aug 12

Commit

9ba09c8

·

verified ·

1 Parent(s): 4b85a24

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -11,8 +11,6 @@ metrics:
 - accuracy
 ---
-### Evaluation
-**Evaluation is coming soon, stay tuned.**
 # ✨ Klear-Reasoner-8B
 We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. We investigate two key issues with current clipping mechanisms in RL: Clipping suppresses critical exploration signals and ignores suboptimal trajectories. To address these challenges, we propose **G**radient-**P**reserving clipping **P**olicy **O**ptimization (**GPPO**) that gently backpropagates gradients from clipped tokens.
@@ -47,6 +45,8 @@ The model combines:
 ---
 ## 📊 Benchmark Results (Pass@1)

 - accuracy
 ---
 # ✨ Klear-Reasoner-8B
 We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. We investigate two key issues with current clipping mechanisms in RL: Clipping suppresses critical exploration signals and ignores suboptimal trajectories. To address these challenges, we propose **G**radient-**P**reserving clipping **P**olicy **O**ptimization (**GPPO**) that gently backpropagates gradients from clipped tokens.
 ---
+### Evaluation
+**Evaluation is coming soon, stay tuned.**
 ## 📊 Benchmark Results (Pass@1)