Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,305

Full-text search

Active filters: reinforcement-learning, transformers

Godheritage/Qwen2.5-14B-Instruct-BesiegeField-CatapultRL

Reinforcement Learning • 15B • Updated 26 days ago • 11

BesiegeField/Qwen2.5-14B-Instruct-BesiegeField-CarRL

Reinforcement Learning • 15B • Updated 25 days ago • 4

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_294_FlashRL_G4-L1024

Reinforcement Learning • 2B • Updated 25 days ago • 13

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_588_FlashRL_G4-L1024

Reinforcement Learning • 2B • Updated 25 days ago • 22

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_882_FlashRL_G4-L1024

Reinforcement Learning • 2B • Updated 25 days ago • 25

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_1176_FlashRL_G4-L1024

Reinforcement Learning • 2B • Updated 25 days ago • 163

samhitha2601/llama3.2-3b-ppo

Reinforcement Learning • Updated 24 days ago • 17

samhitha2601/llama3.2-3b-ppo-critic

Reinforcement Learning • Updated 24 days ago • 12

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_294_FlashRL_G4-L2048_new

Reinforcement Learning • 2B • Updated 24 days ago • 498

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_588_FlashRL_G4-L2048_new

Reinforcement Learning • 2B • Updated 24 days ago • 357

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_882_FlashRL_G4-L2048_new

Reinforcement Learning • 2B • Updated 23 days ago • 355

AzalKhan/Qwen2.5-1.5B-Instruct_BF16_open-r1-DAPO-Math-17k-Processed_1176_FlashRL_G4-L2048_new

Reinforcement Learning • 2B • Updated 23 days ago • 503

mradermacher/P1-30B-A3B-GGUF

Reinforcement Learning • 31B • Updated 22 days ago • 453

justinj92/gpt-oss-20B-pacmanplayer

Reinforcement Learning • 21B • Updated 19 days ago • 33

mradermacher/Qwen3-0.6B-Dakota-Grammar-RL-GGUF

Reinforcement Learning • 0.8B • Updated 6 days ago • 399