AngelRaychev
/

0.5B-policy-iteration_1

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

AngelRaychev commited on Apr 23

Commit

1751c0a

·

verified ·

1 Parent(s): 45a60ac

End of training

Files changed (4) hide show

README.md +2 -2
loss_plot_policy.png +0 -0
model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: AngelRaychev/0.5B-policy-iteration_0
 library_name: transformers
 model_name: 0.5B-policy-iteration_1
 tags:
@@ -11,7 +11,7 @@ licence: license
 # Model Card for 0.5B-policy-iteration_1
-This model is a fine-tuned version of [AngelRaychev/0.5B-policy-iteration_0](https://huggingface.co/AngelRaychev/0.5B-policy-iteration_0).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
+base_model: AngelRaychev/0.5B-policy-iteration_1
 library_name: transformers
 model_name: 0.5B-policy-iteration_1
 tags:
 # Model Card for 0.5B-policy-iteration_1
+This model is a fine-tuned version of [AngelRaychev/0.5B-policy-iteration_1](https://huggingface.co/AngelRaychev/0.5B-policy-iteration_1).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

loss_plot_policy.png ADDED Viewed

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9057e3e678dffede68bd65fcbe3e2740abb283a3d507bb880f3fdac6d1657fe9
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:f53b6d54f916f0d547b7b432a9f34659d5639ed012396c0e7602812ea5b98af1
 size 1976163472

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3932ac3581dba35a3b48d6dd40df98b4597020cc475ff21b1fd9d433947a5286
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:60e067ff54ef830b00c15c59997283dbf984bbc8a1e55abb2d8c11711f7d530e
 size 5688