End of training

Browse files

Files changed (8) hide show

README.md +24 -21
config.json +2 -9
model.safetensors +2 -2
runs/Jan21_06-01-41_0d30c48e12f2/events.out.tfevents.1705816903.0d30c48e12f2.839.0 +3 -0
runs/Jan21_06-08-52_0d30c48e12f2/events.out.tfevents.1705817333.0d30c48e12f2.3053.0 +3 -0
runs/Jan21_06-25-07_0d30c48e12f2/events.out.tfevents.1705818308.0d30c48e12f2.7236.0 +3 -0
runs/Jan21_06-25-07_0d30c48e12f2/events.out.tfevents.1705820410.0d30c48e12f2.7236.1 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
-license: apache-2.0
-base_model: distilgpt2
 tags:
 - generated_from_trainer
 model-index:
@@ -13,9 +13,9 @@ should probably proofread and complete it, then remove this comment. -->
 # star-trek-tng-script-generator
-This model is a fine-tuned version of [distilgpt2](https://huggingface.co/distilgpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.3821
 ## Model description
@@ -34,31 +34,34 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.001
-- train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- lr_scheduler_warmup_steps: 50
-- num_epochs: 5
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 3.3834        | 0.4   | 200  | 3.2320          |
-| 3.159         | 0.81  | 400  | 3.1637          |
-| 2.9317        | 1.21  | 600  | 3.1526          |
-| 2.8165        | 1.61  | 800  | 3.1281          |
-| 2.779         | 2.02  | 1000 | 3.1925          |
-| 2.4516        | 2.42  | 1200 | 3.1798          |
-| 2.4697        | 2.82  | 1400 | 3.1530          |
-| 2.2567        | 3.23  | 1600 | 3.2815          |
-| 2.1165        | 3.63  | 1800 | 3.2641          |
-| 2.0832        | 4.03  | 2000 | 3.3755          |
-| 1.8606        | 4.44  | 2200 | 3.3766          |
-| 1.8544        | 4.84  | 2400 | 3.3823          |
 ### Framework versions

 ---
+license: mit
+base_model: gpt2
 tags:
 - generated_from_trainer
 model-index:
 # star-trek-tng-script-generator
+This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.8036
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 1
+- eval_batch_size: 1
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 2
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 3.1852        | 0.13  | 500  | 3.0649          |
+| 3.0477        | 0.26  | 1000 | 3.0007          |
+| 2.9831        | 0.38  | 1500 | 2.9711          |
+| 2.9662        | 0.51  | 2000 | 2.9474          |
+| 2.9275        | 0.64  | 2500 | 2.9116          |
+| 2.8711        | 0.77  | 3000 | 2.8952          |
+| 2.8551        | 0.89  | 3500 | 2.8771          |
+| 2.7449        | 1.02  | 4000 | 2.8645          |
+| 2.4553        | 1.15  | 4500 | 2.8441          |
+| 2.4575        | 1.28  | 5000 | 2.8457          |
+| 2.4452        | 1.4   | 5500 | 2.8329          |
+| 2.4256        | 1.53  | 6000 | 2.8180          |
+| 2.3958        | 1.66  | 6500 | 2.8123          |
+| 2.4084        | 1.79  | 7000 | 2.8049          |
+| 2.3855        | 1.92  | 7500 | 2.8044          |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
-  "_name_or_path": "distilgpt2",
-  "_num_labels": 1,
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
@@ -10,13 +9,7 @@
   "do_sample": true,
   "embd_pdrop": 0.1,
   "eos_token_id": 50256,
-  "id2label": {
-    "0": "LABEL_0"
-  },
   "initializer_range": 0.02,
-  "label2id": {
-    "LABEL_0": 0
-  },
   "layer_norm_epsilon": 1e-05,
   "max_length": 50,
   "model_type": "gpt2",
@@ -24,7 +17,7 @@
   "n_embd": 768,
   "n_head": 12,
   "n_inner": null,
-  "n_layer": 6,
   "n_positions": 1024,
   "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.1,

 {
+  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
   "do_sample": true,
   "embd_pdrop": 0.1,
   "eos_token_id": 50256,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "max_length": 50,
   "model_type": "gpt2",
   "n_embd": 768,
   "n_head": 12,
   "n_inner": null,
+  "n_layer": 12,
   "n_positions": 1024,
   "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.1,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:528e65928ef36e0d562ab35926ffe80482409acac4e978430eabec696917ecc7
-size 327657928

 version https://git-lfs.github.com/spec/v1
+oid sha256:9355cc23b5f74b3b858d4f402c43ad57fd3ec6e56c77a60baf506155c63cb4e3
+size 497774208

runs/Jan21_06-01-41_0d30c48e12f2/events.out.tfevents.1705816903.0d30c48e12f2.839.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e591b852aaa49635ddc5f91ad1d99310f3e914ae95478dee1db416bd304b48f
+size 6626

runs/Jan21_06-08-52_0d30c48e12f2/events.out.tfevents.1705817333.0d30c48e12f2.3053.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:317702624a5fab0db53dca0ff1ede1d9462f4afab660731b2db7802cfe2e8f2d
+size 7055

runs/Jan21_06-25-07_0d30c48e12f2/events.out.tfevents.1705818308.0d30c48e12f2.7236.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:429f376fb2ddc21d40d594107b64e6eada28d874a7d728b78f26fe0fe0386afc
+size 11262

runs/Jan21_06-25-07_0d30c48e12f2/events.out.tfevents.1705820410.0d30c48e12f2.7236.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:debfd472203bfb8f0c1a1f60de2295772ba82baae93ecd5cac576b56c78a3059
+size 359

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c9fa27f09d1d32a838b01887fc9b333e4d7c696958c7590e289ee01efdc7b29
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:51e5e009e728175c03f3bd3ef428a6117521748fce818f4193725a2b7582feb2
 size 4600