Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +122 -50
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1d6f42e69f174e188b7e547b5d177b72f981f7c3460bbe133b6aef2761f34bb
 size 990345064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e842f338dae7e1331dbacd985d4e787496d1560c060694c93eacbc48ed8c0ce4
 size 990345064

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7d1e3e73f0a72c95d8422666bcf5f268cfc4e40bc365f0ce445faebec7474a2
 size 1980859973

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e7600b9e111b7fd503118faff8164f6cb27427040a486d370178030cc7e6a26
 size 1980859973

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e31f6f5b302408a59340dd48ff29db720fa80e3be76edb3e9b7d412daa33838
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:5746f5cd389dd09e26f845338f66196834e9c729ef345b5766421c338ecc3e71
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:624b66aa5eba448808744b6d328f3f238355960b2a710ef056623afebdb80957
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:802a36e47f9883645ae832d2ec1f3a606362c67d9cfd7c21739f0b88084f2906
 size 627

trainer_state.json CHANGED Viewed

@@ -1,121 +1,193 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 5949,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.25,
-      "grad_norm": 0.6601719260215759,
-      "learning_rate": 1.8991427130610186e-05,
-      "loss": 2.9266,
       "step": 500
     },
     {
       "epoch": 0.5,
-      "grad_norm": 0.38926956057548523,
-      "learning_rate": 1.7982854261220374e-05,
-      "loss": 0.6793,
       "step": 1000
     },
     {
       "epoch": 0.76,
-      "grad_norm": 0.44040098786354065,
-      "learning_rate": 1.697428139183056e-05,
-      "loss": 0.5527,
       "step": 1500
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.40914833545684814,
-      "eval_runtime": 1.2975,
-      "eval_samples_per_second": 154.14,
-      "eval_steps_per_second": 3.083,
       "step": 1983
     },
     {
       "epoch": 1.01,
-      "grad_norm": 0.33104407787323,
-      "learning_rate": 1.5965708522440747e-05,
-      "loss": 0.4971,
       "step": 2000
     },
     {
       "epoch": 1.26,
-      "grad_norm": 0.2552054226398468,
-      "learning_rate": 1.4957135653050934e-05,
-      "loss": 0.4723,
       "step": 2500
     },
     {
       "epoch": 1.51,
-      "grad_norm": 0.25980475544929504,
-      "learning_rate": 1.3948562783661122e-05,
-      "loss": 0.4527,
       "step": 3000
     },
     {
       "epoch": 1.77,
-      "grad_norm": 0.2463352233171463,
-      "learning_rate": 1.2939989914271307e-05,
-      "loss": 0.4385,
       "step": 3500
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.367231547832489,
-      "eval_runtime": 1.4969,
-      "eval_samples_per_second": 133.61,
-      "eval_steps_per_second": 2.672,
       "step": 3966
     },
     {
       "epoch": 2.02,
-      "grad_norm": 0.21796859800815582,
-      "learning_rate": 1.1931417044881495e-05,
-      "loss": 0.4273,
       "step": 4000
     },
     {
       "epoch": 2.27,
-      "grad_norm": 0.23424555361270905,
-      "learning_rate": 1.0922844175491681e-05,
-      "loss": 0.4175,
       "step": 4500
     },
     {
       "epoch": 2.52,
-      "grad_norm": 0.1995495855808258,
-      "learning_rate": 9.914271306101868e-06,
-      "loss": 0.4082,
       "step": 5000
     },
     {
       "epoch": 2.77,
-      "grad_norm": 0.2701597511768341,
-      "learning_rate": 8.905698436712054e-06,
-      "loss": 0.4057,
       "step": 5500
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.349164217710495,
-      "eval_runtime": 1.4817,
-      "eval_samples_per_second": 134.978,
-      "eval_steps_per_second": 2.7,
       "step": 5949
     }
   ],
   "logging_steps": 500,
-  "max_steps": 9915,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 2.3041896601603277e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 9915,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.25,
+      "grad_norm": 1.1657905578613281,
+      "learning_rate": 1.9495713565305096e-05,
+      "loss": 2.9222,
       "step": 500
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.34992507100105286,
+      "learning_rate": 1.8991427130610186e-05,
+      "loss": 0.6675,
       "step": 1000
     },
     {
       "epoch": 0.76,
+      "grad_norm": 0.4056757688522339,
+      "learning_rate": 1.8487140695915284e-05,
+      "loss": 0.5431,
       "step": 1500
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.40460753440856934,
+      "eval_runtime": 1.4605,
+      "eval_samples_per_second": 136.937,
+      "eval_steps_per_second": 2.739,
       "step": 1983
     },
     {
       "epoch": 1.01,
+      "grad_norm": 0.3280782103538513,
+      "learning_rate": 1.7982854261220374e-05,
+      "loss": 0.4894,
       "step": 2000
     },
     {
       "epoch": 1.26,
+      "grad_norm": 0.2726248800754547,
+      "learning_rate": 1.747856782652547e-05,
+      "loss": 0.4646,
       "step": 2500
     },
     {
       "epoch": 1.51,
+      "grad_norm": 0.24760539829730988,
+      "learning_rate": 1.697428139183056e-05,
+      "loss": 0.4445,
       "step": 3000
     },
     {
       "epoch": 1.77,
+      "grad_norm": 0.2567976415157318,
+      "learning_rate": 1.6469994957135657e-05,
+      "loss": 0.4297,
       "step": 3500
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.3594338595867157,
+      "eval_runtime": 1.4706,
+      "eval_samples_per_second": 135.998,
+      "eval_steps_per_second": 2.72,
       "step": 3966
     },
     {
       "epoch": 2.02,
+      "grad_norm": 0.21329322457313538,
+      "learning_rate": 1.5965708522440747e-05,
+      "loss": 0.4174,
       "step": 4000
     },
     {
       "epoch": 2.27,
+      "grad_norm": 0.22651061415672302,
+      "learning_rate": 1.546142208774584e-05,
+      "loss": 0.4065,
       "step": 4500
     },
     {
       "epoch": 2.52,
+      "grad_norm": 0.1898190826177597,
+      "learning_rate": 1.4957135653050934e-05,
+      "loss": 0.3963,
       "step": 5000
     },
     {
       "epoch": 2.77,
+      "grad_norm": 0.2700614631175995,
+      "learning_rate": 1.4452849218356026e-05,
+      "loss": 0.3927,
       "step": 5500
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.33957552909851074,
+      "eval_runtime": 1.4339,
+      "eval_samples_per_second": 139.484,
+      "eval_steps_per_second": 2.79,
       "step": 5949
+    },
+    {
+      "epoch": 3.03,
+      "grad_norm": 0.2275162637233734,
+      "learning_rate": 1.3948562783661122e-05,
+      "loss": 0.388,
+      "step": 6000
+    },
+    {
+      "epoch": 3.28,
+      "grad_norm": 0.2916988134384155,
+      "learning_rate": 1.3444276348966214e-05,
+      "loss": 0.3773,
+      "step": 6500
+    },
+    {
+      "epoch": 3.53,
+      "grad_norm": 0.25161975622177124,
+      "learning_rate": 1.2939989914271307e-05,
+      "loss": 0.3781,
+      "step": 7000
+    },
+    {
+      "epoch": 3.78,
+      "grad_norm": 0.3184010982513428,
+      "learning_rate": 1.2435703479576399e-05,
+      "loss": 0.3695,
+      "step": 7500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.3304264545440674,
+      "eval_runtime": 1.4505,
+      "eval_samples_per_second": 137.885,
+      "eval_steps_per_second": 2.758,
+      "step": 7932
+    },
+    {
+      "epoch": 4.03,
+      "grad_norm": 0.2558070123195648,
+      "learning_rate": 1.1931417044881495e-05,
+      "loss": 0.3671,
+      "step": 8000
+    },
+    {
+      "epoch": 4.29,
+      "grad_norm": 0.2560890018939972,
+      "learning_rate": 1.1427130610186587e-05,
+      "loss": 0.3573,
+      "step": 8500
+    },
+    {
+      "epoch": 4.54,
+      "grad_norm": 0.242618128657341,
+      "learning_rate": 1.0922844175491681e-05,
+      "loss": 0.3597,
+      "step": 9000
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 0.20291948318481445,
+      "learning_rate": 1.0418557740796773e-05,
+      "loss": 0.3575,
+      "step": 9500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.32436466217041016,
+      "eval_runtime": 1.4557,
+      "eval_samples_per_second": 137.394,
+      "eval_steps_per_second": 2.748,
+      "step": 9915
     }
   ],
   "logging_steps": 500,
+  "max_steps": 19830,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3.839198019902669e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbd57721092a12ad5c499cf07c4fb770ea0ece2ea47682a1c4c49c3ce1d5eba2
 size 4795

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c4524da51f7684ee67ccc8ad22c93ffcd26ae4356d3ffcda1d40bd60ec25d8f
 size 4795