Shawon16
/

VideoMAE_Base_WLASL_100_200_epochs_p20_SR_8

@@ -1,9 +1,9 @@
 {
-    "accuracy": 0.49224806201550386,
-    "f1": 0.4904608096468562,
-    "precision": 0.5755906238464378,
-    "recall": 0.49224806201550386,
-    "top_10_accuracy": 0.8682170542635659,
-    "top_1_accuracy": 0.49224806201550386,
-    "top_5_accuracy": 0.7558139534883721
 }

 {
+    "accuracy": 0.5697674418604651,
+    "f1": 0.5385868653310515,
+    "precision": 0.5749307862679955,
+    "recall": 0.5697674418604651,
+    "top_10_accuracy": 0.875968992248062,
+    "top_1_accuracy": 0.5697674418604651,
+    "top_5_accuracy": 0.8217054263565892
 }

test_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "accuracy": 0.49224806201550386,
-    "f1": 0.4904608096468562,
-    "precision": 0.5755906238464378,
-    "recall": 0.49224806201550386,
-    "top_10_accuracy": 0.8682170542635659,
-    "top_1_accuracy": 0.49224806201550386,
-    "top_5_accuracy": 0.7558139534883721
 }

 {
+    "accuracy": 0.5697674418604651,
+    "f1": 0.5385868653310515,
+    "precision": 0.5749307862679955,
+    "recall": 0.5697674418604651,
+    "top_10_accuracy": 0.875968992248062,
+    "top_1_accuracy": 0.5697674418604651,
+    "top_5_accuracy": 0.8217054263565892
 }

trainer_state.json CHANGED Viewed

@@ -1,1539 +1,1648 @@
 {
-  "best_metric": 0.5680473372781065,
-  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/VideoMAE_Base_WLASL_100_200_epochs_p20_SR_8/checkpoint-6308",
-  "epoch": 54.00498611111111,
   "eval_steps": 500,
-  "global_step": 9913,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.002777777777777778,
-      "grad_norm": 44.761619567871094,
       "learning_rate": 1.3333333333333334e-06,
-      "loss": 18.6841,
       "step": 100
     },
     {
       "epoch": 0.005,
       "eval_accuracy": 0.008875739644970414,
-      "eval_f1": 0.0028090252942323947,
-      "eval_loss": 4.650303840637207,
-      "eval_precision": 0.002358710338722453,
       "eval_recall": 0.008875739644970414,
-      "eval_runtime": 64.7947,
-      "eval_samples_per_second": 5.216,
-      "eval_steps_per_second": 2.608,
-      "eval_top_10_accuracy": 0.10946745562130178,
       "eval_top_1_accuracy": 0.008875739644970414,
-      "eval_top_5_accuracy": 0.047337278106508875,
       "step": 180
     },
     {
-      "epoch": 1.000548611111111,
-      "grad_norm": 73.21803283691406,
       "learning_rate": 2.7222222222222224e-06,
-      "loss": 18.6074,
       "step": 200
     },
     {
-      "epoch": 1.0033263888888888,
-      "grad_norm": 66.99571990966797,
       "learning_rate": 4.111111111111112e-06,
-      "loss": 18.5513,
       "step": 300
     },
     {
-      "epoch": 1.0049930555555555,
-      "eval_accuracy": 0.014792899408284023,
-      "eval_f1": 0.0007428992223267716,
-      "eval_loss": 4.6342573165893555,
-      "eval_precision": 0.00038125026745873357,
-      "eval_recall": 0.014792899408284023,
-      "eval_runtime": 57.017,
-      "eval_samples_per_second": 5.928,
-      "eval_steps_per_second": 2.964,
-      "eval_top_10_accuracy": 0.13609467455621302,
-      "eval_top_1_accuracy": 0.014792899408284023,
       "eval_top_5_accuracy": 0.0621301775147929,
       "step": 360
     },
     {
-      "epoch": 2.001097222222222,
-      "grad_norm": 42.89289474487305,
       "learning_rate": 5.500000000000001e-06,
-      "loss": 18.5436,
       "step": 400
     },
     {
-      "epoch": 2.003875,
-      "grad_norm": 36.9390869140625,
       "learning_rate": 6.888888888888889e-06,
-      "loss": 18.4806,
       "step": 500
     },
     {
-      "epoch": 2.004986111111111,
-      "eval_accuracy": 0.014792899408284023,
-      "eval_f1": 0.0008787861034624173,
-      "eval_loss": 4.611328125,
-      "eval_precision": 0.00045284385943726607,
-      "eval_recall": 0.014792899408284023,
-      "eval_runtime": 60.6335,
-      "eval_samples_per_second": 5.574,
-      "eval_steps_per_second": 2.787,
-      "eval_top_10_accuracy": 0.11834319526627218,
-      "eval_top_1_accuracy": 0.014792899408284023,
-      "eval_top_5_accuracy": 0.06804733727810651,
-      "step": 540
     },
     {
-      "epoch": 3.0016458333333333,
-      "grad_norm": 35.67766189575195,
       "learning_rate": 8.27777777777778e-06,
-      "loss": 18.4495,
       "step": 600
     },
     {
-      "epoch": 3.004423611111111,
-      "grad_norm": 35.079776763916016,
       "learning_rate": 9.666666666666667e-06,
-      "loss": 18.434,
       "step": 700
     },
     {
-      "epoch": 3.0050069444444443,
-      "eval_accuracy": 0.020710059171597635,
-      "eval_f1": 0.0028698333117318383,
-      "eval_loss": 4.623179912567139,
-      "eval_precision": 0.0015918315646110785,
-      "eval_recall": 0.020710059171597635,
-      "eval_runtime": 58.2114,
-      "eval_samples_per_second": 5.806,
-      "eval_steps_per_second": 2.903,
-      "eval_top_10_accuracy": 0.10946745562130178,
-      "eval_top_1_accuracy": 0.020710059171597635,
-      "eval_top_5_accuracy": 0.0650887573964497,
       "step": 721
     },
     {
-      "epoch": 4.002194444444444,
-      "grad_norm": 32.86574172973633,
       "learning_rate": 1.1055555555555556e-05,
-      "loss": 18.3155,
       "step": 800
     },
     {
-      "epoch": 4.004972222222222,
-      "grad_norm": 38.9669075012207,
       "learning_rate": 1.2444444444444445e-05,
-      "loss": 18.4438,
       "step": 900
     },
     {
-      "epoch": 4.005,
-      "eval_accuracy": 0.01775147928994083,
-      "eval_f1": 0.004888222824104215,
-      "eval_loss": 4.616748332977295,
-      "eval_precision": 0.00515812106198576,
-      "eval_recall": 0.01775147928994083,
-      "eval_runtime": 75.0582,
-      "eval_samples_per_second": 4.503,
-      "eval_steps_per_second": 2.252,
-      "eval_top_10_accuracy": 0.14201183431952663,
-      "eval_top_1_accuracy": 0.01775147928994083,
-      "eval_top_5_accuracy": 0.0621301775147929,
       "step": 901
     },
     {
-      "epoch": 5.002743055555555,
-      "grad_norm": 30.948198318481445,
       "learning_rate": 1.3833333333333334e-05,
-      "loss": 18.2038,
       "step": 1000
     },
     {
-      "epoch": 5.0049930555555555,
-      "eval_accuracy": 0.020710059171597635,
-      "eval_f1": 0.002628381440247109,
-      "eval_loss": 4.628068447113037,
-      "eval_precision": 0.0014603929265178319,
-      "eval_recall": 0.020710059171597635,
-      "eval_runtime": 56.6857,
-      "eval_samples_per_second": 5.963,
-      "eval_steps_per_second": 2.981,
-      "eval_top_10_accuracy": 0.13313609467455623,
-      "eval_top_1_accuracy": 0.020710059171597635,
-      "eval_top_5_accuracy": 0.08284023668639054,
       "step": 1081
     },
     {
-      "epoch": 6.0005138888888885,
-      "grad_norm": 32.544097900390625,
       "learning_rate": 1.5222222222222224e-05,
-      "loss": 18.2819,
       "step": 1100
     },
     {
-      "epoch": 6.003291666666667,
-      "grad_norm": 31.63671875,
       "learning_rate": 1.661111111111111e-05,
-      "loss": 18.2475,
       "step": 1200
     },
     {
-      "epoch": 6.004986111111111,
-      "eval_accuracy": 0.020710059171597635,
-      "eval_f1": 0.0026314295054457367,
-      "eval_loss": 4.627294063568115,
-      "eval_precision": 0.0014502725830579143,
-      "eval_recall": 0.020710059171597635,
-      "eval_runtime": 60.0837,
-      "eval_samples_per_second": 5.625,
-      "eval_steps_per_second": 2.813,
-      "eval_top_10_accuracy": 0.11834319526627218,
-      "eval_top_1_accuracy": 0.020710059171597635,
-      "eval_top_5_accuracy": 0.0650887573964497,
-      "step": 1261
     },
     {
-      "epoch": 7.0010625,
-      "grad_norm": 33.69670486450195,
       "learning_rate": 1.8e-05,
-      "loss": 18.1596,
       "step": 1300
     },
     {
-      "epoch": 7.003840277777778,
-      "grad_norm": 30.9010009765625,
       "learning_rate": 1.938888888888889e-05,
-      "loss": 18.1407,
       "step": 1400
     },
     {
-      "epoch": 7.005006944444444,
-      "eval_accuracy": 0.014792899408284023,
-      "eval_f1": 0.010736730310071949,
-      "eval_loss": 4.602706432342529,
-      "eval_precision": 0.016151808947041886,
-      "eval_recall": 0.014792899408284023,
-      "eval_runtime": 62.4422,
-      "eval_samples_per_second": 5.413,
-      "eval_steps_per_second": 2.707,
-      "eval_top_10_accuracy": 0.15384615384615385,
-      "eval_top_1_accuracy": 0.014792899408284023,
-      "eval_top_5_accuracy": 0.07988165680473373,
       "step": 1442
     },
     {
-      "epoch": 8.001611111111112,
-      "grad_norm": 38.095611572265625,
       "learning_rate": 2.077777777777778e-05,
-      "loss": 18.0154,
       "step": 1500
     },
     {
-      "epoch": 8.004388888888888,
-      "grad_norm": 28.888912200927734,
       "learning_rate": 2.216666666666667e-05,
-      "loss": 17.9877,
       "step": 1600
     },
     {
-      "epoch": 8.005,
-      "eval_accuracy": 0.026627218934911243,
-      "eval_f1": 0.002959754620541719,
-      "eval_loss": 4.57106351852417,
-      "eval_precision": 0.001621455467609314,
-      "eval_recall": 0.026627218934911243,
-      "eval_runtime": 60.0394,
-      "eval_samples_per_second": 5.63,
-      "eval_steps_per_second": 2.815,
-      "eval_top_10_accuracy": 0.14201183431952663,
-      "eval_top_1_accuracy": 0.026627218934911243,
-      "eval_top_5_accuracy": 0.08875739644970414,
       "step": 1622
     },
     {
-      "epoch": 9.002159722222222,
-      "grad_norm": 39.636756896972656,
       "learning_rate": 2.3555555555555556e-05,
-      "loss": 17.6586,
       "step": 1700
     },
     {
-      "epoch": 9.0049375,
-      "grad_norm": 36.179622650146484,
       "learning_rate": 2.4944444444444447e-05,
-      "loss": 17.6844,
       "step": 1800
     },
     {
-      "epoch": 9.004993055555556,
-      "eval_accuracy": 0.038461538461538464,
-      "eval_f1": 0.014575543949312847,
-      "eval_loss": 4.48525333404541,
-      "eval_precision": 0.01083091455885828,
-      "eval_recall": 0.038461538461538464,
-      "eval_runtime": 58.3286,
-      "eval_samples_per_second": 5.795,
-      "eval_steps_per_second": 2.897,
-      "eval_top_10_accuracy": 0.1952662721893491,
-      "eval_top_1_accuracy": 0.038461538461538464,
-      "eval_top_5_accuracy": 0.11834319526627218,
       "step": 1802
     },
     {
-      "epoch": 10.002708333333333,
-      "grad_norm": 33.06723403930664,
       "learning_rate": 2.633333333333333e-05,
-      "loss": 16.9804,
       "step": 1900
     },
     {
-      "epoch": 10.00498611111111,
-      "eval_accuracy": 0.038461538461538464,
-      "eval_f1": 0.007837026266938529,
-      "eval_loss": 4.283570289611816,
-      "eval_precision": 0.004664077362357343,
-      "eval_recall": 0.038461538461538464,
-      "eval_runtime": 60.5645,
-      "eval_samples_per_second": 5.581,
-      "eval_steps_per_second": 2.79,
-      "eval_top_10_accuracy": 0.2781065088757396,
-      "eval_top_1_accuracy": 0.038461538461538464,
-      "eval_top_5_accuracy": 0.15088757396449703,
-      "step": 1982
     },
     {
-      "epoch": 11.000479166666667,
-      "grad_norm": 37.544349670410156,
       "learning_rate": 2.772222222222222e-05,
-      "loss": 16.683,
       "step": 2000
     },
     {
-      "epoch": 11.003256944444445,
-      "grad_norm": 39.149925231933594,
       "learning_rate": 2.9111111111111112e-05,
-      "loss": 15.9246,
       "step": 2100
     },
     {
-      "epoch": 11.005006944444444,
-      "eval_accuracy": 0.07396449704142012,
-      "eval_f1": 0.03186227070036653,
-      "eval_loss": 3.9420433044433594,
-      "eval_precision": 0.024074685343264134,
-      "eval_recall": 0.07396449704142012,
-      "eval_runtime": 61.6221,
-      "eval_samples_per_second": 5.485,
-      "eval_steps_per_second": 2.743,
-      "eval_top_10_accuracy": 0.4378698224852071,
-      "eval_top_1_accuracy": 0.07396449704142012,
-      "eval_top_5_accuracy": 0.27514792899408286,
       "step": 2163
     },
     {
-      "epoch": 12.001027777777777,
-      "grad_norm": 33.2915153503418,
       "learning_rate": 3.05e-05,
-      "loss": 14.9644,
       "step": 2200
     },
     {
-      "epoch": 12.003805555555555,
-      "grad_norm": 43.72281265258789,
       "learning_rate": 3.188888888888889e-05,
-      "loss": 14.253,
       "step": 2300
     },
     {
-      "epoch": 12.005,
-      "eval_accuracy": 0.15384615384615385,
-      "eval_f1": 0.10824208896259017,
-      "eval_loss": 3.5585851669311523,
-      "eval_precision": 0.11833714349597253,
-      "eval_recall": 0.15384615384615385,
-      "eval_runtime": 62.5539,
-      "eval_samples_per_second": 5.403,
-      "eval_steps_per_second": 2.702,
-      "eval_top_10_accuracy": 0.6420118343195266,
-      "eval_top_1_accuracy": 0.15384615384615385,
-      "eval_top_5_accuracy": 0.47337278106508873,
       "step": 2343
     },
     {
-      "epoch": 13.00157638888889,
-      "grad_norm": 53.25724411010742,
       "learning_rate": 3.327777777777778e-05,
-      "loss": 12.9497,
       "step": 2400
     },
     {
-      "epoch": 13.004354166666667,
-      "grad_norm": 50.47941207885742,
       "learning_rate": 3.466666666666667e-05,
-      "loss": 12.4027,
       "step": 2500
     },
     {
-      "epoch": 13.004993055555556,
-      "eval_accuracy": 0.22781065088757396,
-      "eval_f1": 0.18300783700191986,
-      "eval_loss": 3.2830753326416016,
-      "eval_precision": 0.19724533226557517,
-      "eval_recall": 0.22781065088757396,
-      "eval_runtime": 63.6578,
-      "eval_samples_per_second": 5.31,
-      "eval_steps_per_second": 2.655,
-      "eval_top_10_accuracy": 0.7130177514792899,
-      "eval_top_1_accuracy": 0.22781065088757396,
-      "eval_top_5_accuracy": 0.5443786982248521,
       "step": 2523
     },
     {
-      "epoch": 14.002125,
-      "grad_norm": 45.9249153137207,
       "learning_rate": 3.605555555555556e-05,
-      "loss": 11.0163,
       "step": 2600
     },
     {
-      "epoch": 14.004902777777778,
-      "grad_norm": 69.36324310302734,
       "learning_rate": 3.7444444444444446e-05,
-      "loss": 10.6164,
       "step": 2700
     },
     {
-      "epoch": 14.00498611111111,
-      "eval_accuracy": 0.30177514792899407,
-      "eval_f1": 0.24254924983033319,
-      "eval_loss": 2.9951417446136475,
-      "eval_precision": 0.25831286563535083,
-      "eval_recall": 0.30177514792899407,
-      "eval_runtime": 74.4359,
-      "eval_samples_per_second": 4.541,
-      "eval_steps_per_second": 2.27,
-      "eval_top_10_accuracy": 0.7633136094674556,
-      "eval_top_1_accuracy": 0.30177514792899407,
-      "eval_top_5_accuracy": 0.6301775147928994,
-      "step": 2703
     },
     {
-      "epoch": 15.002673611111112,
-      "grad_norm": 58.75260925292969,
       "learning_rate": 3.883333333333333e-05,
-      "loss": 9.0753,
       "step": 2800
     },
     {
-      "epoch": 15.005006944444444,
-      "eval_accuracy": 0.34023668639053256,
-      "eval_f1": 0.28895195862651485,
-      "eval_loss": 2.8074893951416016,
-      "eval_precision": 0.3187842072457457,
-      "eval_recall": 0.34023668639053256,
-      "eval_runtime": 60.9495,
-      "eval_samples_per_second": 5.546,
-      "eval_steps_per_second": 2.773,
-      "eval_top_10_accuracy": 0.7988165680473372,
-      "eval_top_1_accuracy": 0.34023668639053256,
-      "eval_top_5_accuracy": 0.6597633136094675,
       "step": 2884
     },
     {
-      "epoch": 16.000444444444444,
-      "grad_norm": 39.87100601196289,
       "learning_rate": 4.022222222222222e-05,
-      "loss": 8.5838,
       "step": 2900
     },
     {
-      "epoch": 16.003222222222224,
-      "grad_norm": 64.38956451416016,
       "learning_rate": 4.1611111111111114e-05,
-      "loss": 7.3114,
       "step": 3000
     },
     {
-      "epoch": 16.005,
-      "eval_accuracy": 0.41124260355029585,
-      "eval_f1": 0.37015384136608054,
-      "eval_loss": 2.5131821632385254,
-      "eval_precision": 0.4357026356286711,
-      "eval_recall": 0.41124260355029585,
-      "eval_runtime": 58.7645,
-      "eval_samples_per_second": 5.752,
-      "eval_steps_per_second": 2.876,
-      "eval_top_10_accuracy": 0.8668639053254438,
-      "eval_top_1_accuracy": 0.41124260355029585,
-      "eval_top_5_accuracy": 0.7337278106508875,
       "step": 3064
     },
     {
-      "epoch": 17.000993055555554,
-      "grad_norm": 48.52119445800781,
       "learning_rate": 4.3e-05,
-      "loss": 6.6622,
       "step": 3100
     },
     {
-      "epoch": 17.003770833333334,
-      "grad_norm": 67.13871765136719,
       "learning_rate": 4.438888888888889e-05,
-      "loss": 6.0168,
       "step": 3200
     },
     {
-      "epoch": 17.004993055555556,
-      "eval_accuracy": 0.4408284023668639,
-      "eval_f1": 0.41085208348521957,
-      "eval_loss": 2.3302810192108154,
-      "eval_precision": 0.45284331053561816,
-      "eval_recall": 0.4408284023668639,
-      "eval_runtime": 57.7604,
-      "eval_samples_per_second": 5.852,
-      "eval_steps_per_second": 2.926,
-      "eval_top_10_accuracy": 0.8698224852071006,
-      "eval_top_1_accuracy": 0.4408284023668639,
-      "eval_top_5_accuracy": 0.7633136094674556,
       "step": 3244
     },
     {
-      "epoch": 18.001541666666668,
-      "grad_norm": 46.7744140625,
       "learning_rate": 4.577777777777778e-05,
-      "loss": 5.1754,
       "step": 3300
     },
     {
-      "epoch": 18.004319444444445,
-      "grad_norm": 54.56682205200195,
       "learning_rate": 4.716666666666667e-05,
-      "loss": 4.6862,
       "step": 3400
     },
     {
-      "epoch": 18.004986111111112,
-      "eval_accuracy": 0.4467455621301775,
-      "eval_f1": 0.4292371153230883,
-      "eval_loss": 2.2995729446411133,
-      "eval_precision": 0.521234854888701,
-      "eval_recall": 0.4467455621301775,
-      "eval_runtime": 58.8868,
-      "eval_samples_per_second": 5.74,
-      "eval_steps_per_second": 2.87,
-      "eval_top_10_accuracy": 0.8579881656804734,
-      "eval_top_1_accuracy": 0.4467455621301775,
-      "eval_top_5_accuracy": 0.7514792899408284,
-      "step": 3424
     },
     {
-      "epoch": 19.00209027777778,
-      "grad_norm": 39.73740768432617,
       "learning_rate": 4.855555555555556e-05,
-      "loss": 4.0003,
       "step": 3500
     },
     {
-      "epoch": 19.004868055555555,
-      "grad_norm": 50.9436149597168,
       "learning_rate": 4.994444444444445e-05,
-      "loss": 3.6718,
       "step": 3600
     },
     {
-      "epoch": 19.005006944444446,
-      "eval_accuracy": 0.5177514792899408,
-      "eval_f1": 0.48937878360955284,
-      "eval_loss": 2.0771615505218506,
-      "eval_precision": 0.5376796280642435,
-      "eval_recall": 0.5177514792899408,
-      "eval_runtime": 60.5121,
-      "eval_samples_per_second": 5.586,
-      "eval_steps_per_second": 2.793,
-      "eval_top_10_accuracy": 0.878698224852071,
-      "eval_top_1_accuracy": 0.5177514792899408,
       "eval_top_5_accuracy": 0.7840236686390533,
       "step": 3605
     },
     {
-      "epoch": 20.00263888888889,
-      "grad_norm": 48.8848991394043,
       "learning_rate": 4.9851851851851855e-05,
-      "loss": 2.7961,
       "step": 3700
     },
     {
-      "epoch": 20.005,
-      "eval_accuracy": 0.48520710059171596,
-      "eval_f1": 0.4556548481104694,
-      "eval_loss": 2.1207311153411865,
-      "eval_precision": 0.5156628627782474,
-      "eval_recall": 0.48520710059171596,
-      "eval_runtime": 57.9018,
-      "eval_samples_per_second": 5.837,
-      "eval_steps_per_second": 2.919,
-      "eval_top_10_accuracy": 0.8579881656804734,
-      "eval_top_1_accuracy": 0.48520710059171596,
-      "eval_top_5_accuracy": 0.7662721893491125,
       "step": 3785
     },
     {
-      "epoch": 21.000409722222223,
-      "grad_norm": 58.62202072143555,
       "learning_rate": 4.969753086419753e-05,
-      "loss": 2.6912,
       "step": 3800
     },
     {
-      "epoch": 21.0031875,
-      "grad_norm": 79.86384582519531,
       "learning_rate": 4.954320987654321e-05,
-      "loss": 2.0751,
       "step": 3900
     },
     {
-      "epoch": 21.004993055555556,
-      "eval_accuracy": 0.4881656804733728,
-      "eval_f1": 0.4816365258672951,
-      "eval_loss": 2.0227231979370117,
-      "eval_precision": 0.5489433643279797,
-      "eval_recall": 0.4881656804733728,
-      "eval_runtime": 53.8251,
-      "eval_samples_per_second": 6.28,
-      "eval_steps_per_second": 3.14,
-      "eval_top_10_accuracy": 0.8875739644970414,
-      "eval_top_1_accuracy": 0.4881656804733728,
-      "eval_top_5_accuracy": 0.7810650887573964,
       "step": 3965
     },
     {
-      "epoch": 22.000958333333333,
-      "grad_norm": 37.52458572387695,
       "learning_rate": 4.938888888888889e-05,
-      "loss": 1.9706,
       "step": 4000
     },
     {
-      "epoch": 22.00373611111111,
-      "grad_norm": 36.34599304199219,
-      "learning_rate": 4.9234567901234566e-05,
-      "loss": 1.7998,
       "step": 4100
     },
     {
-      "epoch": 22.004986111111112,
-      "eval_accuracy": 0.4911242603550296,
-      "eval_f1": 0.4644210408263662,
-      "eval_loss": 2.0553224086761475,
-      "eval_precision": 0.5105472272632036,
-      "eval_recall": 0.4911242603550296,
-      "eval_runtime": 57.0036,
-      "eval_samples_per_second": 5.929,
-      "eval_steps_per_second": 2.965,
-      "eval_top_10_accuracy": 0.8609467455621301,
-      "eval_top_1_accuracy": 0.4881656804733728,
-      "eval_top_5_accuracy": 0.7751479289940828,
-      "step": 4145
     },
     {
-      "epoch": 23.001506944444444,
-      "grad_norm": 93.64087677001953,
       "learning_rate": 4.9081790123456794e-05,
-      "loss": 1.4459,
       "step": 4200
     },
     {
-      "epoch": 23.004284722222224,
-      "grad_norm": 22.98988914489746,
       "learning_rate": 4.892746913580247e-05,
-      "loss": 1.2235,
       "step": 4300
     },
     {
-      "epoch": 23.005006944444446,
-      "eval_accuracy": 0.4881656804733728,
-      "eval_f1": 0.4653609621804887,
-      "eval_loss": 1.987465739250183,
-      "eval_precision": 0.5147137871989943,
-      "eval_recall": 0.4881656804733728,
-      "eval_runtime": 73.3634,
-      "eval_samples_per_second": 4.607,
-      "eval_steps_per_second": 2.304,
-      "eval_top_10_accuracy": 0.878698224852071,
-      "eval_top_1_accuracy": 0.4881656804733728,
-      "eval_top_5_accuracy": 0.8136094674556213,
       "step": 4326
     },
     {
-      "epoch": 24.002055555555554,
-      "grad_norm": 14.430959701538086,
       "learning_rate": 4.877314814814815e-05,
-      "loss": 1.0324,
       "step": 4400
     },
     {
-      "epoch": 24.004833333333334,
-      "grad_norm": 29.57322120666504,
       "learning_rate": 4.861882716049383e-05,
-      "loss": 1.1509,
       "step": 4500
     },
     {
-      "epoch": 24.005,
-      "eval_accuracy": 0.5088757396449705,
-      "eval_f1": 0.4862273067459284,
-      "eval_loss": 1.9725861549377441,
-      "eval_precision": 0.52279579394964,
-      "eval_recall": 0.5088757396449705,
-      "eval_runtime": 73.1733,
-      "eval_samples_per_second": 4.619,
-      "eval_steps_per_second": 2.31,
-      "eval_top_10_accuracy": 0.8727810650887574,
-      "eval_top_1_accuracy": 0.5088757396449705,
-      "eval_top_5_accuracy": 0.8047337278106509,
       "step": 4506
     },
     {
-      "epoch": 25.002604166666668,
-      "grad_norm": 22.385639190673828,
       "learning_rate": 4.8464506172839505e-05,
-      "loss": 0.7166,
       "step": 4600
     },
     {
-      "epoch": 25.004993055555556,
-      "eval_accuracy": 0.5118343195266272,
-      "eval_f1": 0.5096006557545019,
-      "eval_loss": 1.9579885005950928,
-      "eval_precision": 0.5969287123133278,
-      "eval_recall": 0.5118343195266272,
-      "eval_runtime": 56.9942,
-      "eval_samples_per_second": 5.93,
-      "eval_steps_per_second": 2.965,
-      "eval_top_10_accuracy": 0.8964497041420119,
-      "eval_top_1_accuracy": 0.5118343195266272,
-      "eval_top_5_accuracy": 0.8106508875739645,
       "step": 4686
     },
     {
-      "epoch": 26.000375,
-      "grad_norm": 7.943602085113525,
       "learning_rate": 4.831018518518518e-05,
-      "loss": 0.8199,
       "step": 4700
     },
     {
-      "epoch": 26.00315277777778,
-      "grad_norm": 50.43260192871094,
       "learning_rate": 4.815586419753087e-05,
-      "loss": 0.6218,
       "step": 4800
     },
     {
-      "epoch": 26.004986111111112,
       "eval_accuracy": 0.5384615384615384,
-      "eval_f1": 0.5059408665743507,
-      "eval_loss": 1.9028863906860352,
-      "eval_precision": 0.5594793766391399,
       "eval_recall": 0.5384615384615384,
-      "eval_runtime": 58.8866,
-      "eval_samples_per_second": 5.74,
-      "eval_steps_per_second": 2.87,
-      "eval_top_10_accuracy": 0.8757396449704142,
-      "eval_top_1_accuracy": 0.5355029585798816,
-      "eval_top_5_accuracy": 0.8136094674556213,
-      "step": 4866
     },
     {
-      "epoch": 27.000923611111112,
-      "grad_norm": 11.617535591125488,
       "learning_rate": 4.8001543209876545e-05,
-      "loss": 0.622,
       "step": 4900
     },
     {
-      "epoch": 27.00370138888889,
-      "grad_norm": 44.96900939941406,
       "learning_rate": 4.784722222222223e-05,
-      "loss": 0.419,
       "step": 5000
     },
     {
-      "epoch": 27.005006944444446,
-      "eval_accuracy": 0.5059171597633136,
-      "eval_f1": 0.4846225273740067,
-      "eval_loss": 2.0808358192443848,
-      "eval_precision": 0.5606762895224434,
-      "eval_recall": 0.5059171597633136,
-      "eval_runtime": 65.9507,
-      "eval_samples_per_second": 5.125,
-      "eval_steps_per_second": 2.563,
-      "eval_top_10_accuracy": 0.878698224852071,
-      "eval_top_1_accuracy": 0.5059171597633136,
-      "eval_top_5_accuracy": 0.7869822485207101,
       "step": 5047
     },
     {
-      "epoch": 28.001472222222223,
-      "grad_norm": 4.978194236755371,
       "learning_rate": 4.769290123456791e-05,
-      "loss": 0.4478,
       "step": 5100
     },
     {
-      "epoch": 28.00425,
-      "grad_norm": 14.902109146118164,
       "learning_rate": 4.7538580246913585e-05,
-      "loss": 0.4645,
       "step": 5200
     },
     {
-      "epoch": 28.005,
-      "eval_accuracy": 0.5266272189349113,
-      "eval_f1": 0.518000712305446,
-      "eval_loss": 1.9836277961730957,
-      "eval_precision": 0.6049293408760864,
-      "eval_recall": 0.5266272189349113,
-      "eval_runtime": 60.1324,
-      "eval_samples_per_second": 5.621,
-      "eval_steps_per_second": 2.81,
-      "eval_top_10_accuracy": 0.878698224852071,
-      "eval_top_1_accuracy": 0.5266272189349113,
-      "eval_top_5_accuracy": 0.8017751479289941,
       "step": 5227
     },
     {
-      "epoch": 29.002020833333333,
-      "grad_norm": 13.311244010925293,
       "learning_rate": 4.738425925925926e-05,
-      "loss": 0.3302,
       "step": 5300
     },
     {
-      "epoch": 29.00479861111111,
-      "grad_norm": 8.797450065612793,
       "learning_rate": 4.722993827160494e-05,
-      "loss": 0.3358,
       "step": 5400
     },
     {
-      "epoch": 29.004993055555556,
-      "eval_accuracy": 0.5207100591715976,
-      "eval_f1": 0.5115516304865416,
-      "eval_loss": 2.1230368614196777,
-      "eval_precision": 0.5973255377101531,
-      "eval_recall": 0.5207100591715976,
-      "eval_runtime": 59.5159,
-      "eval_samples_per_second": 5.679,
-      "eval_steps_per_second": 2.84,
-      "eval_top_10_accuracy": 0.8875739644970414,
-      "eval_top_1_accuracy": 0.5236686390532544,
-      "eval_top_5_accuracy": 0.7988165680473372,
       "step": 5407
     },
     {
-      "epoch": 30.002569444444443,
-      "grad_norm": 45.688323974609375,
       "learning_rate": 4.707561728395062e-05,
-      "loss": 0.3703,
       "step": 5500
     },
     {
-      "epoch": 30.004986111111112,
-      "eval_accuracy": 0.47928994082840237,
-      "eval_f1": 0.4653445995161971,
-      "eval_loss": 2.4011411666870117,
-      "eval_precision": 0.5361116447654909,
-      "eval_recall": 0.47928994082840237,
-      "eval_runtime": 61.5315,
-      "eval_samples_per_second": 5.493,
-      "eval_steps_per_second": 2.747,
-      "eval_top_10_accuracy": 0.8668639053254438,
-      "eval_top_1_accuracy": 0.47928994082840237,
-      "eval_top_5_accuracy": 0.7840236686390533,
-      "step": 5587
-    },
-    {
-      "epoch": 31.000340277777777,
-      "grad_norm": 19.079675674438477,
-      "learning_rate": 4.6921296296296296e-05,
-      "loss": 0.3028,
       "step": 5600
     },
     {
-      "epoch": 31.003118055555557,
-      "grad_norm": 1.1767876148223877,
-      "learning_rate": 4.676697530864197e-05,
-      "loss": 0.2019,
       "step": 5700
     },
     {
-      "epoch": 31.005006944444446,
-      "eval_accuracy": 0.514792899408284,
-      "eval_f1": 0.5004872346588323,
-      "eval_loss": 2.358884572982788,
-      "eval_precision": 0.5748994595148442,
-      "eval_recall": 0.514792899408284,
-      "eval_runtime": 56.0547,
-      "eval_samples_per_second": 6.03,
-      "eval_steps_per_second": 3.015,
-      "eval_top_10_accuracy": 0.8727810650887574,
-      "eval_top_1_accuracy": 0.514792899408284,
-      "eval_top_5_accuracy": 0.7928994082840237,
       "step": 5768
     },
     {
-      "epoch": 32.00088888888889,
-      "grad_norm": 1.4734101295471191,
-      "learning_rate": 4.661265432098766e-05,
-      "loss": 0.2676,
       "step": 5800
     },
     {
-      "epoch": 32.00366666666667,
-      "grad_norm": 18.391063690185547,
-      "learning_rate": 4.6458333333333335e-05,
-      "loss": 0.1428,
       "step": 5900
     },
     {
-      "epoch": 32.005,
-      "eval_accuracy": 0.5325443786982249,
-      "eval_f1": 0.5082406416725944,
-      "eval_loss": 2.2091736793518066,
-      "eval_precision": 0.564035643843336,
-      "eval_recall": 0.5325443786982249,
-      "eval_runtime": 58.8513,
-      "eval_samples_per_second": 5.743,
-      "eval_steps_per_second": 2.872,
-      "eval_top_10_accuracy": 0.878698224852071,
-      "eval_top_1_accuracy": 0.5325443786982249,
       "eval_top_5_accuracy": 0.8136094674556213,
       "step": 5948
     },
     {
-      "epoch": 33.0014375,
-      "grad_norm": 21.9639949798584,
-      "learning_rate": 4.630401234567901e-05,
-      "loss": 0.134,
       "step": 6000
     },
     {
-      "epoch": 33.004215277777774,
-      "grad_norm": 12.84200668334961,
-      "learning_rate": 4.614969135802469e-05,
-      "loss": 0.099,
       "step": 6100
     },
     {
-      "epoch": 33.00499305555556,
-      "eval_accuracy": 0.5443786982248521,
-      "eval_f1": 0.5305546524481435,
-      "eval_loss": 2.2472469806671143,
-      "eval_precision": 0.5975943927867006,
-      "eval_recall": 0.5443786982248521,
-      "eval_runtime": 65.5901,
-      "eval_samples_per_second": 5.153,
-      "eval_steps_per_second": 2.577,
-      "eval_top_10_accuracy": 0.8727810650887574,
-      "eval_top_1_accuracy": 0.5443786982248521,
-      "eval_top_5_accuracy": 0.8224852071005917,
       "step": 6128
     },
     {
-      "epoch": 34.00198611111111,
-      "grad_norm": 7.78519868850708,
       "learning_rate": 4.599691358024691e-05,
-      "loss": 0.2075,
       "step": 6200
     },
     {
-      "epoch": 34.00476388888889,
-      "grad_norm": 9.09951400756836,
       "learning_rate": 4.584259259259259e-05,
-      "loss": 0.1691,
       "step": 6300
     },
     {
-      "epoch": 34.00498611111111,
-      "eval_accuracy": 0.5680473372781065,
-      "eval_f1": 0.5641834825266777,
-      "eval_loss": 2.2171597480773926,
-      "eval_precision": 0.6236840082993929,
-      "eval_recall": 0.5680473372781065,
-      "eval_runtime": 56.9955,
-      "eval_samples_per_second": 5.93,
-      "eval_steps_per_second": 2.965,
-      "eval_top_10_accuracy": 0.8846153846153846,
-      "eval_top_1_accuracy": 0.5680473372781065,
-      "eval_top_5_accuracy": 0.8076923076923077,
-      "step": 6308
     },
     {
-      "epoch": 35.00253472222222,
-      "grad_norm": 42.78754425048828,
       "learning_rate": 4.5688271604938275e-05,
-      "loss": 0.2057,
       "step": 6400
     },
     {
-      "epoch": 35.005006944444446,
-      "eval_accuracy": 0.4822485207100592,
-      "eval_f1": 0.45554867551908973,
-      "eval_loss": 2.816495895385742,
-      "eval_precision": 0.5523162734701196,
-      "eval_recall": 0.4822485207100592,
-      "eval_runtime": 58.7504,
-      "eval_samples_per_second": 5.753,
-      "eval_steps_per_second": 2.877,
-      "eval_top_10_accuracy": 0.849112426035503,
-      "eval_top_1_accuracy": 0.4822485207100592,
-      "eval_top_5_accuracy": 0.7603550295857988,
       "step": 6489
     },
     {
-      "epoch": 36.000305555555556,
-      "grad_norm": 0.602039098739624,
-      "learning_rate": 4.5535493827160496e-05,
-      "loss": 0.1708,
       "step": 6500
     },
     {
-      "epoch": 36.003083333333336,
-      "grad_norm": 2.1404974460601807,
-      "learning_rate": 4.5381172839506174e-05,
-      "loss": 0.107,
       "step": 6600
     },
     {
-      "epoch": 36.005,
-      "eval_accuracy": 0.5295857988165681,
-      "eval_f1": 0.5226000063122455,
-      "eval_loss": 2.5726656913757324,
-      "eval_precision": 0.5998878340594317,
-      "eval_recall": 0.5295857988165681,
-      "eval_runtime": 62.9629,
-      "eval_samples_per_second": 5.368,
-      "eval_steps_per_second": 2.684,
-      "eval_top_10_accuracy": 0.8668639053254438,
-      "eval_top_1_accuracy": 0.5295857988165681,
-      "eval_top_5_accuracy": 0.7958579881656804,
       "step": 6669
     },
     {
-      "epoch": 37.00085416666667,
-      "grad_norm": 0.16459858417510986,
-      "learning_rate": 4.522685185185185e-05,
-      "loss": 0.2533,
       "step": 6700
     },
     {
-      "epoch": 37.00363194444444,
-      "grad_norm": 0.40061742067337036,
-      "learning_rate": 4.507253086419753e-05,
-      "loss": 0.076,
       "step": 6800
     },
     {
-      "epoch": 37.00499305555556,
-      "eval_accuracy": 0.5473372781065089,
-      "eval_f1": 0.5397134249901392,
-      "eval_loss": 2.3755838871002197,
-      "eval_precision": 0.6036862709939633,
-      "eval_recall": 0.5473372781065089,
-      "eval_runtime": 63.34,
-      "eval_samples_per_second": 5.336,
-      "eval_steps_per_second": 2.668,
-      "eval_top_10_accuracy": 0.8609467455621301,
-      "eval_top_1_accuracy": 0.5473372781065089,
-      "eval_top_5_accuracy": 0.8017751479289941,
       "step": 6849
     },
     {
-      "epoch": 38.00140277777778,
-      "grad_norm": 68.52092742919922,
-      "learning_rate": 4.4918209876543214e-05,
-      "loss": 0.1643,
       "step": 6900
     },
     {
-      "epoch": 38.00418055555556,
-      "grad_norm": 0.26428428292274475,
-      "learning_rate": 4.476388888888889e-05,
-      "loss": 0.1524,
       "step": 7000
     },
     {
-      "epoch": 38.00498611111111,
-      "eval_accuracy": 0.5591715976331361,
-      "eval_f1": 0.5585875662798738,
-      "eval_loss": 2.3974249362945557,
-      "eval_precision": 0.6428844659613892,
-      "eval_recall": 0.5591715976331361,
-      "eval_runtime": 57.95,
-      "eval_samples_per_second": 5.833,
-      "eval_steps_per_second": 2.916,
-      "eval_top_10_accuracy": 0.8698224852071006,
-      "eval_top_1_accuracy": 0.5591715976331361,
-      "eval_top_5_accuracy": 0.8047337278106509,
-      "step": 7029
-    },
-    {
-      "epoch": 39.00195138888889,
-      "grad_norm": 1.915513038635254,
-      "learning_rate": 4.4609567901234576e-05,
-      "loss": 0.1378,
       "step": 7100
     },
     {
-      "epoch": 39.004729166666664,
-      "grad_norm": 63.36919021606445,
-      "learning_rate": 4.4455246913580253e-05,
-      "loss": 0.1064,
       "step": 7200
     },
     {
-      "epoch": 39.005006944444446,
-      "eval_accuracy": 0.5562130177514792,
-      "eval_f1": 0.5445995490374188,
-      "eval_loss": 2.524350881576538,
-      "eval_precision": 0.6056530008453086,
-      "eval_recall": 0.5562130177514792,
-      "eval_runtime": 57.3136,
-      "eval_samples_per_second": 5.897,
-      "eval_steps_per_second": 2.949,
-      "eval_top_10_accuracy": 0.8757396449704142,
-      "eval_top_1_accuracy": 0.5562130177514792,
-      "eval_top_5_accuracy": 0.8047337278106509,
       "step": 7210
     },
     {
-      "epoch": 40.0025,
-      "grad_norm": 0.10949143022298813,
-      "learning_rate": 4.430092592592593e-05,
-      "loss": 0.1598,
       "step": 7300
     },
     {
-      "epoch": 40.005,
-      "eval_accuracy": 0.5355029585798816,
-      "eval_f1": 0.514647958878728,
-      "eval_loss": 2.4414660930633545,
-      "eval_precision": 0.5692061143984222,
-      "eval_recall": 0.5355029585798816,
-      "eval_runtime": 65.9765,
-      "eval_samples_per_second": 5.123,
-      "eval_steps_per_second": 2.562,
-      "eval_top_10_accuracy": 0.8727810650887574,
-      "eval_top_1_accuracy": 0.5355029585798816,
-      "eval_top_5_accuracy": 0.8195266272189349,
       "step": 7390
     },
     {
-      "epoch": 41.00027083333333,
-      "grad_norm": 0.9827488660812378,
-      "learning_rate": 4.414660493827161e-05,
-      "loss": 0.1946,
       "step": 7400
     },
     {
-      "epoch": 41.00304861111111,
-      "grad_norm": 25.53615951538086,
-      "learning_rate": 4.3992283950617286e-05,
-      "loss": 0.0981,
       "step": 7500
     },
     {
-      "epoch": 41.00499305555556,
-      "eval_accuracy": 0.5059171597633136,
-      "eval_f1": 0.4826208356751343,
-      "eval_loss": 2.6215736865997314,
-      "eval_precision": 0.5420139689370459,
-      "eval_recall": 0.5059171597633136,
-      "eval_runtime": 58.6534,
-      "eval_samples_per_second": 5.763,
-      "eval_steps_per_second": 2.881,
-      "eval_top_10_accuracy": 0.8609467455621301,
-      "eval_top_1_accuracy": 0.5059171597633136,
-      "eval_top_5_accuracy": 0.7751479289940828,
       "step": 7570
     },
     {
-      "epoch": 42.000819444444446,
-      "grad_norm": 2.552562713623047,
-      "learning_rate": 4.3837962962962964e-05,
-      "loss": 0.3576,
       "step": 7600
     },
     {
-      "epoch": 42.003597222222226,
-      "grad_norm": 0.08632488548755646,
-      "learning_rate": 4.368364197530864e-05,
-      "loss": 0.1254,
       "step": 7700
     },
     {
-      "epoch": 42.00498611111111,
-      "eval_accuracy": 0.5059171597633136,
-      "eval_f1": 0.4900915700689456,
-      "eval_loss": 2.794423818588257,
-      "eval_precision": 0.5575904864366402,
-      "eval_recall": 0.5059171597633136,
-      "eval_runtime": 64.2698,
-      "eval_samples_per_second": 5.259,
-      "eval_steps_per_second": 2.63,
-      "eval_top_10_accuracy": 0.8550295857988166,
-      "eval_top_1_accuracy": 0.5059171597633136,
-      "eval_top_5_accuracy": 0.7662721893491125,
-      "step": 7750
-    },
-    {
-      "epoch": 43.00136805555555,
-      "grad_norm": 0.17759816348552704,
-      "learning_rate": 4.352932098765432e-05,
-      "loss": 0.1162,
       "step": 7800
     },
     {
-      "epoch": 43.00414583333333,
-      "grad_norm": 0.07255858927965164,
-      "learning_rate": 4.3375000000000004e-05,
-      "loss": 0.1749,
       "step": 7900
     },
     {
-      "epoch": 43.005006944444446,
-      "eval_accuracy": 0.5355029585798816,
-      "eval_f1": 0.5193510467179105,
-      "eval_loss": 2.5535783767700195,
-      "eval_precision": 0.5675824175824176,
-      "eval_recall": 0.5355029585798816,
-      "eval_runtime": 71.3588,
-      "eval_samples_per_second": 4.737,
-      "eval_steps_per_second": 2.368,
-      "eval_top_10_accuracy": 0.8668639053254438,
-      "eval_top_1_accuracy": 0.5355029585798816,
-      "eval_top_5_accuracy": 0.7928994082840237,
       "step": 7931
     },
     {
-      "epoch": 44.001916666666666,
-      "grad_norm": 1.3160659074783325,
       "learning_rate": 4.322067901234568e-05,
-      "loss": 0.1926,
       "step": 8000
     },
     {
-      "epoch": 44.004694444444446,
-      "grad_norm": 0.07331795245409012,
       "learning_rate": 4.306635802469136e-05,
-      "loss": 0.1931,
       "step": 8100
     },
     {
-      "epoch": 44.005,
-      "eval_accuracy": 0.4970414201183432,
-      "eval_f1": 0.47531933878087734,
-      "eval_loss": 2.8650310039520264,
-      "eval_precision": 0.5347263847263848,
-      "eval_recall": 0.4970414201183432,
-      "eval_runtime": 62.3948,
-      "eval_samples_per_second": 5.417,
-      "eval_steps_per_second": 2.709,
-      "eval_top_10_accuracy": 0.8609467455621301,
-      "eval_top_1_accuracy": 0.4970414201183432,
-      "eval_top_5_accuracy": 0.7899408284023669,
       "step": 8111
     },
     {
-      "epoch": 45.00246527777778,
-      "grad_norm": 1.3005619049072266,
       "learning_rate": 4.291203703703704e-05,
-      "loss": 0.1515,
       "step": 8200
     },
     {
-      "epoch": 45.00499305555556,
-      "eval_accuracy": 0.5591715976331361,
-      "eval_f1": 0.54668814091891,
-      "eval_loss": 2.482553005218506,
-      "eval_precision": 0.6056072132995209,
-      "eval_recall": 0.5591715976331361,
-      "eval_runtime": 58.2674,
-      "eval_samples_per_second": 5.801,
-      "eval_steps_per_second": 2.9,
-      "eval_top_10_accuracy": 0.863905325443787,
-      "eval_top_1_accuracy": 0.5591715976331361,
-      "eval_top_5_accuracy": 0.8106508875739645,
       "step": 8291
     },
     {
-      "epoch": 46.000236111111114,
-      "grad_norm": 16.438777923583984,
       "learning_rate": 4.2757716049382715e-05,
-      "loss": 0.1387,
       "step": 8300
     },
     {
-      "epoch": 46.00301388888889,
-      "grad_norm": 0.10719487816095352,
-      "learning_rate": 4.26033950617284e-05,
-      "loss": 0.1895,
       "step": 8400
     },
     {
-      "epoch": 46.00498611111111,
-      "eval_accuracy": 0.5414201183431953,
-      "eval_f1": 0.519332771107919,
-      "eval_loss": 2.8682615756988525,
-      "eval_precision": 0.5870526908988447,
-      "eval_recall": 0.5414201183431953,
-      "eval_runtime": 57.5393,
-      "eval_samples_per_second": 5.874,
-      "eval_steps_per_second": 2.937,
-      "eval_top_10_accuracy": 0.8579881656804734,
-      "eval_top_1_accuracy": 0.5414201183431953,
-      "eval_top_5_accuracy": 0.8017751479289941,
-      "step": 8471
     },
     {
-      "epoch": 47.00078472222222,
-      "grad_norm": 0.019902631640434265,
-      "learning_rate": 4.244907407407408e-05,
-      "loss": 0.2449,
       "step": 8500
     },
     {
-      "epoch": 47.0035625,
-      "grad_norm": 0.10022391378879547,
-      "learning_rate": 4.2294753086419755e-05,
-      "loss": 0.1179,
       "step": 8600
     },
     {
-      "epoch": 47.005006944444446,
-      "eval_accuracy": 0.4940828402366864,
-      "eval_f1": 0.49023220369374215,
-      "eval_loss": 2.936835765838623,
-      "eval_precision": 0.5903516732136642,
-      "eval_recall": 0.4940828402366864,
-      "eval_runtime": 53.3024,
-      "eval_samples_per_second": 6.341,
-      "eval_steps_per_second": 3.171,
-      "eval_top_10_accuracy": 0.8727810650887574,
-      "eval_top_1_accuracy": 0.4940828402366864,
-      "eval_top_5_accuracy": 0.7869822485207101,
       "step": 8652
     },
     {
-      "epoch": 48.001333333333335,
-      "grad_norm": 0.11750177294015884,
-      "learning_rate": 4.214043209876544e-05,
-      "loss": 0.162,
       "step": 8700
     },
     {
-      "epoch": 48.00411111111111,
-      "grad_norm": 14.434788703918457,
-      "learning_rate": 4.198611111111112e-05,
-      "loss": 0.1028,
       "step": 8800
     },
     {
-      "epoch": 48.005,
-      "eval_accuracy": 0.5562130177514792,
-      "eval_f1": 0.5491296671770045,
-      "eval_loss": 2.8997340202331543,
-      "eval_precision": 0.634636517328825,
-      "eval_recall": 0.5562130177514792,
-      "eval_runtime": 58.0314,
-      "eval_samples_per_second": 5.824,
-      "eval_steps_per_second": 2.912,
-      "eval_top_10_accuracy": 0.8402366863905325,
-      "eval_top_1_accuracy": 0.5562130177514792,
-      "eval_top_5_accuracy": 0.7810650887573964,
       "step": 8832
     },
     {
-      "epoch": 49.00188194444444,
-      "grad_norm": 14.458342552185059,
       "learning_rate": 4.183333333333334e-05,
-      "loss": 0.2122,
       "step": 8900
     },
     {
-      "epoch": 49.00465972222222,
-      "grad_norm": 0.6533581614494324,
       "learning_rate": 4.1679012345679016e-05,
-      "loss": 0.2336,
       "step": 9000
     },
     {
-      "epoch": 49.00499305555556,
-      "eval_accuracy": 0.5295857988165681,
-      "eval_f1": 0.5090540623085001,
-      "eval_loss": 2.839053153991699,
-      "eval_precision": 0.5684427751735445,
-      "eval_recall": 0.5295857988165681,
-      "eval_runtime": 62.4599,
-      "eval_samples_per_second": 5.411,
-      "eval_steps_per_second": 2.706,
-      "eval_top_10_accuracy": 0.8284023668639053,
-      "eval_top_1_accuracy": 0.5295857988165681,
-      "eval_top_5_accuracy": 0.7633136094674556,
       "step": 9012
     },
     {
-      "epoch": 50.002430555555556,
-      "grad_norm": 0.03816818445920944,
       "learning_rate": 4.1524691358024694e-05,
-      "loss": 0.1344,
       "step": 9100
     },
     {
-      "epoch": 50.00498611111111,
-      "eval_accuracy": 0.5266272189349113,
-      "eval_f1": 0.5092456524409186,
-      "eval_loss": 2.980726957321167,
-      "eval_precision": 0.5702895395203087,
-      "eval_recall": 0.5266272189349113,
-      "eval_runtime": 55.9563,
-      "eval_samples_per_second": 6.04,
-      "eval_steps_per_second": 3.02,
-      "eval_top_10_accuracy": 0.849112426035503,
-      "eval_top_1_accuracy": 0.5266272189349113,
-      "eval_top_5_accuracy": 0.7544378698224852,
-      "step": 9192
     },
     {
-      "epoch": 51.00020138888889,
-      "grad_norm": 0.027867300435900688,
       "learning_rate": 4.137037037037037e-05,
-      "loss": 0.2343,
       "step": 9200
     },
     {
-      "epoch": 51.00297916666667,
-      "grad_norm": 0.946140468120575,
       "learning_rate": 4.121604938271605e-05,
-      "loss": 0.0973,
       "step": 9300
     },
     {
-      "epoch": 51.005006944444446,
-      "eval_accuracy": 0.4970414201183432,
-      "eval_f1": 0.4804763284053225,
-      "eval_loss": 3.074336051940918,
-      "eval_precision": 0.5363200901662439,
-      "eval_recall": 0.4970414201183432,
-      "eval_runtime": 58.4314,
-      "eval_samples_per_second": 5.785,
-      "eval_steps_per_second": 2.892,
-      "eval_top_10_accuracy": 0.849112426035503,
-      "eval_top_1_accuracy": 0.4970414201183432,
-      "eval_top_5_accuracy": 0.7662721893491125,
       "step": 9373
     },
     {
-      "epoch": 52.00075,
-      "grad_norm": 0.018307339400053024,
       "learning_rate": 4.1061728395061733e-05,
-      "loss": 0.2218,
       "step": 9400
     },
     {
-      "epoch": 52.00352777777778,
-      "grad_norm": 0.04463661462068558,
       "learning_rate": 4.090740740740741e-05,
-      "loss": 0.1436,
       "step": 9500
     },
     {
-      "epoch": 52.005,
-      "eval_accuracy": 0.5088757396449705,
-      "eval_f1": 0.501149902037476,
-      "eval_loss": 2.6934008598327637,
-      "eval_precision": 0.5551845590307128,
-      "eval_recall": 0.5088757396449705,
-      "eval_runtime": 72.3552,
-      "eval_samples_per_second": 4.671,
-      "eval_steps_per_second": 2.336,
-      "eval_top_10_accuracy": 0.8846153846153846,
-      "eval_top_1_accuracy": 0.5088757396449705,
-      "eval_top_5_accuracy": 0.7988165680473372,
       "step": 9553
     },
     {
-      "epoch": 53.00129861111111,
-      "grad_norm": 0.04878831282258034,
       "learning_rate": 4.075308641975309e-05,
-      "loss": 0.1846,
       "step": 9600
     },
     {
-      "epoch": 53.00407638888889,
-      "grad_norm": 0.009379712864756584,
       "learning_rate": 4.0598765432098767e-05,
-      "loss": 0.153,
       "step": 9700
     },
     {
-      "epoch": 53.00499305555556,
-      "eval_accuracy": 0.5118343195266272,
-      "eval_f1": 0.491153718076795,
-      "eval_loss": 3.0898663997650146,
-      "eval_precision": 0.530217218678757,
-      "eval_recall": 0.5118343195266272,
-      "eval_runtime": 75.7894,
-      "eval_samples_per_second": 4.46,
-      "eval_steps_per_second": 2.23,
-      "eval_top_10_accuracy": 0.8461538461538461,
-      "eval_top_1_accuracy": 0.5118343195266272,
-      "eval_top_5_accuracy": 0.7928994082840237,
       "step": 9733
     },
     {
-      "epoch": 54.001847222222224,
-      "grad_norm": 25.075729370117188,
       "learning_rate": 4.0444444444444444e-05,
-      "loss": 0.1801,
       "step": 9800
     },
     {
-      "epoch": 54.004625,
-      "grad_norm": 0.09503714740276337,
       "learning_rate": 4.029012345679012e-05,
-      "loss": 0.1402,
       "step": 9900
     },
     {
-      "epoch": 54.00498611111111,
-      "eval_accuracy": 0.5562130177514792,
-      "eval_f1": 0.5358985032061955,
-      "eval_loss": 2.773455858230591,
-      "eval_precision": 0.5991582135812905,
-      "eval_recall": 0.5562130177514792,
-      "eval_runtime": 58.9397,
-      "eval_samples_per_second": 5.735,
-      "eval_steps_per_second": 2.867,
       "eval_top_10_accuracy": 0.8698224852071006,
-      "eval_top_1_accuracy": 0.5562130177514792,
-      "eval_top_5_accuracy": 0.7899408284023669,
-      "step": 9913
     },
     {
-      "epoch": 54.00498611111111,
-      "step": 9913,
-      "total_flos": 9.891175377833165e+19,
-      "train_loss": 5.434827623268219,
-      "train_runtime": 15289.1083,
-      "train_samples_per_second": 18.837,
-      "train_steps_per_second": 2.355
     }
   ],
   "logging_steps": 100,
@@ -1562,7 +1671,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.891175377833165e+19,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6301775147928994,
+  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/VideoMAE_Base_WLASL_100_200_epochs_p20_SR_8/checkpoint-7030",
+  "epoch": 58.005006944444446,
   "eval_steps": 500,
+  "global_step": 10635,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.002777777777777778,
+      "grad_norm": 52.335811614990234,
       "learning_rate": 1.3333333333333334e-06,
+      "loss": 18.5755,
       "step": 100
     },
     {
       "epoch": 0.005,
       "eval_accuracy": 0.008875739644970414,
+      "eval_f1": 0.0009576475529349738,
+      "eval_loss": 4.641324043273926,
+      "eval_precision": 0.0005193342938593639,
       "eval_recall": 0.008875739644970414,
+      "eval_runtime": 181.5799,
+      "eval_samples_per_second": 1.861,
+      "eval_steps_per_second": 0.931,
+      "eval_top_10_accuracy": 0.10059171597633136,
       "eval_top_1_accuracy": 0.008875739644970414,
+      "eval_top_5_accuracy": 0.04437869822485207,
       "step": 180
     },
     {
+      "epoch": 1.0005416666666667,
+      "grad_norm": 59.252769470214844,
       "learning_rate": 2.7222222222222224e-06,
+      "loss": 18.6055,
       "step": 200
     },
     {
+      "epoch": 1.0033194444444444,
+      "grad_norm": 52.176109313964844,
       "learning_rate": 4.111111111111112e-06,
+      "loss": 18.4843,
       "step": 300
     },
     {
+      "epoch": 1.0049861111111111,
+      "eval_accuracy": 0.008875739644970414,
+      "eval_f1": 0.0011768857922704076,
+      "eval_loss": 4.630766868591309,
+      "eval_precision": 0.0006326211365999165,
+      "eval_recall": 0.008875739644970414,
+      "eval_runtime": 60.2416,
+      "eval_samples_per_second": 5.611,
+      "eval_steps_per_second": 2.805,
+      "eval_top_10_accuracy": 0.10059171597633136,
+      "eval_top_1_accuracy": 0.008875739644970414,
       "eval_top_5_accuracy": 0.0621301775147929,
       "step": 360
     },
     {
+      "epoch": 2.0010902777777777,
+      "grad_norm": 37.923606872558594,
       "learning_rate": 5.500000000000001e-06,
+      "loss": 18.5315,
       "step": 400
     },
     {
+      "epoch": 2.0038680555555555,
+      "grad_norm": 38.569297790527344,
       "learning_rate": 6.888888888888889e-06,
+      "loss": 18.4592,
       "step": 500
     },
     {
+      "epoch": 2.0050069444444443,
+      "eval_accuracy": 0.020710059171597635,
+      "eval_f1": 0.002684633160978603,
+      "eval_loss": 4.6208624839782715,
+      "eval_precision": 0.0016963969626691518,
+      "eval_recall": 0.020710059171597635,
+      "eval_runtime": 59.58,
+      "eval_samples_per_second": 5.673,
+      "eval_steps_per_second": 2.837,
+      "eval_top_10_accuracy": 0.10650887573964497,
+      "eval_top_1_accuracy": 0.020710059171597635,
+      "eval_top_5_accuracy": 0.07100591715976332,
+      "step": 541
     },
     {
+      "epoch": 3.001638888888889,
+      "grad_norm": 41.79819107055664,
       "learning_rate": 8.27777777777778e-06,
+      "loss": 18.3856,
       "step": 600
     },
     {
+      "epoch": 3.0044166666666667,
+      "grad_norm": 31.180952072143555,
       "learning_rate": 9.666666666666667e-06,
+      "loss": 18.4604,
       "step": 700
     },
     {
+      "epoch": 3.005,
+      "eval_accuracy": 0.01775147928994083,
+      "eval_f1": 0.0010059742201274729,
+      "eval_loss": 4.617129802703857,
+      "eval_precision": 0.0005190329473889052,
+      "eval_recall": 0.01775147928994083,
+      "eval_runtime": 58.1107,
+      "eval_samples_per_second": 5.816,
+      "eval_steps_per_second": 2.908,
+      "eval_top_10_accuracy": 0.12130177514792899,
+      "eval_top_1_accuracy": 0.01775147928994083,
+      "eval_top_5_accuracy": 0.06804733727810651,
       "step": 721
     },
     {
+      "epoch": 4.0021875,
+      "grad_norm": 31.53841781616211,
       "learning_rate": 1.1055555555555556e-05,
+      "loss": 18.3655,
       "step": 800
     },
     {
+      "epoch": 4.004965277777778,
+      "grad_norm": 29.355567932128906,
       "learning_rate": 1.2444444444444445e-05,
+      "loss": 18.4543,
       "step": 900
     },
     {
+      "epoch": 4.0049930555555555,
+      "eval_accuracy": 0.023668639053254437,
+      "eval_f1": 0.0015770532334260577,
+      "eval_loss": 4.6106462478637695,
+      "eval_precision": 0.0008262008711267436,
+      "eval_recall": 0.023668639053254437,
+      "eval_runtime": 60.8324,
+      "eval_samples_per_second": 5.556,
+      "eval_steps_per_second": 2.778,
+      "eval_top_10_accuracy": 0.14497041420118342,
+      "eval_top_1_accuracy": 0.023668639053254437,
+      "eval_top_5_accuracy": 0.08579881656804733,
       "step": 901
     },
     {
+      "epoch": 5.002736111111111,
+      "grad_norm": 29.539840698242188,
       "learning_rate": 1.3833333333333334e-05,
+      "loss": 18.3384,
       "step": 1000
     },
     {
+      "epoch": 5.004986111111111,
+      "eval_accuracy": 0.01775147928994083,
+      "eval_f1": 0.000667767246016583,
+      "eval_loss": 4.619048118591309,
+      "eval_precision": 0.00034028394804998393,
+      "eval_recall": 0.01775147928994083,
+      "eval_runtime": 55.7817,
+      "eval_samples_per_second": 6.059,
+      "eval_steps_per_second": 3.03,
+      "eval_top_10_accuracy": 0.10946745562130178,
+      "eval_top_1_accuracy": 0.01775147928994083,
+      "eval_top_5_accuracy": 0.06804733727810651,
       "step": 1081
     },
     {
+      "epoch": 6.000506944444444,
+      "grad_norm": 31.13288116455078,
       "learning_rate": 1.5222222222222224e-05,
+      "loss": 18.3755,
       "step": 1100
     },
     {
+      "epoch": 6.003284722222222,
+      "grad_norm": 37.07182312011719,
       "learning_rate": 1.661111111111111e-05,
+      "loss": 18.1947,
       "step": 1200
     },
     {
+      "epoch": 6.005006944444444,
+      "eval_accuracy": 0.029585798816568046,
+      "eval_f1": 0.005653493576969065,
+      "eval_loss": 4.60960054397583,
+      "eval_precision": 0.0037760128257865815,
+      "eval_recall": 0.029585798816568046,
+      "eval_runtime": 73.4506,
+      "eval_samples_per_second": 4.602,
+      "eval_steps_per_second": 2.301,
+      "eval_top_10_accuracy": 0.13609467455621302,
+      "eval_top_1_accuracy": 0.029585798816568046,
+      "eval_top_5_accuracy": 0.09171597633136094,
+      "step": 1262
     },
     {
+      "epoch": 7.001055555555555,
+      "grad_norm": 32.610511779785156,
       "learning_rate": 1.8e-05,
+      "loss": 18.3084,
       "step": 1300
     },
     {
+      "epoch": 7.003833333333334,
+      "grad_norm": 31.119285583496094,
       "learning_rate": 1.938888888888889e-05,
+      "loss": 18.1104,
       "step": 1400
     },
     {
+      "epoch": 7.005,
+      "eval_accuracy": 0.03550295857988166,
+      "eval_f1": 0.008167727362359187,
+      "eval_loss": 4.599233627319336,
+      "eval_precision": 0.006001785543098896,
+      "eval_recall": 0.03550295857988166,
+      "eval_runtime": 68.5452,
+      "eval_samples_per_second": 4.931,
+      "eval_steps_per_second": 2.466,
+      "eval_top_10_accuracy": 0.14497041420118342,
+      "eval_top_1_accuracy": 0.03550295857988166,
+      "eval_top_5_accuracy": 0.09467455621301775,
       "step": 1442
     },
     {
+      "epoch": 8.001604166666667,
+      "grad_norm": 29.667177200317383,
       "learning_rate": 2.077777777777778e-05,
+      "loss": 18.0862,
       "step": 1500
     },
     {
+      "epoch": 8.004381944444445,
+      "grad_norm": 31.353796005249023,
       "learning_rate": 2.216666666666667e-05,
+      "loss": 18.0825,
       "step": 1600
     },
     {
+      "epoch": 8.004993055555556,
+      "eval_accuracy": 0.01775147928994083,
+      "eval_f1": 0.008027781632833297,
+      "eval_loss": 4.593963623046875,
+      "eval_precision": 0.005914603105136552,
+      "eval_recall": 0.01775147928994083,
+      "eval_runtime": 63.1593,
+      "eval_samples_per_second": 5.352,
+      "eval_steps_per_second": 2.676,
+      "eval_top_10_accuracy": 0.15680473372781065,
+      "eval_top_1_accuracy": 0.01775147928994083,
+      "eval_top_5_accuracy": 0.09763313609467456,
       "step": 1622
     },
     {
+      "epoch": 9.002152777777777,
+      "grad_norm": 29.327001571655273,
       "learning_rate": 2.3555555555555556e-05,
+      "loss": 17.8731,
       "step": 1700
     },
     {
+      "epoch": 9.004930555555555,
+      "grad_norm": 32.24522399902344,
       "learning_rate": 2.4944444444444447e-05,
+      "loss": 17.9081,
       "step": 1800
     },
     {
+      "epoch": 9.00498611111111,
+      "eval_accuracy": 0.03254437869822485,
+      "eval_f1": 0.010324695547367611,
+      "eval_loss": 4.562719345092773,
+      "eval_precision": 0.007627220692831552,
+      "eval_recall": 0.03254437869822485,
+      "eval_runtime": 60.367,
+      "eval_samples_per_second": 5.599,
+      "eval_steps_per_second": 2.8,
+      "eval_top_10_accuracy": 0.16863905325443787,
+      "eval_top_1_accuracy": 0.03254437869822485,
+      "eval_top_5_accuracy": 0.10650887573964497,
       "step": 1802
     },
     {
+      "epoch": 10.00270138888889,
+      "grad_norm": 35.42505645751953,
       "learning_rate": 2.633333333333333e-05,
+      "loss": 17.4986,
       "step": 1900
     },
     {
+      "epoch": 10.005006944444444,
+      "eval_accuracy": 0.03550295857988166,
+      "eval_f1": 0.012635094540038232,
+      "eval_loss": 4.428702354431152,
+      "eval_precision": 0.008686492137909141,
+      "eval_recall": 0.03550295857988166,
+      "eval_runtime": 65.5677,
+      "eval_samples_per_second": 5.155,
+      "eval_steps_per_second": 2.577,
+      "eval_top_10_accuracy": 0.20118343195266272,
+      "eval_top_1_accuracy": 0.03550295857988166,
+      "eval_top_5_accuracy": 0.12130177514792899,
+      "step": 1983
     },
     {
+      "epoch": 11.000472222222223,
+      "grad_norm": 33.5329475402832,
       "learning_rate": 2.772222222222222e-05,
+      "loss": 17.2661,
       "step": 2000
     },
     {
+      "epoch": 11.00325,
+      "grad_norm": 34.00961685180664,
       "learning_rate": 2.9111111111111112e-05,
+      "loss": 16.3869,
       "step": 2100
     },
     {
+      "epoch": 11.005,
+      "eval_accuracy": 0.0650887573964497,
+      "eval_f1": 0.028937908468581415,
+      "eval_loss": 4.136640548706055,
+      "eval_precision": 0.022820963480770305,
+      "eval_recall": 0.0650887573964497,
+      "eval_runtime": 69.729,
+      "eval_samples_per_second": 4.847,
+      "eval_steps_per_second": 2.424,
+      "eval_top_10_accuracy": 0.3757396449704142,
+      "eval_top_1_accuracy": 0.0650887573964497,
+      "eval_top_5_accuracy": 0.23372781065088757,
       "step": 2163
     },
     {
+      "epoch": 12.001020833333333,
+      "grad_norm": 31.025253295898438,
       "learning_rate": 3.05e-05,
+      "loss": 15.7548,
       "step": 2200
     },
     {
+      "epoch": 12.003798611111112,
+      "grad_norm": 38.748043060302734,
       "learning_rate": 3.188888888888889e-05,
+      "loss": 15.0278,
       "step": 2300
     },
     {
+      "epoch": 12.004993055555556,
+      "eval_accuracy": 0.10650887573964497,
+      "eval_f1": 0.0571553229183928,
+      "eval_loss": 3.7821457386016846,
+      "eval_precision": 0.060074719736818764,
+      "eval_recall": 0.10650887573964497,
+      "eval_runtime": 57.4783,
+      "eval_samples_per_second": 5.88,
+      "eval_steps_per_second": 2.94,
+      "eval_top_10_accuracy": 0.5177514792899408,
+      "eval_top_1_accuracy": 0.10650887573964497,
+      "eval_top_5_accuracy": 0.35798816568047337,
       "step": 2343
     },
     {
+      "epoch": 13.001569444444444,
+      "grad_norm": 42.372962951660156,
       "learning_rate": 3.327777777777778e-05,
+      "loss": 14.1209,
       "step": 2400
     },
     {
+      "epoch": 13.004347222222222,
+      "grad_norm": 53.95140075683594,
       "learning_rate": 3.466666666666667e-05,
+      "loss": 13.4974,
       "step": 2500
     },
     {
+      "epoch": 13.00498611111111,
+      "eval_accuracy": 0.20118343195266272,
+      "eval_f1": 0.1544137887289645,
+      "eval_loss": 3.441917657852173,
+      "eval_precision": 0.17607648509523535,
+      "eval_recall": 0.20118343195266272,
+      "eval_runtime": 61.9222,
+      "eval_samples_per_second": 5.458,
+      "eval_steps_per_second": 2.729,
+      "eval_top_10_accuracy": 0.6686390532544378,
+      "eval_top_1_accuracy": 0.20118343195266272,
+      "eval_top_5_accuracy": 0.5029585798816568,
       "step": 2523
     },
     {
+      "epoch": 14.002118055555556,
+      "grad_norm": 47.6016731262207,
       "learning_rate": 3.605555555555556e-05,
+      "loss": 12.1829,
       "step": 2600
     },
     {
+      "epoch": 14.004895833333334,
+      "grad_norm": 35.87943649291992,
       "learning_rate": 3.7444444444444446e-05,
+      "loss": 11.5774,
       "step": 2700
     },
     {
+      "epoch": 14.005006944444444,
+      "eval_accuracy": 0.21893491124260356,
+      "eval_f1": 0.17250136680337552,
+      "eval_loss": 3.2604691982269287,
+      "eval_precision": 0.20685830348019885,
+      "eval_recall": 0.21893491124260356,
+      "eval_runtime": 58.8349,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 2.872,
+      "eval_top_10_accuracy": 0.6982248520710059,
+      "eval_top_1_accuracy": 0.21893491124260356,
+      "eval_top_5_accuracy": 0.5355029585798816,
+      "step": 2704
     },
     {
+      "epoch": 15.002666666666666,
+      "grad_norm": 50.407718658447266,
       "learning_rate": 3.883333333333333e-05,
+      "loss": 10.263,
       "step": 2800
     },
     {
+      "epoch": 15.005,
+      "eval_accuracy": 0.31952662721893493,
+      "eval_f1": 0.29516694216805966,
+      "eval_loss": 2.8508408069610596,
+      "eval_precision": 0.3730181143642682,
+      "eval_recall": 0.31952662721893493,
+      "eval_runtime": 228.2279,
+      "eval_samples_per_second": 1.481,
+      "eval_steps_per_second": 0.74,
+      "eval_top_10_accuracy": 0.8076923076923077,
+      "eval_top_1_accuracy": 0.31952662721893493,
+      "eval_top_5_accuracy": 0.6627218934911243,
       "step": 2884
     },
     {
+      "epoch": 16.0004375,
+      "grad_norm": 51.00344467163086,
       "learning_rate": 4.022222222222222e-05,
+      "loss": 9.6519,
       "step": 2900
     },
     {
+      "epoch": 16.003215277777777,
+      "grad_norm": 55.5887451171875,
       "learning_rate": 4.1611111111111114e-05,
+      "loss": 8.1589,
       "step": 3000
     },
     {
+      "epoch": 16.004993055555556,
+      "eval_accuracy": 0.3905325443786982,
+      "eval_f1": 0.3592464386756068,
+      "eval_loss": 2.594480514526367,
+      "eval_precision": 0.41684405338251496,
+      "eval_recall": 0.3905325443786982,
+      "eval_runtime": 190.8374,
+      "eval_samples_per_second": 1.771,
+      "eval_steps_per_second": 0.886,
+      "eval_top_10_accuracy": 0.8461538461538461,
+      "eval_top_1_accuracy": 0.3905325443786982,
+      "eval_top_5_accuracy": 0.7307692307692307,
       "step": 3064
     },
     {
+      "epoch": 17.00098611111111,
+      "grad_norm": 54.826148986816406,
       "learning_rate": 4.3e-05,
+      "loss": 7.9513,
       "step": 3100
     },
     {
+      "epoch": 17.003763888888887,
+      "grad_norm": 76.26374053955078,
       "learning_rate": 4.438888888888889e-05,
+      "loss": 6.8221,
       "step": 3200
     },
     {
+      "epoch": 17.004986111111112,
+      "eval_accuracy": 0.3994082840236686,
+      "eval_f1": 0.3639671675936601,
+      "eval_loss": 2.4310550689697266,
+      "eval_precision": 0.3999949948836589,
+      "eval_recall": 0.3994082840236686,
+      "eval_runtime": 187.0322,
+      "eval_samples_per_second": 1.807,
+      "eval_steps_per_second": 0.904,
+      "eval_top_10_accuracy": 0.8727810650887574,
+      "eval_top_1_accuracy": 0.3994082840236686,
+      "eval_top_5_accuracy": 0.7337278106508875,
       "step": 3244
     },
     {
+      "epoch": 18.00153472222222,
+      "grad_norm": 55.72072219848633,
       "learning_rate": 4.577777777777778e-05,
+      "loss": 5.8926,
       "step": 3300
     },
     {
+      "epoch": 18.0043125,
+      "grad_norm": 42.606868743896484,
       "learning_rate": 4.716666666666667e-05,
+      "loss": 5.4923,
       "step": 3400
     },
     {
+      "epoch": 18.005006944444446,
+      "eval_accuracy": 0.46449704142011833,
+      "eval_f1": 0.43497012092329823,
+      "eval_loss": 2.213894844055176,
+      "eval_precision": 0.48856049681841535,
+      "eval_recall": 0.46449704142011833,
+      "eval_runtime": 171.9348,
+      "eval_samples_per_second": 1.966,
+      "eval_steps_per_second": 0.983,
+      "eval_top_10_accuracy": 0.8668639053254438,
+      "eval_top_1_accuracy": 0.46153846153846156,
+      "eval_top_5_accuracy": 0.7928994082840237,
+      "step": 3425
     },
     {
+      "epoch": 19.002083333333335,
+      "grad_norm": 66.9966812133789,
       "learning_rate": 4.855555555555556e-05,
+      "loss": 4.6739,
       "step": 3500
     },
     {
+      "epoch": 19.00486111111111,
+      "grad_norm": 29.572689056396484,
       "learning_rate": 4.994444444444445e-05,
+      "loss": 4.1619,
       "step": 3600
     },
     {
+      "epoch": 19.005,
+      "eval_accuracy": 0.47337278106508873,
+      "eval_f1": 0.4502898182762436,
+      "eval_loss": 2.1384310722351074,
+      "eval_precision": 0.5276356764827005,
+      "eval_recall": 0.47337278106508873,
+      "eval_runtime": 180.7053,
+      "eval_samples_per_second": 1.87,
+      "eval_steps_per_second": 0.935,
+      "eval_top_10_accuracy": 0.8816568047337278,
+      "eval_top_1_accuracy": 0.47337278106508873,
       "eval_top_5_accuracy": 0.7840236686390533,
       "step": 3605
     },
     {
+      "epoch": 20.002631944444445,
+      "grad_norm": 62.397911071777344,
       "learning_rate": 4.9851851851851855e-05,
+      "loss": 3.3413,
       "step": 3700
     },
     {
+      "epoch": 20.004993055555556,
+      "eval_accuracy": 0.5118343195266272,
+      "eval_f1": 0.49080667210330176,
+      "eval_loss": 1.958280324935913,
+      "eval_precision": 0.5484620698689525,
+      "eval_recall": 0.5118343195266272,
+      "eval_runtime": 173.8049,
+      "eval_samples_per_second": 1.945,
+      "eval_steps_per_second": 0.972,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.5118343195266272,
+      "eval_top_5_accuracy": 0.8106508875739645,
       "step": 3785
     },
     {
+      "epoch": 21.00040277777778,
+      "grad_norm": 40.85105514526367,
       "learning_rate": 4.969753086419753e-05,
+      "loss": 3.4134,
       "step": 3800
     },
     {
+      "epoch": 21.003180555555556,
+      "grad_norm": 32.64407730102539,
       "learning_rate": 4.954320987654321e-05,
+      "loss": 2.5832,
       "step": 3900
     },
     {
+      "epoch": 21.004986111111112,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.47126995292675755,
+      "eval_loss": 1.86040198802948,
+      "eval_precision": 0.49999156826079894,
+      "eval_recall": 0.5,
+      "eval_runtime": 182.2543,
+      "eval_samples_per_second": 1.855,
+      "eval_steps_per_second": 0.927,
+      "eval_top_10_accuracy": 0.9201183431952663,
+      "eval_top_1_accuracy": 0.5,
+      "eval_top_5_accuracy": 0.8284023668639053,
       "step": 3965
     },
     {
+      "epoch": 22.00095138888889,
+      "grad_norm": 15.257333755493164,
       "learning_rate": 4.938888888888889e-05,
+      "loss": 2.2189,
       "step": 4000
     },
     {
+      "epoch": 22.003729166666666,
+      "grad_norm": 26.528512954711914,
+      "learning_rate": 4.923611111111112e-05,
+      "loss": 1.9003,
       "step": 4100
     },
     {
+      "epoch": 22.005006944444446,
+      "eval_accuracy": 0.5295857988165681,
+      "eval_f1": 0.5139563428024967,
+      "eval_loss": 1.9389936923980713,
+      "eval_precision": 0.5860205028757064,
+      "eval_recall": 0.5295857988165681,
+      "eval_runtime": 176.2308,
+      "eval_samples_per_second": 1.918,
+      "eval_steps_per_second": 0.959,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.5295857988165681,
+      "eval_top_5_accuracy": 0.8195266272189349,
+      "step": 4146
     },
     {
+      "epoch": 23.0015,
+      "grad_norm": 42.9820556640625,
       "learning_rate": 4.9081790123456794e-05,
+      "loss": 1.5994,
       "step": 4200
     },
     {
+      "epoch": 23.004277777777776,
+      "grad_norm": 44.47490692138672,
       "learning_rate": 4.892746913580247e-05,
+      "loss": 1.4226,
       "step": 4300
     },
     {
+      "epoch": 23.005,
+      "eval_accuracy": 0.5266272189349113,
+      "eval_f1": 0.5303364916400071,
+      "eval_loss": 1.9288358688354492,
+      "eval_precision": 0.6340754166937599,
+      "eval_recall": 0.5266272189349113,
+      "eval_runtime": 175.095,
+      "eval_samples_per_second": 1.93,
+      "eval_steps_per_second": 0.965,
+      "eval_top_10_accuracy": 0.908284023668639,
+      "eval_top_1_accuracy": 0.5266272189349113,
+      "eval_top_5_accuracy": 0.8076923076923077,
       "step": 4326
     },
     {
+      "epoch": 24.00204861111111,
+      "grad_norm": 43.410343170166016,
       "learning_rate": 4.877314814814815e-05,
+      "loss": 1.1426,
       "step": 4400
     },
     {
+      "epoch": 24.00482638888889,
+      "grad_norm": 89.68692016601562,
       "learning_rate": 4.861882716049383e-05,
+      "loss": 1.1341,
       "step": 4500
     },
     {
+      "epoch": 24.004993055555556,
+      "eval_accuracy": 0.5266272189349113,
+      "eval_f1": 0.5078898808033033,
+      "eval_loss": 1.8854230642318726,
+      "eval_precision": 0.5719492128515797,
+      "eval_recall": 0.5266272189349113,
+      "eval_runtime": 184.1675,
+      "eval_samples_per_second": 1.835,
+      "eval_steps_per_second": 0.918,
+      "eval_top_10_accuracy": 0.8964497041420119,
+      "eval_top_1_accuracy": 0.5266272189349113,
+      "eval_top_5_accuracy": 0.7899408284023669,
       "step": 4506
     },
     {
+      "epoch": 25.00259722222222,
+      "grad_norm": 7.714802265167236,
       "learning_rate": 4.8464506172839505e-05,
+      "loss": 0.9315,
       "step": 4600
     },
     {
+      "epoch": 25.004986111111112,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5564708795478026,
+      "eval_loss": 1.7328224182128906,
+      "eval_precision": 0.6260812905043673,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 67.8286,
+      "eval_samples_per_second": 4.983,
+      "eval_steps_per_second": 2.492,
+      "eval_top_10_accuracy": 0.8994082840236687,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.8461538461538461,
       "step": 4686
     },
     {
+      "epoch": 26.000368055555555,
+      "grad_norm": 11.666605949401855,
       "learning_rate": 4.831018518518518e-05,
+      "loss": 0.7589,
       "step": 4700
     },
     {
+      "epoch": 26.003145833333335,
+      "grad_norm": 80.17562866210938,
       "learning_rate": 4.815586419753087e-05,
+      "loss": 0.7536,
       "step": 4800
     },
     {
+      "epoch": 26.005006944444446,
       "eval_accuracy": 0.5384615384615384,
+      "eval_f1": 0.5296188525478466,
+      "eval_loss": 1.8349210023880005,
+      "eval_precision": 0.6288461538461538,
       "eval_recall": 0.5384615384615384,
+      "eval_runtime": 58.1307,
+      "eval_samples_per_second": 5.814,
+      "eval_steps_per_second": 2.907,
+      "eval_top_10_accuracy": 0.8964497041420119,
+      "eval_top_1_accuracy": 0.5384615384615384,
+      "eval_top_5_accuracy": 0.8195266272189349,
+      "step": 4867
     },
     {
+      "epoch": 27.000916666666665,
+      "grad_norm": 11.256963729858398,
       "learning_rate": 4.8001543209876545e-05,
+      "loss": 0.6656,
       "step": 4900
     },
     {
+      "epoch": 27.003694444444445,
+      "grad_norm": 13.579202651977539,
       "learning_rate": 4.784722222222223e-05,
+      "loss": 0.4518,
       "step": 5000
     },
     {
+      "epoch": 27.005,
+      "eval_accuracy": 0.5532544378698225,
+      "eval_f1": 0.5436848818505623,
+      "eval_loss": 1.7999422550201416,
+      "eval_precision": 0.6275922795153565,
+      "eval_recall": 0.5532544378698225,
+      "eval_runtime": 56.1604,
+      "eval_samples_per_second": 6.018,
+      "eval_steps_per_second": 3.009,
+      "eval_top_10_accuracy": 0.9171597633136095,
+      "eval_top_1_accuracy": 0.5532544378698225,
+      "eval_top_5_accuracy": 0.8550295857988166,
       "step": 5047
     },
     {
+      "epoch": 28.00146527777778,
+      "grad_norm": 18.927217483520508,
       "learning_rate": 4.769290123456791e-05,
+      "loss": 0.3555,
       "step": 5100
     },
     {
+      "epoch": 28.004243055555555,
+      "grad_norm": 7.268669605255127,
       "learning_rate": 4.7538580246913585e-05,
+      "loss": 0.3322,
       "step": 5200
     },
     {
+      "epoch": 28.004993055555556,
+      "eval_accuracy": 0.6005917159763313,
+      "eval_f1": 0.5895704722627799,
+      "eval_loss": 1.693082571029663,
+      "eval_precision": 0.6577521837137221,
+      "eval_recall": 0.6005917159763313,
+      "eval_runtime": 60.4433,
+      "eval_samples_per_second": 5.592,
+      "eval_steps_per_second": 2.796,
+      "eval_top_10_accuracy": 0.9260355029585798,
+      "eval_top_1_accuracy": 0.6005917159763313,
+      "eval_top_5_accuracy": 0.849112426035503,
       "step": 5227
     },
     {
+      "epoch": 29.00201388888889,
+      "grad_norm": 17.36412239074707,
       "learning_rate": 4.738425925925926e-05,
+      "loss": 0.2749,
       "step": 5300
     },
     {
+      "epoch": 29.004791666666666,
+      "grad_norm": 1.4117032289505005,
       "learning_rate": 4.722993827160494e-05,
+      "loss": 0.403,
       "step": 5400
     },
     {
+      "epoch": 29.004986111111112,
+      "eval_accuracy": 0.5739644970414202,
+      "eval_f1": 0.5584189150757197,
+      "eval_loss": 1.7999780178070068,
+      "eval_precision": 0.6239610652332546,
+      "eval_recall": 0.5739644970414202,
+      "eval_runtime": 57.9837,
+      "eval_samples_per_second": 5.829,
+      "eval_steps_per_second": 2.915,
+      "eval_top_10_accuracy": 0.9142011834319527,
+      "eval_top_1_accuracy": 0.5739644970414202,
+      "eval_top_5_accuracy": 0.8461538461538461,
       "step": 5407
     },
     {
+      "epoch": 30.0025625,
+      "grad_norm": 0.5923660397529602,
       "learning_rate": 4.707561728395062e-05,
+      "loss": 0.1837,
       "step": 5500
     },
     {
+      "epoch": 30.005006944444446,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5664270128680152,
+      "eval_loss": 1.876481056213379,
+      "eval_precision": 0.6391236968160044,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 60.7728,
+      "eval_samples_per_second": 5.562,
+      "eval_steps_per_second": 2.781,
+      "eval_top_10_accuracy": 0.893491124260355,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.8372781065088757,
+      "step": 5588
+    },
+    {
+      "epoch": 31.000333333333334,
+      "grad_norm": 20.429960250854492,
+      "learning_rate": 4.6922839506172846e-05,
+      "loss": 0.3429,
       "step": 5600
     },
     {
+      "epoch": 31.00311111111111,
+      "grad_norm": 11.760103225708008,
+      "learning_rate": 4.6768518518518524e-05,
+      "loss": 0.1579,
       "step": 5700
     },
     {
+      "epoch": 31.005,
+      "eval_accuracy": 0.5473372781065089,
+      "eval_f1": 0.5426257667381927,
+      "eval_loss": 2.075249195098877,
+      "eval_precision": 0.6336519815026602,
+      "eval_recall": 0.5473372781065089,
+      "eval_runtime": 60.9135,
+      "eval_samples_per_second": 5.549,
+      "eval_steps_per_second": 2.774,
+      "eval_top_10_accuracy": 0.8994082840236687,
+      "eval_top_1_accuracy": 0.5473372781065089,
+      "eval_top_5_accuracy": 0.8431952662721893,
       "step": 5768
     },
     {
+      "epoch": 32.000881944444444,
+      "grad_norm": 1.1906695365905762,
+      "learning_rate": 4.66141975308642e-05,
+      "loss": 0.3029,
       "step": 5800
     },
     {
+      "epoch": 32.003659722222224,
+      "grad_norm": 75.9498519897461,
+      "learning_rate": 4.645987654320988e-05,
+      "loss": 0.2079,
       "step": 5900
     },
     {
+      "epoch": 32.00499305555556,
+      "eval_accuracy": 0.5946745562130178,
+      "eval_f1": 0.5791488754506505,
+      "eval_loss": 1.9234323501586914,
+      "eval_precision": 0.6524024052870208,
+      "eval_recall": 0.5946745562130178,
+      "eval_runtime": 57.5153,
+      "eval_samples_per_second": 5.877,
+      "eval_steps_per_second": 2.938,
+      "eval_top_10_accuracy": 0.8964497041420119,
+      "eval_top_1_accuracy": 0.5946745562130178,
       "eval_top_5_accuracy": 0.8136094674556213,
       "step": 5948
     },
     {
+      "epoch": 33.00143055555556,
+      "grad_norm": 0.5180000066757202,
+      "learning_rate": 4.630555555555556e-05,
+      "loss": 0.1503,
       "step": 6000
     },
     {
+      "epoch": 33.00420833333333,
+      "grad_norm": 0.7615421414375305,
+      "learning_rate": 4.6151234567901235e-05,
+      "loss": 0.2738,
       "step": 6100
     },
     {
+      "epoch": 33.00498611111111,
+      "eval_accuracy": 0.606508875739645,
+      "eval_f1": 0.5892127021564892,
+      "eval_loss": 1.8528887033462524,
+      "eval_precision": 0.6621978202599504,
+      "eval_recall": 0.606508875739645,
+      "eval_runtime": 61.6919,
+      "eval_samples_per_second": 5.479,
+      "eval_steps_per_second": 2.739,
+      "eval_top_10_accuracy": 0.9023668639053254,
+      "eval_top_1_accuracy": 0.6035502958579881,
+      "eval_top_5_accuracy": 0.849112426035503,
       "step": 6128
     },
     {
+      "epoch": 34.001979166666665,
+      "grad_norm": 0.34027883410453796,
       "learning_rate": 4.599691358024691e-05,
+      "loss": 0.0955,
       "step": 6200
     },
     {
+      "epoch": 34.004756944444445,
+      "grad_norm": 0.2066214680671692,
       "learning_rate": 4.584259259259259e-05,
+      "loss": 0.2621,
       "step": 6300
     },
     {
+      "epoch": 34.005006944444446,
+      "eval_accuracy": 0.5739644970414202,
+      "eval_f1": 0.5639503658734427,
+      "eval_loss": 1.9905767440795898,
+      "eval_precision": 0.6191074950690336,
+      "eval_recall": 0.5739644970414202,
+      "eval_runtime": 75.9577,
+      "eval_samples_per_second": 4.45,
+      "eval_steps_per_second": 2.225,
+      "eval_top_10_accuracy": 0.9171597633136095,
+      "eval_top_1_accuracy": 0.5739644970414202,
+      "eval_top_5_accuracy": 0.8284023668639053,
+      "step": 6309
     },
     {
+      "epoch": 35.00252777777778,
+      "grad_norm": 0.1237727478146553,
       "learning_rate": 4.5688271604938275e-05,
+      "loss": 0.2024,
       "step": 6400
     },
     {
+      "epoch": 35.005,
+      "eval_accuracy": 0.5976331360946746,
+      "eval_f1": 0.5885829981983829,
+      "eval_loss": 1.8942253589630127,
+      "eval_precision": 0.6614584133814904,
+      "eval_recall": 0.5976331360946746,
+      "eval_runtime": 60.0376,
+      "eval_samples_per_second": 5.63,
+      "eval_steps_per_second": 2.815,
+      "eval_top_10_accuracy": 0.9260355029585798,
+      "eval_top_1_accuracy": 0.5976331360946746,
+      "eval_top_5_accuracy": 0.863905325443787,
       "step": 6489
     },
     {
+      "epoch": 36.00029861111111,
+      "grad_norm": 0.21603639423847198,
+      "learning_rate": 4.553395061728395e-05,
+      "loss": 0.1411,
       "step": 6500
     },
     {
+      "epoch": 36.003076388888886,
+      "grad_norm": 0.11866825819015503,
+      "learning_rate": 4.537962962962963e-05,
+      "loss": 0.0983,
       "step": 6600
     },
     {
+      "epoch": 36.00499305555556,
+      "eval_accuracy": 0.5857988165680473,
+      "eval_f1": 0.5728611953464025,
+      "eval_loss": 2.0340006351470947,
+      "eval_precision": 0.6499939163400703,
+      "eval_recall": 0.5857988165680473,
+      "eval_runtime": 58.3576,
+      "eval_samples_per_second": 5.792,
+      "eval_steps_per_second": 2.896,
+      "eval_top_10_accuracy": 0.8846153846153846,
+      "eval_top_1_accuracy": 0.5857988165680473,
+      "eval_top_5_accuracy": 0.8254437869822485,
       "step": 6669
     },
     {
+      "epoch": 37.00084722222222,
+      "grad_norm": 8.090852737426758,
+      "learning_rate": 4.5225308641975314e-05,
+      "loss": 0.13,
       "step": 6700
     },
     {
+      "epoch": 37.003625,
+      "grad_norm": 0.11927696317434311,
+      "learning_rate": 4.507098765432099e-05,
+      "loss": 0.0592,
       "step": 6800
     },
     {
+      "epoch": 37.00498611111111,
+      "eval_accuracy": 0.6094674556213018,
+      "eval_f1": 0.5985522367179171,
+      "eval_loss": 1.8492796421051025,
+      "eval_precision": 0.6775016650016649,
+      "eval_recall": 0.6094674556213018,
+      "eval_runtime": 58.2549,
+      "eval_samples_per_second": 5.802,
+      "eval_steps_per_second": 2.901,
+      "eval_top_10_accuracy": 0.9230769230769231,
+      "eval_top_1_accuracy": 0.6094674556213018,
+      "eval_top_5_accuracy": 0.8609467455621301,
       "step": 6849
     },
     {
+      "epoch": 38.00139583333333,
+      "grad_norm": 0.092709481716156,
+      "learning_rate": 4.491666666666667e-05,
+      "loss": 0.1859,
       "step": 6900
     },
     {
+      "epoch": 38.00417361111111,
+      "grad_norm": 1.1074143648147583,
+      "learning_rate": 4.476234567901235e-05,
+      "loss": 0.0922,
       "step": 7000
     },
     {
+      "epoch": 38.005006944444446,
+      "eval_accuracy": 0.6301775147928994,
+      "eval_f1": 0.6124992036234641,
+      "eval_loss": 1.9035998582839966,
+      "eval_precision": 0.6824995517303208,
+      "eval_recall": 0.6301775147928994,
+      "eval_runtime": 55.9719,
+      "eval_samples_per_second": 6.039,
+      "eval_steps_per_second": 3.019,
+      "eval_top_10_accuracy": 0.9260355029585798,
+      "eval_top_1_accuracy": 0.6301775147928994,
+      "eval_top_5_accuracy": 0.8668639053254438,
+      "step": 7030
+    },
+    {
+      "epoch": 39.00194444444445,
+      "grad_norm": 25.988325119018555,
+      "learning_rate": 4.4608024691358025e-05,
+      "loss": 0.1847,
       "step": 7100
     },
     {
+      "epoch": 39.00472222222222,
+      "grad_norm": 22.964984893798828,
+      "learning_rate": 4.445370370370371e-05,
+      "loss": 0.1547,
       "step": 7200
     },
     {
+      "epoch": 39.005,
+      "eval_accuracy": 0.6035502958579881,
+      "eval_f1": 0.5948209446121037,
+      "eval_loss": 1.989665150642395,
+      "eval_precision": 0.6725563391243864,
+      "eval_recall": 0.6035502958579881,
+      "eval_runtime": 61.9464,
+      "eval_samples_per_second": 5.456,
+      "eval_steps_per_second": 2.728,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.6035502958579881,
+      "eval_top_5_accuracy": 0.8431952662721893,
       "step": 7210
     },
     {
+      "epoch": 40.002493055555554,
+      "grad_norm": 0.05825158208608627,
+      "learning_rate": 4.429938271604939e-05,
+      "loss": 0.1162,
       "step": 7300
     },
     {
+      "epoch": 40.00499305555556,
+      "eval_accuracy": 0.5828402366863905,
+      "eval_f1": 0.5674965566977401,
+      "eval_loss": 2.305551767349243,
+      "eval_precision": 0.651775147928994,
+      "eval_recall": 0.5828402366863905,
+      "eval_runtime": 63.1766,
+      "eval_samples_per_second": 5.35,
+      "eval_steps_per_second": 2.675,
+      "eval_top_10_accuracy": 0.8875739644970414,
+      "eval_top_1_accuracy": 0.5828402366863905,
+      "eval_top_5_accuracy": 0.8284023668639053,
       "step": 7390
     },
     {
+      "epoch": 41.00026388888889,
+      "grad_norm": 0.08664705604314804,
+      "learning_rate": 4.4145061728395065e-05,
+      "loss": 0.1941,
       "step": 7400
     },
     {
+      "epoch": 41.00304166666667,
+      "grad_norm": 1.6665265560150146,
+      "learning_rate": 4.399074074074074e-05,
+      "loss": 0.0514,
       "step": 7500
     },
     {
+      "epoch": 41.00498611111111,
+      "eval_accuracy": 0.5887573964497042,
+      "eval_f1": 0.5767313882698497,
+      "eval_loss": 2.3211424350738525,
+      "eval_precision": 0.6510214144829529,
+      "eval_recall": 0.5887573964497042,
+      "eval_runtime": 55.5478,
+      "eval_samples_per_second": 6.085,
+      "eval_steps_per_second": 3.042,
+      "eval_top_10_accuracy": 0.8816568047337278,
+      "eval_top_1_accuracy": 0.5887573964497042,
+      "eval_top_5_accuracy": 0.7988165680473372,
       "step": 7570
     },
     {
+      "epoch": 42.0008125,
+      "grad_norm": 0.07863179594278336,
+      "learning_rate": 4.383641975308642e-05,
+      "loss": 0.1709,
       "step": 7600
     },
     {
+      "epoch": 42.003590277777775,
+      "grad_norm": 0.14477179944515228,
+      "learning_rate": 4.36820987654321e-05,
+      "loss": 0.1138,
       "step": 7700
     },
     {
+      "epoch": 42.005006944444446,
+      "eval_accuracy": 0.5739644970414202,
+      "eval_f1": 0.562847029406375,
+      "eval_loss": 2.3148906230926514,
+      "eval_precision": 0.6284772919388303,
+      "eval_recall": 0.5739644970414202,
+      "eval_runtime": 59.6045,
+      "eval_samples_per_second": 5.671,
+      "eval_steps_per_second": 2.835,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.5739644970414202,
+      "eval_top_5_accuracy": 0.849112426035503,
+      "step": 7751
+    },
+    {
+      "epoch": 43.00136111111111,
+      "grad_norm": 0.37179991602897644,
+      "learning_rate": 4.3527777777777776e-05,
+      "loss": 0.1083,
       "step": 7800
     },
     {
+      "epoch": 43.00413888888889,
+      "grad_norm": 0.11481554806232452,
+      "learning_rate": 4.337345679012345e-05,
+      "loss": 0.1197,
       "step": 7900
     },
     {
+      "epoch": 43.005,
+      "eval_accuracy": 0.6124260355029586,
+      "eval_f1": 0.6072961965713446,
+      "eval_loss": 2.1155619621276855,
+      "eval_precision": 0.6907422459197607,
+      "eval_recall": 0.6124260355029586,
+      "eval_runtime": 73.3826,
+      "eval_samples_per_second": 4.606,
+      "eval_steps_per_second": 2.303,
+      "eval_top_10_accuracy": 0.9171597633136095,
+      "eval_top_1_accuracy": 0.6124260355029586,
+      "eval_top_5_accuracy": 0.8668639053254438,
       "step": 7931
     },
     {
+      "epoch": 44.00190972222222,
+      "grad_norm": 0.03723059222102165,
       "learning_rate": 4.322067901234568e-05,
+      "loss": 0.1633,
       "step": 8000
     },
     {
+      "epoch": 44.0046875,
+      "grad_norm": 2.34633207321167,
       "learning_rate": 4.306635802469136e-05,
+      "loss": 0.0673,
       "step": 8100
     },
     {
+      "epoch": 44.00499305555556,
+      "eval_accuracy": 0.5828402366863905,
+      "eval_f1": 0.5640534640360605,
+      "eval_loss": 2.2834787368774414,
+      "eval_precision": 0.6274122984182156,
+      "eval_recall": 0.5828402366863905,
+      "eval_runtime": 72.2307,
+      "eval_samples_per_second": 4.679,
+      "eval_steps_per_second": 2.34,
+      "eval_top_10_accuracy": 0.908284023668639,
+      "eval_top_1_accuracy": 0.5828402366863905,
+      "eval_top_5_accuracy": 0.8579881656804734,
       "step": 8111
     },
     {
+      "epoch": 45.00245833333334,
+      "grad_norm": 0.08984989672899246,
       "learning_rate": 4.291203703703704e-05,
+      "loss": 0.1501,
       "step": 8200
     },
     {
+      "epoch": 45.00498611111111,
+      "eval_accuracy": 0.591715976331361,
+      "eval_f1": 0.5756663372787633,
+      "eval_loss": 2.271914482116699,
+      "eval_precision": 0.6418798903266358,
+      "eval_recall": 0.591715976331361,
+      "eval_runtime": 57.8957,
+      "eval_samples_per_second": 5.838,
+      "eval_steps_per_second": 2.919,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.591715976331361,
+      "eval_top_5_accuracy": 0.8520710059171598,
       "step": 8291
     },
     {
+      "epoch": 46.000229166666664,
+      "grad_norm": 0.03222246095538139,
       "learning_rate": 4.2757716049382715e-05,
+      "loss": 0.059,
       "step": 8300
     },
     {
+      "epoch": 46.003006944444444,
+      "grad_norm": 0.024875333532691002,
+      "learning_rate": 4.2604938271604936e-05,
+      "loss": 0.2022,
       "step": 8400
     },
     {
+      "epoch": 46.005006944444446,
+      "eval_accuracy": 0.5562130177514792,
+      "eval_f1": 0.5402277209969517,
+      "eval_loss": 2.3422443866729736,
+      "eval_precision": 0.6034023668639052,
+      "eval_recall": 0.5562130177514792,
+      "eval_runtime": 58.5821,
+      "eval_samples_per_second": 5.77,
+      "eval_steps_per_second": 2.885,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.5562130177514792,
+      "eval_top_5_accuracy": 0.849112426035503,
+      "step": 8472
     },
     {
+      "epoch": 47.00077777777778,
+      "grad_norm": 1.308508038520813,
+      "learning_rate": 4.2450617283950614e-05,
+      "loss": 0.1197,
       "step": 8500
     },
     {
+      "epoch": 47.00355555555556,
+      "grad_norm": 4.812650203704834,
+      "learning_rate": 4.22962962962963e-05,
+      "loss": 0.2185,
       "step": 8600
     },
     {
+      "epoch": 47.005,
+      "eval_accuracy": 0.5236686390532544,
+      "eval_f1": 0.5125209685120928,
+      "eval_loss": 2.64306378364563,
+      "eval_precision": 0.580839847007616,
+      "eval_recall": 0.5236686390532544,
+      "eval_runtime": 57.4714,
+      "eval_samples_per_second": 5.881,
+      "eval_steps_per_second": 2.941,
+      "eval_top_10_accuracy": 0.8816568047337278,
+      "eval_top_1_accuracy": 0.5236686390532544,
+      "eval_top_5_accuracy": 0.8284023668639053,
       "step": 8652
     },
     {
+      "epoch": 48.00132638888889,
+      "grad_norm": 0.9780556559562683,
+      "learning_rate": 4.2141975308641976e-05,
+      "loss": 0.1822,
       "step": 8700
     },
     {
+      "epoch": 48.004104166666664,
+      "grad_norm": 0.10755691677331924,
+      "learning_rate": 4.1987654320987654e-05,
+      "loss": 0.2385,
       "step": 8800
     },
     {
+      "epoch": 48.00499305555556,
+      "eval_accuracy": 0.5798816568047337,
+      "eval_f1": 0.5622720967395524,
+      "eval_loss": 2.3147056102752686,
+      "eval_precision": 0.6323823612285151,
+      "eval_recall": 0.5798816568047337,
+      "eval_runtime": 61.6966,
+      "eval_samples_per_second": 5.478,
+      "eval_steps_per_second": 2.739,
+      "eval_top_10_accuracy": 0.9053254437869822,
+      "eval_top_1_accuracy": 0.5798816568047337,
+      "eval_top_5_accuracy": 0.8520710059171598,
       "step": 8832
     },
     {
+      "epoch": 49.001875,
+      "grad_norm": 0.048398274928331375,
       "learning_rate": 4.183333333333334e-05,
+      "loss": 0.1209,
       "step": 8900
     },
     {
+      "epoch": 49.00465277777778,
+      "grad_norm": 116.13093566894531,
       "learning_rate": 4.1679012345679016e-05,
+      "loss": 0.1769,
       "step": 9000
     },
     {
+      "epoch": 49.00498611111111,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5621830092983939,
+      "eval_loss": 2.345111131668091,
+      "eval_precision": 0.6246256701878005,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 56.4804,
+      "eval_samples_per_second": 5.984,
+      "eval_steps_per_second": 2.992,
+      "eval_top_10_accuracy": 0.8875739644970414,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.8372781065088757,
       "step": 9012
     },
     {
+      "epoch": 50.00242361111111,
+      "grad_norm": 6.833434104919434,
       "learning_rate": 4.1524691358024694e-05,
+      "loss": 0.1927,
       "step": 9100
     },
     {
+      "epoch": 50.005006944444446,
+      "eval_accuracy": 0.5562130177514792,
+      "eval_f1": 0.5347152354548804,
+      "eval_loss": 2.7140073776245117,
+      "eval_precision": 0.6024619611158072,
+      "eval_recall": 0.5562130177514792,
+      "eval_runtime": 57.0126,
+      "eval_samples_per_second": 5.929,
+      "eval_steps_per_second": 2.964,
+      "eval_top_10_accuracy": 0.8727810650887574,
+      "eval_top_1_accuracy": 0.5562130177514792,
+      "eval_top_5_accuracy": 0.8017751479289941,
+      "step": 9193
     },
     {
+      "epoch": 51.000194444444446,
+      "grad_norm": 169.2981719970703,
       "learning_rate": 4.137037037037037e-05,
+      "loss": 0.302,
       "step": 9200
     },
     {
+      "epoch": 51.00297222222222,
+      "grad_norm": 0.07411950081586838,
       "learning_rate": 4.121604938271605e-05,
+      "loss": 0.2048,
       "step": 9300
     },
     {
+      "epoch": 51.005,
+      "eval_accuracy": 0.591715976331361,
+      "eval_f1": 0.5748348298644157,
+      "eval_loss": 2.3875668048858643,
+      "eval_precision": 0.6367497886728656,
+      "eval_recall": 0.591715976331361,
+      "eval_runtime": 57.5583,
+      "eval_samples_per_second": 5.872,
+      "eval_steps_per_second": 2.936,
+      "eval_top_10_accuracy": 0.893491124260355,
+      "eval_top_1_accuracy": 0.591715976331361,
+      "eval_top_5_accuracy": 0.8224852071005917,
       "step": 9373
     },
     {
+      "epoch": 52.00074305555555,
+      "grad_norm": 80.62044525146484,
       "learning_rate": 4.1061728395061733e-05,
+      "loss": 0.2414,
       "step": 9400
     },
     {
+      "epoch": 52.00352083333333,
+      "grad_norm": 2.4975171089172363,
       "learning_rate": 4.090740740740741e-05,
+      "loss": 0.1608,
       "step": 9500
     },
     {
+      "epoch": 52.00499305555556,
+      "eval_accuracy": 0.5266272189349113,
+      "eval_f1": 0.5013487498694599,
+      "eval_loss": 2.6982638835906982,
+      "eval_precision": 0.5645437895437895,
+      "eval_recall": 0.5266272189349113,
+      "eval_runtime": 59.8704,
+      "eval_samples_per_second": 5.646,
+      "eval_steps_per_second": 2.823,
+      "eval_top_10_accuracy": 0.8579881656804734,
+      "eval_top_1_accuracy": 0.5266272189349113,
+      "eval_top_5_accuracy": 0.8076923076923077,
       "step": 9553
     },
     {
+      "epoch": 53.00129166666667,
+      "grad_norm": 0.140806183218956,
       "learning_rate": 4.075308641975309e-05,
+      "loss": 0.1078,
       "step": 9600
     },
     {
+      "epoch": 53.00406944444445,
+      "grad_norm": 0.03946617618203163,
       "learning_rate": 4.0598765432098767e-05,
+      "loss": 0.1256,
       "step": 9700
     },
     {
+      "epoch": 53.00498611111111,
+      "eval_accuracy": 0.5384615384615384,
+      "eval_f1": 0.5257081839922076,
+      "eval_loss": 2.7464194297790527,
+      "eval_precision": 0.5773428494582341,
+      "eval_recall": 0.5384615384615384,
+      "eval_runtime": 79.9762,
+      "eval_samples_per_second": 4.226,
+      "eval_steps_per_second": 2.113,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.5384615384615384,
+      "eval_top_5_accuracy": 0.8017751479289941,
       "step": 9733
     },
     {
+      "epoch": 54.00184027777778,
+      "grad_norm": 0.018318645656108856,
       "learning_rate": 4.0444444444444444e-05,
+      "loss": 0.1146,
       "step": 9800
     },
     {
+      "epoch": 54.004618055555554,
+      "grad_norm": 107.91517639160156,
       "learning_rate": 4.029012345679012e-05,
+      "loss": 0.1327,
       "step": 9900
     },
     {
+      "epoch": 54.005006944444446,
+      "eval_accuracy": 0.5650887573964497,
+      "eval_f1": 0.5342032063925555,
+      "eval_loss": 2.513326644897461,
+      "eval_precision": 0.5812130177514792,
+      "eval_recall": 0.5650887573964497,
+      "eval_runtime": 57.9139,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 2.918,
+      "eval_top_10_accuracy": 0.8846153846153846,
+      "eval_top_1_accuracy": 0.5650887573964497,
+      "eval_top_5_accuracy": 0.7988165680473372,
+      "step": 9914
+    },
+    {
+      "epoch": 55.00238888888889,
+      "grad_norm": 0.045430343598127365,
+      "learning_rate": 4.01358024691358e-05,
+      "loss": 0.0503,
+      "step": 10000
+    },
+    {
+      "epoch": 55.005,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_f1": 0.5635061355475556,
+      "eval_loss": 2.5686514377593994,
+      "eval_precision": 0.6335951441720672,
+      "eval_recall": 0.5769230769230769,
+      "eval_runtime": 62.2713,
+      "eval_samples_per_second": 5.428,
+      "eval_steps_per_second": 2.714,
+      "eval_top_10_accuracy": 0.8964497041420119,
+      "eval_top_1_accuracy": 0.5769230769230769,
+      "eval_top_5_accuracy": 0.8313609467455622,
+      "step": 10094
+    },
+    {
+      "epoch": 56.00015972222222,
+      "grad_norm": 0.011242308653891087,
+      "learning_rate": 3.9981481481481484e-05,
+      "loss": 0.1127,
+      "step": 10100
+    },
+    {
+      "epoch": 56.0029375,
+      "grad_norm": 0.01931876875460148,
+      "learning_rate": 3.982716049382716e-05,
+      "loss": 0.0841,
+      "step": 10200
+    },
+    {
+      "epoch": 56.00499305555556,
+      "eval_accuracy": 0.5502958579881657,
+      "eval_f1": 0.53286526097177,
+      "eval_loss": 2.731083869934082,
+      "eval_precision": 0.6024830938292477,
+      "eval_recall": 0.5502958579881657,
+      "eval_runtime": 64.4351,
+      "eval_samples_per_second": 5.246,
+      "eval_steps_per_second": 2.623,
+      "eval_top_10_accuracy": 0.8905325443786982,
+      "eval_top_1_accuracy": 0.5502958579881657,
+      "eval_top_5_accuracy": 0.8284023668639053,
+      "step": 10274
+    },
+    {
+      "epoch": 57.000708333333336,
+      "grad_norm": 0.7857475280761719,
+      "learning_rate": 3.9672839506172846e-05,
+      "loss": 0.2066,
+      "step": 10300
+    },
+    {
+      "epoch": 57.00348611111111,
+      "grad_norm": 0.0037257361691445112,
+      "learning_rate": 3.9518518518518524e-05,
+      "loss": 0.0888,
+      "step": 10400
+    },
+    {
+      "epoch": 57.00498611111111,
+      "eval_accuracy": 0.5591715976331361,
+      "eval_f1": 0.5473162081759367,
+      "eval_loss": 2.6771368980407715,
+      "eval_precision": 0.6141800507185123,
+      "eval_recall": 0.5591715976331361,
+      "eval_runtime": 66.5741,
+      "eval_samples_per_second": 5.077,
+      "eval_steps_per_second": 2.539,
+      "eval_top_10_accuracy": 0.893491124260355,
+      "eval_top_1_accuracy": 0.5591715976331361,
+      "eval_top_5_accuracy": 0.8195266272189349,
+      "step": 10454
+    },
+    {
+      "epoch": 58.00125694444444,
+      "grad_norm": 217.6994171142578,
+      "learning_rate": 3.93641975308642e-05,
+      "loss": 0.0478,
+      "step": 10500
+    },
+    {
+      "epoch": 58.00403472222222,
+      "grad_norm": 0.19375790655612946,
+      "learning_rate": 3.920987654320988e-05,
+      "loss": 0.0629,
+      "step": 10600
+    },
+    {
+      "epoch": 58.005006944444446,
+      "eval_accuracy": 0.5295857988165681,
+      "eval_f1": 0.5132937382067211,
+      "eval_loss": 2.8300716876983643,
+      "eval_precision": 0.5767704517704518,
+      "eval_recall": 0.5295857988165681,
+      "eval_runtime": 66.7729,
+      "eval_samples_per_second": 5.062,
+      "eval_steps_per_second": 2.531,
       "eval_top_10_accuracy": 0.8698224852071006,
+      "eval_top_1_accuracy": 0.5295857988165681,
+      "eval_top_5_accuracy": 0.7988165680473372,
+      "step": 10635
     },
     {
+      "epoch": 58.005006944444446,
+      "step": 10635,
+      "total_flos": 1.0610658302492344e+20,
+      "train_loss": 5.244687236773334,
+      "train_runtime": 25999.5358,
+      "train_samples_per_second": 11.077,
+      "train_steps_per_second": 1.385
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.0610658302492344e+20,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null