{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999270764967549,
  "eval_steps": 500,
  "global_step": 1714,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002916940129803836,
      "grad_norm": 15.314846993439431,
      "learning_rate": 1.1627906976744187e-07,
      "loss": 1.4645,
      "num_tokens": 664961.0,
      "step": 5
    },
    {
      "epoch": 0.005833880259607672,
      "grad_norm": 15.124274608180873,
      "learning_rate": 2.616279069767442e-07,
      "loss": 1.4609,
      "num_tokens": 1328343.0,
      "step": 10
    },
    {
      "epoch": 0.008750820389411508,
      "grad_norm": 13.82984674405708,
      "learning_rate": 4.0697674418604655e-07,
      "loss": 1.4427,
      "num_tokens": 1956887.0,
      "step": 15
    },
    {
      "epoch": 0.011667760519215344,
      "grad_norm": 9.878183759059922,
      "learning_rate": 5.523255813953489e-07,
      "loss": 1.3343,
      "num_tokens": 2605364.0,
      "step": 20
    },
    {
      "epoch": 0.01458470064901918,
      "grad_norm": 5.505706021355824,
      "learning_rate": 6.976744186046513e-07,
      "loss": 1.2104,
      "num_tokens": 3252253.0,
      "step": 25
    },
    {
      "epoch": 0.017501640778823015,
      "grad_norm": 4.635247887381354,
      "learning_rate": 8.430232558139535e-07,
      "loss": 0.9972,
      "num_tokens": 3920143.0,
      "step": 30
    },
    {
      "epoch": 0.02041858090862685,
      "grad_norm": 4.315541790005088,
      "learning_rate": 9.88372093023256e-07,
      "loss": 0.8344,
      "num_tokens": 4566721.0,
      "step": 35
    },
    {
      "epoch": 0.023335521038430687,
      "grad_norm": 2.020149370601623,
      "learning_rate": 1.1337209302325581e-06,
      "loss": 0.6684,
      "num_tokens": 5210008.0,
      "step": 40
    },
    {
      "epoch": 0.02625246116823452,
      "grad_norm": 1.7873725073498965,
      "learning_rate": 1.2790697674418605e-06,
      "loss": 0.6072,
      "num_tokens": 5864080.0,
      "step": 45
    },
    {
      "epoch": 0.02916940129803836,
      "grad_norm": 1.5072337565147784,
      "learning_rate": 1.424418604651163e-06,
      "loss": 0.5419,
      "num_tokens": 6520217.0,
      "step": 50
    },
    {
      "epoch": 0.0320863414278422,
      "grad_norm": 1.331945393169636,
      "learning_rate": 1.5697674418604653e-06,
      "loss": 0.5244,
      "num_tokens": 7162572.0,
      "step": 55
    },
    {
      "epoch": 0.03500328155764603,
      "grad_norm": 1.2313550536524596,
      "learning_rate": 1.7151162790697675e-06,
      "loss": 0.4927,
      "num_tokens": 7799997.0,
      "step": 60
    },
    {
      "epoch": 0.037920221687449865,
      "grad_norm": 1.2022730518402551,
      "learning_rate": 1.86046511627907e-06,
      "loss": 0.4721,
      "num_tokens": 8442823.0,
      "step": 65
    },
    {
      "epoch": 0.0408371618172537,
      "grad_norm": 1.1250500999609214,
      "learning_rate": 2.005813953488372e-06,
      "loss": 0.4413,
      "num_tokens": 9110123.0,
      "step": 70
    },
    {
      "epoch": 0.04375410194705753,
      "grad_norm": 1.2106625174568726,
      "learning_rate": 2.1511627906976745e-06,
      "loss": 0.4373,
      "num_tokens": 9766629.0,
      "step": 75
    },
    {
      "epoch": 0.046671042076861374,
      "grad_norm": 1.2139628839448882,
      "learning_rate": 2.296511627906977e-06,
      "loss": 0.4296,
      "num_tokens": 10411294.0,
      "step": 80
    },
    {
      "epoch": 0.04958798220666521,
      "grad_norm": 1.0765619266888364,
      "learning_rate": 2.4418604651162793e-06,
      "loss": 0.4202,
      "num_tokens": 11062337.0,
      "step": 85
    },
    {
      "epoch": 0.05250492233646904,
      "grad_norm": 1.1281979547613517,
      "learning_rate": 2.5872093023255817e-06,
      "loss": 0.4002,
      "num_tokens": 11723139.0,
      "step": 90
    },
    {
      "epoch": 0.05542186246627288,
      "grad_norm": 1.2698882139464465,
      "learning_rate": 2.7325581395348837e-06,
      "loss": 0.3953,
      "num_tokens": 12375759.0,
      "step": 95
    },
    {
      "epoch": 0.05833880259607672,
      "grad_norm": 1.2644367237697873,
      "learning_rate": 2.8779069767441865e-06,
      "loss": 0.3862,
      "num_tokens": 13036816.0,
      "step": 100
    },
    {
      "epoch": 0.06125574272588055,
      "grad_norm": 1.3152258063372593,
      "learning_rate": 3.0232558139534885e-06,
      "loss": 0.3841,
      "num_tokens": 13687237.0,
      "step": 105
    },
    {
      "epoch": 0.0641726828556844,
      "grad_norm": 1.2401934233802059,
      "learning_rate": 3.168604651162791e-06,
      "loss": 0.3737,
      "num_tokens": 14335676.0,
      "step": 110
    },
    {
      "epoch": 0.06708962298548822,
      "grad_norm": 1.1292164603500774,
      "learning_rate": 3.313953488372093e-06,
      "loss": 0.3713,
      "num_tokens": 14978678.0,
      "step": 115
    },
    {
      "epoch": 0.07000656311529206,
      "grad_norm": 1.0231109188108276,
      "learning_rate": 3.4593023255813957e-06,
      "loss": 0.368,
      "num_tokens": 15627877.0,
      "step": 120
    },
    {
      "epoch": 0.07292350324509589,
      "grad_norm": 1.0908774709734868,
      "learning_rate": 3.6046511627906977e-06,
      "loss": 0.363,
      "num_tokens": 16279435.0,
      "step": 125
    },
    {
      "epoch": 0.07584044337489973,
      "grad_norm": 1.1162502790217461,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.3745,
      "num_tokens": 16913781.0,
      "step": 130
    },
    {
      "epoch": 0.07875738350470357,
      "grad_norm": 1.1330979835196826,
      "learning_rate": 3.8953488372093025e-06,
      "loss": 0.3709,
      "num_tokens": 17548117.0,
      "step": 135
    },
    {
      "epoch": 0.0816743236345074,
      "grad_norm": 1.0629765636545838,
      "learning_rate": 4.040697674418605e-06,
      "loss": 0.3445,
      "num_tokens": 18195409.0,
      "step": 140
    },
    {
      "epoch": 0.08459126376431124,
      "grad_norm": 1.276035178674377,
      "learning_rate": 4.186046511627907e-06,
      "loss": 0.342,
      "num_tokens": 18868486.0,
      "step": 145
    },
    {
      "epoch": 0.08750820389411507,
      "grad_norm": 1.286207680994597,
      "learning_rate": 4.331395348837209e-06,
      "loss": 0.3523,
      "num_tokens": 19512602.0,
      "step": 150
    },
    {
      "epoch": 0.09042514402391891,
      "grad_norm": 1.2039231072701266,
      "learning_rate": 4.476744186046512e-06,
      "loss": 0.3445,
      "num_tokens": 20166079.0,
      "step": 155
    },
    {
      "epoch": 0.09334208415372275,
      "grad_norm": 1.1723339689090486,
      "learning_rate": 4.622093023255814e-06,
      "loss": 0.3474,
      "num_tokens": 20811476.0,
      "step": 160
    },
    {
      "epoch": 0.09625902428352658,
      "grad_norm": 1.2658638056762135,
      "learning_rate": 4.767441860465117e-06,
      "loss": 0.3599,
      "num_tokens": 21434095.0,
      "step": 165
    },
    {
      "epoch": 0.09917596441333042,
      "grad_norm": 1.3276681368788141,
      "learning_rate": 4.912790697674419e-06,
      "loss": 0.3454,
      "num_tokens": 22072411.0,
      "step": 170
    },
    {
      "epoch": 0.10209290454313426,
      "grad_norm": 1.0911031469799084,
      "learning_rate": 4.999981321460686e-06,
      "loss": 0.3402,
      "num_tokens": 22719834.0,
      "step": 175
    },
    {
      "epoch": 0.10500984467293809,
      "grad_norm": 1.0456913517269015,
      "learning_rate": 4.999771191454943e-06,
      "loss": 0.3303,
      "num_tokens": 23377046.0,
      "step": 180
    },
    {
      "epoch": 0.10792678480274193,
      "grad_norm": 1.0538239894446182,
      "learning_rate": 4.999327605146962e-06,
      "loss": 0.3359,
      "num_tokens": 24015615.0,
      "step": 185
    },
    {
      "epoch": 0.11084372493254575,
      "grad_norm": 1.0942199718670622,
      "learning_rate": 4.998650608567207e-06,
      "loss": 0.3297,
      "num_tokens": 24672622.0,
      "step": 190
    },
    {
      "epoch": 0.1137606650623496,
      "grad_norm": 0.9752269910032921,
      "learning_rate": 4.997740271966877e-06,
      "loss": 0.322,
      "num_tokens": 25327189.0,
      "step": 195
    },
    {
      "epoch": 0.11667760519215344,
      "grad_norm": 1.0353989634205158,
      "learning_rate": 4.996596689810608e-06,
      "loss": 0.3226,
      "num_tokens": 25988137.0,
      "step": 200
    },
    {
      "epoch": 0.11959454532195726,
      "grad_norm": 0.976037137536619,
      "learning_rate": 4.995219980766672e-06,
      "loss": 0.3261,
      "num_tokens": 26627458.0,
      "step": 205
    },
    {
      "epoch": 0.1225114854517611,
      "grad_norm": 1.0572358909935728,
      "learning_rate": 4.993610287694663e-06,
      "loss": 0.3377,
      "num_tokens": 27254578.0,
      "step": 210
    },
    {
      "epoch": 0.12542842558156495,
      "grad_norm": 1.0143321034255313,
      "learning_rate": 4.991767777630679e-06,
      "loss": 0.3228,
      "num_tokens": 27892556.0,
      "step": 215
    },
    {
      "epoch": 0.1283453657113688,
      "grad_norm": 0.9543169350029965,
      "learning_rate": 4.989692641769976e-06,
      "loss": 0.3319,
      "num_tokens": 28534198.0,
      "step": 220
    },
    {
      "epoch": 0.1312623058411726,
      "grad_norm": 1.071975380040241,
      "learning_rate": 4.987385095447141e-06,
      "loss": 0.329,
      "num_tokens": 29182513.0,
      "step": 225
    },
    {
      "epoch": 0.13417924597097644,
      "grad_norm": 0.9921290746434547,
      "learning_rate": 4.9848453781137355e-06,
      "loss": 0.3197,
      "num_tokens": 29831488.0,
      "step": 230
    },
    {
      "epoch": 0.13709618610078028,
      "grad_norm": 0.9924486551348661,
      "learning_rate": 4.982073753313459e-06,
      "loss": 0.3174,
      "num_tokens": 30483470.0,
      "step": 235
    },
    {
      "epoch": 0.14001312623058412,
      "grad_norm": 0.9653390977580701,
      "learning_rate": 4.979070508654793e-06,
      "loss": 0.3192,
      "num_tokens": 31131813.0,
      "step": 240
    },
    {
      "epoch": 0.14293006636038796,
      "grad_norm": 0.8914189355649926,
      "learning_rate": 4.975835955781159e-06,
      "loss": 0.315,
      "num_tokens": 31786873.0,
      "step": 245
    },
    {
      "epoch": 0.14584700649019178,
      "grad_norm": 0.9237748223875288,
      "learning_rate": 4.97237043033858e-06,
      "loss": 0.3157,
      "num_tokens": 32444374.0,
      "step": 250
    },
    {
      "epoch": 0.14876394661999562,
      "grad_norm": 0.9372531601704935,
      "learning_rate": 4.968674291940851e-06,
      "loss": 0.3207,
      "num_tokens": 33086508.0,
      "step": 255
    },
    {
      "epoch": 0.15168088674979946,
      "grad_norm": 0.9157808080681994,
      "learning_rate": 4.964747924132222e-06,
      "loss": 0.3076,
      "num_tokens": 33731691.0,
      "step": 260
    },
    {
      "epoch": 0.1545978268796033,
      "grad_norm": 0.9454847146505463,
      "learning_rate": 4.9605917343475955e-06,
      "loss": 0.3181,
      "num_tokens": 34372767.0,
      "step": 265
    },
    {
      "epoch": 0.15751476700940714,
      "grad_norm": 0.8799166537712672,
      "learning_rate": 4.9562061538702525e-06,
      "loss": 0.3086,
      "num_tokens": 35028672.0,
      "step": 270
    },
    {
      "epoch": 0.16043170713921096,
      "grad_norm": 0.9737961522613614,
      "learning_rate": 4.9515916377870946e-06,
      "loss": 0.3163,
      "num_tokens": 35675129.0,
      "step": 275
    },
    {
      "epoch": 0.1633486472690148,
      "grad_norm": 0.9507385668649105,
      "learning_rate": 4.946748664941422e-06,
      "loss": 0.3067,
      "num_tokens": 36327966.0,
      "step": 280
    },
    {
      "epoch": 0.16626558739881864,
      "grad_norm": 0.9067460736611309,
      "learning_rate": 4.941677737883243e-06,
      "loss": 0.3019,
      "num_tokens": 36984122.0,
      "step": 285
    },
    {
      "epoch": 0.16918252752862248,
      "grad_norm": 0.9345956924910421,
      "learning_rate": 4.936379382817128e-06,
      "loss": 0.3079,
      "num_tokens": 37635290.0,
      "step": 290
    },
    {
      "epoch": 0.17209946765842632,
      "grad_norm": 1.031848827959026,
      "learning_rate": 4.930854149547601e-06,
      "loss": 0.2968,
      "num_tokens": 38302296.0,
      "step": 295
    },
    {
      "epoch": 0.17501640778823013,
      "grad_norm": 0.9490962095945213,
      "learning_rate": 4.925102611422091e-06,
      "loss": 0.2985,
      "num_tokens": 38955364.0,
      "step": 300
    },
    {
      "epoch": 0.17793334791803397,
      "grad_norm": 0.9554853984269095,
      "learning_rate": 4.919125365271435e-06,
      "loss": 0.3029,
      "num_tokens": 39603716.0,
      "step": 305
    },
    {
      "epoch": 0.18085028804783781,
      "grad_norm": 0.8443108422001705,
      "learning_rate": 4.912923031347944e-06,
      "loss": 0.2934,
      "num_tokens": 40246996.0,
      "step": 310
    },
    {
      "epoch": 0.18376722817764166,
      "grad_norm": 0.9232154035347715,
      "learning_rate": 4.9064962532610465e-06,
      "loss": 0.3164,
      "num_tokens": 40889557.0,
      "step": 315
    },
    {
      "epoch": 0.1866841683074455,
      "grad_norm": 0.9282272868028981,
      "learning_rate": 4.899845697910489e-06,
      "loss": 0.3107,
      "num_tokens": 41527112.0,
      "step": 320
    },
    {
      "epoch": 0.18960110843724934,
      "grad_norm": 1.0142984274387226,
      "learning_rate": 4.89297205541715e-06,
      "loss": 0.2956,
      "num_tokens": 42174708.0,
      "step": 325
    },
    {
      "epoch": 0.19251804856705315,
      "grad_norm": 0.94082199561357,
      "learning_rate": 4.885876039051408e-06,
      "loss": 0.3036,
      "num_tokens": 42833989.0,
      "step": 330
    },
    {
      "epoch": 0.195434988696857,
      "grad_norm": 0.8795617704895345,
      "learning_rate": 4.878558385159143e-06,
      "loss": 0.3003,
      "num_tokens": 43474290.0,
      "step": 335
    },
    {
      "epoch": 0.19835192882666083,
      "grad_norm": 0.9139800219491324,
      "learning_rate": 4.871019853085316e-06,
      "loss": 0.3029,
      "num_tokens": 44122838.0,
      "step": 340
    },
    {
      "epoch": 0.20126886895646467,
      "grad_norm": 0.8791878844266291,
      "learning_rate": 4.863261225095175e-06,
      "loss": 0.3049,
      "num_tokens": 44765480.0,
      "step": 345
    },
    {
      "epoch": 0.20418580908626852,
      "grad_norm": 0.9330570752799386,
      "learning_rate": 4.8552833062930845e-06,
      "loss": 0.3015,
      "num_tokens": 45407609.0,
      "step": 350
    },
    {
      "epoch": 0.20710274921607233,
      "grad_norm": 0.9225382583005904,
      "learning_rate": 4.847086924538975e-06,
      "loss": 0.2978,
      "num_tokens": 46060798.0,
      "step": 355
    },
    {
      "epoch": 0.21001968934587617,
      "grad_norm": 0.8558296607114885,
      "learning_rate": 4.838672930362438e-06,
      "loss": 0.2905,
      "num_tokens": 46709898.0,
      "step": 360
    },
    {
      "epoch": 0.21293662947568,
      "grad_norm": 0.9179185863256109,
      "learning_rate": 4.830042196874472e-06,
      "loss": 0.2959,
      "num_tokens": 47348299.0,
      "step": 365
    },
    {
      "epoch": 0.21585356960548385,
      "grad_norm": 1.0020413746728303,
      "learning_rate": 4.821195619676876e-06,
      "loss": 0.3002,
      "num_tokens": 47999360.0,
      "step": 370
    },
    {
      "epoch": 0.2187705097352877,
      "grad_norm": 1.018829436170189,
      "learning_rate": 4.812134116769312e-06,
      "loss": 0.2991,
      "num_tokens": 48648746.0,
      "step": 375
    },
    {
      "epoch": 0.2216874498650915,
      "grad_norm": 0.8072570963933589,
      "learning_rate": 4.802858628454056e-06,
      "loss": 0.2954,
      "num_tokens": 49291864.0,
      "step": 380
    },
    {
      "epoch": 0.22460438999489535,
      "grad_norm": 0.8656524585655804,
      "learning_rate": 4.793370117238408e-06,
      "loss": 0.2974,
      "num_tokens": 49924252.0,
      "step": 385
    },
    {
      "epoch": 0.2275213301246992,
      "grad_norm": 0.9641199047655581,
      "learning_rate": 4.783669567734826e-06,
      "loss": 0.2957,
      "num_tokens": 50573685.0,
      "step": 390
    },
    {
      "epoch": 0.23043827025450303,
      "grad_norm": 0.861347598784612,
      "learning_rate": 4.773757986558753e-06,
      "loss": 0.2979,
      "num_tokens": 51218584.0,
      "step": 395
    },
    {
      "epoch": 0.23335521038430687,
      "grad_norm": 0.8842163371201908,
      "learning_rate": 4.763636402224151e-06,
      "loss": 0.2962,
      "num_tokens": 51861584.0,
      "step": 400
    },
    {
      "epoch": 0.23627215051411068,
      "grad_norm": 0.878225284278706,
      "learning_rate": 4.753305865036787e-06,
      "loss": 0.2955,
      "num_tokens": 52508212.0,
      "step": 405
    },
    {
      "epoch": 0.23918909064391453,
      "grad_norm": 0.8031110868754738,
      "learning_rate": 4.742767446985234e-06,
      "loss": 0.2922,
      "num_tokens": 53163579.0,
      "step": 410
    },
    {
      "epoch": 0.24210603077371837,
      "grad_norm": 0.8343368552841665,
      "learning_rate": 4.732022241629637e-06,
      "loss": 0.2931,
      "num_tokens": 53813987.0,
      "step": 415
    },
    {
      "epoch": 0.2450229709035222,
      "grad_norm": 0.8630238102806516,
      "learning_rate": 4.721071363988235e-06,
      "loss": 0.2982,
      "num_tokens": 54458534.0,
      "step": 420
    },
    {
      "epoch": 0.24793991103332605,
      "grad_norm": 0.9351317100576941,
      "learning_rate": 4.709915950421653e-06,
      "loss": 0.2945,
      "num_tokens": 55103014.0,
      "step": 425
    },
    {
      "epoch": 0.2508568511631299,
      "grad_norm": 0.7618644674246908,
      "learning_rate": 4.698557158514988e-06,
      "loss": 0.2887,
      "num_tokens": 55750812.0,
      "step": 430
    },
    {
      "epoch": 0.2537737912929337,
      "grad_norm": 0.9141914358485866,
      "learning_rate": 4.686996166957683e-06,
      "loss": 0.2863,
      "num_tokens": 56415186.0,
      "step": 435
    },
    {
      "epoch": 0.2566907314227376,
      "grad_norm": 0.8670353473454848,
      "learning_rate": 4.675234175421222e-06,
      "loss": 0.2944,
      "num_tokens": 57073650.0,
      "step": 440
    },
    {
      "epoch": 0.2596076715525414,
      "grad_norm": 0.8356969590262818,
      "learning_rate": 4.663272404434635e-06,
      "loss": 0.282,
      "num_tokens": 57723069.0,
      "step": 445
    },
    {
      "epoch": 0.2625246116823452,
      "grad_norm": 0.8590242663033663,
      "learning_rate": 4.6511120952578484e-06,
      "loss": 0.2937,
      "num_tokens": 58355368.0,
      "step": 450
    },
    {
      "epoch": 0.26544155181214907,
      "grad_norm": 0.8311176275082748,
      "learning_rate": 4.638754509752878e-06,
      "loss": 0.2849,
      "num_tokens": 59010770.0,
      "step": 455
    },
    {
      "epoch": 0.2683584919419529,
      "grad_norm": 0.7765138215505283,
      "learning_rate": 4.6262009302528915e-06,
      "loss": 0.2914,
      "num_tokens": 59655142.0,
      "step": 460
    },
    {
      "epoch": 0.27127543207175675,
      "grad_norm": 0.8510645253706016,
      "learning_rate": 4.61345265942914e-06,
      "loss": 0.2933,
      "num_tokens": 60310801.0,
      "step": 465
    },
    {
      "epoch": 0.27419237220156056,
      "grad_norm": 0.8647727996649098,
      "learning_rate": 4.600511020155778e-06,
      "loss": 0.292,
      "num_tokens": 60946658.0,
      "step": 470
    },
    {
      "epoch": 0.2771093123313644,
      "grad_norm": 0.8576390355319864,
      "learning_rate": 4.587377355372596e-06,
      "loss": 0.281,
      "num_tokens": 61605315.0,
      "step": 475
    },
    {
      "epoch": 0.28002625246116825,
      "grad_norm": 0.8307483318114488,
      "learning_rate": 4.57405302794566e-06,
      "loss": 0.2912,
      "num_tokens": 62241159.0,
      "step": 480
    },
    {
      "epoch": 0.28294319259097206,
      "grad_norm": 0.8170947578040902,
      "learning_rate": 4.5605394205258915e-06,
      "loss": 0.2841,
      "num_tokens": 62898288.0,
      "step": 485
    },
    {
      "epoch": 0.28586013272077593,
      "grad_norm": 0.7977667103966078,
      "learning_rate": 4.546837935405591e-06,
      "loss": 0.2886,
      "num_tokens": 63548706.0,
      "step": 490
    },
    {
      "epoch": 0.28877707285057974,
      "grad_norm": 0.7511481048444448,
      "learning_rate": 4.532949994372922e-06,
      "loss": 0.279,
      "num_tokens": 64197719.0,
      "step": 495
    },
    {
      "epoch": 0.29169401298038355,
      "grad_norm": 0.842785822348962,
      "learning_rate": 4.518877038564374e-06,
      "loss": 0.2875,
      "step": 500
    },
    {
      "epoch": 0.29169401298038355,
      "eval_loss": 0.2919166088104248,
      "eval_num_tokens": 64835967.0,
      "eval_runtime": 607.0454,
      "eval_samples_per_second": 9.512,
      "eval_steps_per_second": 1.189,
      "step": 500
    },
    {
      "epoch": 0.2946109531101874,
      "grad_norm": 0.8456252987397707,
      "learning_rate": 4.50462052831522e-06,
      "loss": 0.2801,
      "num_tokens": 65487785.0,
      "step": 505
    },
    {
      "epoch": 0.29752789323999124,
      "grad_norm": 0.8515474083238783,
      "learning_rate": 4.4901819430079766e-06,
      "loss": 0.286,
      "num_tokens": 66129435.0,
      "step": 510
    },
    {
      "epoch": 0.3004448333697951,
      "grad_norm": 0.8110396116725294,
      "learning_rate": 4.4755627809188885e-06,
      "loss": 0.2875,
      "num_tokens": 66771465.0,
      "step": 515
    },
    {
      "epoch": 0.3033617734995989,
      "grad_norm": 0.8418383316003125,
      "learning_rate": 4.460764559062458e-06,
      "loss": 0.2792,
      "num_tokens": 67431540.0,
      "step": 520
    },
    {
      "epoch": 0.30627871362940273,
      "grad_norm": 0.8038298071525373,
      "learning_rate": 4.445788813034024e-06,
      "loss": 0.2797,
      "num_tokens": 68091427.0,
      "step": 525
    },
    {
      "epoch": 0.3091956537592066,
      "grad_norm": 0.7984358870934393,
      "learning_rate": 4.430637096850415e-06,
      "loss": 0.285,
      "num_tokens": 68729070.0,
      "step": 530
    },
    {
      "epoch": 0.3121125938890104,
      "grad_norm": 0.7982707047946419,
      "learning_rate": 4.4153109827886894e-06,
      "loss": 0.2849,
      "num_tokens": 69362266.0,
      "step": 535
    },
    {
      "epoch": 0.3150295340188143,
      "grad_norm": 0.7799234091720675,
      "learning_rate": 4.399812061222983e-06,
      "loss": 0.2861,
      "num_tokens": 70009930.0,
      "step": 540
    },
    {
      "epoch": 0.3179464741486181,
      "grad_norm": 0.747692254769105,
      "learning_rate": 4.384141940459482e-06,
      "loss": 0.2741,
      "num_tokens": 70666725.0,
      "step": 545
    },
    {
      "epoch": 0.3208634142784219,
      "grad_norm": 0.7639045210347565,
      "learning_rate": 4.36830224656952e-06,
      "loss": 0.2836,
      "num_tokens": 71312430.0,
      "step": 550
    },
    {
      "epoch": 0.3237803544082258,
      "grad_norm": 0.8567326147977183,
      "learning_rate": 4.352294623220853e-06,
      "loss": 0.2779,
      "num_tokens": 71965843.0,
      "step": 555
    },
    {
      "epoch": 0.3266972945380296,
      "grad_norm": 0.7503638840006334,
      "learning_rate": 4.336120731507095e-06,
      "loss": 0.2855,
      "num_tokens": 72607619.0,
      "step": 560
    },
    {
      "epoch": 0.32961423466783346,
      "grad_norm": 0.8336861171448512,
      "learning_rate": 4.319782249775343e-06,
      "loss": 0.2847,
      "num_tokens": 73252562.0,
      "step": 565
    },
    {
      "epoch": 0.3325311747976373,
      "grad_norm": 0.7427393426882288,
      "learning_rate": 4.303280873452022e-06,
      "loss": 0.2816,
      "num_tokens": 73908807.0,
      "step": 570
    },
    {
      "epoch": 0.3354481149274411,
      "grad_norm": 0.7843824792691759,
      "learning_rate": 4.286618314866953e-06,
      "loss": 0.2797,
      "num_tokens": 74560574.0,
      "step": 575
    },
    {
      "epoch": 0.33836505505724496,
      "grad_norm": 0.8532809720671357,
      "learning_rate": 4.269796303075664e-06,
      "loss": 0.2781,
      "num_tokens": 75205963.0,
      "step": 580
    },
    {
      "epoch": 0.34128199518704877,
      "grad_norm": 0.8967749032980477,
      "learning_rate": 4.252816583679963e-06,
      "loss": 0.2751,
      "num_tokens": 75858339.0,
      "step": 585
    },
    {
      "epoch": 0.34419893531685264,
      "grad_norm": 0.8196696555568809,
      "learning_rate": 4.235680918646814e-06,
      "loss": 0.2784,
      "num_tokens": 76514016.0,
      "step": 590
    },
    {
      "epoch": 0.34711587544665645,
      "grad_norm": 0.7554149865661095,
      "learning_rate": 4.21839108612548e-06,
      "loss": 0.2814,
      "num_tokens": 77164716.0,
      "step": 595
    },
    {
      "epoch": 0.35003281557646027,
      "grad_norm": 0.8197543554878532,
      "learning_rate": 4.200948880263021e-06,
      "loss": 0.282,
      "num_tokens": 77819142.0,
      "step": 600
    },
    {
      "epoch": 0.35294975570626413,
      "grad_norm": 0.7819069868692291,
      "learning_rate": 4.1833561110181114e-06,
      "loss": 0.2749,
      "num_tokens": 78470837.0,
      "step": 605
    },
    {
      "epoch": 0.35586669583606795,
      "grad_norm": 0.7624342493126178,
      "learning_rate": 4.165614603973225e-06,
      "loss": 0.2714,
      "num_tokens": 79119573.0,
      "step": 610
    },
    {
      "epoch": 0.3587836359658718,
      "grad_norm": 0.8135356817337289,
      "learning_rate": 4.147726200145192e-06,
      "loss": 0.2806,
      "num_tokens": 79770527.0,
      "step": 615
    },
    {
      "epoch": 0.36170057609567563,
      "grad_norm": 0.8319746435652382,
      "learning_rate": 4.1296927557941625e-06,
      "loss": 0.2834,
      "num_tokens": 80407129.0,
      "step": 620
    },
    {
      "epoch": 0.3646175162254795,
      "grad_norm": 0.735739141141779,
      "learning_rate": 4.111516142230986e-06,
      "loss": 0.2757,
      "num_tokens": 81052753.0,
      "step": 625
    },
    {
      "epoch": 0.3675344563552833,
      "grad_norm": 0.846573883122655,
      "learning_rate": 4.093198245623022e-06,
      "loss": 0.2772,
      "num_tokens": 81714511.0,
      "step": 630
    },
    {
      "epoch": 0.3704513964850871,
      "grad_norm": 0.7908326978333728,
      "learning_rate": 4.074740966798417e-06,
      "loss": 0.283,
      "num_tokens": 82348887.0,
      "step": 635
    },
    {
      "epoch": 0.373368336614891,
      "grad_norm": 0.8345529774366899,
      "learning_rate": 4.056146221048861e-06,
      "loss": 0.2755,
      "num_tokens": 83005072.0,
      "step": 640
    },
    {
      "epoch": 0.3762852767446948,
      "grad_norm": 0.7749484381003374,
      "learning_rate": 4.037415937930834e-06,
      "loss": 0.2755,
      "num_tokens": 83654422.0,
      "step": 645
    },
    {
      "epoch": 0.3792022168744987,
      "grad_norm": 0.8080756818585327,
      "learning_rate": 4.018552061065385e-06,
      "loss": 0.272,
      "num_tokens": 84305056.0,
      "step": 650
    },
    {
      "epoch": 0.3821191570043025,
      "grad_norm": 0.7592070985510446,
      "learning_rate": 3.999556547936433e-06,
      "loss": 0.273,
      "num_tokens": 84966060.0,
      "step": 655
    },
    {
      "epoch": 0.3850360971341063,
      "grad_norm": 0.7467350800218409,
      "learning_rate": 3.980431369687657e-06,
      "loss": 0.2745,
      "num_tokens": 85611692.0,
      "step": 660
    },
    {
      "epoch": 0.38795303726391017,
      "grad_norm": 0.7445653677554013,
      "learning_rate": 3.961178510917938e-06,
      "loss": 0.2714,
      "num_tokens": 86262900.0,
      "step": 665
    },
    {
      "epoch": 0.390869977393714,
      "grad_norm": 0.8099790980661417,
      "learning_rate": 3.941799969475426e-06,
      "loss": 0.2751,
      "num_tokens": 86908951.0,
      "step": 670
    },
    {
      "epoch": 0.39378691752351785,
      "grad_norm": 0.7467746888717467,
      "learning_rate": 3.922297756250231e-06,
      "loss": 0.2744,
      "num_tokens": 87564239.0,
      "step": 675
    },
    {
      "epoch": 0.39670385765332167,
      "grad_norm": 0.7421894522465263,
      "learning_rate": 3.902673894965739e-06,
      "loss": 0.2702,
      "num_tokens": 88219647.0,
      "step": 680
    },
    {
      "epoch": 0.3996207977831255,
      "grad_norm": 0.7923957850204015,
      "learning_rate": 3.88293042196863e-06,
      "loss": 0.2702,
      "num_tokens": 88870400.0,
      "step": 685
    },
    {
      "epoch": 0.40253773791292935,
      "grad_norm": 0.7725993023883052,
      "learning_rate": 3.863069386017559e-06,
      "loss": 0.2717,
      "num_tokens": 89535848.0,
      "step": 690
    },
    {
      "epoch": 0.40545467804273316,
      "grad_norm": 0.8320813657749602,
      "learning_rate": 3.8430928480705595e-06,
      "loss": 0.2726,
      "num_tokens": 90195797.0,
      "step": 695
    },
    {
      "epoch": 0.40837161817253703,
      "grad_norm": 0.8571900056887798,
      "learning_rate": 3.823002881071182e-06,
      "loss": 0.2771,
      "num_tokens": 90835682.0,
      "step": 700
    },
    {
      "epoch": 0.41128855830234085,
      "grad_norm": 0.8077290373307574,
      "learning_rate": 3.802801569733385e-06,
      "loss": 0.2684,
      "num_tokens": 91492988.0,
      "step": 705
    },
    {
      "epoch": 0.41420549843214466,
      "grad_norm": 0.8310740585160218,
      "learning_rate": 3.7824910103252094e-06,
      "loss": 0.2768,
      "num_tokens": 92137905.0,
      "step": 710
    },
    {
      "epoch": 0.4171224385619485,
      "grad_norm": 0.9237206644265986,
      "learning_rate": 3.7620733104512457e-06,
      "loss": 0.2758,
      "num_tokens": 92776502.0,
      "step": 715
    },
    {
      "epoch": 0.42003937869175234,
      "grad_norm": 0.8284434037320695,
      "learning_rate": 3.741550588833938e-06,
      "loss": 0.2662,
      "num_tokens": 93433141.0,
      "step": 720
    },
    {
      "epoch": 0.4229563188215562,
      "grad_norm": 0.9021747063215075,
      "learning_rate": 3.7209249750937194e-06,
      "loss": 0.2634,
      "num_tokens": 94092197.0,
      "step": 725
    },
    {
      "epoch": 0.42587325895136,
      "grad_norm": 0.7649597308457907,
      "learning_rate": 3.700198609528027e-06,
      "loss": 0.2678,
      "num_tokens": 94749174.0,
      "step": 730
    },
    {
      "epoch": 0.42879019908116384,
      "grad_norm": 0.8551287347681367,
      "learning_rate": 3.679373642889205e-06,
      "loss": 0.2697,
      "num_tokens": 95391032.0,
      "step": 735
    },
    {
      "epoch": 0.4317071392109677,
      "grad_norm": 0.8445487754970025,
      "learning_rate": 3.6584522361613227e-06,
      "loss": 0.273,
      "num_tokens": 96025671.0,
      "step": 740
    },
    {
      "epoch": 0.4346240793407715,
      "grad_norm": 0.8242543858997644,
      "learning_rate": 3.6374365603359347e-06,
      "loss": 0.2715,
      "num_tokens": 96681900.0,
      "step": 745
    },
    {
      "epoch": 0.4375410194705754,
      "grad_norm": 0.7521563168334205,
      "learning_rate": 3.616328796186794e-06,
      "loss": 0.2739,
      "num_tokens": 97329386.0,
      "step": 750
    },
    {
      "epoch": 0.4404579596003792,
      "grad_norm": 0.7639680901548548,
      "learning_rate": 3.5951311340435597e-06,
      "loss": 0.2694,
      "num_tokens": 97984192.0,
      "step": 755
    },
    {
      "epoch": 0.443374899730183,
      "grad_norm": 0.8191966979168908,
      "learning_rate": 3.573845773564506e-06,
      "loss": 0.2806,
      "num_tokens": 98609082.0,
      "step": 760
    },
    {
      "epoch": 0.4462918398599869,
      "grad_norm": 0.7499933636633423,
      "learning_rate": 3.5524749235082728e-06,
      "loss": 0.2775,
      "num_tokens": 99257580.0,
      "step": 765
    },
    {
      "epoch": 0.4492087799897907,
      "grad_norm": 0.7666082048660494,
      "learning_rate": 3.5310208015046547e-06,
      "loss": 0.2723,
      "num_tokens": 99905650.0,
      "step": 770
    },
    {
      "epoch": 0.45212572011959457,
      "grad_norm": 0.7784513850949287,
      "learning_rate": 3.5094856338244882e-06,
      "loss": 0.2656,
      "num_tokens": 100566759.0,
      "step": 775
    },
    {
      "epoch": 0.4550426602493984,
      "grad_norm": 0.7687048053211798,
      "learning_rate": 3.4878716551486296e-06,
      "loss": 0.2686,
      "num_tokens": 101212126.0,
      "step": 780
    },
    {
      "epoch": 0.4579596003792022,
      "grad_norm": 0.7401530028975036,
      "learning_rate": 3.466181108336068e-06,
      "loss": 0.2685,
      "num_tokens": 101860711.0,
      "step": 785
    },
    {
      "epoch": 0.46087654050900606,
      "grad_norm": 0.7802127604735161,
      "learning_rate": 3.444416244191184e-06,
      "loss": 0.2598,
      "num_tokens": 102519189.0,
      "step": 790
    },
    {
      "epoch": 0.4637934806388099,
      "grad_norm": 0.7302813643945931,
      "learning_rate": 3.422579321230185e-06,
      "loss": 0.2685,
      "num_tokens": 103160558.0,
      "step": 795
    },
    {
      "epoch": 0.46671042076861374,
      "grad_norm": 0.7567428926637431,
      "learning_rate": 3.400672605446746e-06,
      "loss": 0.2712,
      "num_tokens": 103810545.0,
      "step": 800
    },
    {
      "epoch": 0.46962736089841756,
      "grad_norm": 0.7947132886702478,
      "learning_rate": 3.378698370076865e-06,
      "loss": 0.2638,
      "num_tokens": 104469048.0,
      "step": 805
    },
    {
      "epoch": 0.47254430102822137,
      "grad_norm": 0.7489500326982721,
      "learning_rate": 3.356658895362974e-06,
      "loss": 0.2635,
      "num_tokens": 105117259.0,
      "step": 810
    },
    {
      "epoch": 0.47546124115802524,
      "grad_norm": 0.7399063281750166,
      "learning_rate": 3.334556468317322e-06,
      "loss": 0.27,
      "num_tokens": 105774310.0,
      "step": 815
    },
    {
      "epoch": 0.47837818128782905,
      "grad_norm": 0.7424437913245191,
      "learning_rate": 3.3123933824846517e-06,
      "loss": 0.2684,
      "num_tokens": 106428467.0,
      "step": 820
    },
    {
      "epoch": 0.4812951214176329,
      "grad_norm": 0.7811616460589765,
      "learning_rate": 3.2901719377042003e-06,
      "loss": 0.2696,
      "num_tokens": 107061957.0,
      "step": 825
    },
    {
      "epoch": 0.48421206154743673,
      "grad_norm": 0.7783258486139423,
      "learning_rate": 3.2678944398710535e-06,
      "loss": 0.2678,
      "num_tokens": 107719199.0,
      "step": 830
    },
    {
      "epoch": 0.48712900167724055,
      "grad_norm": 0.7442082974547359,
      "learning_rate": 3.2455632006968564e-06,
      "loss": 0.2707,
      "num_tokens": 108361807.0,
      "step": 835
    },
    {
      "epoch": 0.4900459418070444,
      "grad_norm": 0.8335118191013446,
      "learning_rate": 3.223180537469938e-06,
      "loss": 0.2685,
      "num_tokens": 109023908.0,
      "step": 840
    },
    {
      "epoch": 0.49296288193684823,
      "grad_norm": 0.8143593010585404,
      "learning_rate": 3.200748772814844e-06,
      "loss": 0.2568,
      "num_tokens": 109686862.0,
      "step": 845
    },
    {
      "epoch": 0.4958798220666521,
      "grad_norm": 0.7520724315341328,
      "learning_rate": 3.1782702344513215e-06,
      "loss": 0.2672,
      "num_tokens": 110334249.0,
      "step": 850
    },
    {
      "epoch": 0.4987967621964559,
      "grad_norm": 0.815740114045852,
      "learning_rate": 3.1557472549527747e-06,
      "loss": 0.2683,
      "num_tokens": 110979258.0,
      "step": 855
    },
    {
      "epoch": 0.5017137023262598,
      "grad_norm": 0.7615346749658897,
      "learning_rate": 3.133182171504214e-06,
      "loss": 0.2705,
      "num_tokens": 111627607.0,
      "step": 860
    },
    {
      "epoch": 0.5046306424560636,
      "grad_norm": 0.7377420156460701,
      "learning_rate": 3.110577325659734e-06,
      "loss": 0.2641,
      "num_tokens": 112274873.0,
      "step": 865
    },
    {
      "epoch": 0.5075475825858674,
      "grad_norm": 0.7594301553570462,
      "learning_rate": 3.0879350630995284e-06,
      "loss": 0.269,
      "num_tokens": 112919725.0,
      "step": 870
    },
    {
      "epoch": 0.5104645227156712,
      "grad_norm": 0.7410575764679137,
      "learning_rate": 3.0652577333864812e-06,
      "loss": 0.2631,
      "num_tokens": 113555644.0,
      "step": 875
    },
    {
      "epoch": 0.5133814628454751,
      "grad_norm": 0.704313192599332,
      "learning_rate": 3.0425476897223584e-06,
      "loss": 0.2675,
      "num_tokens": 114209967.0,
      "step": 880
    },
    {
      "epoch": 0.516298402975279,
      "grad_norm": 0.736657690371885,
      "learning_rate": 3.019807288703615e-06,
      "loss": 0.2619,
      "num_tokens": 114858656.0,
      "step": 885
    },
    {
      "epoch": 0.5192153431050828,
      "grad_norm": 0.7193265786128393,
      "learning_rate": 2.99703889007686e-06,
      "loss": 0.2607,
      "num_tokens": 115522152.0,
      "step": 890
    },
    {
      "epoch": 0.5221322832348866,
      "grad_norm": 0.7628360034806287,
      "learning_rate": 2.9742448564939785e-06,
      "loss": 0.2631,
      "num_tokens": 116166917.0,
      "step": 895
    },
    {
      "epoch": 0.5250492233646904,
      "grad_norm": 0.6999122866225431,
      "learning_rate": 2.95142755326697e-06,
      "loss": 0.2615,
      "num_tokens": 116825281.0,
      "step": 900
    },
    {
      "epoch": 0.5279661634944943,
      "grad_norm": 0.7387421289481005,
      "learning_rate": 2.9285893481224976e-06,
      "loss": 0.2598,
      "num_tokens": 117485851.0,
      "step": 905
    },
    {
      "epoch": 0.5308831036242981,
      "grad_norm": 0.7308365415459419,
      "learning_rate": 2.9057326109561955e-06,
      "loss": 0.2683,
      "num_tokens": 118131039.0,
      "step": 910
    },
    {
      "epoch": 0.533800043754102,
      "grad_norm": 0.749191739274934,
      "learning_rate": 2.8828597135867446e-06,
      "loss": 0.2637,
      "num_tokens": 118788743.0,
      "step": 915
    },
    {
      "epoch": 0.5367169838839058,
      "grad_norm": 0.6996327246632901,
      "learning_rate": 2.859973029509753e-06,
      "loss": 0.2566,
      "num_tokens": 119459183.0,
      "step": 920
    },
    {
      "epoch": 0.5396339240137096,
      "grad_norm": 0.7352936356934089,
      "learning_rate": 2.83707493365146e-06,
      "loss": 0.2628,
      "num_tokens": 120112221.0,
      "step": 925
    },
    {
      "epoch": 0.5425508641435135,
      "grad_norm": 0.7435684201690553,
      "learning_rate": 2.8141678021222933e-06,
      "loss": 0.2582,
      "num_tokens": 120767163.0,
      "step": 930
    },
    {
      "epoch": 0.5454678042733173,
      "grad_norm": 0.7469734022911808,
      "learning_rate": 2.791254011970301e-06,
      "loss": 0.2617,
      "num_tokens": 121424605.0,
      "step": 935
    },
    {
      "epoch": 0.5483847444031211,
      "grad_norm": 0.831628122592939,
      "learning_rate": 2.7683359409344905e-06,
      "loss": 0.268,
      "num_tokens": 122067259.0,
      "step": 940
    },
    {
      "epoch": 0.5513016845329249,
      "grad_norm": 0.7058398296411345,
      "learning_rate": 2.745415967198093e-06,
      "loss": 0.2604,
      "num_tokens": 122715159.0,
      "step": 945
    },
    {
      "epoch": 0.5542186246627288,
      "grad_norm": 0.7494624912602978,
      "learning_rate": 2.722496469141779e-06,
      "loss": 0.2651,
      "num_tokens": 123362236.0,
      "step": 950
    },
    {
      "epoch": 0.5571355647925327,
      "grad_norm": 0.7258678250200332,
      "learning_rate": 2.699579825096857e-06,
      "loss": 0.2618,
      "num_tokens": 124015218.0,
      "step": 955
    },
    {
      "epoch": 0.5600525049223365,
      "grad_norm": 0.7341744396225116,
      "learning_rate": 2.6766684130984818e-06,
      "loss": 0.2572,
      "num_tokens": 124675985.0,
      "step": 960
    },
    {
      "epoch": 0.5629694450521403,
      "grad_norm": 0.7525066706190985,
      "learning_rate": 2.653764610638881e-06,
      "loss": 0.269,
      "num_tokens": 125318780.0,
      "step": 965
    },
    {
      "epoch": 0.5658863851819441,
      "grad_norm": 0.7070967296446744,
      "learning_rate": 2.6308707944206487e-06,
      "loss": 0.2633,
      "num_tokens": 125960519.0,
      "step": 970
    },
    {
      "epoch": 0.5688033253117479,
      "grad_norm": 0.8117781499205848,
      "learning_rate": 2.607989340110121e-06,
      "loss": 0.253,
      "num_tokens": 126612799.0,
      "step": 975
    },
    {
      "epoch": 0.5717202654415519,
      "grad_norm": 0.8230653072830554,
      "learning_rate": 2.5851226220908504e-06,
      "loss": 0.2635,
      "num_tokens": 127264361.0,
      "step": 980
    },
    {
      "epoch": 0.5746372055713557,
      "grad_norm": 0.7455583223342913,
      "learning_rate": 2.562273013217218e-06,
      "loss": 0.255,
      "num_tokens": 127923767.0,
      "step": 985
    },
    {
      "epoch": 0.5775541457011595,
      "grad_norm": 0.7147344305695292,
      "learning_rate": 2.539442884568211e-06,
      "loss": 0.2602,
      "num_tokens": 128575147.0,
      "step": 990
    },
    {
      "epoch": 0.5804710858309633,
      "grad_norm": 0.7600547271857367,
      "learning_rate": 2.5166346052013734e-06,
      "loss": 0.2641,
      "num_tokens": 129214237.0,
      "step": 995
    },
    {
      "epoch": 0.5833880259607671,
      "grad_norm": 0.7206909091322524,
      "learning_rate": 2.4938505419069737e-06,
      "loss": 0.2577,
      "step": 1000
    },
    {
      "epoch": 0.5833880259607671,
      "eval_loss": 0.26930177211761475,
      "eval_num_tokens": 129877296.0,
      "eval_runtime": 606.8545,
      "eval_samples_per_second": 9.515,
      "eval_steps_per_second": 1.19,
      "step": 1000
    },
    {
      "epoch": 0.586304966090571,
      "grad_norm": 0.7466554827885014,
      "learning_rate": 2.4710930589624043e-06,
      "loss": 0.2602,
      "num_tokens": 130530753.0,
      "step": 1005
    },
    {
      "epoch": 0.5892219062203748,
      "grad_norm": 0.7013242727168574,
      "learning_rate": 2.4483645178868436e-06,
      "loss": 0.2616,
      "num_tokens": 131184795.0,
      "step": 1010
    },
    {
      "epoch": 0.5921388463501787,
      "grad_norm": 0.7303527963137023,
      "learning_rate": 2.425667277196205e-06,
      "loss": 0.2616,
      "num_tokens": 131833437.0,
      "step": 1015
    },
    {
      "epoch": 0.5950557864799825,
      "grad_norm": 0.7597802888794695,
      "learning_rate": 2.4030036921583934e-06,
      "loss": 0.2635,
      "num_tokens": 132476407.0,
      "step": 1020
    },
    {
      "epoch": 0.5979727266097863,
      "grad_norm": 0.7321326326803199,
      "learning_rate": 2.380376114548905e-06,
      "loss": 0.2617,
      "num_tokens": 133125006.0,
      "step": 1025
    },
    {
      "epoch": 0.6008896667395902,
      "grad_norm": 0.7477558525389575,
      "learning_rate": 2.3577868924067838e-06,
      "loss": 0.2643,
      "num_tokens": 133764184.0,
      "step": 1030
    },
    {
      "epoch": 0.603806606869394,
      "grad_norm": 0.7371422608331385,
      "learning_rate": 2.3352383697909685e-06,
      "loss": 0.2632,
      "num_tokens": 134406666.0,
      "step": 1035
    },
    {
      "epoch": 0.6067235469991978,
      "grad_norm": 0.7024783158223801,
      "learning_rate": 2.312732886537052e-06,
      "loss": 0.2653,
      "num_tokens": 135049458.0,
      "step": 1040
    },
    {
      "epoch": 0.6096404871290017,
      "grad_norm": 0.8211525577416321,
      "learning_rate": 2.29027277801448e-06,
      "loss": 0.2671,
      "num_tokens": 135688028.0,
      "step": 1045
    },
    {
      "epoch": 0.6125574272588055,
      "grad_norm": 0.7260530233158418,
      "learning_rate": 2.267860374884213e-06,
      "loss": 0.2608,
      "num_tokens": 136332563.0,
      "step": 1050
    },
    {
      "epoch": 0.6154743673886094,
      "grad_norm": 0.7237919339071723,
      "learning_rate": 2.245498002856874e-06,
      "loss": 0.2695,
      "num_tokens": 136969734.0,
      "step": 1055
    },
    {
      "epoch": 0.6183913075184132,
      "grad_norm": 0.7166004321712101,
      "learning_rate": 2.2231879824514114e-06,
      "loss": 0.2567,
      "num_tokens": 137629065.0,
      "step": 1060
    },
    {
      "epoch": 0.621308247648217,
      "grad_norm": 0.7787197697033867,
      "learning_rate": 2.2009326287543046e-06,
      "loss": 0.2618,
      "num_tokens": 138279952.0,
      "step": 1065
    },
    {
      "epoch": 0.6242251877780208,
      "grad_norm": 0.6982641924108115,
      "learning_rate": 2.1787342511793303e-06,
      "loss": 0.2597,
      "num_tokens": 138944342.0,
      "step": 1070
    },
    {
      "epoch": 0.6271421279078246,
      "grad_norm": 0.8243944743016064,
      "learning_rate": 2.156595153227911e-06,
      "loss": 0.2582,
      "num_tokens": 139600367.0,
      "step": 1075
    },
    {
      "epoch": 0.6300590680376286,
      "grad_norm": 0.705060051861865,
      "learning_rate": 2.13451763225009e-06,
      "loss": 0.2604,
      "num_tokens": 140246371.0,
      "step": 1080
    },
    {
      "epoch": 0.6329760081674324,
      "grad_norm": 0.7503341319778662,
      "learning_rate": 2.1125039792061346e-06,
      "loss": 0.2563,
      "num_tokens": 140910612.0,
      "step": 1085
    },
    {
      "epoch": 0.6358929482972362,
      "grad_norm": 0.7326327629747243,
      "learning_rate": 2.0905564784288064e-06,
      "loss": 0.2585,
      "num_tokens": 141553868.0,
      "step": 1090
    },
    {
      "epoch": 0.63880988842704,
      "grad_norm": 0.6920238893073031,
      "learning_rate": 2.0686774073863183e-06,
      "loss": 0.2565,
      "num_tokens": 142205978.0,
      "step": 1095
    },
    {
      "epoch": 0.6417268285568438,
      "grad_norm": 0.6510224963751594,
      "learning_rate": 2.0468690364460032e-06,
      "loss": 0.2565,
      "num_tokens": 142857100.0,
      "step": 1100
    },
    {
      "epoch": 0.6446437686866477,
      "grad_norm": 0.6599839401381369,
      "learning_rate": 2.0251336286387246e-06,
      "loss": 0.2617,
      "num_tokens": 143495777.0,
      "step": 1105
    },
    {
      "epoch": 0.6475607088164516,
      "grad_norm": 0.7089053743039415,
      "learning_rate": 2.003473439424037e-06,
      "loss": 0.2584,
      "num_tokens": 144146951.0,
      "step": 1110
    },
    {
      "epoch": 0.6504776489462554,
      "grad_norm": 0.7050086097047953,
      "learning_rate": 1.9818907164561474e-06,
      "loss": 0.257,
      "num_tokens": 144810496.0,
      "step": 1115
    },
    {
      "epoch": 0.6533945890760592,
      "grad_norm": 0.7065809279806768,
      "learning_rate": 1.960387699350673e-06,
      "loss": 0.253,
      "num_tokens": 145474023.0,
      "step": 1120
    },
    {
      "epoch": 0.656311529205863,
      "grad_norm": 0.6817968898182568,
      "learning_rate": 1.9389666194522416e-06,
      "loss": 0.2537,
      "num_tokens": 146127061.0,
      "step": 1125
    },
    {
      "epoch": 0.6592284693356669,
      "grad_norm": 0.6971530178141796,
      "learning_rate": 1.9176296996029455e-06,
      "loss": 0.2578,
      "num_tokens": 146773999.0,
      "step": 1130
    },
    {
      "epoch": 0.6621454094654707,
      "grad_norm": 0.6988660614645226,
      "learning_rate": 1.8963791539116794e-06,
      "loss": 0.2666,
      "num_tokens": 147430519.0,
      "step": 1135
    },
    {
      "epoch": 0.6650623495952745,
      "grad_norm": 0.6816286030007941,
      "learning_rate": 1.8752171875243897e-06,
      "loss": 0.262,
      "num_tokens": 148066664.0,
      "step": 1140
    },
    {
      "epoch": 0.6679792897250784,
      "grad_norm": 0.7126285198313497,
      "learning_rate": 1.8541459963952401e-06,
      "loss": 0.2601,
      "num_tokens": 148720599.0,
      "step": 1145
    },
    {
      "epoch": 0.6708962298548822,
      "grad_norm": 0.7037838851267119,
      "learning_rate": 1.8331677670587489e-06,
      "loss": 0.2528,
      "num_tokens": 149376150.0,
      "step": 1150
    },
    {
      "epoch": 0.6738131699846861,
      "grad_norm": 0.6792075345055252,
      "learning_rate": 1.812284676402889e-06,
      "loss": 0.26,
      "num_tokens": 150027491.0,
      "step": 1155
    },
    {
      "epoch": 0.6767301101144899,
      "grad_norm": 0.7040261399080605,
      "learning_rate": 1.7914988914431958e-06,
      "loss": 0.259,
      "num_tokens": 150660086.0,
      "step": 1160
    },
    {
      "epoch": 0.6796470502442937,
      "grad_norm": 0.6648535996212904,
      "learning_rate": 1.7708125690978973e-06,
      "loss": 0.2655,
      "num_tokens": 151309337.0,
      "step": 1165
    },
    {
      "epoch": 0.6825639903740975,
      "grad_norm": 0.6741039676243594,
      "learning_rate": 1.7502278559641e-06,
      "loss": 0.2507,
      "num_tokens": 151979288.0,
      "step": 1170
    },
    {
      "epoch": 0.6854809305039014,
      "grad_norm": 0.7223785116591079,
      "learning_rate": 1.7297468880950275e-06,
      "loss": 0.2526,
      "num_tokens": 152620736.0,
      "step": 1175
    },
    {
      "epoch": 0.6883978706337053,
      "grad_norm": 0.71888709276944,
      "learning_rate": 1.7093717907783725e-06,
      "loss": 0.2545,
      "num_tokens": 153271814.0,
      "step": 1180
    },
    {
      "epoch": 0.6913148107635091,
      "grad_norm": 0.7011433481080431,
      "learning_rate": 1.6891046783157577e-06,
      "loss": 0.2581,
      "num_tokens": 153915885.0,
      "step": 1185
    },
    {
      "epoch": 0.6942317508933129,
      "grad_norm": 0.6971584228497759,
      "learning_rate": 1.668947653803332e-06,
      "loss": 0.2546,
      "num_tokens": 154563968.0,
      "step": 1190
    },
    {
      "epoch": 0.6971486910231167,
      "grad_norm": 0.6937613383330592,
      "learning_rate": 1.6489028089135412e-06,
      "loss": 0.2463,
      "num_tokens": 155221150.0,
      "step": 1195
    },
    {
      "epoch": 0.7000656311529205,
      "grad_norm": 0.6720452077680567,
      "learning_rate": 1.6289722236780708e-06,
      "loss": 0.2502,
      "num_tokens": 155880854.0,
      "step": 1200
    },
    {
      "epoch": 0.7029825712827245,
      "grad_norm": 0.6689718636612152,
      "learning_rate": 1.6091579662720085e-06,
      "loss": 0.2531,
      "num_tokens": 156532788.0,
      "step": 1205
    },
    {
      "epoch": 0.7058995114125283,
      "grad_norm": 0.6985724612112554,
      "learning_rate": 1.5894620927992305e-06,
      "loss": 0.2605,
      "num_tokens": 157167180.0,
      "step": 1210
    },
    {
      "epoch": 0.7088164515423321,
      "grad_norm": 0.6942595792183339,
      "learning_rate": 1.5698866470790408e-06,
      "loss": 0.258,
      "num_tokens": 157808661.0,
      "step": 1215
    },
    {
      "epoch": 0.7117333916721359,
      "grad_norm": 0.7393405366673821,
      "learning_rate": 1.5504336604340859e-06,
      "loss": 0.2608,
      "num_tokens": 158443489.0,
      "step": 1220
    },
    {
      "epoch": 0.7146503318019398,
      "grad_norm": 0.696046187620723,
      "learning_rate": 1.5311051514795689e-06,
      "loss": 0.2591,
      "num_tokens": 159097248.0,
      "step": 1225
    },
    {
      "epoch": 0.7175672719317436,
      "grad_norm": 0.7084153212550849,
      "learning_rate": 1.5119031259137786e-06,
      "loss": 0.2562,
      "num_tokens": 159743190.0,
      "step": 1230
    },
    {
      "epoch": 0.7204842120615474,
      "grad_norm": 0.6725011714593201,
      "learning_rate": 1.4928295763099595e-06,
      "loss": 0.2529,
      "num_tokens": 160396904.0,
      "step": 1235
    },
    {
      "epoch": 0.7234011521913513,
      "grad_norm": 0.6856495761276756,
      "learning_rate": 1.4738864819095478e-06,
      "loss": 0.2543,
      "num_tokens": 161055037.0,
      "step": 1240
    },
    {
      "epoch": 0.7263180923211551,
      "grad_norm": 0.7081376166916774,
      "learning_rate": 1.4550758084167823e-06,
      "loss": 0.2533,
      "num_tokens": 161700367.0,
      "step": 1245
    },
    {
      "epoch": 0.729235032450959,
      "grad_norm": 0.7282253192634598,
      "learning_rate": 1.4363995077947318e-06,
      "loss": 0.2546,
      "num_tokens": 162355019.0,
      "step": 1250
    },
    {
      "epoch": 0.7321519725807628,
      "grad_norm": 0.7108867304573279,
      "learning_rate": 1.417859518062738e-06,
      "loss": 0.2533,
      "num_tokens": 163009473.0,
      "step": 1255
    },
    {
      "epoch": 0.7350689127105666,
      "grad_norm": 0.738875262700529,
      "learning_rate": 1.3994577630953085e-06,
      "loss": 0.2547,
      "num_tokens": 163653401.0,
      "step": 1260
    },
    {
      "epoch": 0.7379858528403704,
      "grad_norm": 0.7123900645871708,
      "learning_rate": 1.3811961524224838e-06,
      "loss": 0.2533,
      "num_tokens": 164289474.0,
      "step": 1265
    },
    {
      "epoch": 0.7409027929701743,
      "grad_norm": 0.6990962992278738,
      "learning_rate": 1.3630765810316799e-06,
      "loss": 0.2567,
      "num_tokens": 164934739.0,
      "step": 1270
    },
    {
      "epoch": 0.7438197330999782,
      "grad_norm": 0.6669983685444099,
      "learning_rate": 1.3451009291710542e-06,
      "loss": 0.2585,
      "num_tokens": 165575672.0,
      "step": 1275
    },
    {
      "epoch": 0.746736673229782,
      "grad_norm": 0.7073054240039277,
      "learning_rate": 1.3272710621543892e-06,
      "loss": 0.2573,
      "num_tokens": 166218647.0,
      "step": 1280
    },
    {
      "epoch": 0.7496536133595858,
      "grad_norm": 0.6996340662532436,
      "learning_rate": 1.309588830167536e-06,
      "loss": 0.2522,
      "num_tokens": 166862632.0,
      "step": 1285
    },
    {
      "epoch": 0.7525705534893896,
      "grad_norm": 0.6495777967486374,
      "learning_rate": 1.2920560680764165e-06,
      "loss": 0.248,
      "num_tokens": 167522240.0,
      "step": 1290
    },
    {
      "epoch": 0.7554874936191934,
      "grad_norm": 0.6766776525299425,
      "learning_rate": 1.2746745952366275e-06,
      "loss": 0.2562,
      "num_tokens": 168165718.0,
      "step": 1295
    },
    {
      "epoch": 0.7584044337489974,
      "grad_norm": 0.6999453291755761,
      "learning_rate": 1.2574462153046441e-06,
      "loss": 0.2485,
      "num_tokens": 168807354.0,
      "step": 1300
    },
    {
      "epoch": 0.7613213738788012,
      "grad_norm": 0.7152644225884192,
      "learning_rate": 1.2403727160506559e-06,
      "loss": 0.2513,
      "num_tokens": 169454180.0,
      "step": 1305
    },
    {
      "epoch": 0.764238314008605,
      "grad_norm": 0.7584000327886278,
      "learning_rate": 1.223455869173056e-06,
      "loss": 0.2504,
      "num_tokens": 170107668.0,
      "step": 1310
    },
    {
      "epoch": 0.7671552541384088,
      "grad_norm": 0.7152181281311917,
      "learning_rate": 1.2066974301145894e-06,
      "loss": 0.2512,
      "num_tokens": 170776144.0,
      "step": 1315
    },
    {
      "epoch": 0.7700721942682126,
      "grad_norm": 0.6866226845485066,
      "learning_rate": 1.1900991378801964e-06,
      "loss": 0.2499,
      "num_tokens": 171435095.0,
      "step": 1320
    },
    {
      "epoch": 0.7729891343980165,
      "grad_norm": 0.6735969955763711,
      "learning_rate": 1.1736627148565535e-06,
      "loss": 0.2615,
      "num_tokens": 172069945.0,
      "step": 1325
    },
    {
      "epoch": 0.7759060745278203,
      "grad_norm": 0.6769254505017823,
      "learning_rate": 1.157389866633348e-06,
      "loss": 0.2541,
      "num_tokens": 172711887.0,
      "step": 1330
    },
    {
      "epoch": 0.7788230146576242,
      "grad_norm": 0.6864239159115998,
      "learning_rate": 1.1412822818262878e-06,
      "loss": 0.2615,
      "num_tokens": 173345085.0,
      "step": 1335
    },
    {
      "epoch": 0.781739954787428,
      "grad_norm": 0.6544576958268565,
      "learning_rate": 1.125341631901876e-06,
      "loss": 0.2474,
      "num_tokens": 174003670.0,
      "step": 1340
    },
    {
      "epoch": 0.7846568949172318,
      "grad_norm": 0.7167627785876729,
      "learning_rate": 1.1095695710039664e-06,
      "loss": 0.2461,
      "num_tokens": 174665311.0,
      "step": 1345
    },
    {
      "epoch": 0.7875738350470357,
      "grad_norm": 0.6967456396248081,
      "learning_rate": 1.0939677357821108e-06,
      "loss": 0.2502,
      "num_tokens": 175333482.0,
      "step": 1350
    },
    {
      "epoch": 0.7904907751768395,
      "grad_norm": 0.6554592221795399,
      "learning_rate": 1.0785377452217311e-06,
      "loss": 0.2584,
      "num_tokens": 175979449.0,
      "step": 1355
    },
    {
      "epoch": 0.7934077153066433,
      "grad_norm": 0.7217595270594653,
      "learning_rate": 1.0632812004761151e-06,
      "loss": 0.2499,
      "num_tokens": 176633907.0,
      "step": 1360
    },
    {
      "epoch": 0.7963246554364471,
      "grad_norm": 0.7551295435283932,
      "learning_rate": 1.0481996847002676e-06,
      "loss": 0.2578,
      "num_tokens": 177281038.0,
      "step": 1365
    },
    {
      "epoch": 0.799241595566251,
      "grad_norm": 0.6910502578978669,
      "learning_rate": 1.0332947628866273e-06,
      "loss": 0.2498,
      "num_tokens": 177933039.0,
      "step": 1370
    },
    {
      "epoch": 0.8021585356960549,
      "grad_norm": 0.754379938006766,
      "learning_rate": 1.0185679817026715e-06,
      "loss": 0.2598,
      "num_tokens": 178571449.0,
      "step": 1375
    },
    {
      "epoch": 0.8050754758258587,
      "grad_norm": 0.7047158933352724,
      "learning_rate": 1.0040208693304183e-06,
      "loss": 0.2527,
      "num_tokens": 179222448.0,
      "step": 1380
    },
    {
      "epoch": 0.8079924159556625,
      "grad_norm": 0.6828505685689316,
      "learning_rate": 9.89654935307848e-07,
      "loss": 0.2461,
      "num_tokens": 179879241.0,
      "step": 1385
    },
    {
      "epoch": 0.8109093560854663,
      "grad_norm": 0.6771418194041229,
      "learning_rate": 9.754716703722635e-07,
      "loss": 0.2414,
      "num_tokens": 180533247.0,
      "step": 1390
    },
    {
      "epoch": 0.8138262962152701,
      "grad_norm": 0.7007884150797864,
      "learning_rate": 9.614725463055931e-07,
      "loss": 0.2529,
      "num_tokens": 181185988.0,
      "step": 1395
    },
    {
      "epoch": 0.8167432363450741,
      "grad_norm": 0.6824664341297477,
      "learning_rate": 9.476590157816701e-07,
      "loss": 0.2479,
      "num_tokens": 181833806.0,
      "step": 1400
    },
    {
      "epoch": 0.8196601764748779,
      "grad_norm": 0.6891923290032487,
      "learning_rate": 9.340325122154878e-07,
      "loss": 0.2534,
      "num_tokens": 182489536.0,
      "step": 1405
    },
    {
      "epoch": 0.8225771166046817,
      "grad_norm": 0.6551819491577674,
      "learning_rate": 9.205944496144556e-07,
      "loss": 0.2562,
      "num_tokens": 183137459.0,
      "step": 1410
    },
    {
      "epoch": 0.8254940567344855,
      "grad_norm": 0.6780707489452672,
      "learning_rate": 9.073462224316707e-07,
      "loss": 0.2517,
      "num_tokens": 183792373.0,
      "step": 1415
    },
    {
      "epoch": 0.8284109968642893,
      "grad_norm": 0.7204857407993234,
      "learning_rate": 8.942892054212143e-07,
      "loss": 0.2464,
      "num_tokens": 184441827.0,
      "step": 1420
    },
    {
      "epoch": 0.8313279369940932,
      "grad_norm": 0.6825321330902426,
      "learning_rate": 8.814247534954983e-07,
      "loss": 0.2579,
      "num_tokens": 185083484.0,
      "step": 1425
    },
    {
      "epoch": 0.834244877123897,
      "grad_norm": 0.6872572252386618,
      "learning_rate": 8.687542015846639e-07,
      "loss": 0.251,
      "num_tokens": 185729474.0,
      "step": 1430
    },
    {
      "epoch": 0.8371618172537009,
      "grad_norm": 0.6693586713948375,
      "learning_rate": 8.562788644980624e-07,
      "loss": 0.2551,
      "num_tokens": 186367602.0,
      "step": 1435
    },
    {
      "epoch": 0.8400787573835047,
      "grad_norm": 0.6693351839442246,
      "learning_rate": 8.440000367878115e-07,
      "loss": 0.2461,
      "num_tokens": 187029809.0,
      "step": 1440
    },
    {
      "epoch": 0.8429956975133085,
      "grad_norm": 0.6612036940678491,
      "learning_rate": 8.319189926144688e-07,
      "loss": 0.2603,
      "num_tokens": 187661206.0,
      "step": 1445
    },
    {
      "epoch": 0.8459126376431124,
      "grad_norm": 0.7052665465574653,
      "learning_rate": 8.200369856148089e-07,
      "loss": 0.2529,
      "num_tokens": 188311846.0,
      "step": 1450
    },
    {
      "epoch": 0.8488295777729162,
      "grad_norm": 0.6762543975412322,
      "learning_rate": 8.083552487717358e-07,
      "loss": 0.2537,
      "num_tokens": 188955988.0,
      "step": 1455
    },
    {
      "epoch": 0.85174651790272,
      "grad_norm": 0.6721934560955151,
      "learning_rate": 7.968749942863385e-07,
      "loss": 0.2501,
      "num_tokens": 189599140.0,
      "step": 1460
    },
    {
      "epoch": 0.8546634580325239,
      "grad_norm": 0.6503378706269101,
      "learning_rate": 7.855974134520999e-07,
      "loss": 0.2473,
      "num_tokens": 190256401.0,
      "step": 1465
    },
    {
      "epoch": 0.8575803981623277,
      "grad_norm": 0.6495651095442819,
      "learning_rate": 7.745236765312819e-07,
      "loss": 0.2487,
      "num_tokens": 190907001.0,
      "step": 1470
    },
    {
      "epoch": 0.8604973382921316,
      "grad_norm": 0.6764051152149712,
      "learning_rate": 7.636549326334825e-07,
      "loss": 0.2479,
      "num_tokens": 191572136.0,
      "step": 1475
    },
    {
      "epoch": 0.8634142784219354,
      "grad_norm": 0.702694098122959,
      "learning_rate": 7.529923095963999e-07,
      "loss": 0.2522,
      "num_tokens": 192216543.0,
      "step": 1480
    },
    {
      "epoch": 0.8663312185517392,
      "grad_norm": 0.6588549258396081,
      "learning_rate": 7.425369138687957e-07,
      "loss": 0.2503,
      "num_tokens": 192860250.0,
      "step": 1485
    },
    {
      "epoch": 0.869248158681543,
      "grad_norm": 0.6562339402697235,
      "learning_rate": 7.322898303956773e-07,
      "loss": 0.2484,
      "num_tokens": 193511652.0,
      "step": 1490
    },
    {
      "epoch": 0.8721650988113469,
      "grad_norm": 0.6661710288623146,
      "learning_rate": 7.222521225057187e-07,
      "loss": 0.2563,
      "num_tokens": 194153588.0,
      "step": 1495
    },
    {
      "epoch": 0.8750820389411508,
      "grad_norm": 0.6331619973050456,
      "learning_rate": 7.124248318009164e-07,
      "loss": 0.2498,
      "step": 1500
    },
    {
      "epoch": 0.8750820389411508,
      "eval_loss": 0.258480429649353,
      "eval_num_tokens": 194799133.0,
      "eval_runtime": 606.636,
      "eval_samples_per_second": 9.518,
      "eval_steps_per_second": 1.19,
      "step": 1500
    },
    {
      "epoch": 0.8779989790709546,
      "grad_norm": 0.6577399437858822,
      "learning_rate": 7.028089780485081e-07,
      "loss": 0.2505,
      "num_tokens": 195455871.0,
      "step": 1505
    },
    {
      "epoch": 0.8809159192007584,
      "grad_norm": 0.6732866289496374,
      "learning_rate": 6.934055590751461e-07,
      "loss": 0.2433,
      "num_tokens": 196112627.0,
      "step": 1510
    },
    {
      "epoch": 0.8838328593305622,
      "grad_norm": 0.6928266216542274,
      "learning_rate": 6.842155506633598e-07,
      "loss": 0.2504,
      "num_tokens": 196762991.0,
      "step": 1515
    },
    {
      "epoch": 0.886749799460366,
      "grad_norm": 0.7508486818127166,
      "learning_rate": 6.752399064502959e-07,
      "loss": 0.2443,
      "num_tokens": 197410775.0,
      "step": 1520
    },
    {
      "epoch": 0.88966673959017,
      "grad_norm": 0.7411230362741363,
      "learning_rate": 6.664795578287632e-07,
      "loss": 0.2591,
      "num_tokens": 198059393.0,
      "step": 1525
    },
    {
      "epoch": 0.8925836797199738,
      "grad_norm": 0.6627941489855806,
      "learning_rate": 6.579354138505817e-07,
      "loss": 0.2455,
      "num_tokens": 198715521.0,
      "step": 1530
    },
    {
      "epoch": 0.8955006198497776,
      "grad_norm": 0.6587954927234085,
      "learning_rate": 6.496083611322503e-07,
      "loss": 0.251,
      "num_tokens": 199361955.0,
      "step": 1535
    },
    {
      "epoch": 0.8984175599795814,
      "grad_norm": 0.6704240641243597,
      "learning_rate": 6.414992637629462e-07,
      "loss": 0.2539,
      "num_tokens": 200000364.0,
      "step": 1540
    },
    {
      "epoch": 0.9013345001093852,
      "grad_norm": 0.6834730851313382,
      "learning_rate": 6.336089632148566e-07,
      "loss": 0.2522,
      "num_tokens": 200634871.0,
      "step": 1545
    },
    {
      "epoch": 0.9042514402391891,
      "grad_norm": 0.6872434946125457,
      "learning_rate": 6.259382782558623e-07,
      "loss": 0.2606,
      "num_tokens": 201271509.0,
      "step": 1550
    },
    {
      "epoch": 0.9071683803689929,
      "grad_norm": 0.6556095169106991,
      "learning_rate": 6.184880048645731e-07,
      "loss": 0.2477,
      "num_tokens": 201928299.0,
      "step": 1555
    },
    {
      "epoch": 0.9100853204987968,
      "grad_norm": 0.6520622984392034,
      "learning_rate": 6.112589161477317e-07,
      "loss": 0.2559,
      "num_tokens": 202565553.0,
      "step": 1560
    },
    {
      "epoch": 0.9130022606286006,
      "grad_norm": 0.6518118892473114,
      "learning_rate": 6.042517622599872e-07,
      "loss": 0.2496,
      "num_tokens": 203212074.0,
      "step": 1565
    },
    {
      "epoch": 0.9159192007584044,
      "grad_norm": 0.6519073995309806,
      "learning_rate": 5.97467270326055e-07,
      "loss": 0.2464,
      "num_tokens": 203873121.0,
      "step": 1570
    },
    {
      "epoch": 0.9188361408882083,
      "grad_norm": 0.6412870776555814,
      "learning_rate": 5.909061443652619e-07,
      "loss": 0.2564,
      "num_tokens": 204514894.0,
      "step": 1575
    },
    {
      "epoch": 0.9217530810180121,
      "grad_norm": 0.6616771223781932,
      "learning_rate": 5.845690652184906e-07,
      "loss": 0.252,
      "num_tokens": 205159376.0,
      "step": 1580
    },
    {
      "epoch": 0.9246700211478159,
      "grad_norm": 0.6818257317565765,
      "learning_rate": 5.784566904775314e-07,
      "loss": 0.2511,
      "num_tokens": 205804849.0,
      "step": 1585
    },
    {
      "epoch": 0.9275869612776197,
      "grad_norm": 0.6899882547483343,
      "learning_rate": 5.725696544168431e-07,
      "loss": 0.2524,
      "num_tokens": 206449326.0,
      "step": 1590
    },
    {
      "epoch": 0.9305039014074236,
      "grad_norm": 0.6665711496646537,
      "learning_rate": 5.669085679277353e-07,
      "loss": 0.2563,
      "num_tokens": 207076928.0,
      "step": 1595
    },
    {
      "epoch": 0.9334208415372275,
      "grad_norm": 0.6490999558865335,
      "learning_rate": 5.614740184549774e-07,
      "loss": 0.2461,
      "num_tokens": 207724064.0,
      "step": 1600
    },
    {
      "epoch": 0.9363377816670313,
      "grad_norm": 0.6138373290451317,
      "learning_rate": 5.562665699358395e-07,
      "loss": 0.2476,
      "num_tokens": 208379361.0,
      "step": 1605
    },
    {
      "epoch": 0.9392547217968351,
      "grad_norm": 0.6510841684798996,
      "learning_rate": 5.512867627415738e-07,
      "loss": 0.2572,
      "num_tokens": 209029983.0,
      "step": 1610
    },
    {
      "epoch": 0.9421716619266389,
      "grad_norm": 0.674102775630278,
      "learning_rate": 5.465351136213403e-07,
      "loss": 0.2462,
      "num_tokens": 209689067.0,
      "step": 1615
    },
    {
      "epoch": 0.9450886020564427,
      "grad_norm": 0.6725422054797916,
      "learning_rate": 5.420121156485843e-07,
      "loss": 0.2535,
      "num_tokens": 210334697.0,
      "step": 1620
    },
    {
      "epoch": 0.9480055421862467,
      "grad_norm": 0.6901559478270054,
      "learning_rate": 5.377182381698713e-07,
      "loss": 0.2536,
      "num_tokens": 210984109.0,
      "step": 1625
    },
    {
      "epoch": 0.9509224823160505,
      "grad_norm": 0.6649811095486658,
      "learning_rate": 5.336539267561834e-07,
      "loss": 0.2494,
      "num_tokens": 211640356.0,
      "step": 1630
    },
    {
      "epoch": 0.9538394224458543,
      "grad_norm": 0.6682924622176424,
      "learning_rate": 5.298196031566817e-07,
      "loss": 0.2465,
      "num_tokens": 212286489.0,
      "step": 1635
    },
    {
      "epoch": 0.9567563625756581,
      "grad_norm": 0.6898184780907682,
      "learning_rate": 5.262156652549434e-07,
      "loss": 0.2476,
      "num_tokens": 212939894.0,
      "step": 1640
    },
    {
      "epoch": 0.9596733027054619,
      "grad_norm": 0.7052465845912619,
      "learning_rate": 5.228424870276732e-07,
      "loss": 0.2489,
      "num_tokens": 213590362.0,
      "step": 1645
    },
    {
      "epoch": 0.9625902428352658,
      "grad_norm": 0.644447319773284,
      "learning_rate": 5.197004185058957e-07,
      "loss": 0.2484,
      "num_tokens": 214240271.0,
      "step": 1650
    },
    {
      "epoch": 0.9655071829650697,
      "grad_norm": 0.6376890589734954,
      "learning_rate": 5.167897857386338e-07,
      "loss": 0.2474,
      "num_tokens": 214894703.0,
      "step": 1655
    },
    {
      "epoch": 0.9684241230948735,
      "grad_norm": 0.6662492384339829,
      "learning_rate": 5.141108907590743e-07,
      "loss": 0.2525,
      "num_tokens": 215549896.0,
      "step": 1660
    },
    {
      "epoch": 0.9713410632246773,
      "grad_norm": 0.6800838857977812,
      "learning_rate": 5.116640115532271e-07,
      "loss": 0.2542,
      "num_tokens": 216188523.0,
      "step": 1665
    },
    {
      "epoch": 0.9742580033544811,
      "grad_norm": 0.6353262592157148,
      "learning_rate": 5.09449402031078e-07,
      "loss": 0.2447,
      "num_tokens": 216843759.0,
      "step": 1670
    },
    {
      "epoch": 0.977174943484285,
      "grad_norm": 0.6478798768052438,
      "learning_rate": 5.074672920002409e-07,
      "loss": 0.2463,
      "num_tokens": 217490750.0,
      "step": 1675
    },
    {
      "epoch": 0.9800918836140888,
      "grad_norm": 0.6573148663949727,
      "learning_rate": 5.057178871421117e-07,
      "loss": 0.2446,
      "num_tokens": 218153395.0,
      "step": 1680
    },
    {
      "epoch": 0.9830088237438926,
      "grad_norm": 0.6658053392510334,
      "learning_rate": 5.04201368990524e-07,
      "loss": 0.2603,
      "num_tokens": 218791270.0,
      "step": 1685
    },
    {
      "epoch": 0.9859257638736965,
      "grad_norm": 0.6705303806344307,
      "learning_rate": 5.029178949129118e-07,
      "loss": 0.2524,
      "num_tokens": 219417246.0,
      "step": 1690
    },
    {
      "epoch": 0.9888427040035004,
      "grad_norm": 0.6533768822493123,
      "learning_rate": 5.018675980939805e-07,
      "loss": 0.2524,
      "num_tokens": 220058164.0,
      "step": 1695
    },
    {
      "epoch": 0.9917596441333042,
      "grad_norm": 0.6382545520245013,
      "learning_rate": 5.010505875218846e-07,
      "loss": 0.2451,
      "num_tokens": 220725697.0,
      "step": 1700
    },
    {
      "epoch": 0.994676584263108,
      "grad_norm": 0.6851411034519025,
      "learning_rate": 5.004669479769203e-07,
      "loss": 0.2483,
      "num_tokens": 221369001.0,
      "step": 1705
    },
    {
      "epoch": 0.9975935243929118,
      "grad_norm": 0.6499196404139314,
      "learning_rate": 5.001167400227263e-07,
      "loss": 0.2454,
      "num_tokens": 222017884.0,
      "step": 1710
    },
    {
      "epoch": 0.9999270764967549,
      "num_tokens": 222537779.0,
      "step": 1714,
      "total_flos": 9.83184401793391e+18,
      "train_loss": 0.30174126125689565,
      "train_runtime": 32854.1875,
      "train_samples_per_second": 3.339,
      "train_steps_per_second": 0.052
    }
  ],
  "logging_steps": 5,
  "max_steps": 1714,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.83184401793391e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}