{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.998660594695955,
  "eval_steps": 400,
  "global_step": 233,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "agreement_weights/mean": 0.9835088849067688,
      "agreement_weights/std": 0.02654486894607544,
      "epoch": 0.004286096972944013,
      "eta/annotator_0": 0.989946722984314,
      "grad_norm": 15.283400066833346,
      "learning_rate": 2.083333333333333e-08,
      "loss": 0.8287,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -1.4580078125,
      "rewards/margins": -0.05108642578125,
      "rewards/rejected": -1.40771484375,
      "step": 1
    },
    {
      "agreement_weights/mean": 0.9856418967247009,
      "agreement_weights/std": 0.013538802042603493,
      "epoch": 0.021430484864720063,
      "eta/annotator_0": 0.9896754026412964,
      "grad_norm": 19.829650214338358,
      "learning_rate": 1.0416666666666667e-07,
      "loss": 0.8294,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -1.35614013671875,
      "rewards/margins": 0.03381919860839844,
      "rewards/rejected": -1.39031982421875,
      "step": 5
    },
    {
      "agreement_weights/mean": 0.9845200777053833,
      "agreement_weights/std": 0.013288043439388275,
      "epoch": 0.042860969729440125,
      "eta/annotator_0": 0.9889032244682312,
      "grad_norm": 16.729477484474234,
      "learning_rate": 2.0833333333333333e-07,
      "loss": 0.8337,
      "rewards/accuracies": 0.5054687261581421,
      "rewards/chosen": -1.3660156726837158,
      "rewards/margins": 0.0298309326171875,
      "rewards/rejected": -1.396093726158142,
      "step": 10
    },
    {
      "agreement_weights/mean": 0.9830694198608398,
      "agreement_weights/std": 0.012784223072230816,
      "epoch": 0.06429145459416019,
      "eta/annotator_0": 0.9887259602546692,
      "grad_norm": 14.760445292138874,
      "learning_rate": 3.1249999999999997e-07,
      "loss": 0.8264,
      "rewards/accuracies": 0.518750011920929,
      "rewards/chosen": -1.324121117591858,
      "rewards/margins": 0.03158111497759819,
      "rewards/rejected": -1.35546875,
      "step": 15
    },
    {
      "agreement_weights/mean": 0.9777595400810242,
      "agreement_weights/std": 0.023590706288814545,
      "epoch": 0.08572193945888025,
      "eta/annotator_0": 0.988153338432312,
      "grad_norm": 23.67101285285561,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.8293,
      "rewards/accuracies": 0.510937511920929,
      "rewards/chosen": -1.313330054283142,
      "rewards/margins": 0.0057510375045239925,
      "rewards/rejected": -1.319091796875,
      "step": 20
    },
    {
      "agreement_weights/mean": 0.9782527685165405,
      "agreement_weights/std": 0.013653111644089222,
      "epoch": 0.10715242432360032,
      "eta/annotator_0": 0.9865188598632812,
      "grad_norm": 16.14967209405219,
      "learning_rate": 4.999717571181741e-07,
      "loss": 0.8258,
      "rewards/accuracies": 0.5101562738418579,
      "rewards/chosen": -1.260498046875,
      "rewards/margins": 0.02609405480325222,
      "rewards/rejected": -1.28662109375,
      "step": 25
    },
    {
      "agreement_weights/mean": 0.9777399301528931,
      "agreement_weights/std": 0.01126975379884243,
      "epoch": 0.12858290918832038,
      "eta/annotator_0": 0.9860489964485168,
      "grad_norm": 15.328445943747319,
      "learning_rate": 4.98983926127519e-07,
      "loss": 0.8281,
      "rewards/accuracies": 0.48828125,
      "rewards/chosen": -1.149267554283142,
      "rewards/margins": 0.01815948449075222,
      "rewards/rejected": -1.167626976966858,
      "step": 30
    },
    {
      "agreement_weights/mean": 0.9777730107307434,
      "agreement_weights/std": 0.010124140419065952,
      "epoch": 0.15001339405304046,
      "eta/annotator_0": 0.9851570129394531,
      "grad_norm": 15.005217122494983,
      "learning_rate": 4.965903258506806e-07,
      "loss": 0.8164,
      "rewards/accuracies": 0.5296875238418579,
      "rewards/chosen": -1.144140601158142,
      "rewards/margins": 0.03855743259191513,
      "rewards/rejected": -1.1821777820587158,
      "step": 35
    },
    {
      "agreement_weights/mean": 0.9763816595077515,
      "agreement_weights/std": 0.01401391439139843,
      "epoch": 0.1714438789177605,
      "eta/annotator_0": 0.9843441247940063,
      "grad_norm": 17.743874731174305,
      "learning_rate": 4.928044706128802e-07,
      "loss": 0.8181,
      "rewards/accuracies": 0.5257812738418579,
      "rewards/chosen": -1.110107421875,
      "rewards/margins": 0.03076934814453125,
      "rewards/rejected": -1.1409180164337158,
      "step": 40
    },
    {
      "agreement_weights/mean": 0.9756612777709961,
      "agreement_weights/std": 0.012368785217404366,
      "epoch": 0.19287436378248057,
      "eta/annotator_0": 0.9840925931930542,
      "grad_norm": 16.06887204797824,
      "learning_rate": 4.876477354446189e-07,
      "loss": 0.8237,
      "rewards/accuracies": 0.5218750238418579,
      "rewards/chosen": -1.0813477039337158,
      "rewards/margins": 0.02273254469037056,
      "rewards/rejected": -1.1039550304412842,
      "step": 45
    },
    {
      "agreement_weights/mean": 0.9759405255317688,
      "agreement_weights/std": 0.011430758982896805,
      "epoch": 0.21430484864720065,
      "eta/annotator_0": 0.9831362962722778,
      "grad_norm": 13.668384712280986,
      "learning_rate": 4.811492353977365e-07,
      "loss": 0.8107,
      "rewards/accuracies": 0.52734375,
      "rewards/chosen": -1.06640625,
      "rewards/margins": 0.04908294603228569,
      "rewards/rejected": -1.1151854991912842,
      "step": 50
    },
    {
      "agreement_weights/mean": 0.9752417802810669,
      "agreement_weights/std": 0.012144794687628746,
      "epoch": 0.23573533351192072,
      "eta/annotator_0": 0.9829673767089844,
      "grad_norm": 16.198198141487172,
      "learning_rate": 4.7334566116112327e-07,
      "loss": 0.8171,
      "rewards/accuracies": 0.534375011920929,
      "rewards/chosen": -1.074462890625,
      "rewards/margins": 0.03585662692785263,
      "rewards/rejected": -1.110205054283142,
      "step": 55
    },
    {
      "agreement_weights/mean": 0.975112795829773,
      "agreement_weights/std": 0.012753820046782494,
      "epoch": 0.25716581837664076,
      "eta/annotator_0": 0.983111560344696,
      "grad_norm": 13.584196947280056,
      "learning_rate": 4.6428107190419983e-07,
      "loss": 0.8118,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.064794898033142,
      "rewards/margins": 0.04972381517291069,
      "rewards/rejected": -1.1146972179412842,
      "step": 60
    },
    {
      "agreement_weights/mean": 0.9736000299453735,
      "agreement_weights/std": 0.017585784196853638,
      "epoch": 0.2785963032413608,
      "eta/annotator_0": 0.9834885597229004,
      "grad_norm": 15.35440200771879,
      "learning_rate": 4.540066465177783e-07,
      "loss": 0.8051,
      "rewards/accuracies": 0.535937488079071,
      "rewards/chosen": -1.101904273033142,
      "rewards/margins": 0.08063659816980362,
      "rewards/rejected": -1.1830565929412842,
      "step": 65
    },
    {
      "agreement_weights/mean": 0.9742909669876099,
      "agreement_weights/std": 0.014967004768550396,
      "epoch": 0.3000267881060809,
      "eta/annotator_0": 0.983860969543457,
      "grad_norm": 24.399686844973623,
      "learning_rate": 4.425803946568032e-07,
      "loss": 0.7968,
      "rewards/accuracies": 0.569531261920929,
      "rewards/chosen": -1.073974609375,
      "rewards/margins": 0.0841270461678505,
      "rewards/rejected": -1.1587402820587158,
      "step": 70
    },
    {
      "agreement_weights/mean": 0.9743977785110474,
      "agreement_weights/std": 0.014447027817368507,
      "epoch": 0.32145727297080096,
      "eta/annotator_0": 0.9835017919540405,
      "grad_norm": 17.487259060212995,
      "learning_rate": 4.300668292164329e-07,
      "loss": 0.7975,
      "rewards/accuracies": 0.581250011920929,
      "rewards/chosen": -1.0740234851837158,
      "rewards/margins": 0.08437881618738174,
      "rewards/rejected": -1.158447265625,
      "step": 75
    },
    {
      "agreement_weights/mean": 0.9736027717590332,
      "agreement_weights/std": 0.015662631019949913,
      "epoch": 0.342887757835521,
      "eta/annotator_0": 0.9833129644393921,
      "grad_norm": 16.42240105526151,
      "learning_rate": 4.165366020906683e-07,
      "loss": 0.8068,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -1.10546875,
      "rewards/margins": 0.07679901272058487,
      "rewards/rejected": -1.1823241710662842,
      "step": 80
    },
    {
      "agreement_weights/mean": 0.9738435745239258,
      "agreement_weights/std": 0.014858903363347054,
      "epoch": 0.3643182427002411,
      "eta/annotator_0": 0.9826239347457886,
      "grad_norm": 16.277291883077293,
      "learning_rate": 4.0206610527004607e-07,
      "loss": 0.8027,
      "rewards/accuracies": 0.5570312738418579,
      "rewards/chosen": -1.0641601085662842,
      "rewards/margins": 0.08323974907398224,
      "rewards/rejected": -1.1477539539337158,
      "step": 85
    },
    {
      "agreement_weights/mean": 0.9741233587265015,
      "agreement_weights/std": 0.015310598537325859,
      "epoch": 0.38574872756496115,
      "eta/annotator_0": 0.9822484254837036,
      "grad_norm": 17.62184458849742,
      "learning_rate": 3.867370395306068e-07,
      "loss": 0.7946,
      "rewards/accuracies": 0.5703125,
      "rewards/chosen": -1.057763695716858,
      "rewards/margins": 0.08770446479320526,
      "rewards/rejected": -1.1447265148162842,
      "step": 90
    },
    {
      "agreement_weights/mean": 0.9737857580184937,
      "agreement_weights/std": 0.015480880625545979,
      "epoch": 0.40717921242968125,
      "eta/annotator_0": 0.9824921488761902,
      "grad_norm": 16.1376814842963,
      "learning_rate": 3.7063595314933156e-07,
      "loss": 0.8011,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -1.085107445716858,
      "rewards/margins": 0.08274383842945099,
      "rewards/rejected": -1.1682617664337158,
      "step": 95
    },
    {
      "agreement_weights/mean": 0.9735912084579468,
      "agreement_weights/std": 0.015104712918400764,
      "epoch": 0.4286096972944013,
      "eta/annotator_0": 0.9823704957962036,
      "grad_norm": 16.9267312590825,
      "learning_rate": 3.5385375325047163e-07,
      "loss": 0.7997,
      "rewards/accuracies": 0.5648437738418579,
      "rewards/chosen": -1.066308617591858,
      "rewards/margins": 0.07443161308765411,
      "rewards/rejected": -1.140234351158142,
      "step": 100
    },
    {
      "agreement_weights/mean": 0.9743453860282898,
      "agreement_weights/std": 0.014182031154632568,
      "epoch": 0.45004018215912134,
      "eta/annotator_0": 0.9826081991195679,
      "grad_norm": 19.76473032194606,
      "learning_rate": 3.36485192541719e-07,
      "loss": 0.7891,
      "rewards/accuracies": 0.5914062261581421,
      "rewards/chosen": -1.116552710533142,
      "rewards/margins": 0.11408233642578125,
      "rewards/rejected": -1.231201171875,
      "step": 105
    },
    {
      "agreement_weights/mean": 0.9728509783744812,
      "agreement_weights/std": 0.016314979642629623,
      "epoch": 0.47147066702384144,
      "eta/annotator_0": 0.9813753366470337,
      "grad_norm": 19.36288033579458,
      "learning_rate": 3.186283343381213e-07,
      "loss": 0.8049,
      "rewards/accuracies": 0.561718761920929,
      "rewards/chosen": -1.1134765148162842,
      "rewards/margins": 0.07242431491613388,
      "rewards/rejected": -1.1865723133087158,
      "step": 110
    },
    {
      "agreement_weights/mean": 0.9733271598815918,
      "agreement_weights/std": 0.014879120513796806,
      "epoch": 0.4929011518885615,
      "eta/annotator_0": 0.9807807207107544,
      "grad_norm": 33.14717407544803,
      "learning_rate": 3.003839988942255e-07,
      "loss": 0.7999,
      "rewards/accuracies": 0.5570312738418579,
      "rewards/chosen": -1.116796851158142,
      "rewards/margins": 0.0869293212890625,
      "rewards/rejected": -1.2042968273162842,
      "step": 115
    },
    {
      "agreement_weights/mean": 0.9727081060409546,
      "agreement_weights/std": 0.016875894740223885,
      "epoch": 0.5143316367532815,
      "eta/annotator_0": 0.9785343408584595,
      "grad_norm": 17.44793476242297,
      "learning_rate": 2.8185519417047623e-07,
      "loss": 0.7966,
      "rewards/accuracies": 0.5546875,
      "rewards/chosen": -1.1184570789337158,
      "rewards/margins": 0.0865020751953125,
      "rewards/rejected": -1.2043945789337158,
      "step": 120
    },
    {
      "agreement_weights/mean": 0.9720941781997681,
      "agreement_weights/std": 0.016181129962205887,
      "epoch": 0.5357621216180016,
      "eta/annotator_0": 0.9752258062362671,
      "grad_norm": 17.53531972282468,
      "learning_rate": 2.631465342477719e-07,
      "loss": 0.7993,
      "rewards/accuracies": 0.5648437738418579,
      "rewards/chosen": -1.147363305091858,
      "rewards/margins": 0.09330062568187714,
      "rewards/rejected": -1.240576148033142,
      "step": 125
    },
    {
      "agreement_weights/mean": 0.9722574353218079,
      "agreement_weights/std": 0.014848947525024414,
      "epoch": 0.5571926064827216,
      "eta/annotator_0": 0.9744688272476196,
      "grad_norm": 20.92224462014306,
      "learning_rate": 2.44363648673827e-07,
      "loss": 0.7986,
      "rewards/accuracies": 0.5640624761581421,
      "rewards/chosen": -1.1254394054412842,
      "rewards/margins": 0.09006957709789276,
      "rewards/rejected": -1.215429663658142,
      "step": 130
    },
    {
      "agreement_weights/mean": 0.9714938998222351,
      "agreement_weights/std": 0.016483457759022713,
      "epoch": 0.5786230913474417,
      "eta/annotator_0": 0.974207878112793,
      "grad_norm": 19.131636438155493,
      "learning_rate": 2.2561258607618294e-07,
      "loss": 0.7952,
      "rewards/accuracies": 0.557812511920929,
      "rewards/chosen": -1.145751953125,
      "rewards/margins": 0.09895477443933487,
      "rewards/rejected": -1.2453124523162842,
      "step": 135
    },
    {
      "agreement_weights/mean": 0.9721853137016296,
      "agreement_weights/std": 0.016253018751740456,
      "epoch": 0.6000535762121618,
      "eta/annotator_0": 0.9742980003356934,
      "grad_norm": 18.961112747870477,
      "learning_rate": 2.069992154090854e-07,
      "loss": 0.782,
      "rewards/accuracies": 0.58984375,
      "rewards/chosen": -1.1391112804412842,
      "rewards/margins": 0.11900939792394638,
      "rewards/rejected": -1.2580077648162842,
      "step": 140
    },
    {
      "agreement_weights/mean": 0.9722121953964233,
      "agreement_weights/std": 0.01594804972410202,
      "epoch": 0.6214840610768818,
      "eta/annotator_0": 0.9751246571540833,
      "grad_norm": 19.87670814097309,
      "learning_rate": 1.886286282148002e-07,
      "loss": 0.7896,
      "rewards/accuracies": 0.5835937261581421,
      "rewards/chosen": -1.180029273033142,
      "rewards/margins": 0.11029205471277237,
      "rewards/rejected": -1.28955078125,
      "step": 145
    },
    {
      "agreement_weights/mean": 0.9729297757148743,
      "agreement_weights/std": 0.014145533554255962,
      "epoch": 0.6429145459416019,
      "eta/annotator_0": 0.9745540618896484,
      "grad_norm": 18.93202240879827,
      "learning_rate": 1.7060454527421686e-07,
      "loss": 0.7837,
      "rewards/accuracies": 0.563281238079071,
      "rewards/chosen": -1.154394507408142,
      "rewards/margins": 0.12412567436695099,
      "rewards/rejected": -1.2785155773162842,
      "step": 150
    },
    {
      "agreement_weights/mean": 0.9713504910469055,
      "agreement_weights/std": 0.018582377582788467,
      "epoch": 0.664345030806322,
      "eta/annotator_0": 0.9743884801864624,
      "grad_norm": 24.264291154131246,
      "learning_rate": 1.5302873099680374e-07,
      "loss": 0.7891,
      "rewards/accuracies": 0.58203125,
      "rewards/chosen": -1.197167992591858,
      "rewards/margins": 0.10683135688304901,
      "rewards/rejected": -1.3039062023162842,
      "step": 155
    },
    {
      "agreement_weights/mean": 0.9721991419792175,
      "agreement_weights/std": 0.014521193690598011,
      "epoch": 0.685775515671042,
      "eta/annotator_0": 0.975206732749939,
      "grad_norm": 19.382913106905846,
      "learning_rate": 1.360004188562841e-07,
      "loss": 0.7887,
      "rewards/accuracies": 0.5859375,
      "rewards/chosen": -1.178466796875,
      "rewards/margins": 0.11213531345129013,
      "rewards/rejected": -1.2903320789337158,
      "step": 160
    },
    {
      "agreement_weights/mean": 0.9719653129577637,
      "agreement_weights/std": 0.013660246506333351,
      "epoch": 0.7072060005357621,
      "eta/annotator_0": 0.9743704795837402,
      "grad_norm": 20.590722253896896,
      "learning_rate": 1.1961575111603586e-07,
      "loss": 0.7947,
      "rewards/accuracies": 0.5687500238418579,
      "rewards/chosen": -1.1658203601837158,
      "rewards/margins": 0.09597320854663849,
      "rewards/rejected": -1.261962890625,
      "step": 165
    },
    {
      "agreement_weights/mean": 0.9721243977546692,
      "agreement_weights/std": 0.016991212964057922,
      "epoch": 0.7286364854004822,
      "eta/annotator_0": 0.9732401967048645,
      "grad_norm": 16.455889893357647,
      "learning_rate": 1.0396723600754143e-07,
      "loss": 0.7812,
      "rewards/accuracies": 0.59765625,
      "rewards/chosen": -1.165917992591858,
      "rewards/margins": 0.12263031303882599,
      "rewards/rejected": -1.28857421875,
      "step": 170
    },
    {
      "agreement_weights/mean": 0.9712659120559692,
      "agreement_weights/std": 0.01776127703487873,
      "epoch": 0.7500669702652023,
      "eta/annotator_0": 0.9722484350204468,
      "grad_norm": 18.594770789246883,
      "learning_rate": 8.914322542666822e-08,
      "loss": 0.7829,
      "rewards/accuracies": 0.581250011920929,
      "rewards/chosen": -1.207861304283142,
      "rewards/margins": 0.11973877251148224,
      "rewards/rejected": -1.3278319835662842,
      "step": 175
    },
    {
      "agreement_weights/mean": 0.9717949628829956,
      "agreement_weights/std": 0.014975661411881447,
      "epoch": 0.7714974551299223,
      "eta/annotator_0": 0.9732992053031921,
      "grad_norm": 21.67402357179111,
      "learning_rate": 7.522741609672193e-08,
      "loss": 0.7895,
      "rewards/accuracies": 0.555468738079071,
      "rewards/chosen": -1.201171875,
      "rewards/margins": 0.125152587890625,
      "rewards/rejected": -1.326416015625,
      "step": 180
    },
    {
      "agreement_weights/mean": 0.9718098640441895,
      "agreement_weights/std": 0.01534796692430973,
      "epoch": 0.7929279399946424,
      "eta/annotator_0": 0.9736469388008118,
      "grad_norm": 25.205658122840124,
      "learning_rate": 6.229837701471644e-08,
      "loss": 0.7898,
      "rewards/accuracies": 0.5718749761581421,
      "rewards/chosen": -1.192236304283142,
      "rewards/margins": 0.10536804050207138,
      "rewards/rejected": -1.297509789466858,
      "step": 185
    },
    {
      "agreement_weights/mean": 0.9711362719535828,
      "agreement_weights/std": 0.017194906249642372,
      "epoch": 0.8143584248593625,
      "eta/annotator_0": 0.9728371500968933,
      "grad_norm": 23.59474305381529,
      "learning_rate": 5.0429105848910996e-08,
      "loss": 0.7915,
      "rewards/accuracies": 0.5765625238418579,
      "rewards/chosen": -1.1980469226837158,
      "rewards/margins": 0.10680542141199112,
      "rewards/rejected": -1.3046386241912842,
      "step": 190
    },
    {
      "agreement_weights/mean": 0.9719120860099792,
      "agreement_weights/std": 0.013604005798697472,
      "epoch": 0.8357889097240825,
      "eta/annotator_0": 0.972754180431366,
      "grad_norm": 20.705213195264513,
      "learning_rate": 3.968661679220467e-08,
      "loss": 0.7889,
      "rewards/accuracies": 0.5765625238418579,
      "rewards/chosen": -1.176904320716858,
      "rewards/margins": 0.11195068061351776,
      "rewards/rejected": -1.289306640625,
      "step": 195
    },
    {
      "agreement_weights/mean": 0.9721500277519226,
      "agreement_weights/std": 0.015419709496200085,
      "epoch": 0.8572193945888026,
      "eta/annotator_0": 0.9735984802246094,
      "grad_norm": 20.142103508580416,
      "learning_rate": 3.013156219837776e-08,
      "loss": 0.7783,
      "rewards/accuracies": 0.577343761920929,
      "rewards/chosen": -1.2109375,
      "rewards/margins": 0.14055481553077698,
      "rewards/rejected": -1.3517577648162842,
      "step": 200
    },
    {
      "agreement_weights/mean": 0.9722856283187866,
      "agreement_weights/std": 0.014222726225852966,
      "epoch": 0.8786498794535227,
      "eta/annotator_0": 0.974678635597229,
      "grad_norm": 21.74282543488082,
      "learning_rate": 2.1817890137430932e-08,
      "loss": 0.7864,
      "rewards/accuracies": 0.590624988079071,
      "rewards/chosen": -1.2034180164337158,
      "rewards/margins": 0.119481660425663,
      "rewards/rejected": -1.3230469226837158,
      "step": 205
    },
    {
      "agreement_weights/mean": 0.9715056419372559,
      "agreement_weights/std": 0.01846829243004322,
      "epoch": 0.9000803643182427,
      "eta/annotator_0": 0.9759241938591003,
      "grad_norm": 20.370087897718637,
      "learning_rate": 1.479253980347392e-08,
      "loss": 0.7832,
      "rewards/accuracies": 0.5992187261581421,
      "rewards/chosen": -1.2168457508087158,
      "rewards/margins": 0.12417755275964737,
      "rewards/rejected": -1.341064453125,
      "step": 210
    },
    {
      "agreement_weights/mean": 0.9708583950996399,
      "agreement_weights/std": 0.017661619931459427,
      "epoch": 0.9215108491829628,
      "eta/annotator_0": 0.9764461517333984,
      "grad_norm": 19.11986951300673,
      "learning_rate": 9.095176494896661e-09,
      "loss": 0.7901,
      "rewards/accuracies": 0.5687500238418579,
      "rewards/chosen": -1.186425805091858,
      "rewards/margins": 0.11129150539636612,
      "rewards/rejected": -1.297460913658142,
      "step": 215
    },
    {
      "agreement_weights/mean": 0.9715423583984375,
      "agreement_weights/std": 0.013122004456818104,
      "epoch": 0.9429413340476829,
      "eta/annotator_0": 0.9756782650947571,
      "grad_norm": 20.69531878816493,
      "learning_rate": 4.757967663132689e-09,
      "loss": 0.7885,
      "rewards/accuracies": 0.573437511920929,
      "rewards/chosen": -1.1936523914337158,
      "rewards/margins": 0.11541748046875,
      "rewards/rejected": -1.3090331554412842,
      "step": 220
    },
    {
      "agreement_weights/mean": 0.9714574813842773,
      "agreement_weights/std": 0.015605181455612183,
      "epoch": 0.9643718189124029,
      "eta/annotator_0": 0.9757404327392578,
      "grad_norm": 19.506797329281373,
      "learning_rate": 1.8054012944479224e-09,
      "loss": 0.7835,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.19580078125,
      "rewards/margins": 0.12373504787683487,
      "rewards/rejected": -1.319921851158142,
      "step": 225
    },
    {
      "agreement_weights/mean": 0.9696216583251953,
      "agreement_weights/std": 0.019289594143629074,
      "epoch": 0.985802303777123,
      "eta/annotator_0": 0.974513828754425,
      "grad_norm": 23.105381542928594,
      "learning_rate": 2.541476501764228e-10,
      "loss": 0.7958,
      "rewards/accuracies": 0.5546875,
      "rewards/chosen": -1.216455101966858,
      "rewards/margins": 0.10492706298828125,
      "rewards/rejected": -1.321630835533142,
      "step": 230
    },
    {
      "epoch": 0.998660594695955,
      "step": 233,
      "total_flos": 0.0,
      "train_loss": 0.8001983071089814,
      "train_runtime": 7557.1271,
      "train_samples_per_second": 7.902,
      "train_steps_per_second": 0.031
    }
  ],
  "logging_steps": 5,
  "max_steps": 233,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}