JW17 commited on Sep 18

Commit

f91b990

verified ·

1 Parent(s): 67093c7

Add files using upload-large-folder tool

Browse files

Files changed (32) hide show

.gitattributes +2 -0
README.md +68 -0
checkpoint-100/added_tokens.json +24 -0
checkpoint-100/chat_template.jinja +54 -0
checkpoint-100/config.json +66 -0
checkpoint-100/generation_config.json +14 -0
checkpoint-100/merges.txt +0 -0
checkpoint-100/model-00001-of-00003.safetensors +3 -0
checkpoint-100/model-00002-of-00003.safetensors +3 -0
checkpoint-100/model-00003-of-00003.safetensors +3 -0
checkpoint-100/model.safetensors.index.json +443 -0
checkpoint-100/special_tokens_map.json +31 -0
checkpoint-100/tokenizer.json +3 -0
checkpoint-100/tokenizer_config.json +207 -0
checkpoint-100/trainer_state.json +2334 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-100/vocab.json +0 -0
checkpoint-50/added_tokens.json +24 -0
checkpoint-50/chat_template.jinja +54 -0
checkpoint-50/config.json +66 -0
checkpoint-50/generation_config.json +14 -0
checkpoint-50/merges.txt +0 -0
checkpoint-50/model-00001-of-00003.safetensors +3 -0
checkpoint-50/model-00002-of-00003.safetensors +3 -0
checkpoint-50/model-00003-of-00003.safetensors +3 -0
checkpoint-50/model.safetensors.index.json +443 -0
checkpoint-50/special_tokens_map.json +31 -0
checkpoint-50/tokenizer.json +3 -0
checkpoint-50/tokenizer_config.json +207 -0
checkpoint-50/trainer_state.json +1184 -0
checkpoint-50/training_args.bin +3 -0
checkpoint-50/vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-50/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: Qwen/Qwen2.5-3B-Instruct
+library_name: transformers
+model_name: Qwen2.5-3B-Instruct-IF-ICRM-hf
+tags:
+- generated_from_trainer
+- grpo
+- trl
+licence: license
+---
+# Model Card for Qwen2.5-3B-Instruct-IF-ICRM-hf
+This model is a fine-tuned version of [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jiwooya1000/ICRM-RLHF/runs/7lkwzjv8)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.22.2
+- Transformers: 4.55.2
+- Pytorch: 2.8.0
+- Datasets: 4.1.0
+- Tokenizers: 0.21.4
+## Citations
+Cite GRPO as:
+```bibtex
+@article{shao2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

checkpoint-100/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-100/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 70,
+  "model_type": "qwen2",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

checkpoint-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.55.2"
+}

checkpoint-100/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-100/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b34bd75536286246b8ef5c2b51b9e73ebc2a5ff12e3fa6033ae4fc57e2e3d4c5
+size 4982131536

checkpoint-100/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f51e588a71e769624a99448b501e34d91f7f42690ee8695e524b9d6c04a80e2c
+size 4932949336

checkpoint-100/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e35d997d58cb2e962cf9178d7a4023c7f008c1542562879b3f71b040efa17050
+size 3673383040

checkpoint-100/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,443 @@

+{
+  "metadata": {
+    "total_parameters": 771484672,
+    "total_size": 13588414464
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-100/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eee858c5123a4279c3e1f7b81247343f356ac767940b2692a928ad929543214
+size 11422063

checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2334 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.07530120481927711,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1461.0,
+      "completions/mean_length": 539.939453125,
+      "completions/mean_terminated_length": 534.0687866210938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.0007530120481927711,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2677452564239502,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 322497.0,
+      "reward": 1.8222503662109375,
+      "reward_std": 0.2692643404006958,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8222503662109375,
+      "rewards/icrm_reward/std": 0.35891062021255493,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1361.0,
+      "completions/mean_length": 541.125,
+      "completions/mean_terminated_length": 535.2612915039062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 0.0015060240963855422,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2547134757041931,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 643217.0,
+      "reward": 1.8759613037109375,
+      "reward_std": 0.26730749011039734,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8759613037109375,
+      "rewards/icrm_reward/std": 0.35533255338668823,
+      "step": 2
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1268.0,
+      "completions/max_terminated_length": 1268.0,
+      "completions/mean_length": 503.001953125,
+      "completions/mean_terminated_length": 503.001953125,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 0.002259036144578313,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.28800466656684875,
+      "learning_rate": 1e-06,
+      "loss": -0.0702,
+      "num_tokens": 946338.0,
+      "reward": 1.807281494140625,
+      "reward_std": 0.2657621502876282,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.807281494140625,
+      "rewards/icrm_reward/std": 0.36616575717926025,
+      "step": 3
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1020.0,
+      "completions/max_terminated_length": 1020.0,
+      "completions/mean_length": 482.392578125,
+      "completions/mean_terminated_length": 482.392578125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 0.0030120481927710845,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2880045473575592,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 1238651.0,
+      "reward": 1.8897247314453125,
+      "reward_std": 0.24010181427001953,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8897247314453125,
+      "rewards/icrm_reward/std": 0.2975654602050781,
+      "step": 4
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1447.0,
+      "completions/mean_length": 548.681640625,
+      "completions/mean_terminated_length": 546.74951171875,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 0.0037650602409638554,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26260432600975037,
+      "learning_rate": 1e-06,
+      "loss": -0.0915,
+      "num_tokens": 1564648.0,
+      "reward": 1.8785552978515625,
+      "reward_std": 0.2939695119857788,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8785552978515625,
+      "rewards/icrm_reward/std": 0.3403075635433197,
+      "step": 5
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1248.0,
+      "completions/mean_length": 465.359375,
+      "completions/mean_terminated_length": 461.1607971191406,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 0.004518072289156626,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2783867418766022,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 1845008.0,
+      "reward": 1.886444091796875,
+      "reward_std": 0.24519476294517517,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.886444091796875,
+      "rewards/icrm_reward/std": 0.32863083481788635,
+      "step": 6
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1419.0,
+      "completions/mean_length": 558.427734375,
+      "completions/mean_terminated_length": 556.5146484375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.005271084337349397,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2398781031370163,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 2178827.0,
+      "reward": 1.89752197265625,
+      "reward_std": 0.2825944125652313,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.89752197265625,
+      "rewards/icrm_reward/std": 0.3314611613750458,
+      "step": 7
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1315.0,
+      "completions/max_terminated_length": 1315.0,
+      "completions/mean_length": 516.62890625,
+      "completions/mean_terminated_length": 516.62890625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.006024096385542169,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26950332522392273,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 2490557.0,
+      "reward": 1.880584716796875,
+      "reward_std": 0.24953413009643555,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.880584716796875,
+      "rewards/icrm_reward/std": 0.31805965304374695,
+      "step": 8
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1486.0,
+      "completions/mean_length": 540.916015625,
+      "completions/mean_terminated_length": 538.9686889648438,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 0.00677710843373494,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.27774062752723694,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 2810898.0,
+      "reward": 1.8914337158203125,
+      "reward_std": 0.2737649083137512,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8914337158203125,
+      "rewards/icrm_reward/std": 0.3299334645271301,
+      "step": 9
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1449.0,
+      "completions/mean_length": 489.474609375,
+      "completions/mean_terminated_length": 487.4266052246094,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.007530120481927711,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.29050636291503906,
+      "learning_rate": 1e-06,
+      "loss": -0.0795,
+      "num_tokens": 3108869.0,
+      "reward": 1.938812255859375,
+      "reward_std": 0.2572469711303711,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.938812255859375,
+      "rewards/icrm_reward/std": 0.338980495929718,
+      "step": 10
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1475.0,
+      "completions/max_terminated_length": 1475.0,
+      "completions/mean_length": 520.849609375,
+      "completions/mean_terminated_length": 520.849609375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 0.008283132530120483,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2942567765712738,
+      "learning_rate": 1e-06,
+      "loss": -0.0717,
+      "num_tokens": 3421848.0,
+      "reward": 1.9404754638671875,
+      "reward_std": 0.2595525085926056,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9404754638671875,
+      "rewards/icrm_reward/std": 0.3023451566696167,
+      "step": 11
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1396.0,
+      "completions/mean_length": 519.873046875,
+      "completions/mean_terminated_length": 517.884521484375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.009036144578313253,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24970945715904236,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 3729655.0,
+      "reward": 1.9094085693359375,
+      "reward_std": 0.25953686237335205,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9094085693359375,
+      "rewards/icrm_reward/std": 0.331910640001297,
+      "step": 12
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1369.0,
+      "completions/mean_length": 547.90625,
+      "completions/mean_terminated_length": 545.9725952148438,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 0.009789156626506024,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.28067365288734436,
+      "learning_rate": 1e-06,
+      "loss": -0.0752,
+      "num_tokens": 4053863.0,
+      "reward": 1.9482421875,
+      "reward_std": 0.26520416140556335,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9482421875,
+      "rewards/icrm_reward/std": 0.3480120599269867,
+      "step": 13
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1511.0,
+      "completions/mean_length": 548.40234375,
+      "completions/mean_terminated_length": 546.4696655273438,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 0.010542168674698794,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.25670015811920166,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 4378933.0,
+      "reward": 1.9578399658203125,
+      "reward_std": 0.27680855989456177,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9578399658203125,
+      "rewards/icrm_reward/std": 0.3370186686515808,
+      "step": 14
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1521.0,
+      "completions/max_terminated_length": 1521.0,
+      "completions/mean_length": 524.80859375,
+      "completions/mean_terminated_length": 524.80859375,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 0.011295180722891566,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2583891451358795,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 4691523.0,
+      "reward": 1.9633941650390625,
+      "reward_std": 0.2548086643218994,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9633941650390625,
+      "rewards/icrm_reward/std": 0.31804537773132324,
+      "step": 15
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1247.0,
+      "completions/mean_length": 560.337890625,
+      "completions/mean_terminated_length": 556.5117797851562,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.012048192771084338,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24440975487232208,
+      "learning_rate": 1e-06,
+      "loss": -0.0549,
+      "num_tokens": 5027184.0,
+      "reward": 1.9822998046875,
+      "reward_std": 0.268485963344574,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9822998046875,
+      "rewards/icrm_reward/std": 0.3278394639492035,
+      "step": 16
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1356.0,
+      "completions/mean_length": 591.25390625,
+      "completions/mean_terminated_length": 589.4050903320312,
+      "completions/min_length": 219.0,
+      "completions/min_terminated_length": 219.0,
+      "epoch": 0.012801204819277108,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22858311235904694,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 5376418.0,
+      "reward": 2.090728759765625,
+      "reward_std": 0.2703300714492798,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.090728759765625,
+      "rewards/icrm_reward/std": 0.3051627278327942,
+      "step": 17
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1427.0,
+      "completions/mean_length": 560.716796875,
+      "completions/mean_terminated_length": 556.8922119140625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 0.01355421686746988,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24253730475902557,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 5708881.0,
+      "reward": 2.023834228515625,
+      "reward_std": 0.22830849885940552,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.023834228515625,
+      "rewards/icrm_reward/std": 0.3195403516292572,
+      "step": 18
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1396.0,
+      "completions/max_terminated_length": 1396.0,
+      "completions/mean_length": 554.669921875,
+      "completions/mean_terminated_length": 554.669921875,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 0.01430722891566265,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22568698227405548,
+      "learning_rate": 1e-06,
+      "loss": -0.0628,
+      "num_tokens": 6034520.0,
+      "reward": 2.0350494384765625,
+      "reward_std": 0.23877058923244476,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0350494384765625,
+      "rewards/icrm_reward/std": 0.2821340560913086,
+      "step": 19
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1408.0,
+      "completions/mean_length": 618.142578125,
+      "completions/mean_terminated_length": 612.7328491210938,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.015060240963855422,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21298259496688843,
+      "learning_rate": 1e-06,
+      "loss": -0.0312,
+      "num_tokens": 6399457.0,
+      "reward": 2.043853759765625,
+      "reward_std": 0.2564227879047394,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.043853759765625,
+      "rewards/icrm_reward/std": 0.32547545433044434,
+      "step": 20
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1500.0,
+      "completions/mean_length": 647.5078125,
+      "completions/mean_terminated_length": 636.9723510742188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 0.01581325301204819,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21974076330661774,
+      "learning_rate": 1e-06,
+      "loss": -0.0194,
+      "num_tokens": 6773909.0,
+      "reward": 2.0822906494140625,
+      "reward_std": 0.2559783458709717,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0822906494140625,
+      "rewards/icrm_reward/std": 0.3165861964225769,
+      "step": 21
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1533.0,
+      "completions/mean_length": 629.095703125,
+      "completions/mean_terminated_length": 627.3209228515625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 0.016566265060240965,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2140408158302307,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 7137062.0,
+      "reward": 2.0489654541015625,
+      "reward_std": 0.22745975852012634,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0489654541015625,
+      "rewards/icrm_reward/std": 0.28583163022994995,
+      "step": 22
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1474.0,
+      "completions/mean_length": 668.0,
+      "completions/mean_terminated_length": 666.3013916015625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.017319277108433735,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19740059971809387,
+      "learning_rate": 1e-06,
+      "loss": -0.0199,
+      "num_tokens": 7525974.0,
+      "reward": 2.114471435546875,
+      "reward_std": 0.22889575362205505,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.114471435546875,
+      "rewards/icrm_reward/std": 0.2792186439037323,
+      "step": 23
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.033203125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1507.0,
+      "completions/mean_length": 688.009765625,
+      "completions/mean_terminated_length": 658.8869018554688,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 0.018072289156626505,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19638773798942566,
+      "learning_rate": 1e-06,
+      "loss": 0.0102,
+      "num_tokens": 7924795.0,
+      "reward": 2.080596923828125,
+      "reward_std": 0.23665004968643188,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.080596923828125,
+      "rewards/icrm_reward/std": 0.3111322522163391,
+      "step": 24
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1517.0,
+      "completions/max_terminated_length": 1517.0,
+      "completions/mean_length": 625.5546875,
+      "completions/mean_terminated_length": 625.5546875,
+      "completions/min_length": 232.0,
+      "completions/min_terminated_length": 232.0,
+      "epoch": 0.01882530120481928,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22388488054275513,
+      "learning_rate": 1e-06,
+      "loss": -0.0295,
+      "num_tokens": 8289031.0,
+      "reward": 2.1454315185546875,
+      "reward_std": 0.22431066632270813,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1454315185546875,
+      "rewards/icrm_reward/std": 0.2752014100551605,
+      "step": 25
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.025390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1518.0,
+      "completions/mean_length": 620.7578125,
+      "completions/mean_terminated_length": 596.913818359375,
+      "completions/min_length": 229.0,
+      "completions/min_terminated_length": 229.0,
+      "epoch": 0.01957831325301205,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21399712562561035,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 8656715.0,
+      "reward": 2.0743865966796875,
+      "reward_std": 0.2408333122730255,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0743865966796875,
+      "rewards/icrm_reward/std": 0.3148554563522339,
+      "step": 26
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1519.0,
+      "completions/max_terminated_length": 1519.0,
+      "completions/mean_length": 640.244140625,
+      "completions/mean_terminated_length": 640.244140625,
+      "completions/min_length": 256.0,
+      "completions/min_terminated_length": 256.0,
+      "epoch": 0.02033132530120482,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2085241973400116,
+      "learning_rate": 1e-06,
+      "loss": -0.0445,
+      "num_tokens": 9027544.0,
+      "reward": 2.1477813720703125,
+      "reward_std": 0.22815221548080444,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1477813720703125,
+      "rewards/icrm_reward/std": 0.3022710084915161,
+      "step": 27
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1444.0,
+      "completions/max_terminated_length": 1444.0,
+      "completions/mean_length": 574.10546875,
+      "completions/mean_terminated_length": 574.10546875,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 0.02108433734939759,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22086061537265778,
+      "learning_rate": 1e-06,
+      "loss": -0.0415,
+      "num_tokens": 9368830.0,
+      "reward": 2.0839691162109375,
+      "reward_std": 0.22651252150535583,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0839691162109375,
+      "rewards/icrm_reward/std": 0.2819969654083252,
+      "step": 28
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1455.0,
+      "completions/mean_length": 608.298828125,
+      "completions/mean_terminated_length": 602.8310546875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.021837349397590362,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21593217551708221,
+      "learning_rate": 1e-06,
+      "loss": -0.0165,
+      "num_tokens": 9728471.0,
+      "reward": 2.12347412109375,
+      "reward_std": 0.2261788547039032,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.12347412109375,
+      "rewards/icrm_reward/std": 0.2729581892490387,
+      "step": 29
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1490.0,
+      "completions/mean_length": 602.5390625,
+      "completions/mean_terminated_length": 600.7123413085938,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 0.022590361445783132,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21327072381973267,
+      "learning_rate": 1e-06,
+      "loss": -0.0265,
+      "num_tokens": 10078123.0,
+      "reward": 2.134918212890625,
+      "reward_std": 0.22259432077407837,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.134918212890625,
+      "rewards/icrm_reward/std": 0.2794201970100403,
+      "step": 30
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1390.0,
+      "completions/mean_length": 624.75390625,
+      "completions/mean_terminated_length": 622.9706420898438,
+      "completions/min_length": 213.0,
+      "completions/min_terminated_length": 213.0,
+      "epoch": 0.023343373493975902,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21840304136276245,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 10439629.0,
+      "reward": 2.1316375732421875,
+      "reward_std": 0.2339249849319458,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1316375732421875,
+      "rewards/icrm_reward/std": 0.2949000895023346,
+      "step": 31
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1455.0,
+      "completions/mean_length": 618.02734375,
+      "completions/mean_terminated_length": 610.7991943359375,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 0.024096385542168676,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21134598553180695,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 10801515.0,
+      "reward": 2.1789169311523438,
+      "reward_std": 0.2280135154724121,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1789169311523438,
+      "rewards/icrm_reward/std": 0.3063806891441345,
+      "step": 32
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1394.0,
+      "completions/max_terminated_length": 1394.0,
+      "completions/mean_length": 579.873046875,
+      "completions/mean_terminated_length": 579.873046875,
+      "completions/min_length": 50.0,
+      "completions/min_terminated_length": 50.0,
+      "epoch": 0.024849397590361446,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23027564585208893,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 11142458.0,
+      "reward": 2.1141510009765625,
+      "reward_std": 0.22557678818702698,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1141510009765625,
+      "rewards/icrm_reward/std": 0.2943926155567169,
+      "step": 33
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1466.0,
+      "completions/mean_length": 569.83203125,
+      "completions/mean_terminated_length": 567.9412841796875,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 0.025602409638554216,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2484128624200821,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 11478676.0,
+      "reward": 2.138275146484375,
+      "reward_std": 0.2324836403131485,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.138275146484375,
+      "rewards/icrm_reward/std": 0.2837066352367401,
+      "step": 34
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1524.0,
+      "completions/mean_length": 649.62109375,
+      "completions/mean_terminated_length": 644.3968505859375,
+      "completions/min_length": 247.0,
+      "completions/min_terminated_length": 247.0,
+      "epoch": 0.02635542168674699,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22154265642166138,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 11857058.0,
+      "reward": 2.131011962890625,
+      "reward_std": 0.2266952395439148,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.131011962890625,
+      "rewards/icrm_reward/std": 0.31931453943252563,
+      "step": 35
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.009765625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1451.0,
+      "completions/mean_length": 637.251953125,
+      "completions/mean_terminated_length": 628.3885498046875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 0.02710843373493976,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20767764747142792,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 12229043.0,
+      "reward": 2.1409454345703125,
+      "reward_std": 0.22632841765880585,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1409454345703125,
+      "rewards/icrm_reward/std": 0.2695969045162201,
+      "step": 36
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1456.0,
+      "completions/mean_length": 659.4453125,
+      "completions/mean_terminated_length": 647.2950439453125,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 0.02786144578313253,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2131509631872177,
+      "learning_rate": 1e-06,
+      "loss": -0.0088,
+      "num_tokens": 12614919.0,
+      "reward": 2.208251953125,
+      "reward_std": 0.24248948693275452,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.208251953125,
+      "rewards/icrm_reward/std": 0.3120294213294983,
+      "step": 37
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1361.0,
+      "completions/mean_length": 630.41015625,
+      "completions/mean_terminated_length": 626.85888671875,
+      "completions/min_length": 217.0,
+      "completions/min_terminated_length": 217.0,
+      "epoch": 0.0286144578313253,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2243937849998474,
+      "learning_rate": 1e-06,
+      "loss": -0.0279,
+      "num_tokens": 12980249.0,
+      "reward": 2.111053466796875,
+      "reward_std": 0.22191520035266876,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.111053466796875,
+      "rewards/icrm_reward/std": 0.2775036096572876,
+      "step": 38
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1459.0,
+      "completions/mean_length": 675.94140625,
+      "completions/mean_terminated_length": 665.7431030273438,
+      "completions/min_length": 232.0,
+      "completions/min_terminated_length": 232.0,
+      "epoch": 0.029367469879518073,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20395302772521973,
+      "learning_rate": 1e-06,
+      "loss": -0.0178,
+      "num_tokens": 13371051.0,
+      "reward": 2.2367706298828125,
+      "reward_std": 0.24021776020526886,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2367706298828125,
+      "rewards/icrm_reward/std": 0.30560144782066345,
+      "step": 39
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1495.0,
+      "completions/mean_length": 665.2265625,
+      "completions/mean_terminated_length": 658.3700561523438,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 0.030120481927710843,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21775901317596436,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 13762655.0,
+      "reward": 2.22381591796875,
+      "reward_std": 0.23306353390216827,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.22381591796875,
+      "rewards/icrm_reward/std": 0.2940692901611328,
+      "step": 40
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.017578125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1489.0,
+      "completions/mean_length": 711.74609375,
+      "completions/mean_terminated_length": 696.9979858398438,
+      "completions/min_length": 240.0,
+      "completions/min_terminated_length": 240.0,
+      "epoch": 0.030873493975903613,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20008227229118347,
+      "learning_rate": 1e-06,
+      "loss": -0.0203,
+      "num_tokens": 14174493.0,
+      "reward": 2.1737060546875,
+      "reward_std": 0.23047159612178802,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1737060546875,
+      "rewards/icrm_reward/std": 0.2827721834182739,
+      "step": 41
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1519.0,
+      "completions/mean_length": 628.2109375,
+      "completions/mean_terminated_length": 622.8605346679688,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 0.03162650602409638,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23574763536453247,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 14538633.0,
+      "reward": 2.2064056396484375,
+      "reward_std": 0.23086489737033844,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2064056396484375,
+      "rewards/icrm_reward/std": 0.30988746881484985,
+      "step": 42
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1509.0,
+      "completions/mean_length": 651.89453125,
+      "completions/mean_terminated_length": 648.427490234375,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 0.03237951807228916,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22128161787986755,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 14917715.0,
+      "reward": 2.1989898681640625,
+      "reward_std": 0.22341391444206238,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1989898681640625,
+      "rewards/icrm_reward/std": 0.2708163857460022,
+      "step": 43
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.02734375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1535.0,
+      "completions/mean_length": 752.138671875,
+      "completions/mean_terminated_length": 730.1023559570312,
+      "completions/min_length": 253.0,
+      "completions/min_terminated_length": 253.0,
+      "epoch": 0.03313253012048193,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.18046841025352478,
+      "learning_rate": 1e-06,
+      "loss": -0.0114,
+      "num_tokens": 15353770.0,
+      "reward": 2.202545166015625,
+      "reward_std": 0.22210244834423065,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.202545166015625,
+      "rewards/icrm_reward/std": 0.30588632822036743,
+      "step": 44
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1520.0,
+      "completions/mean_length": 648.603515625,
+      "completions/mean_terminated_length": 619.977783203125,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 0.0338855421686747,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21456339955329895,
+      "learning_rate": 1e-06,
+      "loss": -0.0282,
+      "num_tokens": 15731183.0,
+      "reward": 2.1501007080078125,
+      "reward_std": 0.24410219490528107,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1501007080078125,
+      "rewards/icrm_reward/std": 0.3128403425216675,
+      "step": 45
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1536.0,
+      "completions/mean_length": 664.4765625,
+      "completions/mean_terminated_length": 662.7710571289062,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 0.03463855421686747,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23055920004844666,
+      "learning_rate": 1e-06,
+      "loss": -0.0041,
+      "num_tokens": 16113635.0,
+      "reward": 2.2421112060546875,
+      "reward_std": 0.23560726642608643,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2421112060546875,
+      "rewards/icrm_reward/std": 0.29645806550979614,
+      "step": 46
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 679.16796875,
+      "completions/mean_terminated_length": 667.2911376953125,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 0.035391566265060244,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20098020136356354,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 16510985.0,
+      "reward": 2.1724700927734375,
+      "reward_std": 0.24453820288181305,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1724700927734375,
+      "rewards/icrm_reward/std": 0.3007848858833313,
+      "step": 47
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1473.0,
+      "completions/mean_length": 629.65625,
+      "completions/mean_terminated_length": 626.1019897460938,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 0.03614457831325301,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21083861589431763,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 16878169.0,
+      "reward": 2.199188232421875,
+      "reward_std": 0.21884912252426147,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.199188232421875,
+      "rewards/icrm_reward/std": 0.27998584508895874,
+      "step": 48
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1528.0,
+      "completions/mean_length": 673.232421875,
+      "completions/mean_terminated_length": 661.2733154296875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.036897590361445784,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22509372234344482,
+      "learning_rate": 1e-06,
+      "loss": -0.0074,
+      "num_tokens": 17269376.0,
+      "reward": 2.2296295166015625,
+      "reward_std": 0.2356814444065094,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2296295166015625,
+      "rewards/icrm_reward/std": 0.2954954504966736,
+      "step": 49
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1424.0,
+      "completions/mean_length": 636.708984375,
+      "completions/mean_terminated_length": 629.6279296875,
+      "completions/min_length": 235.0,
+      "completions/min_terminated_length": 235.0,
+      "epoch": 0.03765060240963856,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24557623267173767,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 17640139.0,
+      "reward": 2.254730224609375,
+      "reward_std": 0.24260641634464264,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.254730224609375,
+      "rewards/icrm_reward/std": 0.2840177118778229,
+      "step": 50
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 600.349609375,
+      "completions/mean_terminated_length": 598.5186157226562,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 0.038403614457831324,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24236264824867249,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 17994222.0,
+      "reward": 2.2987060546875,
+      "reward_std": 0.24154716730117798,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2987060546875,
+      "rewards/icrm_reward/std": 0.3029851019382477,
+      "step": 51
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.009765625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 686.248046875,
+      "completions/mean_terminated_length": 677.8678588867188,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "epoch": 0.0391566265060241,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21713781356811523,
+      "learning_rate": 1e-06,
+      "loss": -0.0079,
+      "num_tokens": 18393245.0,
+      "reward": 2.2697906494140625,
+      "reward_std": 0.2312566339969635,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2697906494140625,
+      "rewards/icrm_reward/std": 0.3033978343009949,
+      "step": 52
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1535.0,
+      "completions/mean_length": 734.234375,
+      "completions/mean_terminated_length": 729.5088500976562,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.039909638554216864,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20006483793258667,
+      "learning_rate": 1e-06,
+      "loss": 0.0053,
+      "num_tokens": 18813301.0,
+      "reward": 2.4068450927734375,
+      "reward_std": 0.24239230155944824,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4068450927734375,
+      "rewards/icrm_reward/std": 0.2884853184223175,
+      "step": 53
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.009765625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1436.0,
+      "completions/mean_length": 682.37109375,
+      "completions/mean_terminated_length": 673.9526977539062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 0.04066265060240964,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22565065324306488,
+      "learning_rate": 1e-06,
+      "loss": 0.0167,
+      "num_tokens": 19205987.0,
+      "reward": 2.411712646484375,
+      "reward_std": 0.2517935633659363,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.411712646484375,
+      "rewards/icrm_reward/std": 0.29691916704177856,
+      "step": 54
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 686.0625,
+      "completions/mean_terminated_length": 675.9841918945312,
+      "completions/min_length": 208.0,
+      "completions/min_terminated_length": 208.0,
+      "epoch": 0.04141566265060241,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.25505706667900085,
+      "learning_rate": 1e-06,
+      "loss": 0.0116,
+      "num_tokens": 19603747.0,
+      "reward": 2.3581085205078125,
+      "reward_std": 0.25292664766311646,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.3581085205078125,
+      "rewards/icrm_reward/std": 0.3019520044326782,
+      "step": 55
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.021484375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1487.0,
+      "completions/mean_length": 738.88671875,
+      "completions/mean_terminated_length": 721.38525390625,
+      "completions/min_length": 276.0,
+      "completions/min_terminated_length": 276.0,
+      "epoch": 0.04216867469879518,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19398604333400726,
+      "learning_rate": 1e-06,
+      "loss": 0.0298,
+      "num_tokens": 20029593.0,
+      "reward": 2.420806884765625,
+      "reward_std": 0.2693680226802826,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.420806884765625,
+      "rewards/icrm_reward/std": 0.33825576305389404,
+      "step": 56
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.017578125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1482.0,
+      "completions/mean_length": 693.65625,
+      "completions/mean_terminated_length": 678.58447265625,
+      "completions/min_length": 207.0,
+      "completions/min_terminated_length": 207.0,
+      "epoch": 0.04292168674698795,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23698727786540985,
+      "learning_rate": 1e-06,
+      "loss": 0.0359,
+      "num_tokens": 20431033.0,
+      "reward": 2.45440673828125,
+      "reward_std": 0.2709549069404602,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.45440673828125,
+      "rewards/icrm_reward/std": 0.3200661540031433,
+      "step": 57
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1520.0,
+      "completions/max_terminated_length": 1520.0,
+      "completions/mean_length": 651.880859375,
+      "completions/mean_terminated_length": 651.880859375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 0.043674698795180725,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22394704818725586,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 20809052.0,
+      "reward": 2.4409332275390625,
+      "reward_std": 0.24943535029888153,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4409332275390625,
+      "rewards/icrm_reward/std": 0.29196539521217346,
+      "step": 58
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.029296875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1531.0,
+      "completions/mean_length": 728.9296875,
+      "completions/mean_terminated_length": 704.5714111328125,
+      "completions/min_length": 213.0,
+      "completions/min_terminated_length": 213.0,
+      "epoch": 0.04442771084337349,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24043507874011993,
+      "learning_rate": 1e-06,
+      "loss": 0.0294,
+      "num_tokens": 21230728.0,
+      "reward": 2.4530029296875,
+      "reward_std": 0.29039081931114197,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4530029296875,
+      "rewards/icrm_reward/std": 0.3333180546760559,
+      "step": 59
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.017578125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1522.0,
+      "completions/mean_length": 668.4765625,
+      "completions/mean_terminated_length": 652.9542236328125,
+      "completions/min_length": 88.0,
+      "completions/min_terminated_length": 88.0,
+      "epoch": 0.045180722891566265,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24050478637218475,
+      "learning_rate": 1e-06,
+      "loss": -0.0008,
+      "num_tokens": 21620748.0,
+      "reward": 2.416748046875,
+      "reward_std": 0.29372185468673706,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.416748046875,
+      "rewards/icrm_reward/std": 0.335464745759964,
+      "step": 60
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1520.0,
+      "completions/mean_length": 722.58203125,
+      "completions/mean_terminated_length": 682.5778198242188,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 0.04593373493975904,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22767792642116547,
+      "learning_rate": 1e-06,
+      "loss": 0.0407,
+      "num_tokens": 22032694.0,
+      "reward": 2.4194793701171875,
+      "reward_std": 0.2609785497188568,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4194793701171875,
+      "rewards/icrm_reward/std": 0.35149145126342773,
+      "step": 61
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1526.0,
+      "completions/max_terminated_length": 1526.0,
+      "completions/mean_length": 627.765625,
+      "completions/mean_terminated_length": 627.765625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 0.046686746987951805,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24805991351604462,
+      "learning_rate": 1e-06,
+      "loss": 0.0129,
+      "num_tokens": 22402686.0,
+      "reward": 2.4908294677734375,
+      "reward_std": 0.2669978737831116,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4908294677734375,
+      "rewards/icrm_reward/std": 0.3251093924045563,
+      "step": 62
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.033203125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1490.0,
+      "completions/mean_length": 766.275390625,
+      "completions/mean_terminated_length": 739.8404541015625,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 0.04743975903614458,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23006977140903473,
+      "learning_rate": 1e-06,
+      "loss": 0.0456,
+      "num_tokens": 22844203.0,
+      "reward": 2.4503021240234375,
+      "reward_std": 0.2922241687774658,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4503021240234375,
+      "rewards/icrm_reward/std": 0.33814340829849243,
+      "step": 63
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.021484375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1507.0,
+      "completions/mean_length": 725.68359375,
+      "completions/mean_terminated_length": 707.8922119140625,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 0.04819277108433735,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22646617889404297,
+      "learning_rate": 1e-06,
+      "loss": 0.0394,
+      "num_tokens": 23258473.0,
+      "reward": 2.477783203125,
+      "reward_std": 0.26488780975341797,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.477783203125,
+      "rewards/icrm_reward/std": 0.33223187923431396,
+      "step": 64
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.033203125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1503.0,
+      "completions/mean_length": 754.828125,
+      "completions/mean_terminated_length": 728.0000610351562,
+      "completions/min_length": 228.0,
+      "completions/min_terminated_length": 228.0,
+      "epoch": 0.04894578313253012,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2258726954460144,
+      "learning_rate": 1e-06,
+      "loss": 0.0125,
+      "num_tokens": 23690801.0,
+      "reward": 2.45458984375,
+      "reward_std": 0.27226293087005615,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.45458984375,
+      "rewards/icrm_reward/std": 0.3482906222343445,
+      "step": 65
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1522.0,
+      "completions/mean_length": 698.974609375,
+      "completions/mean_terminated_length": 689.0494384765625,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 0.04969879518072289,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2544415593147278,
+      "learning_rate": 1e-06,
+      "loss": 0.0095,
+      "num_tokens": 24092564.0,
+      "reward": 2.50372314453125,
+      "reward_std": 0.2619969844818115,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.50372314453125,
+      "rewards/icrm_reward/std": 0.32770606875419617,
+      "step": 66
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1461.0,
+      "completions/max_terminated_length": 1461.0,
+      "completions/mean_length": 648.00390625,
+      "completions/mean_terminated_length": 648.00390625,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 0.050451807228915665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2574257552623749,
+      "learning_rate": 1e-06,
+      "loss": 0.0096,
+      "num_tokens": 24467686.0,
+      "reward": 2.5450897216796875,
+      "reward_std": 0.2660745680332184,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.5450897216796875,
+      "rewards/icrm_reward/std": 0.3114686608314514,
+      "step": 67
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1533.0,
+      "completions/mean_length": 744.58203125,
+      "completions/mean_terminated_length": 738.3504028320312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 0.05120481927710843,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23591530323028564,
+      "learning_rate": 1e-06,
+      "loss": 0.0251,
+      "num_tokens": 24894160.0,
+      "reward": 2.490386962890625,
+      "reward_std": 0.25365495681762695,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.490386962890625,
+      "rewards/icrm_reward/std": 0.3168938159942627,
+      "step": 68
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.025390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1526.0,
+      "completions/mean_length": 769.4921875,
+      "completions/mean_terminated_length": 749.5230712890625,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 0.051957831325301206,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20792824029922485,
+      "learning_rate": 1e-06,
+      "loss": 0.0559,
+      "num_tokens": 25328156.0,
+      "reward": 2.5142974853515625,
+      "reward_std": 0.26831918954849243,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.5142974853515625,
+      "rewards/icrm_reward/std": 0.33375680446624756,
+      "step": 69
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.03515625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1535.0,
+      "completions/mean_length": 776.34765625,
+      "completions/mean_terminated_length": 748.6680297851562,
+      "completions/min_length": 233.0,
+      "completions/min_terminated_length": 233.0,
+      "epoch": 0.05271084337349398,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.209881991147995,
+      "learning_rate": 1e-06,
+      "loss": 0.0291,
+      "num_tokens": 25767454.0,
+      "reward": 2.4936981201171875,
+      "reward_std": 0.2859433889389038,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.4936981201171875,
+      "rewards/icrm_reward/std": 0.31998544931411743,
+      "step": 70
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1534.0,
+      "completions/mean_length": 756.26953125,
+      "completions/mean_terminated_length": 737.5560302734375,
+      "completions/min_length": 224.0,
+      "completions/min_terminated_length": 224.0,
+      "epoch": 0.053463855421686746,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22324053943157196,
+      "learning_rate": 1e-06,
+      "loss": 0.0431,
+      "num_tokens": 26204136.0,
+      "reward": 2.529388427734375,
+      "reward_std": 0.287563294172287,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.529388427734375,
+      "rewards/icrm_reward/std": 0.3346646726131439,
+      "step": 71
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1532.0,
+      "completions/mean_length": 739.04296875,
+      "completions/mean_terminated_length": 729.5928955078125,
+      "completions/min_length": 246.0,
+      "completions/min_terminated_length": 246.0,
+      "epoch": 0.05421686746987952,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23168617486953735,
+      "learning_rate": 1e-06,
+      "loss": 0.0376,
+      "num_tokens": 26628030.0,
+      "reward": 2.5133209228515625,
+      "reward_std": 0.2752232849597931,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.5133209228515625,
+      "rewards/icrm_reward/std": 0.32146480679512024,
+      "step": 72
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1535.0,
+      "completions/mean_length": 801.69140625,
+      "completions/mean_terminated_length": 784.0680541992188,
+      "completions/min_length": 266.0,
+      "completions/min_terminated_length": 266.0,
+      "epoch": 0.054969879518072286,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21675075590610504,
+      "learning_rate": 1e-06,
+      "loss": 0.0333,
+      "num_tokens": 27084016.0,
+      "reward": 2.6229248046875,
+      "reward_std": 0.29856833815574646,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.6229248046875,
+      "rewards/icrm_reward/std": 0.3686384856700897,
+      "step": 73
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.02734375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1500.0,
+      "completions/mean_length": 859.42578125,
+      "completions/mean_terminated_length": 840.4055786132812,
+      "completions/min_length": 290.0,
+      "completions/min_terminated_length": 290.0,
+      "epoch": 0.05572289156626506,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21499691903591156,
+      "learning_rate": 1e-06,
+      "loss": 0.0493,
+      "num_tokens": 27565834.0,
+      "reward": 2.593292236328125,
+      "reward_std": 0.2805570960044861,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.593292236328125,
+      "rewards/icrm_reward/std": 0.36220526695251465,
+      "step": 74
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1518.0,
+      "completions/mean_length": 773.33984375,
+      "completions/mean_terminated_length": 764.2964477539062,
+      "completions/min_length": 207.0,
+      "completions/min_terminated_length": 207.0,
+      "epoch": 0.05647590361445783,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2344229519367218,
+      "learning_rate": 1e-06,
+      "loss": 0.0423,
+      "num_tokens": 28007656.0,
+      "reward": 2.5948028564453125,
+      "reward_std": 0.293756902217865,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.5948028564453125,
+      "rewards/icrm_reward/std": 0.3333764374256134,
+      "step": 75
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.04296875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1534.0,
+      "completions/mean_length": 817.533203125,
+      "completions/mean_terminated_length": 785.2754516601562,
+      "completions/min_length": 304.0,
+      "completions/min_terminated_length": 304.0,
+      "epoch": 0.0572289156626506,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22105208039283752,
+      "learning_rate": 1e-06,
+      "loss": 0.0472,
+      "num_tokens": 28470185.0,
+      "reward": 2.571807861328125,
+      "reward_std": 0.3125259280204773,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.571807861328125,
+      "rewards/icrm_reward/std": 0.39160090684890747,
+      "step": 76
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.04296875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1533.0,
+      "completions/mean_length": 840.224609375,
+      "completions/mean_terminated_length": 808.9856567382812,
+      "completions/min_length": 392.0,
+      "completions/min_terminated_length": 392.0,
+      "epoch": 0.05798192771084337,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2159413844347,
+      "learning_rate": 1e-06,
+      "loss": 0.0593,
+      "num_tokens": 28947228.0,
+      "reward": 2.6000213623046875,
+      "reward_std": 0.31856799125671387,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.6000213623046875,
+      "rewards/icrm_reward/std": 0.3859856426715851,
+      "step": 77
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.02734375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1521.0,
+      "completions/mean_length": 812.81640625,
+      "completions/mean_terminated_length": 792.4859008789062,
+      "completions/min_length": 220.0,
+      "completions/min_terminated_length": 220.0,
+      "epoch": 0.058734939759036146,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24093309044837952,
+      "learning_rate": 1e-06,
+      "loss": 0.0314,
+      "num_tokens": 29408302.0,
+      "reward": 2.6257476806640625,
+      "reward_std": 0.29263830184936523,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.6257476806640625,
+      "rewards/icrm_reward/std": 0.36981090903282166,
+      "step": 78
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.076171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 920.380859375,
+      "completions/mean_terminated_length": 869.62158203125,
+      "completions/min_length": 319.0,
+      "completions/min_terminated_length": 319.0,
+      "epoch": 0.05948795180722891,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22334524989128113,
+      "learning_rate": 1e-06,
+      "loss": 0.0437,
+      "num_tokens": 29929569.0,
+      "reward": 2.54388427734375,
+      "reward_std": 0.32523876428604126,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.54388427734375,
+      "rewards/icrm_reward/std": 0.43486225605010986,
+      "step": 79
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.041015625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1536.0,
+      "completions/mean_length": 916.134765625,
+      "completions/mean_terminated_length": 889.623291015625,
+      "completions/min_length": 270.0,
+      "completions/min_terminated_length": 270.0,
+      "epoch": 0.060240963855421686,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.230862557888031,
+      "learning_rate": 1e-06,
+      "loss": 0.0692,
+      "num_tokens": 30444198.0,
+      "reward": 2.6412506103515625,
+      "reward_std": 0.3409099280834198,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.6412506103515625,
+      "rewards/icrm_reward/std": 0.39923959970474243,
+      "step": 80
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.021484375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1536.0,
+      "completions/mean_length": 770.642578125,
+      "completions/mean_terminated_length": 753.8383178710938,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 0.06099397590361446,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26526880264282227,
+      "learning_rate": 1e-06,
+      "loss": 0.0325,
+      "num_tokens": 30882223.0,
+      "reward": 2.6500091552734375,
+      "reward_std": 0.31351447105407715,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.6500091552734375,
+      "rewards/icrm_reward/std": 0.37751612067222595,
+      "step": 81
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1524.0,
+      "completions/mean_length": 793.802734375,
+      "completions/mean_terminated_length": 789.4283447265625,
+      "completions/min_length": 287.0,
+      "completions/min_terminated_length": 287.0,
+      "epoch": 0.061746987951807226,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2738642990589142,
+      "learning_rate": 1e-06,
+      "loss": 0.0415,
+      "num_tokens": 31337226.0,
+      "reward": 2.7096099853515625,
+      "reward_std": 0.32019662857055664,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.7096099853515625,
+      "rewards/icrm_reward/std": 0.3571399450302124,
+      "step": 82
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1526.0,
+      "completions/mean_length": 802.03125,
+      "completions/mean_terminated_length": 784.416015625,
+      "completions/min_length": 251.0,
+      "completions/min_terminated_length": 251.0,
+      "epoch": 0.0625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.29248520731925964,
+      "learning_rate": 1e-06,
+      "loss": 0.0371,
+      "num_tokens": 31799898.0,
+      "reward": 2.713287353515625,
+      "reward_std": 0.30860912799835205,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.713287353515625,
+      "rewards/icrm_reward/std": 0.38378050923347473,
+      "step": 83
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1533.0,
+      "completions/mean_length": 831.005859375,
+      "completions/mean_terminated_length": 808.2640991210938,
+      "completions/min_length": 249.0,
+      "completions/min_terminated_length": 249.0,
+      "epoch": 0.06325301204819277,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2955339550971985,
+      "learning_rate": 1e-06,
+      "loss": 0.0373,
+      "num_tokens": 32271437.0,
+      "reward": 2.73077392578125,
+      "reward_std": 0.34596526622772217,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.73077392578125,
+      "rewards/icrm_reward/std": 0.3958691656589508,
+      "step": 84
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1454.0,
+      "completions/mean_length": 784.931640625,
+      "completions/mean_terminated_length": 774.5208129882812,
+      "completions/min_length": 231.0,
+      "completions/min_terminated_length": 231.0,
+      "epoch": 0.06400602409638555,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2862742841243744,
+      "learning_rate": 1e-06,
+      "loss": 0.0388,
+      "num_tokens": 32717626.0,
+      "reward": 2.7470855712890625,
+      "reward_std": 0.3193947374820709,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.7470855712890625,
+      "rewards/icrm_reward/std": 0.377297043800354,
+      "step": 85
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1518.0,
+      "completions/mean_length": 779.779296875,
+      "completions/mean_terminated_length": 770.812255859375,
+      "completions/min_length": 233.0,
+      "completions/min_terminated_length": 233.0,
+      "epoch": 0.06475903614457831,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.27621668577194214,
+      "learning_rate": 1e-06,
+      "loss": 0.0273,
+      "num_tokens": 33162073.0,
+      "reward": 2.8101959228515625,
+      "reward_std": 0.3282198905944824,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.8101959228515625,
+      "rewards/icrm_reward/std": 0.38994351029396057,
+      "step": 86
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1532.0,
+      "completions/mean_length": 819.9453125,
+      "completions/mean_terminated_length": 815.7249755859375,
+      "completions/min_length": 299.0,
+      "completions/min_terminated_length": 299.0,
+      "epoch": 0.06551204819277108,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2889441251754761,
+      "learning_rate": 1e-06,
+      "loss": 0.0111,
+      "num_tokens": 33630589.0,
+      "reward": 2.8496246337890625,
+      "reward_std": 0.31779032945632935,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.8496246337890625,
+      "rewards/icrm_reward/std": 0.3903903365135193,
+      "step": 87
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1536.0,
+      "completions/mean_length": 808.7109375,
+      "completions/mean_terminated_length": 779.1463012695312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.06626506024096386,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.32299426198005676,
+      "learning_rate": 1e-06,
+      "loss": 0.0374,
+      "num_tokens": 34088185.0,
+      "reward": 2.8147430419921875,
+      "reward_std": 0.3786037564277649,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.8147430419921875,
+      "rewards/icrm_reward/std": 0.45253899693489075,
+      "step": 88
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1422.0,
+      "completions/mean_length": 845.720703125,
+      "completions/mean_terminated_length": 817.6605224609375,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 0.06701807228915663,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.31927403807640076,
+      "learning_rate": 1e-06,
+      "loss": 0.0419,
+      "num_tokens": 34564490.0,
+      "reward": 2.8685455322265625,
+      "reward_std": 0.4015999734401703,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.8685455322265625,
+      "rewards/icrm_reward/std": 0.462121844291687,
+      "step": 89
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.021484375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1517.0,
+      "completions/mean_length": 885.173828125,
+      "completions/mean_terminated_length": 870.8842163085938,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 0.0677710843373494,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.30388039350509644,
+      "learning_rate": 1e-06,
+      "loss": 0.0421,
+      "num_tokens": 35065059.0,
+      "reward": 2.9256591796875,
+      "reward_std": 0.381799578666687,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.9256591796875,
+      "rewards/icrm_reward/std": 0.4587096571922302,
+      "step": 90
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.04296875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1520.0,
+      "completions/mean_length": 860.423828125,
+      "completions/mean_terminated_length": 830.091796875,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 0.06852409638554217,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.31677141785621643,
+      "learning_rate": 1e-06,
+      "loss": 0.0362,
+      "num_tokens": 35548764.0,
+      "reward": 2.9433441162109375,
+      "reward_std": 0.4057391285896301,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.9433441162109375,
+      "rewards/icrm_reward/std": 0.4758445918560028,
+      "step": 91
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1499.0,
+      "completions/mean_length": 880.548828125,
+      "completions/mean_terminated_length": 864.8180541992188,
+      "completions/min_length": 225.0,
+      "completions/min_terminated_length": 225.0,
+      "epoch": 0.06927710843373494,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2733721435070038,
+      "learning_rate": 1e-06,
+      "loss": 0.0376,
+      "num_tokens": 36041157.0,
+      "reward": 2.95556640625,
+      "reward_std": 0.3688337206840515,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.95556640625,
+      "rewards/icrm_reward/std": 0.42398521304130554,
+      "step": 92
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.017578125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1535.0,
+      "completions/mean_length": 882.771484375,
+      "completions/mean_terminated_length": 871.0834350585938,
+      "completions/min_length": 266.0,
+      "completions/min_terminated_length": 266.0,
+      "epoch": 0.07003012048192771,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.30676305294036865,
+      "learning_rate": 1e-06,
+      "loss": 0.0245,
+      "num_tokens": 36536928.0,
+      "reward": 2.928802490234375,
+      "reward_std": 0.37581419944763184,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.928802490234375,
+      "rewards/icrm_reward/std": 0.4320792555809021,
+      "step": 93
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1533.0,
+      "completions/mean_length": 912.806640625,
+      "completions/mean_terminated_length": 897.8500366210938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 0.07078313253012049,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2867027521133423,
+      "learning_rate": 1e-06,
+      "loss": 0.0418,
+      "num_tokens": 37049405.0,
+      "reward": 3.07061767578125,
+      "reward_std": 0.38050028681755066,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.07061767578125,
+      "rewards/icrm_reward/std": 0.4632287621498108,
+      "step": 94
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 887.109375,
+      "completions/mean_terminated_length": 874.1832885742188,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 0.07153614457831325,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.3053477108478546,
+      "learning_rate": 1e-06,
+      "loss": 0.0042,
+      "num_tokens": 37546421.0,
+      "reward": 3.01019287109375,
+      "reward_std": 0.4029240608215332,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.01019287109375,
+      "rewards/icrm_reward/std": 0.46473872661590576,
+      "step": 95
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1536.0,
+      "completions/mean_length": 895.69921875,
+      "completions/mean_terminated_length": 880.33203125,
+      "completions/min_length": 352.0,
+      "completions/min_terminated_length": 352.0,
+      "epoch": 0.07228915662650602,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.3111552894115448,
+      "learning_rate": 1e-06,
+      "loss": 0.0166,
+      "num_tokens": 38050571.0,
+      "reward": 3.07513427734375,
+      "reward_std": 0.3884848952293396,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.07513427734375,
+      "rewards/icrm_reward/std": 0.47221118211746216,
+      "step": 96
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1512.0,
+      "completions/mean_length": 902.5625,
+      "completions/mean_terminated_length": 882.1290283203125,
+      "completions/min_length": 445.0,
+      "completions/min_terminated_length": 445.0,
+      "epoch": 0.0730421686746988,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.272835373878479,
+      "learning_rate": 1e-06,
+      "loss": 0.0133,
+      "num_tokens": 38557883.0,
+      "reward": 3.056396484375,
+      "reward_std": 0.4365222454071045,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.056396484375,
+      "rewards/icrm_reward/std": 0.5650331974029541,
+      "step": 97
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1490.0,
+      "completions/mean_length": 836.984375,
+      "completions/mean_terminated_length": 832.8644409179688,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 0.07379518072289157,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.32397598028182983,
+      "learning_rate": 1e-06,
+      "loss": 0.0132,
+      "num_tokens": 39035331.0,
+      "reward": 3.0126800537109375,
+      "reward_std": 0.3690912127494812,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.0126800537109375,
+      "rewards/icrm_reward/std": 0.45690035820007324,
+      "step": 98
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1495.0,
+      "completions/mean_length": 909.12890625,
+      "completions/mean_terminated_length": 904.1929321289062,
+      "completions/min_length": 354.0,
+      "completions/min_terminated_length": 354.0,
+      "epoch": 0.07454819277108433,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2951310873031616,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 39545477.0,
+      "reward": 3.144927978515625,
+      "reward_std": 0.367910236120224,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.144927978515625,
+      "rewards/icrm_reward/std": 0.42396417260169983,
+      "step": 99
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.025390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1527.0,
+      "completions/mean_length": 900.78515625,
+      "completions/mean_terminated_length": 884.2365112304688,
+      "completions/min_length": 324.0,
+      "completions/min_terminated_length": 324.0,
+      "epoch": 0.07530120481927711,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.28665030002593994,
+      "learning_rate": 1e-06,
+      "loss": 0.0229,
+      "num_tokens": 40053143.0,
+      "reward": 3.1378173828125,
+      "reward_std": 0.40286144614219666,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 3.1378173828125,
+      "rewards/icrm_reward/std": 0.4643743336200714,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1328,
+  "num_input_tokens_seen": 40053143,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:430d97a31331bdd0a6f3fc11a59e3059e538a16f64586546cad1520a49efbd16
+size 7185

checkpoint-100/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-50/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-50/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

checkpoint-50/config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 70,
+  "model_type": "qwen2",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

checkpoint-50/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.55.2"
+}

checkpoint-50/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-50/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e93b6b721368b05f85e7b3263688d0e46e25f3e298f047cd5b65dff53aa3481
+size 4982131536

checkpoint-50/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25227739711f8ed3e2ac3ee8dad6f1bedbdd0f77189beb83f4bd65ad86c8c726
+size 4932949336

checkpoint-50/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:495f5056f6b8fab9a63bc9d4baa4b19f196d1a5e41c75ddeed79097ec12b36d4
+size 3673383040

checkpoint-50/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,443 @@

+{
+  "metadata": {
+    "total_parameters": 771484672,
+    "total_size": 13588414464
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

checkpoint-50/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-50/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eee858c5123a4279c3e1f7b81247343f356ac767940b2692a928ad929543214
+size 11422063

checkpoint-50/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-50/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1184 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.03765060240963856,
+  "eval_steps": 500,
+  "global_step": 50,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1461.0,
+      "completions/mean_length": 539.939453125,
+      "completions/mean_terminated_length": 534.0687866210938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.0007530120481927711,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2677452564239502,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 322497.0,
+      "reward": 1.8222503662109375,
+      "reward_std": 0.2692643404006958,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8222503662109375,
+      "rewards/icrm_reward/std": 0.35891062021255493,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1361.0,
+      "completions/mean_length": 541.125,
+      "completions/mean_terminated_length": 535.2612915039062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 0.0015060240963855422,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2547134757041931,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 643217.0,
+      "reward": 1.8759613037109375,
+      "reward_std": 0.26730749011039734,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8759613037109375,
+      "rewards/icrm_reward/std": 0.35533255338668823,
+      "step": 2
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1268.0,
+      "completions/max_terminated_length": 1268.0,
+      "completions/mean_length": 503.001953125,
+      "completions/mean_terminated_length": 503.001953125,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 0.002259036144578313,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.28800466656684875,
+      "learning_rate": 1e-06,
+      "loss": -0.0702,
+      "num_tokens": 946338.0,
+      "reward": 1.807281494140625,
+      "reward_std": 0.2657621502876282,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.807281494140625,
+      "rewards/icrm_reward/std": 0.36616575717926025,
+      "step": 3
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1020.0,
+      "completions/max_terminated_length": 1020.0,
+      "completions/mean_length": 482.392578125,
+      "completions/mean_terminated_length": 482.392578125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 0.0030120481927710845,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2880045473575592,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 1238651.0,
+      "reward": 1.8897247314453125,
+      "reward_std": 0.24010181427001953,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8897247314453125,
+      "rewards/icrm_reward/std": 0.2975654602050781,
+      "step": 4
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1447.0,
+      "completions/mean_length": 548.681640625,
+      "completions/mean_terminated_length": 546.74951171875,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 0.0037650602409638554,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26260432600975037,
+      "learning_rate": 1e-06,
+      "loss": -0.0915,
+      "num_tokens": 1564648.0,
+      "reward": 1.8785552978515625,
+      "reward_std": 0.2939695119857788,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8785552978515625,
+      "rewards/icrm_reward/std": 0.3403075635433197,
+      "step": 5
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1248.0,
+      "completions/mean_length": 465.359375,
+      "completions/mean_terminated_length": 461.1607971191406,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 0.004518072289156626,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2783867418766022,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 1845008.0,
+      "reward": 1.886444091796875,
+      "reward_std": 0.24519476294517517,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.886444091796875,
+      "rewards/icrm_reward/std": 0.32863083481788635,
+      "step": 6
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1419.0,
+      "completions/mean_length": 558.427734375,
+      "completions/mean_terminated_length": 556.5146484375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.005271084337349397,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2398781031370163,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 2178827.0,
+      "reward": 1.89752197265625,
+      "reward_std": 0.2825944125652313,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.89752197265625,
+      "rewards/icrm_reward/std": 0.3314611613750458,
+      "step": 7
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1315.0,
+      "completions/max_terminated_length": 1315.0,
+      "completions/mean_length": 516.62890625,
+      "completions/mean_terminated_length": 516.62890625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.006024096385542169,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26950332522392273,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 2490557.0,
+      "reward": 1.880584716796875,
+      "reward_std": 0.24953413009643555,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.880584716796875,
+      "rewards/icrm_reward/std": 0.31805965304374695,
+      "step": 8
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1486.0,
+      "completions/mean_length": 540.916015625,
+      "completions/mean_terminated_length": 538.9686889648438,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 0.00677710843373494,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.27774062752723694,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 2810898.0,
+      "reward": 1.8914337158203125,
+      "reward_std": 0.2737649083137512,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.8914337158203125,
+      "rewards/icrm_reward/std": 0.3299334645271301,
+      "step": 9
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1449.0,
+      "completions/mean_length": 489.474609375,
+      "completions/mean_terminated_length": 487.4266052246094,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.007530120481927711,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.29050636291503906,
+      "learning_rate": 1e-06,
+      "loss": -0.0795,
+      "num_tokens": 3108869.0,
+      "reward": 1.938812255859375,
+      "reward_std": 0.2572469711303711,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.938812255859375,
+      "rewards/icrm_reward/std": 0.338980495929718,
+      "step": 10
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1475.0,
+      "completions/max_terminated_length": 1475.0,
+      "completions/mean_length": 520.849609375,
+      "completions/mean_terminated_length": 520.849609375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 0.008283132530120483,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2942567765712738,
+      "learning_rate": 1e-06,
+      "loss": -0.0717,
+      "num_tokens": 3421848.0,
+      "reward": 1.9404754638671875,
+      "reward_std": 0.2595525085926056,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9404754638671875,
+      "rewards/icrm_reward/std": 0.3023451566696167,
+      "step": 11
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1396.0,
+      "completions/mean_length": 519.873046875,
+      "completions/mean_terminated_length": 517.884521484375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.009036144578313253,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24970945715904236,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 3729655.0,
+      "reward": 1.9094085693359375,
+      "reward_std": 0.25953686237335205,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9094085693359375,
+      "rewards/icrm_reward/std": 0.331910640001297,
+      "step": 12
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1369.0,
+      "completions/mean_length": 547.90625,
+      "completions/mean_terminated_length": 545.9725952148438,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 0.009789156626506024,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.28067365288734436,
+      "learning_rate": 1e-06,
+      "loss": -0.0752,
+      "num_tokens": 4053863.0,
+      "reward": 1.9482421875,
+      "reward_std": 0.26520416140556335,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9482421875,
+      "rewards/icrm_reward/std": 0.3480120599269867,
+      "step": 13
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1511.0,
+      "completions/mean_length": 548.40234375,
+      "completions/mean_terminated_length": 546.4696655273438,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 0.010542168674698794,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.25670015811920166,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 4378933.0,
+      "reward": 1.9578399658203125,
+      "reward_std": 0.27680855989456177,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9578399658203125,
+      "rewards/icrm_reward/std": 0.3370186686515808,
+      "step": 14
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1521.0,
+      "completions/max_terminated_length": 1521.0,
+      "completions/mean_length": 524.80859375,
+      "completions/mean_terminated_length": 524.80859375,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 0.011295180722891566,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2583891451358795,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 4691523.0,
+      "reward": 1.9633941650390625,
+      "reward_std": 0.2548086643218994,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9633941650390625,
+      "rewards/icrm_reward/std": 0.31804537773132324,
+      "step": 15
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1247.0,
+      "completions/mean_length": 560.337890625,
+      "completions/mean_terminated_length": 556.5117797851562,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.012048192771084338,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24440975487232208,
+      "learning_rate": 1e-06,
+      "loss": -0.0549,
+      "num_tokens": 5027184.0,
+      "reward": 1.9822998046875,
+      "reward_std": 0.268485963344574,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 1.9822998046875,
+      "rewards/icrm_reward/std": 0.3278394639492035,
+      "step": 16
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1356.0,
+      "completions/mean_length": 591.25390625,
+      "completions/mean_terminated_length": 589.4050903320312,
+      "completions/min_length": 219.0,
+      "completions/min_terminated_length": 219.0,
+      "epoch": 0.012801204819277108,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22858311235904694,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 5376418.0,
+      "reward": 2.090728759765625,
+      "reward_std": 0.2703300714492798,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.090728759765625,
+      "rewards/icrm_reward/std": 0.3051627278327942,
+      "step": 17
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1427.0,
+      "completions/mean_length": 560.716796875,
+      "completions/mean_terminated_length": 556.8922119140625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 0.01355421686746988,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24253730475902557,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 5708881.0,
+      "reward": 2.023834228515625,
+      "reward_std": 0.22830849885940552,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.023834228515625,
+      "rewards/icrm_reward/std": 0.3195403516292572,
+      "step": 18
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1396.0,
+      "completions/max_terminated_length": 1396.0,
+      "completions/mean_length": 554.669921875,
+      "completions/mean_terminated_length": 554.669921875,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 0.01430722891566265,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22568698227405548,
+      "learning_rate": 1e-06,
+      "loss": -0.0628,
+      "num_tokens": 6034520.0,
+      "reward": 2.0350494384765625,
+      "reward_std": 0.23877058923244476,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0350494384765625,
+      "rewards/icrm_reward/std": 0.2821340560913086,
+      "step": 19
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1408.0,
+      "completions/mean_length": 618.142578125,
+      "completions/mean_terminated_length": 612.7328491210938,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.015060240963855422,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21298259496688843,
+      "learning_rate": 1e-06,
+      "loss": -0.0312,
+      "num_tokens": 6399457.0,
+      "reward": 2.043853759765625,
+      "reward_std": 0.2564227879047394,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.043853759765625,
+      "rewards/icrm_reward/std": 0.32547545433044434,
+      "step": 20
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1500.0,
+      "completions/mean_length": 647.5078125,
+      "completions/mean_terminated_length": 636.9723510742188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 0.01581325301204819,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21974076330661774,
+      "learning_rate": 1e-06,
+      "loss": -0.0194,
+      "num_tokens": 6773909.0,
+      "reward": 2.0822906494140625,
+      "reward_std": 0.2559783458709717,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0822906494140625,
+      "rewards/icrm_reward/std": 0.3165861964225769,
+      "step": 21
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1533.0,
+      "completions/mean_length": 629.095703125,
+      "completions/mean_terminated_length": 627.3209228515625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 0.016566265060240965,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2140408158302307,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 7137062.0,
+      "reward": 2.0489654541015625,
+      "reward_std": 0.22745975852012634,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0489654541015625,
+      "rewards/icrm_reward/std": 0.28583163022994995,
+      "step": 22
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1474.0,
+      "completions/mean_length": 668.0,
+      "completions/mean_terminated_length": 666.3013916015625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.017319277108433735,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19740059971809387,
+      "learning_rate": 1e-06,
+      "loss": -0.0199,
+      "num_tokens": 7525974.0,
+      "reward": 2.114471435546875,
+      "reward_std": 0.22889575362205505,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.114471435546875,
+      "rewards/icrm_reward/std": 0.2792186439037323,
+      "step": 23
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.033203125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1507.0,
+      "completions/mean_length": 688.009765625,
+      "completions/mean_terminated_length": 658.8869018554688,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 0.018072289156626505,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19638773798942566,
+      "learning_rate": 1e-06,
+      "loss": 0.0102,
+      "num_tokens": 7924795.0,
+      "reward": 2.080596923828125,
+      "reward_std": 0.23665004968643188,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.080596923828125,
+      "rewards/icrm_reward/std": 0.3111322522163391,
+      "step": 24
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1517.0,
+      "completions/max_terminated_length": 1517.0,
+      "completions/mean_length": 625.5546875,
+      "completions/mean_terminated_length": 625.5546875,
+      "completions/min_length": 232.0,
+      "completions/min_terminated_length": 232.0,
+      "epoch": 0.01882530120481928,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22388488054275513,
+      "learning_rate": 1e-06,
+      "loss": -0.0295,
+      "num_tokens": 8289031.0,
+      "reward": 2.1454315185546875,
+      "reward_std": 0.22431066632270813,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1454315185546875,
+      "rewards/icrm_reward/std": 0.2752014100551605,
+      "step": 25
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.025390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1518.0,
+      "completions/mean_length": 620.7578125,
+      "completions/mean_terminated_length": 596.913818359375,
+      "completions/min_length": 229.0,
+      "completions/min_terminated_length": 229.0,
+      "epoch": 0.01957831325301205,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21399712562561035,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 8656715.0,
+      "reward": 2.0743865966796875,
+      "reward_std": 0.2408333122730255,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0743865966796875,
+      "rewards/icrm_reward/std": 0.3148554563522339,
+      "step": 26
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1519.0,
+      "completions/max_terminated_length": 1519.0,
+      "completions/mean_length": 640.244140625,
+      "completions/mean_terminated_length": 640.244140625,
+      "completions/min_length": 256.0,
+      "completions/min_terminated_length": 256.0,
+      "epoch": 0.02033132530120482,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2085241973400116,
+      "learning_rate": 1e-06,
+      "loss": -0.0445,
+      "num_tokens": 9027544.0,
+      "reward": 2.1477813720703125,
+      "reward_std": 0.22815221548080444,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1477813720703125,
+      "rewards/icrm_reward/std": 0.3022710084915161,
+      "step": 27
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1444.0,
+      "completions/max_terminated_length": 1444.0,
+      "completions/mean_length": 574.10546875,
+      "completions/mean_terminated_length": 574.10546875,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 0.02108433734939759,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22086061537265778,
+      "learning_rate": 1e-06,
+      "loss": -0.0415,
+      "num_tokens": 9368830.0,
+      "reward": 2.0839691162109375,
+      "reward_std": 0.22651252150535583,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.0839691162109375,
+      "rewards/icrm_reward/std": 0.2819969654083252,
+      "step": 28
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1455.0,
+      "completions/mean_length": 608.298828125,
+      "completions/mean_terminated_length": 602.8310546875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.021837349397590362,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21593217551708221,
+      "learning_rate": 1e-06,
+      "loss": -0.0165,
+      "num_tokens": 9728471.0,
+      "reward": 2.12347412109375,
+      "reward_std": 0.2261788547039032,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.12347412109375,
+      "rewards/icrm_reward/std": 0.2729581892490387,
+      "step": 29
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1490.0,
+      "completions/mean_length": 602.5390625,
+      "completions/mean_terminated_length": 600.7123413085938,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 0.022590361445783132,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21327072381973267,
+      "learning_rate": 1e-06,
+      "loss": -0.0265,
+      "num_tokens": 10078123.0,
+      "reward": 2.134918212890625,
+      "reward_std": 0.22259432077407837,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.134918212890625,
+      "rewards/icrm_reward/std": 0.2794201970100403,
+      "step": 30
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1390.0,
+      "completions/mean_length": 624.75390625,
+      "completions/mean_terminated_length": 622.9706420898438,
+      "completions/min_length": 213.0,
+      "completions/min_terminated_length": 213.0,
+      "epoch": 0.023343373493975902,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21840304136276245,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 10439629.0,
+      "reward": 2.1316375732421875,
+      "reward_std": 0.2339249849319458,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1316375732421875,
+      "rewards/icrm_reward/std": 0.2949000895023346,
+      "step": 31
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1455.0,
+      "completions/mean_length": 618.02734375,
+      "completions/mean_terminated_length": 610.7991943359375,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 0.024096385542168676,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21134598553180695,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 10801515.0,
+      "reward": 2.1789169311523438,
+      "reward_std": 0.2280135154724121,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1789169311523438,
+      "rewards/icrm_reward/std": 0.3063806891441345,
+      "step": 32
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1394.0,
+      "completions/max_terminated_length": 1394.0,
+      "completions/mean_length": 579.873046875,
+      "completions/mean_terminated_length": 579.873046875,
+      "completions/min_length": 50.0,
+      "completions/min_terminated_length": 50.0,
+      "epoch": 0.024849397590361446,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23027564585208893,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 11142458.0,
+      "reward": 2.1141510009765625,
+      "reward_std": 0.22557678818702698,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1141510009765625,
+      "rewards/icrm_reward/std": 0.2943926155567169,
+      "step": 33
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1466.0,
+      "completions/mean_length": 569.83203125,
+      "completions/mean_terminated_length": 567.9412841796875,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 0.025602409638554216,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2484128624200821,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 11478676.0,
+      "reward": 2.138275146484375,
+      "reward_std": 0.2324836403131485,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.138275146484375,
+      "rewards/icrm_reward/std": 0.2837066352367401,
+      "step": 34
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1524.0,
+      "completions/mean_length": 649.62109375,
+      "completions/mean_terminated_length": 644.3968505859375,
+      "completions/min_length": 247.0,
+      "completions/min_terminated_length": 247.0,
+      "epoch": 0.02635542168674699,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22154265642166138,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 11857058.0,
+      "reward": 2.131011962890625,
+      "reward_std": 0.2266952395439148,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.131011962890625,
+      "rewards/icrm_reward/std": 0.31931453943252563,
+      "step": 35
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.009765625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1451.0,
+      "completions/mean_length": 637.251953125,
+      "completions/mean_terminated_length": 628.3885498046875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 0.02710843373493976,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20767764747142792,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 12229043.0,
+      "reward": 2.1409454345703125,
+      "reward_std": 0.22632841765880585,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1409454345703125,
+      "rewards/icrm_reward/std": 0.2695969045162201,
+      "step": 36
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1456.0,
+      "completions/mean_length": 659.4453125,
+      "completions/mean_terminated_length": 647.2950439453125,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 0.02786144578313253,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2131509631872177,
+      "learning_rate": 1e-06,
+      "loss": -0.0088,
+      "num_tokens": 12614919.0,
+      "reward": 2.208251953125,
+      "reward_std": 0.24248948693275452,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.208251953125,
+      "rewards/icrm_reward/std": 0.3120294213294983,
+      "step": 37
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1361.0,
+      "completions/mean_length": 630.41015625,
+      "completions/mean_terminated_length": 626.85888671875,
+      "completions/min_length": 217.0,
+      "completions/min_terminated_length": 217.0,
+      "epoch": 0.0286144578313253,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2243937849998474,
+      "learning_rate": 1e-06,
+      "loss": -0.0279,
+      "num_tokens": 12980249.0,
+      "reward": 2.111053466796875,
+      "reward_std": 0.22191520035266876,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.111053466796875,
+      "rewards/icrm_reward/std": 0.2775036096572876,
+      "step": 38
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.01171875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1459.0,
+      "completions/mean_length": 675.94140625,
+      "completions/mean_terminated_length": 665.7431030273438,
+      "completions/min_length": 232.0,
+      "completions/min_terminated_length": 232.0,
+      "epoch": 0.029367469879518073,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20395302772521973,
+      "learning_rate": 1e-06,
+      "loss": -0.0178,
+      "num_tokens": 13371051.0,
+      "reward": 2.2367706298828125,
+      "reward_std": 0.24021776020526886,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2367706298828125,
+      "rewards/icrm_reward/std": 0.30560144782066345,
+      "step": 39
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1495.0,
+      "completions/mean_length": 665.2265625,
+      "completions/mean_terminated_length": 658.3700561523438,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 0.030120481927710843,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21775901317596436,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 13762655.0,
+      "reward": 2.22381591796875,
+      "reward_std": 0.23306353390216827,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.22381591796875,
+      "rewards/icrm_reward/std": 0.2940692901611328,
+      "step": 40
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.017578125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1489.0,
+      "completions/mean_length": 711.74609375,
+      "completions/mean_terminated_length": 696.9979858398438,
+      "completions/min_length": 240.0,
+      "completions/min_terminated_length": 240.0,
+      "epoch": 0.030873493975903613,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20008227229118347,
+      "learning_rate": 1e-06,
+      "loss": -0.0203,
+      "num_tokens": 14174493.0,
+      "reward": 2.1737060546875,
+      "reward_std": 0.23047159612178802,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1737060546875,
+      "rewards/icrm_reward/std": 0.2827721834182739,
+      "step": 41
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.005859375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1519.0,
+      "completions/mean_length": 628.2109375,
+      "completions/mean_terminated_length": 622.8605346679688,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 0.03162650602409638,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23574763536453247,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 14538633.0,
+      "reward": 2.2064056396484375,
+      "reward_std": 0.23086489737033844,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2064056396484375,
+      "rewards/icrm_reward/std": 0.30988746881484985,
+      "step": 42
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1509.0,
+      "completions/mean_length": 651.89453125,
+      "completions/mean_terminated_length": 648.427490234375,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 0.03237951807228916,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22128161787986755,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 14917715.0,
+      "reward": 2.1989898681640625,
+      "reward_std": 0.22341391444206238,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1989898681640625,
+      "rewards/icrm_reward/std": 0.2708163857460022,
+      "step": 43
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.02734375,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1535.0,
+      "completions/mean_length": 752.138671875,
+      "completions/mean_terminated_length": 730.1023559570312,
+      "completions/min_length": 253.0,
+      "completions/min_terminated_length": 253.0,
+      "epoch": 0.03313253012048193,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.18046841025352478,
+      "learning_rate": 1e-06,
+      "loss": -0.0114,
+      "num_tokens": 15353770.0,
+      "reward": 2.202545166015625,
+      "reward_std": 0.22210244834423065,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.202545166015625,
+      "rewards/icrm_reward/std": 0.30588632822036743,
+      "step": 44
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1520.0,
+      "completions/mean_length": 648.603515625,
+      "completions/mean_terminated_length": 619.977783203125,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 0.0338855421686747,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21456339955329895,
+      "learning_rate": 1e-06,
+      "loss": -0.0282,
+      "num_tokens": 15731183.0,
+      "reward": 2.1501007080078125,
+      "reward_std": 0.24410219490528107,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1501007080078125,
+      "rewards/icrm_reward/std": 0.3128403425216675,
+      "step": 45
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.001953125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1536.0,
+      "completions/mean_length": 664.4765625,
+      "completions/mean_terminated_length": 662.7710571289062,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 0.03463855421686747,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23055920004844666,
+      "learning_rate": 1e-06,
+      "loss": -0.0041,
+      "num_tokens": 16113635.0,
+      "reward": 2.2421112060546875,
+      "reward_std": 0.23560726642608643,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2421112060546875,
+      "rewards/icrm_reward/std": 0.29645806550979614,
+      "step": 46
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1530.0,
+      "completions/mean_length": 679.16796875,
+      "completions/mean_terminated_length": 667.2911376953125,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 0.035391566265060244,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.20098020136356354,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 16510985.0,
+      "reward": 2.1724700927734375,
+      "reward_std": 0.24453820288181305,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.1724700927734375,
+      "rewards/icrm_reward/std": 0.3007848858833313,
+      "step": 47
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.00390625,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1473.0,
+      "completions/mean_length": 629.65625,
+      "completions/mean_terminated_length": 626.1019897460938,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 0.03614457831325301,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.21083861589431763,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 16878169.0,
+      "reward": 2.199188232421875,
+      "reward_std": 0.21884912252426147,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.199188232421875,
+      "rewards/icrm_reward/std": 0.27998584508895874,
+      "step": 48
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.013671875,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1528.0,
+      "completions/mean_length": 673.232421875,
+      "completions/mean_terminated_length": 661.2733154296875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.036897590361445784,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22509372234344482,
+      "learning_rate": 1e-06,
+      "loss": -0.0074,
+      "num_tokens": 17269376.0,
+      "reward": 2.2296295166015625,
+      "reward_std": 0.2356814444065094,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.2296295166015625,
+      "rewards/icrm_reward/std": 0.2954954504966736,
+      "step": 49
+    },
+    {
+      "clip_ratio": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 1536.0,
+      "completions/max_terminated_length": 1424.0,
+      "completions/mean_length": 636.708984375,
+      "completions/mean_terminated_length": 629.6279296875,
+      "completions/min_length": 235.0,
+      "completions/min_terminated_length": 235.0,
+      "epoch": 0.03765060240963856,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24557623267173767,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 17640139.0,
+      "reward": 2.254730224609375,
+      "reward_std": 0.24260641634464264,
+      "rewards/accuracy_reward/mean": 0.0,
+      "rewards/accuracy_reward/std": 0.0,
+      "rewards/icrm_reward/mean": 2.254730224609375,
+      "rewards/icrm_reward/std": 0.2840177118778229,
+      "step": 50
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1328,
+  "num_input_tokens_seen": 17640139,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-50/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:430d97a31331bdd0a6f3fc11a59e3059e538a16f64586546cad1520a49efbd16
+size 7185

checkpoint-50/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff