Upload AudioFlamingo3ForConditionalGeneration

Browse files

Files changed (6) hide show

config.json +2 -1
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model-00003-of-00004.safetensors +2 -2
model-00004-of-00004.safetensors +2 -2
model.safetensors.index.json +97 -97

config.json CHANGED Viewed

@@ -7,6 +7,7 @@
     "activation_function": "gelu",
     "attention_dropout": 0.0,
     "dropout": 0.0,
     "hidden_size": 1280,
     "initializer_range": 0.02,
     "intermediate_size": 5120,
@@ -19,7 +20,7 @@
     "scale_embedding": false
   },
   "audio_token_id": 151669,
-  "dtype": "float32",
   "model_type": "audioflamingo3",
   "projector_bias": true,
   "projector_hidden_act": "gelu",

     "activation_function": "gelu",
     "attention_dropout": 0.0,
     "dropout": 0.0,
+    "dtype": "bfloat16",
     "hidden_size": 1280,
     "initializer_range": 0.02,
     "intermediate_size": 5120,
     "scale_embedding": false
   },
   "audio_token_id": 151669,
+  "dtype": "bfloat16",
   "model_type": "audioflamingo3",
   "projector_bias": true,
   "projector_hidden_act": "gelu",

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2944227d8f05c303fea780953497344d072186756aacff4b5f5061056f3cc4c4
-size 4897662976

 version https://git-lfs.github.com/spec/v1
+oid sha256:df42e51f121d243a7bbfb253ba2d388046b6b9abb33b7770c789d431c04d21bf
+size 4886285784

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74f9239be9cbdc4593f281ab889cc7ca8126b58eaf30892331214a685703b1c6
-size 4991497752

 version https://git-lfs.github.com/spec/v1
+oid sha256:36f6299c1e3137d431cf61044537c4dda0627d7092a5a44b5ce72eca4dcc56da
+size 4991497784

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19b39b04a0f508f132d229d94fa2137a46a03299667bc6d27d823f278b1a8b25
-size 4991497848

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e0c90ec3232d5a54c8722b19487fa2a117463fcd662ff6e93bab9970d0fe2f7
+size 4932752872

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d22767504cd0fae229a2f95dbecc20d6fb9e50797183cd64c8b7b5b0d0527b7
-size 2962689912

 version https://git-lfs.github.com/spec/v1
+oid sha256:4050632946b7c60cf2855d9d7628589639bd06bc2d5d45a58988fe97c7d98af2
+size 1723994720

model.safetensors.index.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "metadata": {
     "total_parameters": 8267215360,
-    "total_size": 17843248128
   },
   "weight_map": {
     "audio_tower.conv1.bias": "model-00001-of-00004.safetensors",
@@ -553,11 +553,11 @@
     "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.13.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.13.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.13.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
@@ -565,42 +565,42 @@
     "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.14.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
@@ -637,11 +637,11 @@
     "language_model.model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.2.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.2.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
@@ -697,11 +697,11 @@
     "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.24.input_layernorm.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
@@ -709,30 +709,30 @@
     "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.25.input_layernorm.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
@@ -745,42 +745,42 @@
     "language_model.model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.3.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.5.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.5.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.5.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.5.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",

 {
   "metadata": {
     "total_parameters": 8267215360,
+    "total_size": 16534430720
   },
   "weight_map": {
     "audio_tower.conv1.bias": "model-00001-of-00004.safetensors",
     "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
     "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.5.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.5.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.5.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.5.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",