MILVLG
/

imp-v1-3b

@@ -2,6 +2,22 @@
   "add_bos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "50256": {
       "content": "<|endoftext|>",
       "lstrip": false,

   "add_bos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
+    "50296": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50295": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
     "50256": {
       "content": "<|endoftext|>",
       "lstrip": false,

vision_encoder.py CHANGED Viewed

@@ -466,6 +466,7 @@ class SiglipMultiheadAttentionPoolingHead(nn.Module):
 class SiglipVisionModel(SiglipPreTrainedModel):
     config_class = SiglipVisionConfig
     main_input_name = "pixel_values"
     def __init__(self, config: SiglipVisionConfig):
         super().__init__(config)

 class SiglipVisionModel(SiglipPreTrainedModel):
     config_class = SiglipVisionConfig
     main_input_name = "pixel_values"
+    _no_split_modules = ["SiglipEncoderLayer"]
     def __init__(self, config: SiglipVisionConfig):
         super().__init__(config)