baichuan-inc
/

Baichuan-M2-32B-GPTQ-Int4

Text Generation

text-generation-inference

4-bit precision

Model card Files Files and versions

DrY commited on 12 days ago

Commit

3bc58ac

·

verified ·

1 Parent(s): babed71

fix: support sglang>=0.5.4

Files changed (1) hide show

draft/qwen2.py +13 -2

draft/qwen2.py CHANGED Viewed

@@ -43,7 +43,14 @@ from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,
 )
-from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch, PPProxyTensors
 from sglang.srt.model_loader.weight_utils import (
     default_weight_loader,
@@ -273,7 +280,11 @@ class Qwen2Model(nn.Module):
                 config.vocab_size,
                 config.hidden_size,
                 quant_config=quant_config,
-                enable_tp=not global_server_args_dict["enable_dp_attention"],
                 prefix=add_prefix("embed_tokens", prefix),
             )
         else:

     ParallelLMHead,
     VocabParallelEmbedding,
 )
+try:
+    from sglang.srt.managers.schedule_batch import global_server_args_dict
+except ImportError:
+    global_server_args_dict = None
+try:
+    from sglang.srt.server_args import get_global_server_args
+except ImportError:
+    get_global_server_args = None
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch, PPProxyTensors
 from sglang.srt.model_loader.weight_utils import (
     default_weight_loader,
                 config.vocab_size,
                 config.hidden_size,
                 quant_config=quant_config,
+                enable_tp=not (
+                    global_server_args_dict["enable_dp_attention"]
+                    if global_server_args_dict is not None
+                    else get_global_server_args().enable_dp_attention
+                ),
                 prefix=add_prefix("embed_tokens", prefix),
             )
         else: