Spaces:

Sirawitch
/

kkulchatbot

Runtime error

App Files Files Community

Sirawitch commited on Sep 19, 2024

Commit

a90d622

verified ·

1 Parent(s): fe70976

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -24

app.py CHANGED Viewed

@@ -2,11 +2,9 @@ from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from typing import Optional
 import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
 import logging
-import os
-# ตั้งค่า logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -16,32 +14,21 @@ try:
     model_name = "scb10x/llama-3-typhoon-v1.5-8b-instruct"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
-    # ตรวจสอบว่ามี GPU หรือไม่
-    if torch.cuda.is_available():
-        logger.info("GPU is available. Using CUDA.")
-        device = "cuda"
-    else:
-        logger.info("No GPU found. Using CPU.")
-        device = "cpu"
-    # กำหนดการตั้งค่าสำหรับการโหลดโมเดล
-    model_kwargs = {
-        "torch_dtype": torch.float32 if device == "cpu" else torch.float16,
-        "low_cpu_mem_usage": True,
-    }
-    if device == "cuda":
-        from transformers import BitsAndBytesConfig
-        model_kwargs["quantization_config"] = BitsAndBytesConfig(load_in_8bit=True)
-    # โหลดโมเดล
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
-        device_map="auto" if device == "cuda" else None,
-        **model_kwargs
     )
-    model.to(device)
     logger.info(f"Model loaded successfully on {device}")
 except Exception as e:
     logger.error(f"Error loading model: {str(e)}")

 from pydantic import BaseModel
 from typing import Optional
 import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 import logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
     model_name = "scb10x/llama-3-typhoon-v1.5-8b-instruct"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    logger.info(f"Using device: {device}")
+    # 4-bit quantization configuration
+    quantization_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_compute_dtype=torch.float16
+    )
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
+        quantization_config=quantization_config,
+        device_map="auto",
+        low_cpu_mem_usage=True,
     )
     logger.info(f"Model loaded successfully on {device}")
 except Exception as e:
     logger.error(f"Error loading model: {str(e)}")