Aduc-sdr-2_5s

Paused

App Files Files Community

euIaxs22 commited on Sep 30

Commit

3a7411b

verified ·

1 Parent(s): 229ee14

Update start.sh

Browse files

Files changed (1) hide show

start.sh +74 -99

start.sh CHANGED Viewed

@@ -2,134 +2,109 @@
 set -euo pipefail
 echo "======================================================="
-echo " ADUC-SDR — Start (VINCIE/SeedVR, 8× L40S)"
 echo "======================================================="
-# ---------------------- Env base ----------------------
 export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:-0,1,2,3,4,5,6,7}"
-export TORCH_DTYPE="${TORCH_DTYPE:-bfloat16}"
-# SDPA / FA toggles
-export ENABLE_FLASH_SDP="${ENABLE_FLASH_SDP:-1}"
-export ENABLE_MEMORY_EFFICIENT_SDP="${ENABLE_MEMORY_EFFICIENT_SDP:-1}"
-export ENABLE_MATH_SDP="${ENABLE_MATH_SDP:-0}"
-export FLASH_ATTENTION_DISABLE="${FLASH_ATTENTION_DISABLE:-0}"
-export XFORMERS_FORCE_DISABLE="${XFORMERS_FORCE_DISABLE:-1}"
-# CUDA / NCCL baseline
-export CUDA_MODULE_LOADING="LAZY"
-export CUDA_DEVICE_MAX_CONNECTIONS="${CUDA_DEVICE_MAX_CONNECTIONS:-32}"
-export CUDA_DEVICE_ORDER="PCI_BUS_ID"
-export PYTORCH_CUDA_ALLOC_CONF="max_split_size_mb:512,garbage_collection_threshold:0.8"
-export OMP_NUM_THREADS="${OMP_NUM_THREADS:-8}"
-export MKL_NUM_THREADS="${MKL_NUM_THREADS:-8}"
-export NCCL_DEBUG="INFO"
-export NCCL_ASYNC_ERROR_HANDLING=1
-export NCCL_P2P_DISABLE=0
-export NCCL_IB_DISABLE=1
-export NCCL_SOCKET_IFNAME="lo"
-export NCCL_BLOCKING_WAIT=1
-export TORCH_NCCL_BLOCKING_WAIT=1
-#export NCCL_TIMEOUT=600
-# ---------------------- Persistência HF/torch ----------------------
 if [ -d /data ]; then
   export HF_HOME="/data/.cache/huggingface"
   export TORCH_HOME="/data/.cache/torch"
 else
   export HF_HOME="/app/.cache/huggingface"
   export TORCH_HOME="/app/.cache/torch"
 fi
 export HF_HUB_CACHE="${HF_HUB_CACHE:-$HF_HOME/hub}"
 mkdir -p "$HF_HUB_CACHE" "$TORCH_HOME"
-mkdir -p /app/.cache
-ln -sf "$HF_HOME" /app/.cache/huggingface
-unset TRANSFORMERS_CACHE
-export HF_HUB_ENABLE_HF_TRANSFER=1
-export HF_HUB_DOWNLOAD_TIMEOUT=6000
-mkdir /app/common
-mkdir /app/data
-git clone https://github.com/bytedance-seed/VINCIE.git /app/VINCIE
-cp -rvu /app/VINCIE/common/. /app/common/.
-cp -rvu /app/VINCIE/data/. /app/data/.
-cp -rvu /app/VINCIE/models/. /app/models/.
-cp -rvu /app/VINCIE/configs/. /app/configs/.
-MODEL_REPO="ByteDance-Seed/VINCIE-3B"
-CKPT_DIR="/app/ckpt/VINCIE-3B"
-mkdir -p "$CKPT_DIR"
-# ---------------------- Cache Estruturado HF (persistente) ----------------------
-# Define cache no volume persistente /data (1TB)
-if [ -d /data ]; then
-  export HF_HOME="${HF_HOME:-/data/.cache/huggingface}"
 else
-  export HF_HOME="${HF_HOME:-/app/.cache/huggingface}"
 fi
-export HF_HUB_CACHE="${HF_HUB_CACHE:-$HF_HOME/hub}"
-mkdir -p "$HF_HUB_CACHE"
-echo "📦 Cache HF: $HF_HUB_CACHE"
-# Download usando cache estruturado (não duplica arquivos)
-python3 - <<'PY'
 from huggingface_hub import snapshot_download
 import os
-cache_dir = os.environ.get('HF_HUB_CACHE')
-print(f'📥 Baixando VINCIE-3B para cache: {cache_dir}')
 try:
-    model_path = snapshot_download(
-        repo_id='ByteDance-Seed/VINCIE-3B',
-        cache_dir=cache_dir,           # Usa cache estruturado
-        resume_download=True,          # Retoma downloads interrompidos
-        max_workers=8,                 # Acelera com paralelismo
-        # Não usa local_dir - mantém tudo no cache HF
     )
-    print(f'✅ Modelo em cache: {model_path}')
-    # Cria symlink para compatibilidade com código legacy
-    ckpt_link = '/app/ckpt/VINCIE-3B'
-    os.makedirs('/app/ckpt', exist_ok=True)
-    if os.path.islink(ckpt_link):
-        os.unlink(ckpt_link)
-    if not os.path.exists(ckpt_link):
-        os.symlink(model_path, ckpt_link)
-        print(f'🔗 Symlink: {ckpt_link} -> {model_path}')
 except Exception as e:
-    print(f'⚠️ Download falhou: {e}')
-    import traceback
     traceback.print_exc()
-PY
-echo "Executando builder Apex/Q8..."
-chmod +x /app/builder.sh
-/app/builder.sh || true
-# ---------------------- Diagnóstico ----------------------
-/app/info.sh || true
-ls -la /app || true
-ls -R /app | head -n 2000 || true
-# ---------------------- Subindo serviço ----------------------
-echo "🚀 Subindo serviços..."
-# Dica: pode-se exportar VINCIE_DIRECT_TO_CKPT=1 para fallback interno
-python /app/app_vince.py

 set -euo pipefail
 echo "======================================================="
+echo "       VINCIE - Start (VINCIE-3B, 8x L40S)"
 echo "======================================================="
+# --- Configurações de Ambiente Otimizadas ---
+# Define quais GPUs serão usadas (padrão: 8 GPUs)
 export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:-0,1,2,3,4,5,6,7}"
+# Configurações robustas para comunicação NCCL em um único nó
+export PYTHONFAULTHANDLER=1
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export NCCL_DEBUG="WARN"
+export NCCL_SOCKET_IFNAME="lo" # Essencial para evitar problemas de rede em single-node
+export NCCL_IB_DISABLE=1
+export NCCL_P2P_DISABLE=1
+# --- Builder para Dependências CUDA ---
+# Executa o script que compila ou baixa dependências otimizadas como Apex e FlashAttention.
+# É executado primeiro para garantir que o ambiente de baixo nível esteja pronto.
+echo "🛠️  Iniciando o builder.sh para compilar/instalar dependências CUDA..."
+if [ -f "/app/builder.sh" ]; then
+    /bin/bash /app/builder.sh
+    echo "✅ Builder finalizado."
+else
+    echo "⚠️  Aviso: builder.sh não encontrado. Pulando etapa de compilação de dependências."
+fi
+# --- Configuração do Cache Persistente ---
+# Usa o diretório /data se disponível (para persistência entre restarts do container),
+# caso contrário, usa um diretório local.
 if [ -d /data ]; then
+  echo "Usando /data para cache persistente."
   export HF_HOME="/data/.cache/huggingface"
   export TORCH_HOME="/data/.cache/torch"
 else
+  echo "Usando /app/.cache para cache local."
   export HF_HOME="/app/.cache/huggingface"
   export TORCH_HOME="/app/.cache/torch"
 fi
 export HF_HUB_CACHE="${HF_HUB_CACHE:-$HF_HOME/hub}"
 mkdir -p "$HF_HUB_CACHE" "$TORCH_HOME"
+export HF_HUB_ENABLE_HF_TRANSFER=1 # Ativa downloader turbo
+# --- Preparação do Código e do Modelo VINCIE ---
+export MODEL_REPO="ByteDance-Seed/VINCIE-3B"
+export APP_DIR="/app/VINCIE"
+export CKPT_DIR="${APP_DIR}/ckpt/VINCIE-3B" # O VINCIE espera os checkpoints neste caminho
+# 1. Clona o repositório do VINCIE se ele não existir
+if [ ! -d "$APP_DIR" ]; then
+    echo "Clonando repositório VINCIE para ${APP_DIR}..."
+    git clone https://github.com/ByteDance-Seed/VINCIE.git "$APP_DIR"
 else
+    echo "Repositório VINCIE já existe em ${APP_DIR}. Pulando clonagem."
 fi
+# Garante que o diretório de checkpoints exista dentro do repositório clonado
+mkdir -p "$(dirname "$CKPT_DIR")"
+# --- Cache dos Modelos via Hugging Face Hub ---
+echo "📦 Verificando cache dos modelos..."
+python3 -c '
 from huggingface_hub import snapshot_download
 import os
+import traceback
+repo_id = os.environ.get("MODEL_REPO")
+cache_dir = os.environ.get("HF_HUB_CACHE")
+ckpt_link_path = os.environ.get("CKPT_DIR")
 try:
+    print(f"📥 Baixando {repo_id} para o cache em {cache_dir}...")
+    model_path_in_cache = snapshot_download(
+        repo_id=repo_id,
+        cache_dir=cache_dir,
+        resume_download=True,
+        # O VINCIE-3B é grande, ignora os arquivos safetensors se houver .bin
+        ignore_patterns=["*.safetensors"],
     )
+    print(f"✅ Modelo em cache: {model_path_in_cache}")
+    # Cria um link simbólico do cache para o diretório esperado pelo código do VINCIE.
+    # Isso evita duplicar os arquivos do modelo.
+    if not os.path.lexists(ckpt_link_path):
+        os.symlink(model_path_in_cache, ckpt_link_path)
+        print(f"🔗 Symlink criado: {ckpt_link_path} -> {model_path_in_cache}")
+    else:
+        print(f"✅ Symlink já existe em {ckpt_link_path}.")
 except Exception as e:
+    print(f"⚠️ Falha no download ou criação de symlink do modelo: {e}")
     traceback.print_exc()
+'
+# --- Diagnóstico Final (Opcional) ---
+echo "🕵️  Verificando conteúdo do diretório de checkpoints..."
+ls -lA "$CKPT_DIR" || echo "⚠️  Não foi possível listar o diretório de checkpoints."
+# --- Subindo a Aplicação ---
+echo "🚀 Iniciando a interface web VINCIE (app_vince.py)..."
+# Muda para o diretório da aplicação para que os caminhos relativos (configs, assets) funcionem
+cd "$APP_DIR"
+# Lança a aplicação de UI. Gradio irá escutar em todas as interfaces de rede na porta 7860.
+# O parâmetro --enable-queue habilita uma fila para gerenciar múltiplas requisições.
+python3 /app/app_vince.py --server-name 0.0.0.0 --server-port 7860 --enable-queue