Aduc-sdr-2_5s

Paused

App Files Files Community

x2XcarleX2x commited on Sep 24

Commit

e7d2ed1

verified ·

1 Parent(s): 3d73884

Update aduc_framework/managers/vae_wan_manager.py

Browse files

Files changed (1) hide show

aduc_framework/managers/vae_wan_manager.py +12 -5

aduc_framework/managers/vae_wan_manager.py CHANGED Viewed

@@ -85,13 +85,20 @@ class VaeWanManager:
             raise e
     def _preprocess_pil_image(self, pil_image: Image.Image, target_resolution: tuple) -> torch.Tensor:
-        """Converte uma imagem PIL para o formato de tensor esperado pelo VAE."""
         from PIL import ImageOps
         img = pil_image.convert("RGB")
         processed_img = ImageOps.fit(img, target_resolution, Image.Resampling.LANCZOS)
         image_np = np.array(processed_img).astype(np.float32) / 255.0
-        tensor = torch.from_numpy(image_np).permute(2, 0, 1).unsqueeze(0)
-        return (tensor * 2.0) - 1.0
     @torch.no_grad()
     def encode_batch(self, pil_images: List[Image.Image], target_resolution: tuple) -> List[torch.Tensor]:
@@ -102,9 +109,9 @@ class VaeWanManager:
         latents_list = []
         for img in pil_images:
             pixel_tensor_gpu = self._preprocess_pil_image(img, target_resolution).to(self.device, dtype=self.dtype)
-            # Usa a função oficial do diffusers para extrair os latentes
             encoder_output = self.vae.encode(pixel_tensor_gpu)
             latents = retrieve_latents(encoder_output)
@@ -121,7 +128,7 @@ class VaeWanManager:
         latent_tensor_gpu = latent_tensor.to(self.device, dtype=self.dtype)
-        # Acessa a saída através do atributo .sample para compatibilidade
         decode_output = self.vae.decode(latent_tensor_gpu)
         pixels = decode_output.sample

             raise e
     def _preprocess_pil_image(self, pil_image: Image.Image, target_resolution: tuple) -> torch.Tensor:
+        """Converte uma imagem PIL para o formato de tensor 5D esperado pelo VAE de vídeo."""
         from PIL import ImageOps
         img = pil_image.convert("RGB")
         processed_img = ImageOps.fit(img, target_resolution, Image.Resampling.LANCZOS)
         image_np = np.array(processed_img).astype(np.float32) / 255.0
+        # Converte para (B, C, H, W)
+        tensor_4d = torch.from_numpy(image_np).permute(2, 0, 1).unsqueeze(0)
+        tensor_4d_normalized = (tensor_4d * 2.0) - 1.0
+        # Adiciona a dimensão de "frame" para criar um tensor 5D (B, C, F, H, W)
+        tensor_5d = tensor_4d_normalized.unsqueeze(2)
+        return tensor_5d
     @torch.no_grad()
     def encode_batch(self, pil_images: List[Image.Image], target_resolution: tuple) -> List[torch.Tensor]:
         latents_list = []
         for img in pil_images:
+            # A função de pré-processamento agora retorna o tensor 5D correto
             pixel_tensor_gpu = self._preprocess_pil_image(img, target_resolution).to(self.device, dtype=self.dtype)
             encoder_output = self.vae.encode(pixel_tensor_gpu)
             latents = retrieve_latents(encoder_output)
         latent_tensor_gpu = latent_tensor.to(self.device, dtype=self.dtype)
+        # Acessa a saída através do atributo .sample
         decode_output = self.vae.decode(latent_tensor_gpu)
         pixels = decode_output.sample