Spaces:

benjaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
/

ProyectoBMO

Sleeping

App Files Files Community

benjaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa commited on 20 days ago

Commit

89991e3

verified ·

1 Parent(s): 756c5ba

Update app.py

Browse files

Files changed (1) hide show

app.py +133 -67

app.py CHANGED Viewed

@@ -1,24 +1,29 @@
 import gradio as gr
 from transformers import pipeline
-import tempfile
 import os
-import json
 print("🚀 Iniciando Asistente ESP32...")
-# Cargar modelos optimizados para ESP32
 try:
     print("📥 Cargando modelo de voz...")
     stt_pipeline = pipeline(
         "automatic-speech-recognition",
         model="openai/whisper-tiny",
-        device=-1  # Usar CPU
     )
     print("📥 Cargando modelo de chat...")
     chat_pipeline = pipeline(
         "text-generation",
-        model="microsoft/DialoGPT-small",
         device=-1,
         max_length=100
     )
@@ -68,79 +73,140 @@ def process_audio(audio_file):
         print(error_msg)
         return error_msg, "Error en el procesamiento"
-# Interfaz mejorada para ESP32
-with gr.Blocks(theme=gr.themes.Soft(), title="Asistente ESP32") as demo:
     gr.Markdown(
         """
-        # 🎤 Asistente de Voz para ESP32
-        **Servicio optimizado para microcontroladores**
         """
     )
-    with gr.Row():
-        with gr.Column():
-            gr.Markdown("### 📤 Subir Audio")
-            audio_input = gr.Audio(
-                sources=["upload"],
-                type="filepath",
-                label="Audio WAV (16kHz, mono, 16-bit)",
-                waveform_options={"show_controls": False}
-            )
-            process_btn = gr.Button("🚀 Procesar Audio", variant="primary")
-            gr.Markdown("### 📋 Especificaciones ESP32")
-            gr.Markdown("""
-            - **Formato:** WAV, 16kHz, mono, 16-bit
-            - **Duración:** 3-5 segundos máximo
-            - **Conexión:** HTTPS POST a esta URL
-            """)
-        with gr.Column():
-            gr.Markdown("### 📝 Resultados")
-            transcription = gr.Textbox(
-                label="Transcripción",
-                placeholder="El texto aparecerá aquí...",
-                lines=3
-            )
-            response = gr.Textbox(
-                label="Respuesta del Asistente",
-                placeholder="La respuesta aparecerá aquí...",
-                lines=4
-            )
-    # Ejemplos para probar
-    gr.Markdown("### 🧪 Ejemplos para Probar")
-    gr.Examples(
-        examples=[
-            ["https://example.com/audio1.wav"],  # Puedes subir ejemplos después
-            ["https://example.com/audio2.wav"]
-        ],
-        inputs=[audio_input],
-        outputs=[transcription, response],
-        fn=process_audio,
-        cache_examples=False
-    )
-    # Procesar cuando se sube audio o se clickea el botón
-    process_btn.click(
-        fn=process_audio,
-        inputs=[audio_input],
-        outputs=[transcription, response]
-    )
-    # Info del estado
-    gr.Markdown("### 🔍 Estado del Sistema")
-    status = gr.Textbox(
-        value="✅ Servicio listo para ESP32" if stt_pipeline else "⚠️ Cargando modelos...",
-        label="Estado",
-        interactive=False
-    )
 # Configuración del servidor
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
-        share=False,
-        debug=True
     )

 import gradio as gr
 from transformers import pipeline
 import os
+import tempfile
 print("🚀 Iniciando Asistente ESP32...")
+# Obtener token de las variables de entorno
+HF_TOKEN = os.getenv("HF_TOKEN")
+print(f"🔑 Token disponible: {'Sí' if HF_TOKEN else 'No'}")
+# Cargar modelos con token de autenticación
 try:
     print("📥 Cargando modelo de voz...")
     stt_pipeline = pipeline(
         "automatic-speech-recognition",
         model="openai/whisper-tiny",
+        token=HF_TOKEN,
+        device=-1
     )
     print("📥 Cargando modelo de chat...")
     chat_pipeline = pipeline(
         "text-generation",
+        model="microsoft/DialoGPT-small",
+        token=HF_TOKEN,
         device=-1,
         max_length=100
     )
         print(error_msg)
         return error_msg, "Error en el procesamiento"
+# Función especial para ESP32 (recibe datos binarios)
+def process_esp32_audio(audio_data):
+    """Procesar audio directamente desde ESP32"""
+    if stt_pipeline is None:
+        return {"error": "Models not loaded"}
+    try:
+        # Guardar datos temporales
+        with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp:
+            if hasattr(audio_data, 'read'):
+                # Si es un file-like object
+                tmp.write(audio_data.read())
+            else:
+                # Si son bytes directamente
+                tmp.write(audio_data)
+            tmp_path = tmp.name
+        # Procesar
+        result = stt_pipeline(tmp_path)
+        text = result["text"].strip()
+        # Generar respuesta si hay texto
+        if text:
+            chat_response = chat_pipeline(
+                f"Usuario: {text}\nAsistente:",
+                max_new_tokens=60,
+                temperature=0.7
+            )
+            answer = chat_response[0]["generated_text"]
+            if "Asistente:" in answer:
+                answer = answer.split("Asistente:")[-1].strip()
+        else:
+            answer = "No pude entender el audio"
+        # Limpiar archivo temporal
+        os.unlink(tmp_path)
+        return {
+            "transcription": text,
+            "response": answer,
+            "success": True
+        }
+    except Exception as e:
+        return {"error": str(e), "success": False}
+# Interfaz SIMPLIFICADA - sin ejemplos problemáticos
+with gr.Blocks(theme=gr.themes.Soft(), title="Proyecto BMO - ESP32") as demo:
     gr.Markdown(
         """
+        # 🤖 Proyecto BMO - Asistente ESP32
+        **by benjaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa**
+        Servicio de voz inteligente para microcontroladores
         """
     )
+    with gr.Tab("🎤 Interfaz Web"):
+        with gr.Row():
+            with gr.Column():
+                gr.Markdown("### 📤 Subir Audio")
+                audio_input = gr.Audio(
+                    sources=["upload", "microphone"],
+                    type="filepath",
+                    label="Grabar o subir audio WAV",
+                    waveform_options={"show_controls": True}
+                )
+                process_btn = gr.Button("🚀 Procesar Audio", variant="primary")
+            with gr.Column():
+                gr.Markdown("### 📝 Resultados")
+                transcription = gr.Textbox(
+                    label="Transcripción",
+                    placeholder="El texto transcribido aparecerá aquí...",
+                    lines=3
+                )
+                response = gr.Textbox(
+                    label="Respuesta del Asistente",
+                    placeholder="La respuesta inteligente aparecerá aquí...",
+                    lines=4
+                )
+        # Procesar audio desde la interfaz web
+        process_btn.click(
+            fn=process_audio,
+            inputs=[audio_input],
+            outputs=[transcription, response]
+        )
+    with gr.Tab("📡 Para ESP32"):
+        gr.Markdown("### 🔌 Endpoint para Microcontrolador")
+        gr.Markdown("""
+        **URL para ESP32:** `https://benjaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa-ProyectoBMO.hf.space`
+        **Método:** POST
+        **Content-Type:** `audio/wav`
+        **Body:** Datos de audio WAV sin encabezado
+        **Formato de audio:**
+        - Sample rate: 16000 Hz
+        - Canales: Mono
+        - Bits: 16
+        - Duración: 3-5 segundos
+        **Ejemplo código Arduino:**
+        ```cpp
+        HTTPClient http;
+        http.begin("https://benjaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa-ProyectoBMO.hf.space");
+        http.addHeader("Content-Type", "audio/wav");
+        int httpResponseCode = http.POST(audioData, audioSize);
+        ```
+        """)
+    with gr.Tab("🔍 Estado"):
+        gr.Markdown("### 📊 Estado del Sistema")
+        status_text = "✅ Servicio listo para ESP32" if stt_pipeline else "⚠️ Cargando modelos..."
+        gr.Textbox(
+            value=status_text,
+            label="Estado de Modelos",
+            interactive=False
+        )
+        gr.Markdown("### 📈 Logs en Tiempo Real")
+        gr.Textbox(
+            value="Los logs aparecen en la consola del Space",
+            label="Logs",
+            interactive=False,
+            lines=3
+        )
 # Configuración del servidor
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
+        share=False
     )