Spaces:

Mr7Explorer
/

Hi-TTS

Runtime error

App Files Files Community

Hi-TTS / app.py

Mr7Explorer

Update app.py

f34f567 verified about 2 months ago

raw

history blame contribute delete

13.6 kB

	import gradio as gr
	import torch
	import numpy as np
	import io
	import base64
	import logging
	from scipy.io import wavfile
	from typing import Tuple, Dict, Any
	from transformers import AutoTokenizer, AutoModel
	from parler_tts import ParlerTTSForConditionalGeneration
	from huggingface_hub import hf_hub_download
	import os

	# --- Logging ---
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger("hi-tts")
	logger.addHandler(logging.StreamHandler())

	# --- TTS Wrapper ---
	class IndicParlerTTS:
	def __init__(self, model_type: str = "parler", model_name: str = "ai4bharat/indic-parler-tts"):
	self.model_type = model_type # "parler" or "indicf5"
	self.model_name = model_name
	self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	self.model = None
	self.tokenizer = None
	self.description_tokenizer = None
	self.sample_rate = 24000 # Default for both
	self.ref_audio_path = None
	self.ref_text = None
	self._load_model()

	# Supported languages (expanded for IndicF5)
	self.language_codes = {
	"as": "Assamese", "bn": "Bengali", "gu": "Gujarati", "hi": "Hindi",
	"kn": "Kannada", "ml": "Malayalam", "mr": "Marathi", "or": "Odia",
	"pa": "Punjabi", "ta": "Tamil", "te": "Telugu"
	}

	# Voice style mappings to descriptive terms (for Parler-TTS)
	self.voice_map = {
	"neutral": "neutral",
	"formal": "formal and clear",
	"casual": "casual and relaxed",
	"expressive": "expressive and animated",
	"emotional": "emotional and varied"
	}

	# For IndicF5, map voices to reference prompts (simplified; expand as needed)
	self.ref_map = {
	"neutral": ("prompts/PAN_F_HAPPY_00001.wav", "ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ ਹਨ।"),
	# Add more mappings, e.g., for other styles/languages from prompts/
	# "formal": ("path/to/formal.wav", "ref text"),
	}

	def _load_model(self):
	try:
	if self.model_type == "parler":
	logger.info(f"Loading Indic Parler-TTS ({self.model_name}) on {self.device}")
	self.model = ParlerTTSForConditionalGeneration.from_pretrained(
	self.model_name
	).to(self.device)
	self.tokenizer = AutoTokenizer.from_pretrained(self.model_name)
	try:
	self.description_tokenizer = AutoTokenizer.from_pretrained(
	self.model.config.text_encoder._name_or_path
	)
	except Exception:
	logger.warning("Falling back to main tokenizer for descriptions")
	self.description_tokenizer = self.tokenizer
	self.sample_rate = self.model.config.sampling_rate
	logger.info("✅ Indic Parler-TTS loaded")
	elif self.model_type == "indicf5":
	logger.info(f"Loading IndicF5 on {self.device}")
	self.model = AutoModel.from_pretrained("ai4bharat/IndicF5", trust_remote_code=True).to(self.device)

	# Download default reference for neutral (expand for other voices)
	default_ref_path = "prompts/PAN_F_HAPPY_00001.wav"
	self.ref_audio_path = hf_hub_download(
	repo_id="ai4bharat/IndicF5",
	filename=default_ref_path,
	local_dir="./prompts"
	)
	self.ref_text = "ਭਹੰਪੀ ਵਿੱਚ ਸਮਾਰਕਾਂ ਦੇ ਭਵਨ ਨਿਰਮਾਣ ਕਲਾ ਦੇ ਵੇਰਵੇ ਗੁੰਝਲਦਾਰ ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਮੈਨੂੰ ਖੁਸ਼ ਕਰਦੇ ਹਨ।"

	# For other voices, override in generate()
	self.sample_rate = 24000
	logger.info("✅ IndicF5 loaded with default reference")
	else:
	raise ValueError(f"Unsupported model_type: {self.model_type}")
	except Exception as e:
	logger.exception(f"Failed to load {self.model_type} model")
	self.model = None

	def generate(self, text: str, language: str = "hi", voice: str = "neutral",
	pitch: float = 1.0, speed: float = 1.0, emotion: float = 0.5,
	reverb: float = 0.0) -> Tuple[np.ndarray, int]:
	"""
	Generate speech using the selected model.
	Returns int16 numpy audio and sample rate.
	For IndicF5: Uses reference-based generation for humanized output.
	"""
	if self.model is None:
	raise RuntimeError("Model not available")

	if not text.strip():
	raise ValueError("Empty text provided")

	if self.model_type == "parler":
	# Existing Parler-TTS logic (without noise)
	full_lang = self.language_codes.get(language, "Indian")
	voice_desc = self.voice_map.get(voice, "neutral") # Safe get to avoid errors

	pitch_desc = "high" if pitch > 1.2 else "low" if pitch < 0.8 else "balanced"
	speed_desc = "fast" if speed > 1.3 else "slow" if speed < 0.7 else "moderate"
	emotion_desc = "highly expressive" if emotion > 0.7 else "slightly expressive" if emotion > 0.3 else "neutral"
	reverb_desc = "with noticeable reverb as if in a room" if reverb > 0.5 else "clear and close-up"

	description = (
	f"A {full_lang} speaker with a {voice_desc} voice, {pitch_desc} pitch, "
	f"{speed_desc} speaking pace, {emotion_desc} delivery, {reverb_desc}."
	)

	# Tokenize
	prompt_input_ids = self.tokenizer(text, return_tensors="pt").input_ids.to(self.device)
	prompt_attention_mask = self.tokenizer(text, return_tensors="pt").attention_mask.to(self.device)

	description_input_ids = self.description_tokenizer(description, return_tensors="pt").input_ids.to(self.device)
	description_attention_mask = self.description_tokenizer(description, return_tensors="pt").attention_mask.to(self.device)

	with torch.no_grad():
	audio_tensor = self.model.generate(
	input_ids=description_input_ids,
	attention_mask=description_attention_mask,
	prompt_input_ids=prompt_input_ids,
	prompt_attention_mask=prompt_attention_mask
	)

	audio = audio_tensor.cpu().numpy().squeeze()

	elif self.model_type == "indicf5":
	# IndicF5 logic: Use reference for voice style (humanized output)
	# For now, use default ref; map voice to specific ref if available
	ref_path, ref_txt = self.ref_map.get(voice, (self.ref_audio_path, self.ref_text))

	with torch.no_grad():
	audio_float = self.model(
	text,
	ref_audio_path=ref_path,
	ref_text=ref_txt
	)

	# Normalize if needed (per example)
	if audio_float.dtype == np.int16:
	audio_float = audio_float.astype(np.float32) / 32768.0
	audio = audio_float

	# Common post-processing: float32 [-1,1] → int16
	audio = np.clip(audio, -1.0, 1.0)
	audio_int16 = (audio * 32767).astype(np.int16)

	return audio_int16, self.sample_rate

	# --- Utility helpers ---
	def wav_bytes_from_numpy(audio_np: np.ndarray, sample_rate: int) -> bytes:
	buffer = io.BytesIO()
	wavfile.write(buffer, sample_rate, audio_np)
	buffer.seek(0)
	return buffer.read()

	def encode_wav_base64(audio_bytes: bytes) -> str:
	return base64.b64encode(audio_bytes).decode("utf-8")

	# Instantiate TTS (default to Parler; will reinstantiate per selection)
	def get_tts(model_type):
	if model_type == "indicf5":
	return IndicParlerTTS(model_type="indicf5")
	else:
	return IndicParlerTTS(model_type="parler")

	tts = get_tts("parler")

	# --- Gradio functions / API functions ---
	def synthesize_speech(text: str, model_type: str, language: str, voice: str,
	pitch: float, speed: float, emotion: float,
	reverb: float):
	global tts
	try:
	if not text or not text.strip():
	return None, "Please enter text to synthesize."

	if len(text) > 4000:
	return None, "Text too long. Maximum 4000 characters supported."

	# Re-instantiate TTS if model changed
	if tts.model_type != model_type:
	tts = get_tts(model_type)

	audio_np, sr = tts.generate(text=text, language=language, voice=voice,
	pitch=pitch, speed=speed, emotion=emotion,
	reverb=reverb)

	model_note = " (Parler-TTS: Style via description)" if model_type == "parler" else " (IndicF5: Humanized via reference voice)"
	return (sr, audio_np), f"Speech generated successfully{model_note}."
	except Exception as e:
	logger.exception("Error in synthesize_speech:")
	return None, f"Error: {str(e)}"

	def api_synthesize(text: str, model_type: str = "parler", language: str = "hi", voice: str = "neutral",
	pitch: float = 1.0, speed: float = 1.0, emotion: float = 0.5,
	reverb: float = 0.0) -> Dict[str, Any]:
	global tts
	try:
	if not text or not text.strip():
	return {"error": "Please provide non-empty text."}

	if tts.model_type != model_type:
	tts = get_tts(model_type)

	audio_np, sr = tts.generate(text=text, language=language, voice=voice,
	pitch=float(pitch), speed=float(speed),
	emotion=float(emotion), reverb=float(reverb))

	wav_bytes = wav_bytes_from_numpy(audio_np, sr)
	return {
	"audio": encode_wav_base64(wav_bytes),
	"sample_rate": sr,
	"message": "OK"
	}
	except Exception as e:
	logger.exception("API synthesis failed")
	return {"error": str(e)}

	def get_voice_list(language_code: str = "hi"):
	voices = ["neutral", "formal", "casual", "expressive", "emotional"]
	return gr.Dropdown.update(choices=voices, value="neutral")

	# --- Gradio UI --- #
	with gr.Blocks(
	theme=gr.themes.Soft(),
	title="HI-TTS - Humanized Indic Text-to-Speech",
	css="""
	.gradio-container {
	background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
	}
	.gr-form {
	background: rgba(255, 255, 255, 0.08);
	backdrop-filter: blur(8px);
	border-radius: 14px;
	padding: 10px;
	}
	"""
	) as demo:
	gr.Markdown("# 🎤 HI-TTS — Humanized Indic TTS")

	with gr.Row():
	with gr.Column(scale=2):
	text_input = gr.Textbox(label="Enter Text", placeholder="Type text here...", lines=4)
	model_dropdown = gr.Dropdown(
	choices=["Indic Parler-TTS", "IndicF5 (Humanized)"],
	value="Indic Parler-TTS",
	label="Model",
	info="Parler-TTS: Style via text description. IndicF5: Near-human via voice reference (combined for ultimate humanization)."
	)
	language_dropdown = gr.Dropdown(
	choices=list(tts.language_codes.keys()),
	value="hi",
	label="Language (code)",
	info="Select language code (e.g. hi, bn, ta). Model auto-detects from text."
	)
	voice_dropdown = gr.Dropdown(choices=["neutral", "formal", "casual", "expressive", "emotional"],
	value="neutral", label="Voice Style")
	with gr.Column(scale=1):
	pitch_slider = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Pitch (normal: 1.0)")
	speed_slider = gr.Slider(0.3, 3.0, value=1.0, step=0.1, label="Speed (normal: 1.0)")
	emotion_slider = gr.Slider(0.0, 1.0, value=0.5, step=0.1, label="Emotion (normal: 0.5)")
	reverb_slider = gr.Slider(0.0, 1.0, value=0.0, step=0.1, label="Reverb (normal: 0.0)")

	with gr.Row():
	generate_btn = gr.Button("🎵 Generate Speech", variant="primary")
	clear_btn = gr.Button("🗑️ Clear")

	with gr.Row():
	audio_output = gr.Audio(label="Generated Speech", type="numpy")
	status_output = gr.Textbox(label="Status", interactive=False, value="Ready")

	# Bind UI
	generate_btn.click(
	fn=synthesize_speech,
	inputs=[text_input, model_dropdown, language_dropdown, voice_dropdown, pitch_slider, speed_slider, emotion_slider, reverb_slider],
	outputs=[audio_output, status_output]
	)

	clear_btn.click(
	fn=lambda: ("", gr.update(value=None), "Ready"),
	outputs=[text_input, audio_output, status_output]
	)

	language_dropdown.change(
	fn=get_voice_list,
	inputs=[language_dropdown],
	outputs=[voice_dropdown]
	)

	demo.load(lambda: "Ready", outputs=[status_output])

	# --- Launch --- #
	if __name__ == "__main__":
	demo.launch(server_name="0.0.0.0", server_port=7860, show_api=True)