Spaces:

tuliodisanto
/

Buscador_Rol_vs.4_IA

Sleeping

App Files Files Community

tuliodisanto commited on Aug 14

Commit

f71d187

verified ·

1 Parent(s): 2206d3e

Update enhanced_search_v2.py

Browse files

Files changed (1) hide show

enhanced_search_v2.py +71 -51

enhanced_search_v2.py CHANGED Viewed

@@ -1,21 +1,37 @@
-# enhanced_search_v2.py (Versão com Lógica de Blocos, Boosts e Score Híbrido)
 ###################################################################################################
 #
-# MELHORIAS CHAVE IMPLEMENTADAS (Versão Atual):
-# 1. REORDENAÇÃO HÍBRIDA: Para resolver casos como 'pneumococo', a reordenação da IA
-#    agora usa uma chave híbrida. Se o score semântico é < 85, a ordenação considera
-#    a SOMA dos scores (semântico + textual), priorizando resultados com forte
-#    correspondência textual.
 #
-# 2. BOOST PARA PALAVRAS ULTRA-RARAS: Uma nova camada de boost foi adicionada para
-#    impulsionar o score de resultados que contêm palavras da query que são
-#    extremamente raras na base de dados (ex: <= 3 ocorrências).
 #
-# 3. LIMITE DO BLOCO AMPLO: O número de candidatos do Bloco Amplo enviados para a
-#    reordenação da IA foi limitado a 30, otimizando a performance.
 #
-# 4. LOG DETALHADO: O log da busca foi restaurado para mostrar o número de candidatos
-#    por camada, facilitando a depuração.
 #
 ###################################################################################################
@@ -186,41 +202,48 @@ def create_unified_document_text(result_dict):
     for i in range(1, 5): text_parts.add(result_dict.get(f'Sinonimo_{i}', ''))
     return ". ".join(sorted([part for part in text_parts if part and str(part).strip()]))
-# --- MELHORIA 3B: REORDENAÇÃO HÍBRIDA ---
 def rerank_with_cross_encoder(query, results_list, model):
-    if not model or not results_list or not query: return results_list, "Cross-Encoder não fornecido ou lista de candidatos vazia."
     sentence_pairs = [[query, create_unified_document_text(result)] for result in results_list]
-    if not sentence_pairs: return results_list, "Não foram encontrados pares para reordenar."
     try:
         raw_scores = model.predict(sentence_pairs, show_progress_bar=False)
         semantic_scores_normalized = torch.sigmoid(torch.tensor(raw_scores)).numpy() * 100
         for i, result in enumerate(results_list):
             result['semantic_score'] = round(semantic_scores_normalized[i])
-        # Chave de ordenação híbrida para resolver o "problema do pneumococo".
-        def hybrid_sort_key(result):
             sem_score = result.get('semantic_score', 0)
             txt_score = result.get('text_score', 0)
-            # Se a IA tem alta confiança, seu score tem prioridade.
-            if sem_score >= 85:
-                return (1, sem_score, txt_score) # Grupo 1 (alta confiança)
-            # Se a IA tem baixa/média confiança, a soma com o score textual decide.
-            else:
-                return (0, sem_score + txt_score, sem_score) # Grupo 0 (confiança mista)
-        reranked_results = sorted(results_list, key=hybrid_sort_key, reverse=True)
-        log_message = f"Reordenação Híbrida (IA) aplicada a {len(reranked_results)} candidatos."
         return reranked_results, log_message
     except Exception as e:
         log_message = f"Erro no Cross-Encoder: {e}"; print(log_message)
         key_function = lambda x: (x.get('text_score', 0), x.get('is_rol_procedure', False))
         reranked_results = sorted(results_list, key=key_function, reverse=True)
         return reranked_results, log_message
 def _boost_technical_jargon_matches(results, query_words, doc_freq, portuguese_word_set, boost_factor=1.2, rarity_threshold_count=10):
     if not results or not query_words: return results, None
     technical_jargon_terms = {
         word for word in query_words
@@ -234,14 +257,12 @@ def _boost_technical_jargon_matches(results, query_words, doc_freq, portuguese_w
             boosted_score = min(result['text_score'] * boost_factor, 99)
             result.update({'text_score': round(boosted_score), 'score': round(boosted_score), 'match_type': result['match_type'] + " + Jargão Boost"})
             boosted_indices.append(result['row_index'])
-    return results, f"Aplicado boost de jargão para os termos: {list(technical_jargon_terms)}. Resultados afetados: {len(boosted_indices)}."
-# --- MELHORIA 3A: BOOST PARA PALAVRAS ULTRA-RARAS ---
 def _boost_extremely_rare_words(results, query_words, doc_freq, boost_factor=1.3, rarity_threshold_count=3):
     """ Impulsiona resultados que contenham palavras da query que são extremamente raras na base."""
     if not results or not query_words: return results, None
-    # Identifica palavras na query que aparecem em 3 ou menos documentos.
     extremely_rare_words = {word for word in query_words if doc_freq.get(word, 0) <= rarity_threshold_count and len(word) > 3}
     if not extremely_rare_words: return results, None
@@ -251,7 +272,7 @@ def _boost_extremely_rare_words(results, query_words, doc_freq, boost_factor=1.3
             boosted_score = min(result['text_score'] * boost_factor, 99)
             result.update({'text_score': round(boosted_score), 'score': round(boosted_score), 'match_type': result['match_type'] + " + Ultra-Rare Boost"})
             boosted_indices.append(result['row_index'])
-    return results, f"Aplicado boost de palavra ultra-rara para: {list(extremely_rare_words)}. Resultados afetados: {len(boosted_indices)}."
 # --- FUNÇÃO INTERNA DE BUSCA COM CAMADAS --- #
@@ -344,7 +365,6 @@ def search_procedure_with_log(query, df_original, df_normalized, fuzzy_search_co
                               cross_encoder_model=None,
                               user_best_matches_counts=None, user_feedback_threshold=10):
     start_time = time.time(); original_query = str(query).strip()
-    # --- MELHORIA 1: CONSTANTES PARA LIMITES ---
     BROAD_BLOCK_CANDIDATE_LIMIT = 30
     FINAL_RESULTS_LIMIT = 20
@@ -352,82 +372,82 @@ def search_procedure_with_log(query, df_original, df_normalized, fuzzy_search_co
     if not original_query: response["search_log"].append("Query vazia."); return response
     response["search_log"].append(f"Buscando por: '{original_query}'")
     stopwords = {'de', 'do', 'da', 'dos', 'das', 'a', 'o', 'e', 'em', 'um', 'uma', 'para', 'com'}
-    original_correction_corpus, normalized_correction_corpus = correction_corpus
-    query_after_correction = original_query
-    # ... (lógica de correção de query) ...
     cleaned_query = " ".join([word for word in query_after_correction.split() if normalize_text(word) not in stopwords])
     normalized_query = normalize_text(cleaned_query)
     if not cleaned_query.strip(): response["search_log"].append("Query resultante vazia."); return response
     if cleaned_query != query_after_correction: response["search_log"].append(f"Query limpa (sem stop words): '{cleaned_query}'")
     _run_search_layers(literal_normalize_text(query_after_correction), normalized_query, response, df_original, df_normalized, fuzzy_search_corpus, bm25_model, limit_per_layer)
-    # --- MELHORIA 2: LOG COMPLETO RESTAURADO ---
     layer_names_pt = {"literal_matches": "Busca Literal", "exact_matches": "Busca Exata", "phrase_matches": "Busca por Frase", "fuzzy_matches": "Busca por Aproximação", "logical_matches": "Busca Lógica (E)", "term_matches": "Busca por Relevância (BM25)", "keyword_matches": "Busca por Palavra-Chave"}
     response["search_log"].append("\n--- Detalhamento por Camada ---")
     for key, name in layer_names_pt.items(): response["search_log"].append(f"Camada '{name}': {len(response['results_by_layer'].get(key, []))} candidatos.")
     response["search_log"].append("\n--- Agregação de Candidatos em Blocos ---")
     protected_candidates, broad_candidates, seen_indices = [], [], set()
     protected_layers = ["literal_matches", "exact_matches", "phrase_matches"]
     for layer_name in protected_layers:
         for result in response['results_by_layer'].get(layer_name, []):
-            if result['row_index'] not in seen_indices:
-                protected_candidates.append(result); seen_indices.add(result['row_index'])
     HIGH_FUZZ_THRESHOLD = 95
     for result in response['results_by_layer'].get('fuzzy_matches', []):
         if result['row_index'] not in seen_indices:
-            if result.get('fuzz_score', 0) >= HIGH_FUZZ_THRESHOLD:
-                protected_candidates.append(result)
             else: broad_candidates.append(result)
             seen_indices.add(result['row_index'])
     broad_layers = ["logical_matches", "term_matches", "keyword_matches"]
     for layer_name in broad_layers:
         for result in response['results_by_layer'].get(layer_name, []):
-            if result['row_index'] not in seen_indices:
-                broad_candidates.append(result); seen_indices.add(result['row_index'])
-    # --- MELHORIA 1 (APLICAÇÃO): LIMITA O BLOCO AMPLO ---
     broad_candidates = sorted(broad_candidates, key=lambda x: x.get('text_score', 0), reverse=True)[:BROAD_BLOCK_CANDIDATE_LIMIT]
     response["search_log"].append(f"Candidatos - Bloco Protegido: {len(protected_candidates)}, Bloco Amplo (limitado a {BROAD_BLOCK_CANDIDATE_LIMIT}): {len(broad_candidates)}")
     for cand_list in [protected_candidates, broad_candidates]:
         for r in cand_list: r['full_text_norm'] = df_normalized.loc[r['row_index'], 'full_text_norm']
     response["search_log"].append("\n--- Aplicação de Boosts ---")
     query_words_for_boost = [word for word in normalized_query.split() if word not in stopwords]
-    # Aplica os dois tipos de boost
     for c_list in [protected_candidates, broad_candidates]:
         _, boost_log_jargon = _boost_technical_jargon_matches(c_list, query_words_for_boost, doc_freq, portuguese_word_set)
         if boost_log_jargon: response["search_log"].append(boost_log_jargon)
         _, boost_log_rare = _boost_extremely_rare_words(c_list, query_words_for_boost, doc_freq)
         if boost_log_rare: response["search_log"].append(boost_log_rare)
-    if user_best_matches_counts:
-        # Lógica de feedback do usuário...
-        pass
-    response["search_log"].append("\n--- Análise e Reordenação Híbrida (IA) por Bloco ---")
     final_list = []
     query_for_semantic = response.get("corrected_query") or cleaned_query
     for block_name, candidates in [("Protegido", protected_candidates), ("Amplo", broad_candidates)]:
         if not candidates: continue
-        # ... (lógica de feedback já está simplificada aqui) ...
         to_rerank_sorted = sorted(candidates, key=lambda x: x.get('text_score', 0), reverse=True)
         reranked_by_ia, log_msg = rerank_with_cross_encoder(query_for_semantic, to_rerank_sorted, cross_encoder_model)
         final_list.extend(reranked_by_ia)
         response["search_log"].append(f"Bloco '{block_name}': {log_msg}")
     response["final_semantic_results"] = _highlight_matches(final_list[:FINAL_RESULTS_LIMIT], query_for_semantic)
     end_time = time.time(); response["search_duration_seconds"] = round(end_time - start_time, 4)
-    response["search_log"].append(f"Busca completa em {response['search_duration_seconds']} segundos.")
     print(f"\n\n==================== LOG DE DEPURAÇÃO (QUERY: '{original_query}') ====================")
     for log_item in response["search_log"]: print(log_item)
     return response

+# enhanced_search_v2.py (Versão Final com Ranking Ponderado)
 ###################################################################################################
 #
+# RESUMO DAS MELHORIAS IMPLEMENTADAS (Sessão Atual):
 #
+# 1. RANKING HÍBRIDO PONDERADO (AJUSTE FINAL):
+#    - A lógica de reordenação foi substituída por uma média ponderada, tornando o ranking mais
+#      balanceado e previsível.
+#    - FÓRMULA FINAL: `Score Final = (Score Semântico * 0.6) + (Score Textual * 0.4)`
+#    - Isso garante que tanto a compreensão da IA quanto a relevância textual contribuam para
+#      a posição final de cada resultado.
 #
+# 2. LÓGICA DE BLOCOS (PROTEGIDO E AMPLO):
+#    - Os resultados são separados em um "Bloco Protegido" (matches exatos, de frase, etc.)
+#      e um "Bloco Amplo" (relevância, lógicos, etc.).
+#    - O Bloco Protegido sempre tem prioridade no ranking, garantindo que resultados
+#      textualmente perfeitos não sejam rebaixados.
 #
+# 3. SISTEMA DE BOOSTS EM DUAS CAMADAS:
+#    - BOOST DE JARGÃO TÉCNICO: Impulsiona o score de termos raros na base de dados que
+#      NÃO constam no dicionário de português, focando em jargões médicos.
+#    - BOOST DE PALAVRAS ULTRA-RARAS: Impulsiona o score de termos que são extremamente
+#      raros na base (ex: <= 3 ocorrências), independentemente do dicionário. Crucial
+#      para casos como "pneumococo".
+#
+# 4. OTIMIZAÇÃO DO BM25 E LIMITES:
+#    - O modelo BM25 foi ajustado (parâmetro k1=1.2) para valorizar mais a raridade
+#      dos termos (IDF).
+#    - O Bloco Amplo foi limitado a 30 candidatos para otimizar a performance da
+#      reordenação pela IA.
+#
+# 5. LOG DETALHADO:
+#    - O log de busca foi configurado para exibir o número de candidatos de cada
+#      camada da busca, facilitando a depuração e a análise da lógica.
 #
 ###################################################################################################
     for i in range(1, 5): text_parts.add(result_dict.get(f'Sinonimo_{i}', ''))
     return ". ".join(sorted([part for part in text_parts if part and str(part).strip()]))
 def rerank_with_cross_encoder(query, results_list, model):
+    """
+    Reordena uma lista de resultados usando um modelo Cross-Encoder e uma fórmula ponderada.
+    """
+    if not model or not results_list or not query:
+        return results_list, "Cross-Encoder não fornecido ou lista de candidatos vazia."
     sentence_pairs = [[query, create_unified_document_text(result)] for result in results_list]
+    if not sentence_pairs:
+        return results_list, "Não foram encontrados pares para reordenar."
     try:
+        # Calcula os scores semânticos
         raw_scores = model.predict(sentence_pairs, show_progress_bar=False)
         semantic_scores_normalized = torch.sigmoid(torch.tensor(raw_scores)).numpy() * 100
         for i, result in enumerate(results_list):
             result['semantic_score'] = round(semantic_scores_normalized[i])
+        # --- MELHORIA 1: RANKING HÍBRIDO PONDERADO ---
+        # A chave de ordenação agora é uma média ponderada dos scores.
+        # Isso cria um ranking balanceado entre a compreensão semântica e a relevância textual.
+        def weighted_hybrid_sort_key(result):
             sem_score = result.get('semantic_score', 0)
             txt_score = result.get('text_score', 0)
+            # Fórmula: 60% do score semântico + 40% do score de texto
+            return (sem_score * 0.6) + (txt_score * 0.4)
+        reranked_results = sorted(results_list, key=weighted_hybrid_sort_key, reverse=True)
+        log_message = f"Reordenação por score ponderado (60% semântico, 40% texto) em {len(reranked_results)} candidatos."
         return reranked_results, log_message
     except Exception as e:
         log_message = f"Erro no Cross-Encoder: {e}"; print(log_message)
+        # Fallback para o score de texto se a IA falhar
         key_function = lambda x: (x.get('text_score', 0), x.get('is_rol_procedure', False))
         reranked_results = sorted(results_list, key=key_function, reverse=True)
         return reranked_results, log_message
 def _boost_technical_jargon_matches(results, query_words, doc_freq, portuguese_word_set, boost_factor=1.2, rarity_threshold_count=10):
+    """ Impulsiona resultados que contenham jargões técnicos (raros E fora do dicionário)."""
     if not results or not query_words: return results, None
     technical_jargon_terms = {
         word for word in query_words
             boosted_score = min(result['text_score'] * boost_factor, 99)
             result.update({'text_score': round(boosted_score), 'score': round(boosted_score), 'match_type': result['match_type'] + " + Jargão Boost"})
             boosted_indices.append(result['row_index'])
+    return results, f"Boost de Jargão: {list(technical_jargon_terms)} ({len(boosted_indices)} afetados)."
 def _boost_extremely_rare_words(results, query_words, doc_freq, boost_factor=1.3, rarity_threshold_count=3):
     """ Impulsiona resultados que contenham palavras da query que são extremamente raras na base."""
     if not results or not query_words: return results, None
     extremely_rare_words = {word for word in query_words if doc_freq.get(word, 0) <= rarity_threshold_count and len(word) > 3}
     if not extremely_rare_words: return results, None
             boosted_score = min(result['text_score'] * boost_factor, 99)
             result.update({'text_score': round(boosted_score), 'score': round(boosted_score), 'match_type': result['match_type'] + " + Ultra-Rare Boost"})
             boosted_indices.append(result['row_index'])
+    return results, f"Boost Ultra-Raro: {list(extremely_rare_words)} ({len(boosted_indices)} afetados)."
 # --- FUNÇÃO INTERNA DE BUSCA COM CAMADAS --- #
                               cross_encoder_model=None,
                               user_best_matches_counts=None, user_feedback_threshold=10):
     start_time = time.time(); original_query = str(query).strip()
     BROAD_BLOCK_CANDIDATE_LIMIT = 30
     FINAL_RESULTS_LIMIT = 20
     if not original_query: response["search_log"].append("Query vazia."); return response
     response["search_log"].append(f"Buscando por: '{original_query}'")
+    # --- ETAPA 1: PREPARAÇÃO E CORREÇÃO DA QUERY ---
     stopwords = {'de', 'do', 'da', 'dos', 'das', 'a', 'o', 'e', 'em', 'um', 'uma', 'para', 'com'}
+    # (O código de correção da query, se aplicável, continua aqui)
+    query_after_correction = original_query
     cleaned_query = " ".join([word for word in query_after_correction.split() if normalize_text(word) not in stopwords])
     normalized_query = normalize_text(cleaned_query)
     if not cleaned_query.strip(): response["search_log"].append("Query resultante vazia."); return response
     if cleaned_query != query_after_correction: response["search_log"].append(f"Query limpa (sem stop words): '{cleaned_query}'")
+    # --- ETAPA 2: EXECUÇÃO DAS CAMADAS DE BUSCA ---
     _run_search_layers(literal_normalize_text(query_after_correction), normalized_query, response, df_original, df_normalized, fuzzy_search_corpus, bm25_model, limit_per_layer)
     layer_names_pt = {"literal_matches": "Busca Literal", "exact_matches": "Busca Exata", "phrase_matches": "Busca por Frase", "fuzzy_matches": "Busca por Aproximação", "logical_matches": "Busca Lógica (E)", "term_matches": "Busca por Relevância (BM25)", "keyword_matches": "Busca por Palavra-Chave"}
     response["search_log"].append("\n--- Detalhamento por Camada ---")
     for key, name in layer_names_pt.items(): response["search_log"].append(f"Camada '{name}': {len(response['results_by_layer'].get(key, []))} candidatos.")
+    # --- ETAPA 3: AGREGAÇÃO EM BLOCOS ---
     response["search_log"].append("\n--- Agregação de Candidatos em Blocos ---")
     protected_candidates, broad_candidates, seen_indices = [], [], set()
     protected_layers = ["literal_matches", "exact_matches", "phrase_matches"]
     for layer_name in protected_layers:
         for result in response['results_by_layer'].get(layer_name, []):
+            if result['row_index'] not in seen_indices: protected_candidates.append(result); seen_indices.add(result['row_index'])
     HIGH_FUZZ_THRESHOLD = 95
     for result in response['results_by_layer'].get('fuzzy_matches', []):
         if result['row_index'] not in seen_indices:
+            if result.get('fuzz_score', 0) >= HIGH_FUZZ_THRESHOLD: protected_candidates.append(result)
             else: broad_candidates.append(result)
             seen_indices.add(result['row_index'])
     broad_layers = ["logical_matches", "term_matches", "keyword_matches"]
     for layer_name in broad_layers:
         for result in response['results_by_layer'].get(layer_name, []):
+            if result['row_index'] not in seen_indices: broad_candidates.append(result); seen_indices.add(result['row_index'])
     broad_candidates = sorted(broad_candidates, key=lambda x: x.get('text_score', 0), reverse=True)[:BROAD_BLOCK_CANDIDATE_LIMIT]
     response["search_log"].append(f"Candidatos - Bloco Protegido: {len(protected_candidates)}, Bloco Amplo (limitado a {BROAD_BLOCK_CANDIDATE_LIMIT}): {len(broad_candidates)}")
     for cand_list in [protected_candidates, broad_candidates]:
         for r in cand_list: r['full_text_norm'] = df_normalized.loc[r['row_index'], 'full_text_norm']
+    # --- ETAPA 4: APLICAÇÃO DE BOOSTS ---
     response["search_log"].append("\n--- Aplicação de Boosts ---")
     query_words_for_boost = [word for word in normalized_query.split() if word not in stopwords]
     for c_list in [protected_candidates, broad_candidates]:
         _, boost_log_jargon = _boost_technical_jargon_matches(c_list, query_words_for_boost, doc_freq, portuguese_word_set)
         if boost_log_jargon: response["search_log"].append(boost_log_jargon)
         _, boost_log_rare = _boost_extremely_rare_words(c_list, query_words_for_boost, doc_freq)
         if boost_log_rare: response["search_log"].append(boost_log_rare)
+    # (Lógica de priorização por feedback do usuário, se aplicável)
+    # --- ETAPA 5: REORDENAÇÃO FINAL E RESULTADOS ---
+    response["search_log"].append("\n--- Reordenação Final por Bloco ---")
     final_list = []
     query_for_semantic = response.get("corrected_query") or cleaned_query
     for block_name, candidates in [("Protegido", protected_candidates), ("Amplo", broad_candidates)]:
         if not candidates: continue
+        # Ordena os candidatos do bloco pelo score textual antes de enviar para a IA
         to_rerank_sorted = sorted(candidates, key=lambda x: x.get('text_score', 0), reverse=True)
+        # Reordena com a IA usando a chave ponderada
         reranked_by_ia, log_msg = rerank_with_cross_encoder(query_for_semantic, to_rerank_sorted, cross_encoder_model)
         final_list.extend(reranked_by_ia)
         response["search_log"].append(f"Bloco '{block_name}': {log_msg}")
     response["final_semantic_results"] = _highlight_matches(final_list[:FINAL_RESULTS_LIMIT], query_for_semantic)
     end_time = time.time(); response["search_duration_seconds"] = round(end_time - start_time, 4)
+    response["search_log"].append(f"\nBusca completa em {response['search_duration_seconds']} segundos.")
     print(f"\n\n==================== LOG DE DEPURAÇÃO (QUERY: '{original_query}') ====================")
     for log_item in response["search_log"]: print(log_item)
     return response