Spaces:

Condense-AI
/

Fast-PDF-Chat

Sleeping

toilaluan commited on Dec 19, 2024

Commit

37fc80f

1 Parent(s): 18501f6

update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,7 +22,7 @@ def get_model_kv_cache(context_ids):
     kv_cache = DynamicCache.from_legacy_cache(
         past_key_values
     )
-    return past_key_values
 @spaces.GPU
 def inference(question: str, doc_path: str, use_turbo=True) -> str:
@@ -43,6 +43,7 @@ def inference(question: str, doc_path: str, use_turbo=True) -> str:
         print("turbo-mode-off")
         kv_cache = get_model_kv_cache(context_ids)
     answer = generate_answer(MODEL, TOKENIZER, prompt_ids, kv_cache, context_length, 128)
     print(answer)

     kv_cache = DynamicCache.from_legacy_cache(
         past_key_values
     )
+    return kv_cache
 @spaces.GPU
 def inference(question: str, doc_path: str, use_turbo=True) -> str:
         print("turbo-mode-off")
         kv_cache = get_model_kv_cache(context_ids)
+    print("kv-length", kv_cache.get_seq_length())
     answer = generate_answer(MODEL, TOKENIZER, prompt_ids, kv_cache, context_length, 128)
     print(answer)