Spaces:

asoria
/

datasets-text2sql

Build error

App Files Files Community

asoria commited on Mar 6, 2024

Commit

140f5d3

verified ·

1 Parent(s): 49e03fb

Disable local models

Browse files

Files changed (1) hide show

app.py +19 -33

app.py CHANGED Viewed

@@ -4,10 +4,9 @@ import gradio as gr
 from dotenv import load_dotenv
 from httpx import Client
 from huggingface_hub import HfApi
-from huggingface_hub.utils import logging
-from llama_cpp import Llama
 import pandas as pd
-from transformers import pipeline
 load_dotenv()
@@ -23,19 +22,22 @@ headers = {
 	"Content-Type": "application/json"
 }
-logger = logging.get_logger(__name__)
 client = Client(headers=headers)
 api = HfApi(token=HF_TOKEN)
-print("About to load DuckDB-NSQL-7B model")
-"""
-llama = Llama(
-        model_path="DuckDB-NSQL-7B-v0.1-q8_0.gguf",
-        n_ctx=2048,
-)
-"""
-pipe = pipeline("text-generation", model="motherduckdb/DuckDB-NSQL-7B-v0.1")
-print("DuckDB-NSQL-7B model has been loaded")
 def get_first_parquet(dataset: str):
     resp = client.get(f"{BASE_DATASETS_SERVER_URL}/parquet?dataset={dataset}")
@@ -51,17 +53,6 @@ def query_remote_model(text):
     pred = response.json()
     return pred[0]["generated_text"]
-def query_local_model_transformers(text):
-    pred = pipe(text, max_length=1000)
-    print(type(pred))
-    print(pred)
-    return pred[0]["generated_text"]
-def query_local_model(text):
-    pred = llama(text, temperature=0.1, max_tokens=500)
-    return pred["choices"][0]["text"]
 def text2sql(dataset_name, query_input):
     print(f"start text2sql for {dataset_name}")
@@ -73,10 +64,9 @@ def text2sql(dataset_name, query_input):
     print(first_parquet_url)
     con = duckdb.connect()
     con.execute("INSTALL 'httpfs'; LOAD httpfs;")
-    # could get from parquet instead?
     con.execute(f"CREATE TABLE data as SELECT * FROM '{first_parquet_url}' LIMIT 1;")
     result = con.sql("SELECT sql FROM duckdb_tables() where table_name ='data';").df()
     ddl_create = result.iloc[0,0]
     text = f"""### Instruction:
@@ -92,12 +82,8 @@ def text2sql(dataset_name, query_input):
     ### Response (use duckdb shorthand if possible) replace table name with {first_parquet_url} in the generated sql query:
     """
-    print(text)
     sql_output =  query_remote_model(text)
-    # sql_output = query_local_model_transformers(text)
     try:
         query_result = con.sql(sql_output).df()
     except Exception as error:
@@ -111,9 +97,9 @@ def text2sql(dataset_name, query_input):
 with gr.Blocks() as demo:
-    gr.Markdown("# Talk to your dataset")
-    gr.Markdown("This space shows how to talk to your datasets: Get a brief description, create SQL queries, and get results.")
-    gr.Markdown("Generate SQL queries'")
     dataset_name = gr.Textbox("sksayril/medicine-info", label="Dataset Name")
     query_input = gr.Textbox("How many rows there are?", label="Ask something about your data")
     btn = gr.Button("Generate SQL")

 from dotenv import load_dotenv
 from httpx import Client
 from huggingface_hub import HfApi
+#from llama_cpp import Llama
 import pandas as pd
+#from transformers import pipeline
 load_dotenv()
 	"Content-Type": "application/json"
 }
 client = Client(headers=headers)
 api = HfApi(token=HF_TOKEN)
+# First approach: Use llama.cpp
+#llama = Llama(model_path="DuckDB-NSQL-7B-v0.1-q8_0.gguf", n_ctx=2048)
+#def query_local_model(text):
+#    pred = llama(text, temperature=0.1, max_tokens=500)
+#    return pred["choices"][0]["text"]
+# Second approach: Use transformers -> Took too much time
+#pipe = pipeline("text-generation", model="motherduckdb/DuckDB-NSQL-7B-v0.1")
+#def query_local_model_transformers(text):
+#    pred = pipe(text, max_length=1000)
+#    return pred[0]["generated_text"]
 def get_first_parquet(dataset: str):
     resp = client.get(f"{BASE_DATASETS_SERVER_URL}/parquet?dataset={dataset}")
     pred = response.json()
     return pred[0]["generated_text"]
 def text2sql(dataset_name, query_input):
     print(f"start text2sql for {dataset_name}")
     print(first_parquet_url)
     con = duckdb.connect()
     con.execute("INSTALL 'httpfs'; LOAD httpfs;")
+    # could get from Parquet instead?
     con.execute(f"CREATE TABLE data as SELECT * FROM '{first_parquet_url}' LIMIT 1;")
     result = con.sql("SELECT sql FROM duckdb_tables() where table_name ='data';").df()
     ddl_create = result.iloc[0,0]
     text = f"""### Instruction:
     ### Response (use duckdb shorthand if possible) replace table name with {first_parquet_url} in the generated sql query:
     """
     sql_output =  query_remote_model(text)
     try:
         query_result = con.sql(sql_output).df()
     except Exception as error:
 with gr.Blocks() as demo:
+    gr.Markdown("# Generate SQL queries based on a given text for your dataset")
+    gr.Markdown("This space showcase how to generate a SQL query from a text and get the result.")
+    gr.Markdown("Tech stack: duckdb and DuckDB-NSQL-7B model")
     dataset_name = gr.Textbox("sksayril/medicine-info", label="Dataset Name")
     query_input = gr.Textbox("How many rows there are?", label="Ask something about your data")
     btn = gr.Button("Generate SQL")