Spaces:

DocUA
/

SDC-multi-classifier

Build error

App Files Files Community

DocUA commited on Jan 28

Commit

9c5a6d0

0 Parent(s):

Initial commit without sensitive data

Browse files

Files changed (10) hide show

.gitignore +5 -0
.gradio/certificate.pem +31 -0
README.md +12 -0
app.py +219 -0
create_embeddings.py +44 -0
embeddings.npy +0 -0
messages.csv +13 -0
messages_with_labels.csv +13 -0
requirements.txt +5 -0
test_messages.py +24 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,5 @@

+.venv/
+__pycache__/
+*.pyc
+.env

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: SDC Multi Classifier
+emoji: 🦀
+colorFrom: purple
+colorTo: blue
+sdk: gradio
+sdk_version: 5.13.1
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,219 @@

+import os
+import gradio as gr
+import pandas as pd
+import numpy as np
+from typing import Dict, List
+from openai import OpenAI
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# 1) Вкажіть свій OpenAI ключ
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
+##############################################################################
+# 1. Вихідні дані: JSON із "хінтами"
+##############################################################################
+classes_json = {
+    "Pain": [
+        "ache", "aches", "hurts", "pain", "painful", "sore"
+        # ...
+    ],
+    "Chest pain": [
+        "aches in my chest", "chest pain", "chest hurts", "sternum pain"
+    ],
+    "Physical Activity": [
+        "exercise", "walking", "running", "biking"
+    ],
+    "Office visit": [
+        "appointment scheduled", "annual checkup", "office visit"
+    ],
+    # ...
+}
+##############################################################################
+# 2. Глобальні змінні (спрощено)
+##############################################################################
+df = None
+embeddings = None
+class_signatures = None
+##############################################################################
+# 3. Функція для завантаження даних
+##############################################################################
+def load_data(csv_path: str = "messages.csv", emb_path: str = "embeddings.npy"):
+    global df, embeddings
+    df_local = pd.read_csv(csv_path)
+    emb_local = np.load(emb_path)
+    assert len(df_local) == len(emb_local), "CSV і embeddings різної довжини!"
+    df_local["Target"] = "Unlabeled"
+    # Нормалізація embeddings
+    emb_local = (emb_local - emb_local.mean(axis=0)) / emb_local.std(axis=0)
+    df = df_local
+    embeddings = emb_local
+##############################################################################
+# 4. Виклик OpenAI для отримання одного embedding
+##############################################################################
+def get_openai_embedding(text: str, model_name: str = "text-embedding-3-small") -> list:
+    response = client.embeddings.create(
+        input=text,
+        model=model_name
+    )
+    return response.data[0].embedding
+##############################################################################
+# 5. Отримати embeddings для списку фраз (хінтів) і усереднити
+##############################################################################
+def embed_hints(hint_list: List[str], model_name: str) -> np.ndarray:
+    emb_list = []
+    for hint in hint_list:
+        emb = get_openai_embedding(hint, model_name=model_name)
+        emb_list.append(emb)
+    return np.array(emb_list, dtype=np.float32)
+##############################################################################
+# 6. Будуємо signatures для кожного класу
+##############################################################################
+def build_class_signatures(model_name: str):
+    global class_signatures
+    signatures = {}
+    for cls_name, hints in classes_json.items():
+        if not hints:
+            continue
+        arr = embed_hints(hints, model_name=model_name)
+        signatures[cls_name] = arr.mean(axis=0)
+    class_signatures = signatures
+    return "Signatures побудовано!"
+##############################################################################
+# 7. Функція класифікації одного рядка (dot product)
+##############################################################################
+def predict_class(text_embedding: np.ndarray, signatures: Dict[str, np.ndarray]) -> str:
+    best_label = "Unknown"
+    best_score = float("-inf")
+    for cls, sign in signatures.items():
+        score = np.dot(text_embedding, sign)
+        if score > best_score:
+            best_score = score
+            best_label = cls
+    return best_label
+##############################################################################
+# 8. Класифікація відфільтрованих рядків
+##############################################################################
+def classify_rows(filter_substring: str):
+    global df, embeddings, class_signatures
+    if class_signatures is None:
+        return "Спочатку збудуйте signatures!"
+    if df is None or embeddings is None:
+        return "Дані не завантажені! Спочатку викличте load_data."
+    if filter_substring:
+        filtered_idx = df[df["Message"].str.contains(filter_substring, case=False, na=False)].index
+    else:
+        filtered_idx = df.index
+    for i in filtered_idx:
+        emb_vec = embeddings[i]
+        pred = predict_class(emb_vec, class_signatures)
+        df.at[i, "Target"] = pred
+    result_df = df.loc[filtered_idx, ["Message", "Target"]].copy()
+    return result_df.reset_index(drop=True)
+##############################################################################
+# 9. Збереження CSV
+##############################################################################
+def save_data():
+    global df
+    if df is None:
+        return "Дані відсутні!"
+    df.to_csv("messages_with_labels.csv", index=False)
+    return "Файл 'messages_with_labels.csv' збережено!"
+##############################################################################
+# 10. Gradio UI
+##############################################################################
+def ui_load_data(csv_path, emb_path):
+    load_data(csv_path, emb_path)
+    return f"Data loaded from {csv_path} and {emb_path}. Rows: {len(df)}"
+def ui_build_signatures(model_name):
+    msg = build_class_signatures(model_name)
+    return msg
+def ui_classify_data(filter_substring):
+    result = classify_rows(filter_substring)
+    if isinstance(result, str):
+        return result
+    return result
+def ui_save_data():
+    return save_data()
+def main():
+    import gradio as gr
+    with gr.Blocks() as demo:
+        gr.Markdown("# SDC Classifier з Gradio")
+        gr.Markdown("## 1) Завантаження даних")
+        with gr.Row():
+            csv_input = gr.Textbox(value="messages.csv", label="CSV-файл")
+            emb_input = gr.Textbox(value="embeddings.npy", label="Numpy Embeddings")
+            load_btn = gr.Button("Load data")
+        load_output = gr.Label(label="Loading result")
+        load_btn.click(fn=ui_load_data, inputs=[csv_input, emb_input], outputs=load_output)
+        gr.Markdown("## 2) Побудова Class Signatures")
+        # openai_key_in = gr.Textbox(label="OpenAI API Key", type="password")
+        model_choice = gr.Dropdown(choices=["text-embedding-3-large","text-embedding-3-small"],
+                                   value="text-embedding-3-small", label="OpenAI model")
+        build_btn = gr.Button("Build signatures")
+        build_out = gr.Label(label="Signatures")
+        build_btn.click(fn=ui_build_signatures, inputs=[model_choice], outputs=build_out)
+        gr.Markdown("## 3) Класифікація")
+        filter_in = gr.Textbox(label="Filter substring (optional)")
+        classify_btn = gr.Button("Classify")
+        classify_out = gr.Dataframe(label="Result (Message / Target)")
+        classify_btn.click(fn=ui_classify_data, inputs=[filter_in], outputs=[classify_out])
+        gr.Markdown("## 4) Зберегти CSV")
+        save_btn = gr.Button("Save labeled data")
+        save_out = gr.Label()
+        save_btn.click(fn=ui_save_data, inputs=[], outputs=save_out)
+        gr.Markdown("""
+        ### Опис:
+        1. Натисніть 'Load data', щоб завантажити ваші дані (CSV + embeddings).
+        2. Укажіть OpenAI API модель, натисніть 'Build signatures'.
+        3. Вкажіть фільтр (необов'язково), натисніть 'Classify'.
+           Отримаєте таблицю з полем Target.
+        4. 'Save labeled data' збереже 'messages_with_labels.csv'.
+        """)
+    demo = gr.Blocks(title="SDC Multi Classifier")
+    # demo.launch(server_name="0.0.0.0", server_port=7860, share=True)
+    demo.launch()
+if __name__ == "__main__":
+    main()

create_embeddings.py ADDED Viewed

	@@ -0,0 +1,44 @@

+import os
+import pandas as pd
+import numpy as np
+from openai import OpenAI
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# 1) Вкажіть свій OpenAI ключ
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
+# 2) Задайте назви файлів
+CSV_FILE = "messages_with_labels.csv"        # ваш CSV із колонкою "Message"
+OUTPUT_EMB_FILE = "embeddings.npy"
+MODEL_NAME = "text-embedding-3-small"  # або іншу модель
+# 3) Зчитайте CSV
+df = pd.read_csv(CSV_FILE)
+texts = df["Message"].fillna("").tolist()  # на випадок, якщо є NaN
+embeddings_list = []
+# 4) Викличте OpenAI API для кожного рядка
+for i, text in enumerate(texts):
+    # Результат запиту до OpenAI
+    response = client.embeddings.create(
+        input=text,
+        model=MODEL_NAME
+    )
+    emb = response.data[0].embedding
+    embeddings_list.append(emb)
+# 5) Переведемо список у np.array та збережемо
+embedding_matrix = np.array(embeddings_list, dtype=np.float32)
+np.save(OUTPUT_EMB_FILE, embedding_matrix)
+print(f"Embeddings saved to {OUTPUT_EMB_FILE} with shape {embedding_matrix.shape}")

embeddings.npy ADDED Viewed

Binary file (73.9 kB). View file

messages.csv ADDED Viewed

	@@ -0,0 +1,13 @@

+Message,Target
+"I have a strong ache in my left arm",Pain
+"My chest hurts sometimes, especially when I breathe deeply",Chest pain
+"Just finished running 3 miles",Physical Activity
+"I scheduled an appointment next week for my annual checkup",Office visit
+"Feel a bit sore in my legs after walking",Pain
+"Went biking for 10 miles this morning",Physical Activity
+"Annual checkup with my doctor is planned",Office visit
+"There's a sternum pain in the center of my chest",Chest pain
+"I'm going to exercise daily",Physical Activity
+"My back is painful when I wake up",Pain
+"I have no health issues right now",Unknown
+"I'm here to schedule an office visit for next month",Office visit

messages_with_labels.csv ADDED Viewed

	@@ -0,0 +1,13 @@

+Message,Target
+I have a strong ache in my left arm,Pain
+"My chest hurts sometimes, especially when I breathe deeply",Chest pain
+Just finished running 3 miles,Physical Activity
+I scheduled an appointment next week for my annual checkup,Office visit
+Feel a bit sore in my legs after walking,Pain
+Went biking for 10 miles this morning,Physical Activity
+Annual checkup with my doctor is planned,Office visit
+There's a sternum pain in the center of my chest,Chest pain
+I'm going to exercise daily,Physical Activity
+My back is painful when I wake up,Chest pain
+I have no health issues right now,Physical Activity
+I'm here to schedule an office visit for next month,Office visit

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio
+openai
+pandas
+numpy
+python-dotenv

test_messages.py ADDED Viewed

	@@ -0,0 +1,24 @@

+import pandas as pd
+def test_messages_with_labels(path_csv="messages_with_labels.csv"):
+    # 1) Завантажуємо CSV
+    df_labeled = pd.read_csv(path_csv)
+    # 2) Подивимося на перші 5 рядків
+    print("Перші 5 рядків з messages_with_labels.csv:")
+    print(df_labeled.head())
+    # 3) Порахуємо, скільки в кожному класі (Target)
+    print("\nРозподіл за мітками (Target):")
+    print(df_labeled["Target"].value_counts())
+    # (Додатково) Якщо у вас є справжня колонка, напр. "TrueLabel", можна порахувати Accuracy
+    if "TrueLabel" in df_labeled.columns:
+        accuracy = (df_labeled["Target"] == df_labeled["TrueLabel"]).mean()
+        print(f"\nAccuracy (Target vs TrueLabel): {accuracy:.2%}")
+    else:
+        print("\nКолонка 'TrueLabel' відсутня — не можемо автоматично оцінити точність.")
+# Викликаємо:
+if __name__ == "__main__":
+    test_messages_with_labels()