Model save

Browse files

Files changed (5) hide show

README.md +69 -0
all_results.json +9 -0
runs/Nov22_14-51-01_metallic-vm-falls-fin-02/events.out.tfevents.1732287412.metallic-vm-falls-fin-02.58299.0 +2 -2
train_results.json +9 -0
trainer_state.json +162 -0

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+library_name: peft
+license: llama2
+base_model: meta-llama/Llama-2-13b-hf
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: llama2-13b-lora-closedqa-11-v1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama2-13b-lora-closedqa-11-v1
+This model is a fine-tuned version of [meta-llama/Llama-2-13b-hf](https://huggingface.co/meta-llama/Llama-2-13b-hf) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.8376
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 512
+- total_eval_batch_size: 256
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.2788        | 1.0   | 77   | 1.8376          |
+### Framework versions
+- PEFT 0.13.2
+- Transformers 4.46.2
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.3

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 1.5573103901178593e+18,
+    "train_loss": 1.9809850438848717,
+    "train_runtime": 1063.0601,
+    "train_samples": 111440,
+    "train_samples_per_second": 37.02,
+    "train_steps_per_second": 0.072
+}

runs/Nov22_14-51-01_metallic-vm-falls-fin-02/events.out.tfevents.1732287412.metallic-vm-falls-fin-02.58299.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44a4016228a0753855e0b58c029eb9f68fed61f5a33017cde73d66cb3b03045c
-size 8925

 version https://git-lfs.github.com/spec/v1
+oid sha256:10c4c88f45b1b78293ae6e7aeb97d4df471bba0476f48d8d8b79264f8872fea4
+size 9539

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 1.5573103901178593e+18,
+    "train_loss": 1.9809850438848717,
+    "train_runtime": 1063.0601,
+    "train_samples": 111440,
+    "train_samples_per_second": 37.02,
+    "train_steps_per_second": 0.072
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 77,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.012987012987012988,
+      "grad_norm": 2.5498344898223877,
+      "learning_rate": 2.5e-05,
+      "loss": 4.7663,
+      "step": 1
+    },
+    {
+      "epoch": 0.06493506493506493,
+      "grad_norm": 2.774350881576538,
+      "learning_rate": 0.000125,
+      "loss": 4.7043,
+      "step": 5
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "grad_norm": 3.9560413360595703,
+      "learning_rate": 0.00019958568425315314,
+      "loss": 4.0675,
+      "step": 10
+    },
+    {
+      "epoch": 0.19480519480519481,
+      "grad_norm": 3.9846060276031494,
+      "learning_rate": 0.00019496396989003193,
+      "loss": 3.0353,
+      "step": 15
+    },
+    {
+      "epoch": 0.2597402597402597,
+      "grad_norm": 2.2558484077453613,
+      "learning_rate": 0.00018544194045464886,
+      "loss": 2.3784,
+      "step": 20
+    },
+    {
+      "epoch": 0.3246753246753247,
+      "grad_norm": 0.9705212712287903,
+      "learning_rate": 0.00017151095013548994,
+      "loss": 1.9776,
+      "step": 25
+    },
+    {
+      "epoch": 0.38961038961038963,
+      "grad_norm": 0.6810367107391357,
+      "learning_rate": 0.00015388986359155758,
+      "loss": 1.695,
+      "step": 30
+    },
+    {
+      "epoch": 0.45454545454545453,
+      "grad_norm": 0.5922189950942993,
+      "learning_rate": 0.00013348796121709862,
+      "loss": 1.5304,
+      "step": 35
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 0.5001540780067444,
+      "learning_rate": 0.00011135801860504749,
+      "loss": 1.4319,
+      "step": 40
+    },
+    {
+      "epoch": 0.5844155844155844,
+      "grad_norm": 0.4108904302120209,
+      "learning_rate": 8.86419813949525e-05,
+      "loss": 1.3664,
+      "step": 45
+    },
+    {
+      "epoch": 0.6493506493506493,
+      "grad_norm": 0.4516855776309967,
+      "learning_rate": 6.651203878290139e-05,
+      "loss": 1.3354,
+      "step": 50
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 0.3778669238090515,
+      "learning_rate": 4.611013640844245e-05,
+      "loss": 1.309,
+      "step": 55
+    },
+    {
+      "epoch": 0.7792207792207793,
+      "grad_norm": 0.3914947509765625,
+      "learning_rate": 2.8489049864510054e-05,
+      "loss": 1.2981,
+      "step": 60
+    },
+    {
+      "epoch": 0.8441558441558441,
+      "grad_norm": 0.370316743850708,
+      "learning_rate": 1.4558059545351143e-05,
+      "loss": 1.2884,
+      "step": 65
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 0.3161383867263794,
+      "learning_rate": 5.036030109968082e-06,
+      "loss": 1.2853,
+      "step": 70
+    },
+    {
+      "epoch": 0.974025974025974,
+      "grad_norm": 0.29596462845802307,
+      "learning_rate": 4.143157468468717e-07,
+      "loss": 1.2788,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.8376365900039673,
+      "eval_runtime": 2.2411,
+      "eval_samples_per_second": 6.247,
+      "eval_steps_per_second": 0.446,
+      "step": 77
+    },
+    {
+      "epoch": 1.0,
+      "step": 77,
+      "total_flos": 1.5573103901178593e+18,
+      "train_loss": 1.9809850438848717,
+      "train_runtime": 1063.0601,
+      "train_samples_per_second": 37.02,
+      "train_steps_per_second": 0.072
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 77,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5573103901178593e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}