Training in progress, epoch 1

Browse files

Files changed (10) hide show

.gitattributes +1 -0
adapter_config.json +37 -0
adapter_model.safetensors +3 -0
preprocessor_config.json +25 -0
special_tokens_map.json +39 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0
training.log +182 -0
training_args.bin +3 -0
training_config.json +236 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/paligemma2-3b-pt-224",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj",
+    "v_proj",
+    "q_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86051dfcf3a199c555a185c5424ecf63aabfe2770be0255dd5943cab27f285f1
+size 95091000

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "SiglipImageProcessor",
+  "image_seq_length": 256,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "PaliGemmaProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b648d11e0879b11659e6b4051f691752c0cef597a865c6fde5b318b9f68c1d05
+size 34600974

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training.log ADDED Viewed

	@@ -0,0 +1,182 @@

+2025-04-26 07:35:19 - WARNING - __main__ - Process rank: 2, device: cuda:2, n_gpu: 1 distributed training: True, 16-bits training: False
+2025-04-26 07:35:19 - WARNING - __main__ - Process rank: 1, device: cuda:1, n_gpu: 1 distributed training: True, 16-bits training: False
+2025-04-26 07:35:19 - WARNING - __main__ - Process rank: 3, device: cuda:3, n_gpu: 1 distributed training: True, 16-bits training: False
+2025-04-26 07:35:20 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1 distributed training: True, 16-bits training: False
+2025-04-26 07:35:20 - INFO - __main__ - Model parameters ModelArguments(base_model_revision=None, model_name_or_path='google/paligemma2-3b-pt-224', model_revision='main', model_code_revision=None, torch_dtype='bfloat16', tokenizer_name_or_path=None, processor_name_or_path=None, trust_remote_code=False, attn_implementation='eager', use_peft=True, lora_r=16, lora_alpha=16, lora_dropout=0.05, lora_target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj'], lora_modules_to_save=None, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False, bnb_4bit_quant_storage='uint8')
+2025-04-26 07:35:20 - INFO - __main__ - Data parameters DataArguments(chat_template=None, dataset_mixer={'mateoguaman/iphone_every1_100pct_rdp': 1.0}, eval_dataset_mixer={'mateoguaman/iphone_every1_100pct_rdp': 1.0}, text_column='text', dataset_splits=['train', 'test'], train_splits=['train'], validation_splits=['validation'], processing_params={}, dataset_configs=None, preprocessing_num_workers=12, truncation_side=None, auto_insert_empty_system_msg=True, auto_set_chat_template=False, cache_dataset_only=False, just_combine_data=False, output_dataset_name=None, output_dataset_description=None, hf_entity='mateoguaman')
+2025-04-26 07:35:20 - INFO - __main__ - Training/evaluation parameters SFTConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+bf16=True,
+bf16_full_eval=False,
+chars_per_token=<CHARS_PER_TOKEN>,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_batch_size=None,
+dataset_kwargs=None,
+dataset_num_proc=None,
+dataset_text_field=text,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800,
+debug=[],
+deepspeed=None,
+disable_tqdm=False,
+dispatch_batches=None,
+do_eval=True,
+do_predict=False,
+do_train=False,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_packing=None,
+eval_steps=None,
+eval_strategy=IntervalStrategy.EPOCH,
+eval_use_gather_object=False,
+evaluation_strategy=None,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=False,
+gradient_checkpointing_kwargs=None,
+greater_is_better=False,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=0.0001,
+length_column_name=length,
+load_best_model_at_end=True,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=data/paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp/runs/Apr26_07-35-18_g3040,
+logging_first_step=True,
+logging_nan_inf_filter=True,
+logging_steps=20,
+logging_strategy=IntervalStrategy.STEPS,
+lr_scheduler_kwargs={},
+lr_scheduler_type=SchedulerType.COSINE,
+max_grad_norm=1.0,
+max_seq_length=2048,
+max_steps=-1,
+metric_for_best_model=loss,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_of_sequences=None,
+num_train_epochs=5,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=data/paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp,
+overwrite_output_dir=True,
+packing=True,
+past_index=-1,
+per_device_eval_batch_size=8,
+per_device_train_batch_size=8,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+remove_unused_columns=True,
+report_to=['wandb'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=data/paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=500,
+save_strategy=SaveStrategy.EPOCH,
+save_total_limit=None,
+seed=42,
+skip_memory_metrics=True,
+split_batches=None,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger=False,
+use_liger_kernel=False,
+use_mps_device=False,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=1e-05,
+)
+2025-04-26 07:35:26 - INFO - datasets.builder - Overwrite dataset info from restored data version if exists.
+2025-04-26 07:35:26 - INFO - datasets.info - Loading Dataset info from /gscratch/weirdlab/mateogc/huggingface/datasets/mateoguaman___iphone_every1_100pct_rdp/default/0.0.0/b0be11971884aa8183a213b2bdfc2e77d530c3c3
+2025-04-26 07:35:26 - INFO - datasets.builder - Found cached dataset iphone_every1_100pct_rdp (/gscratch/weirdlab/mateogc/huggingface/datasets/mateoguaman___iphone_every1_100pct_rdp/default/0.0.0/b0be11971884aa8183a213b2bdfc2e77d530c3c3)
+2025-04-26 07:35:26 - INFO - datasets.info - Loading Dataset info from /gscratch/weirdlab/mateogc/huggingface/datasets/mateoguaman___iphone_every1_100pct_rdp/default/0.0.0/b0be11971884aa8183a213b2bdfc2e77d530c3c3
+2025-04-26 07:35:28 - INFO - datasets.arrow_dataset - Caching indices mapping at /gscratch/robotics/mateogc/tmp/hf_datasets-m7jv5ob7/cache-e16b67b07f278a3b.arrow
+2025-04-26 07:35:28 - INFO - datasets.arrow_dataset - Caching indices mapping at /gscratch/robotics/mateogc/tmp/hf_datasets-m7jv5ob7/cache-2d0d33c3a0d44560.arrow
+2025-04-26 07:35:30 - INFO - datasets.builder - Overwrite dataset info from restored data version if exists.
+2025-04-26 07:35:30 - INFO - datasets.info - Loading Dataset info from /gscratch/weirdlab/mateogc/huggingface/datasets/mateoguaman___iphone_every1_100pct_rdp/default/0.0.0/b0be11971884aa8183a213b2bdfc2e77d530c3c3
+2025-04-26 07:35:30 - INFO - datasets.builder - Found cached dataset iphone_every1_100pct_rdp (/gscratch/weirdlab/mateogc/huggingface/datasets/mateoguaman___iphone_every1_100pct_rdp/default/0.0.0/b0be11971884aa8183a213b2bdfc2e77d530c3c3)
+2025-04-26 07:35:30 - INFO - datasets.info - Loading Dataset info from /gscratch/weirdlab/mateogc/huggingface/datasets/mateoguaman___iphone_every1_100pct_rdp/default/0.0.0/b0be11971884aa8183a213b2bdfc2e77d530c3c3
+2025-04-26 07:35:30 - INFO - datasets.arrow_dataset - Caching indices mapping at /gscratch/robotics/mateogc/tmp/hf_datasets-m7jv5ob7/cache-f4ab5f8d7ff56b38.arrow
+2025-04-26 07:35:30 - INFO - datasets.arrow_dataset - Caching indices mapping at /gscratch/robotics/mateogc/tmp/hf_datasets-m7jv5ob7/cache-9e700c1c439b2c27.arrow
+2025-04-26 07:35:30 - INFO - __main__ - *** Load pretrained model ***
+2025-04-26 07:35:39 - INFO - __main__ - Sample 41905 of the processed training set:
+Navigate to x=<loc1018>, y=<loc0909>
+<loc0900><loc0866><loc1018><loc0909>
+2025-04-26 07:35:39 - INFO - __main__ - Sample 7296 of the processed training set:
+Navigate to x=<loc0008>, y=<loc0409>
+<loc0637><loc0544><loc0628><loc0397><loc0008><loc0409>
+2025-04-26 07:35:39 - INFO - __main__ - Sample 1639 of the processed training set:
+Navigate to x=<loc0007>, y=<loc0256>
+<loc0496><loc0658><loc0395><loc0342><loc0317><loc0267><loc0007><loc0256>
+2025-04-26 07:35:40 - INFO - __main__ - Main process will handle HuggingFace Hub interactions
+2025-04-26 07:35:40 - INFO - __main__ - Loaded model is not a PeftModel. Getting PEFT config based on model_args.
+2025-04-26 07:35:41 - WARNING - accelerate.utils.other - Detected kernel version 4.18.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+2025-04-26 07:36:05 - INFO - __main__ - *** Train ***

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9811b336199c66ed3b6665cda95f9f4442866060aa7a85e6b6384f8bc51baaa4
+size 5752

training_config.json ADDED Viewed

	@@ -0,0 +1,236 @@

+{
+    "model_args": {
+        "base_model_revision": null,
+        "model_name_or_path": "google/paligemma2-3b-pt-224",
+        "model_revision": "main",
+        "model_code_revision": null,
+        "torch_dtype": "bfloat16",
+        "tokenizer_name_or_path": null,
+        "processor_name_or_path": null,
+        "trust_remote_code": false,
+        "attn_implementation": "eager",
+        "use_peft": true,
+        "lora_r": 16,
+        "lora_alpha": 16,
+        "lora_dropout": 0.05,
+        "lora_target_modules": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+            "o_proj",
+            "gate_proj",
+            "up_proj",
+            "down_proj"
+        ],
+        "lora_modules_to_save": null,
+        "load_in_8bit": false,
+        "load_in_4bit": false,
+        "bnb_4bit_quant_type": "nf4",
+        "use_bnb_nested_quant": false,
+        "bnb_4bit_quant_storage": "uint8"
+    },
+    "data_args": {
+        "chat_template": null,
+        "dataset_mixer": {
+            "mateoguaman/iphone_every1_100pct_rdp": 1.0
+        },
+        "eval_dataset_mixer": {
+            "mateoguaman/iphone_every1_100pct_rdp": 1.0
+        },
+        "text_column": "text",
+        "dataset_splits": [
+            "train",
+            "test"
+        ],
+        "train_splits": [
+            "train"
+        ],
+        "validation_splits": [
+            "validation"
+        ],
+        "processing_params": {},
+        "dataset_configs": null,
+        "preprocessing_num_workers": 12,
+        "truncation_side": null,
+        "auto_insert_empty_system_msg": true,
+        "auto_set_chat_template": false,
+        "cache_dataset_only": false,
+        "just_combine_data": false,
+        "output_dataset_name": null,
+        "output_dataset_description": null,
+        "hf_entity": "mateoguaman"
+    },
+    "training_args": {
+        "output_dir": "data/paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp",
+        "overwrite_output_dir": true,
+        "do_train": false,
+        "do_eval": true,
+        "do_predict": false,
+        "eval_strategy": "epoch",
+        "prediction_loss_only": false,
+        "per_device_train_batch_size": 8,
+        "per_device_eval_batch_size": 8,
+        "per_gpu_train_batch_size": null,
+        "per_gpu_eval_batch_size": null,
+        "gradient_accumulation_steps": 1,
+        "eval_accumulation_steps": null,
+        "eval_delay": 0,
+        "torch_empty_cache_steps": null,
+        "learning_rate": 0.0001,
+        "weight_decay": 1e-05,
+        "adam_beta1": 0.9,
+        "adam_beta2": 0.999,
+        "adam_epsilon": 1e-08,
+        "max_grad_norm": 1.0,
+        "num_train_epochs": 5,
+        "max_steps": -1,
+        "lr_scheduler_type": "cosine",
+        "lr_scheduler_kwargs": {},
+        "warmup_ratio": 0.1,
+        "warmup_steps": 0,
+        "log_level": "info",
+        "log_level_replica": "warning",
+        "log_on_each_node": true,
+        "logging_dir": "data/paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp/runs/Apr26_07-35-18_g3040",
+        "logging_strategy": "steps",
+        "logging_first_step": true,
+        "logging_steps": 20,
+        "logging_nan_inf_filter": true,
+        "save_strategy": "epoch",
+        "save_steps": 500,
+        "save_total_limit": null,
+        "save_safetensors": true,
+        "save_on_each_node": false,
+        "save_only_model": false,
+        "restore_callback_states_from_checkpoint": false,
+        "no_cuda": false,
+        "use_cpu": false,
+        "use_mps_device": false,
+        "seed": 42,
+        "data_seed": null,
+        "jit_mode_eval": false,
+        "use_ipex": false,
+        "bf16": true,
+        "fp16": false,
+        "fp16_opt_level": "O1",
+        "half_precision_backend": "auto",
+        "bf16_full_eval": false,
+        "fp16_full_eval": false,
+        "tf32": null,
+        "local_rank": 3,
+        "ddp_backend": null,
+        "tpu_num_cores": null,
+        "tpu_metrics_debug": false,
+        "debug": [],
+        "dataloader_drop_last": false,
+        "eval_steps": null,
+        "dataloader_num_workers": 0,
+        "dataloader_prefetch_factor": null,
+        "past_index": -1,
+        "run_name": "data/paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp",
+        "disable_tqdm": false,
+        "remove_unused_columns": true,
+        "label_names": null,
+        "load_best_model_at_end": true,
+        "metric_for_best_model": "loss",
+        "greater_is_better": false,
+        "ignore_data_skip": false,
+        "fsdp": [],
+        "fsdp_min_num_params": 0,
+        "fsdp_config": {
+            "min_num_params": 0,
+            "xla": false,
+            "xla_fsdp_v2": false,
+            "xla_fsdp_grad_ckpt": false
+        },
+        "fsdp_transformer_layer_cls_to_wrap": null,
+        "accelerator_config": {
+            "split_batches": false,
+            "dispatch_batches": null,
+            "even_batches": true,
+            "use_seedable_sampler": true,
+            "non_blocking": false,
+            "gradient_accumulation_kwargs": null
+        },
+        "deepspeed": null,
+        "label_smoothing_factor": 0.0,
+        "optim": "adamw_torch",
+        "optim_args": null,
+        "adafactor": false,
+        "group_by_length": false,
+        "length_column_name": "length",
+        "report_to": [
+            "wandb"
+        ],
+        "ddp_find_unused_parameters": null,
+        "ddp_bucket_cap_mb": null,
+        "ddp_broadcast_buffers": null,
+        "dataloader_pin_memory": true,
+        "dataloader_persistent_workers": false,
+        "skip_memory_metrics": true,
+        "use_legacy_prediction_loop": false,
+        "push_to_hub": true,
+        "resume_from_checkpoint": null,
+        "hub_model_id": "paligemma2-3b-pt-224-sft-lora-iphonecf-only_rdp",
+        "hub_strategy": "every_save",
+        "hub_token": null,
+        "hub_private_repo": null,
+        "hub_always_push": false,
+        "gradient_checkpointing": false,
+        "gradient_checkpointing_kwargs": null,
+        "include_inputs_for_metrics": false,
+        "include_for_metrics": [],
+        "eval_do_concat_batches": true,
+        "fp16_backend": "auto",
+        "evaluation_strategy": null,
+        "push_to_hub_model_id": null,
+        "push_to_hub_organization": null,
+        "push_to_hub_token": null,
+        "mp_parameters": "",
+        "auto_find_batch_size": false,
+        "full_determinism": false,
+        "torchdynamo": null,
+        "ray_scope": "last",
+        "ddp_timeout": 1800,
+        "torch_compile": false,
+        "torch_compile_backend": null,
+        "torch_compile_mode": null,
+        "dispatch_batches": null,
+        "split_batches": null,
+        "include_tokens_per_second": false,
+        "include_num_input_tokens_seen": false,
+        "neftune_noise_alpha": null,
+        "optim_target_modules": null,
+        "batch_eval_metrics": false,
+        "eval_on_start": false,
+        "use_liger_kernel": false,
+        "eval_use_gather_object": false,
+        "average_tokens_across_devices": false,
+        "model_init_kwargs": null,
+        "use_liger": false,
+        "dataset_text_field": "text",
+        "dataset_kwargs": null,
+        "dataset_num_proc": null,
+        "max_seq_length": 2048,
+        "packing": true,
+        "eval_packing": null,
+        "dataset_batch_size": null,
+        "num_of_sequences": null,
+        "chars_per_token": null,
+        "hub_model_revision": "main",
+        "distributed_state": {
+            "_cpu": false,
+            "backend": "nccl",
+            "device": "cuda:3",
+            "debug": false,
+            "distributed_type": "MULTI_GPU",
+            "num_processes": 4,
+            "process_index": 3,
+            "local_process_index": 3,
+            "fork_launched": false
+        },
+        "_n_gpu": 1,
+        "__cached__setup_devices": "cuda:3",
+        "deepspeed_plugin": null
+    }
+}