Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

.gitattributes +8 -0
args.json +114 -0
iter_0000001/.metadata +3 -0
iter_0000001/__0_0.distcp +3 -0
iter_0000001/__0_1.distcp +3 -0
iter_0000001/__0_2.distcp +3 -0
iter_0000001/__0_3.distcp +3 -0
iter_0000001/__0_4.distcp +3 -0
iter_0000001/__0_5.distcp +3 -0
iter_0000001/__0_6.distcp +3 -0
iter_0000001/common.pt +3 -0
iter_0000001/metadata.json +1 -0
latest_checkpointed_iteration.txt +1 -0
runs/events.out.tfevents.1757523328.fc4f4ac1-03.cloud.together.ai.1920040.0 +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+iter_0000001/.metadata filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_1.distcp filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_2.distcp filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_3.distcp filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_4.distcp filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_5.distcp filter=lfs diff=lfs merge=lfs -text
+iter_0000001/__0_6.distcp filter=lfs diff=lfs merge=lfs -text

args.json ADDED Viewed

	@@ -0,0 +1,114 @@

+{
+  "model": "Qwen/Qwen3-Coder-30B-A3B-Instruct",
+  "model_type": "qwen3_moe",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "qwen3",
+  "system": null,
+  "max_length": 2048,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_free": false,
+  "padding_side": "right",
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "response_prefix": null,
+  "template_backend": "swift",
+  "dataset": [],
+  "val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "data_seed": 42,
+  "dataset_num_proc": 1,
+  "load_from_cache_file": true,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "remove_unused_columns": true,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": null,
+  "temperature": null,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "ckpt_dir": null,
+  "lora_modules": [],
+  "tuner_backend": "peft",
+  "train_type": "lora",
+  "adapters": [],
+  "external_plugins": [],
+  "seed": 42,
+  "model_kwargs": {},
+  "load_args": true,
+  "load_data_args": false,
+  "packing": false,
+  "custom_register_path": [],
+  "use_hf": true,
+  "hub_token": null,
+  "ddp_timeout": 18000000,
+  "ddp_backend": null,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "merge_lora": false,
+  "safe_serialization": true,
+  "max_shard_size": "5GB",
+  "output_dir": "/data/workspace/kunato/ms-swift/Qwen3-Coder-30B-A3B-Instruct-mcore",
+  "quant_n_samples": 256,
+  "quant_batch_size": 1,
+  "group_size": 128,
+  "to_ollama": false,
+  "to_mcore": true,
+  "to_hf": false,
+  "mcore_model": null,
+  "mcore_adapters": [],
+  "thread_count": 7,
+  "test_convert_precision": false,
+  "push_to_hub": false,
+  "hub_model_id": null,
+  "hub_private_repo": false,
+  "commit_message": "update files",
+  "to_peft_format": false,
+  "exist_ok": false,
+  "rank": 0,
+  "local_rank": 0,
+  "global_world_size": 1,
+  "local_world_size": 1,
+  "model_suffix": "Qwen3-Coder-30B-A3B-Instruct",
+  "model_info": "ModelInfo(model_type='qwen3_moe', model_dir='/data/share/cache/huggingface/hub/models--Qwen--Qwen3-Coder-30B-A3B-Instruct/snapshots/573fa3901e5799703b1e60825b0ec024a4c0f1d3', torch_dtype=torch.bfloat16, max_model_len=262144, quant_method=None, quant_bits=None, rope_scaling=None, is_moe_model=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='qwen3_moe', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen3-30B-A3B-Base', hf_model_id='Qwen/Qwen3-30B-A3B-Base', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-30B-A3B', hf_model_id='Qwen/Qwen3-30B-A3B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-235B-A22B', hf_model_id='Qwen/Qwen3-235B-A22B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-30B-A3B-FP8', hf_model_id='Qwen/Qwen3-30B-A3B-FP8', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-235B-A22B-FP8', hf_model_id='Qwen/Qwen3-235B-A22B-FP8', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='swift/Qwen3-30B-A3B-AWQ', hf_model_id='cognitivecomputations/Qwen3-30B-A3B-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='swift/Qwen3-235B-A22B-AWQ', hf_model_id='cognitivecomputations/Qwen3-235B-A22B-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen3-30B-A3B-Instruct-2507', hf_model_id='Qwen/Qwen3-30B-A3B-Instruct-2507', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-30B-A3B-Instruct-2507-FP8', hf_model_id='Qwen/Qwen3-30B-A3B-Instruct-2507-FP8', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-235B-A22B-Instruct-2507', hf_model_id='Qwen/Qwen3-235B-A22B-Instruct-2507', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-235B-A22B-Instruct-2507-FP8', hf_model_id='Qwen/Qwen3-235B-A22B-Instruct-2507-FP8', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='swift/Qwen3-235B-A22B-Instruct-2507-AWQ', hf_model_id=None, model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen3-Coder-480B-A35B-Instruct', hf_model_id='Qwen/Qwen3-Coder-480B-A35B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8', hf_model_id='Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='swift/Qwen3-Coder-480B-A35B-Instruct-AWQ', hf_model_id=None, model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=['coding'])], template='qwen3', get_function=<function get_model_tokenizer_with_flash_attn at 0x7f7493c93b50>, model_arch=None, architectures=['Qwen3MoeForCausalLM'], additional_saved_files=[], torch_dtype=None, is_multimodal=False, is_reward=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.51'], tags=[])",
+  "model_dir": "/data/share/cache/huggingface/hub/models--Qwen--Qwen3-Coder-30B-A3B-Instruct/snapshots/573fa3901e5799703b1e60825b0ec024a4c0f1d3",
+  "hub": "<class 'swift.hub.hub.HFHub'>"
+}

iter_0000001/.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d302c916053b2067ae57154c87dc6496346165ce06454943e1262f3bf876734
+size 8922498

iter_0000001/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65702bff8e8f33d2936ae6ef25c838e64388197f1c2767a94a99e384b462efad
+size 8730421564

iter_0000001/__0_1.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d0a18109b4414cea2191cb4761ca955bc6442a9db4f9290b8250df5526def49
+size 8730421564

iter_0000001/__0_2.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:984c3d426c4201da562e225761222adbabd2812897c8a216b2bba364669a2ab1
+size 8730574533

iter_0000001/__0_3.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:385eccd07d14a736e87b5681e6fcff813a45ec556f014f0cf8889fc50d1f013a
+size 8730582482

iter_0000001/__0_4.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86a91ba65d4876a986d46a9a2a97f7dc3c7848621f5c543eb3a4cf185f8e35da
+size 8730284216

iter_0000001/__0_5.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:061f1a1306bf881c92aa3c8985bc2e0a78afe54a4f011781a03930d32447dbab
+size 8730301567

iter_0000001/__0_6.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91ef59c7d78d8e48c12eb936bf2bbe8375e9a3ba2b933c1ee1f876143a411666
+size 8730301307

iter_0000001/common.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cb3d7293fc4aba94d7150d4707ab9a01af46859c10703a23e75949b661760ff
+size 17511

iter_0000001/metadata.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"sharded_backend": "torch_dist", "sharded_backend_version": 1, "common_backend": "torch", "common_backend_version": 1}

latest_checkpointed_iteration.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1

runs/events.out.tfevents.1757523328.fc4f4ac1-03.cloud.together.ai.1920040.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f509aef81de7e1d440ddaec564c09399d508b17c1221caadc670d107f632187
+size 88