yalhessi
/

lemexp-task1-v2-template_small_nodefs-deepseek-coder-1.3b-base-8lr-24epochs-nonspecial-eos-token

lemexp-task1-v2-template_small_nodefs-deepseek-coder-1.3b-base-8lr-24epochs-nonspecial-eos-token

This model is a fine-tuned version of deepseek-ai/deepseek-coder-1.3b-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.1652

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0008
train_batch_size: 2
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 8
total_train_batch_size: 16
total_eval_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 24
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
0.2812	0.4001	1440	0.2641
0.241	0.8002	2880	0.2467
0.2211	1.2003	4320	0.2450
0.2161	1.6004	5760	0.2268
0.2109	2.0006	7200	0.2146
0.2006	2.4007	8640	0.2131
0.1995	2.8008	10080	0.2080
0.1908	3.2009	11520	0.2016
0.1891	3.6010	12960	0.1974
0.1899	4.0011	14400	0.2038
0.1829	4.4012	15840	0.2017
0.1817	4.8013	17280	0.1989
0.1727	5.2014	18720	0.1920
0.1754	5.6016	20160	0.1920
0.1712	6.0017	21600	0.1839
0.1686	6.4018	23040	0.1804
0.1681	6.8019	24480	0.1908
0.162	7.2020	25920	0.1794
0.1605	7.6021	27360	0.1817
0.1629	8.0022	28800	0.1795
0.1532	8.4023	30240	0.1753
0.1527	8.8024	31680	0.1765
0.1469	9.2026	33120	0.1715
0.1496	9.6027	34560	0.1701
0.1456	10.0028	36000	0.1693
0.1401	10.4029	37440	0.1693
0.1413	10.8030	38880	0.1684
0.1342	11.2031	40320	0.1682
0.1351	11.6032	41760	0.1687
0.1367	12.0033	43200	0.1656
0.1283	12.4034	44640	0.1723
0.1315	12.8036	46080	0.1607
0.1206	13.2037	47520	0.1642
0.1225	13.6038	48960	0.1584
0.1251	14.0039	50400	0.1614
0.1177	14.4040	51840	0.1546
0.1185	14.8041	53280	0.1535
0.1081	15.2042	54720	0.1572
0.1103	15.6043	56160	0.1559
0.112	16.0044	57600	0.1577
0.1051	16.4046	59040	0.1540
0.107	16.8047	60480	0.1543
0.0993	17.2048	61920	0.1569
0.099	17.6049	63360	0.1527
0.101	18.0050	64800	0.1523
0.0908	18.4051	66240	0.1566
0.0953	18.8052	67680	0.1526
0.0856	19.2053	69120	0.1562
0.0874	19.6054	70560	0.1531
0.0875	20.0056	72000	0.1551
0.0815	20.4057	73440	0.1565
0.0826	20.8058	74880	0.1519
0.0771	21.2059	76320	0.1613
0.0766	21.6060	77760	0.1547
0.0777	22.0061	79200	0.1596
0.0708	22.4062	80640	0.1616
0.0718	22.8063	82080	0.1622
0.0672	23.2064	83520	0.1662
0.0678	23.6066	84960	0.1652

Framework versions

PEFT 0.14.0
Transformers 4.47.0
Pytorch 2.5.1+cu124
Datasets 3.2.0
Tokenizers 0.21.0

Downloads last month: 4

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yalhessi/lemexp-task1-v2-template_small_nodefs-deepseek-coder-1.3b-base-8lr-24epochs-nonspecial-eos-token

Base model

deepseek-ai/deepseek-coder-1.3b-base

Adapter

(208)

this model

Evaluation results

Metadata error: specify a dataset to view leaderboard