Commits · Luigi/ZeroGPU-LLM-Inference

Update requirements.txt

4d2c362
verified

Luigi commited on Oct 12

Update requirements.txt

48d806a
verified

Luigi commited on Oct 12

Add dynamic GPU time estimate indicator to UI

fc989b4

Luigi commited on Oct 12

Improve model size detection: replace ad-hoc string parsing with reliable params_b field in MODELS dict

ab92e0d

Luigi commited on Oct 12

Add qwen 80b-a3b

8cdf3e1

Luigi commited on Oct 12

Set better defaults for free-tier users: Qwen3-1.7B model, 1024 max tokens, search disabled

2cae073

Luigi commited on Oct 12

Adjust duration estimation for H200 performance - reduce conservative estimates

de766da

Luigi commited on Oct 12

Use actual parameter count for AOT decision instead of string matching

e3e334f

Luigi commited on Oct 12

Make AOT compilation conditional for models >= 2B parameters to optimize free tier usage

4500f92

Luigi commited on Oct 12

Add AOT compilation optimization for ZeroGPU acceleration

a7866ff

Luigi commited on Oct 12

add 4 20b+ models after enabling dynamic gpu duration

fea2910
verified

Luigi commited on Oct 12

Add dynamic duration calculation for ZeroGPU acceleration

6073cc2

Luigi commited on Oct 12

make qwen-4b default

d3726c6
verified

Luigi commited on Oct 11

disable two models that cannot run or too run too slowly on hf spaces with zerogpu

3dc7ced

Luigi commited on Oct 11

Update app.py

f1fa55c
verified

Luigi commited on Oct 11

Update app.py

f07d6ab
verified

Luigi commited on Oct 11

Update app.py

0992852
verified

Luigi commited on Oct 11

add original apriel 15b

2b25033
verified

Luigi commited on Oct 11

use apriel 8bit

a4681bd
verified

Luigi commited on Oct 11

run Apriel on 4bit

2cadf8a
verified

Luigi commited on Oct 11

Add Apriel-1.5-15b-Thinker

3665b54
verified

Luigi commited on Oct 11

Update app.py

7f654b2
verified

Luigi commited on Oct 10

Update app.py

15b78c7
verified

Luigi commited on Oct 10

Update requirements.txt

4addcb2
verified

Luigi commited on Oct 10

Update requirements.txt

49c0c5a
verified

Luigi commited on Oct 10

Update requirements.txt

831c9e8
verified

Luigi commited on Oct 10

Update app.py

7356fa6
verified

Luigi commited on Oct 9

add 4 models from qwen3 family

048cfc4
verified

Luigi commited on Oct 9

add qwen3 32b awq

b9efb74
verified

Luigi commited on Oct 9

Update app.py

5e03586
verified

Luigi commited on Oct 9

Update README.md

c6e816c
verified

Luigi commited on Oct 9

Update requirements.txt

ff4ad1d
verified

Luigi commited on Oct 9

Update app.py

e5a1663
verified

Luigi commited on Oct 9

Update app.py

de64679
verified

Luigi commited on Oct 9

Update app.py

4418827
verified

Luigi commited on Oct 9

Update app.py

f2f4310
verified

Luigi commited on Oct 9

Update app.py

42db70b
verified

Luigi commited on Oct 9

feat(models): add Granite-4.0-Micro and Qwen3-4B-Instruct-2507 to MODELS registry

c30a7f7
verified

Luigi commited on Oct 9

feat(models): Added three new models

3c22497
verified

Luigi commited on Oct 9

add 5 models from liquid ai

8eefe94

Luigi commited on Oct 8

add smollm2 135m multilingual

ac20174
verified

Luigi commited on Sep 8

add parser_model_ner_gemma_v0 based on gemma 3 370m it

bc1bd75
verified

Luigi commited on Aug 29

Add Gemma-3-270m Taiwan

74c66e7
verified

Luigi commited on Aug 18

add gemma-3-270m-it

3995aec

Luigi commited on Aug 15

remove prevously added breeze models (as it didn't work), add smollm 135m taiwan

b3fd72e

Luigi commited on Aug 4

add breeze models

88f3bc6

Luigi commited on Aug 3

add 3 sub-1B TW models from ShengweiPeng

ddfffab

Luigi commited on Aug 1

add Qwen2.5-Taiwan-3B-Reason-GRPO & Llama-3.2-Taiwan-1B

f82b9e0

Luigi commited on Jul 31

disable cache for better compability

ea7c44f

Luigi commited on Jul 31

make qwen2.5-taiwan 1.5b the default

493107e

Luigi commited on Jul 30

Commit History

Update requirements.txt 4d2c362 verified

Update requirements.txt 48d806a verified

Add dynamic GPU time estimate indicator to UI fc989b4

Improve model size detection: replace ad-hoc string parsing with reliable params_b field in MODELS dict ab92e0d

Add qwen 80b-a3b 8cdf3e1

Set better defaults for free-tier users: Qwen3-1.7B model, 1024 max tokens, search disabled 2cae073

Adjust duration estimation for H200 performance - reduce conservative estimates de766da

Use actual parameter count for AOT decision instead of string matching e3e334f

Make AOT compilation conditional for models >= 2B parameters to optimize free tier usage 4500f92

Add AOT compilation optimization for ZeroGPU acceleration a7866ff

add 4 20b+ models after enabling dynamic gpu duration fea2910 verified

Add dynamic duration calculation for ZeroGPU acceleration 6073cc2

make qwen-4b default d3726c6 verified

disable two models that cannot run or too run too slowly on hf spaces with zerogpu 3dc7ced

Update app.py f1fa55c verified

Update app.py f07d6ab verified

Update app.py 0992852 verified

add original apriel 15b 2b25033 verified

use apriel 8bit a4681bd verified

run Apriel on 4bit 2cadf8a verified

Add Apriel-1.5-15b-Thinker 3665b54 verified

Update app.py 7f654b2 verified

Update app.py 15b78c7 verified

Update requirements.txt 4addcb2 verified

Update requirements.txt 49c0c5a verified

Update requirements.txt 831c9e8 verified

Update app.py 7356fa6 verified

add 4 models from qwen3 family 048cfc4 verified

add qwen3 32b awq b9efb74 verified

Update app.py 5e03586 verified

Update README.md c6e816c verified

Update requirements.txt ff4ad1d verified

Update app.py e5a1663 verified

Update app.py de64679 verified

Update app.py 4418827 verified

Update app.py f2f4310 verified

Update app.py 42db70b verified

feat(models): add Granite-4.0-Micro and Qwen3-4B-Instruct-2507 to MODELS registry c30a7f7 verified

feat(models): Added three new models 3c22497 verified

add 5 models from liquid ai 8eefe94

add smollm2 135m multilingual ac20174 verified

add parser_model_ner_gemma_v0 based on gemma 3 370m it bc1bd75 verified

Add Gemma-3-270m Taiwan 74c66e7 verified

add gemma-3-270m-it 3995aec

remove prevously added breeze models (as it didn't work), add smollm 135m taiwan b3fd72e

add breeze models 88f3bc6

add 3 sub-1B TW models from ShengweiPeng ddfffab

add Qwen2.5-Taiwan-3B-Reason-GRPO & Llama-3.2-Taiwan-1B f82b9e0

disable cache for better compability ea7c44f

make qwen2.5-taiwan 1.5b the default 493107e

Update requirements.txt

4d2c362
verified

Update requirements.txt

48d806a
verified

Add dynamic GPU time estimate indicator to UI

fc989b4

Improve model size detection: replace ad-hoc string parsing with reliable params_b field in MODELS dict

ab92e0d

Add qwen 80b-a3b

8cdf3e1

Set better defaults for free-tier users: Qwen3-1.7B model, 1024 max tokens, search disabled

2cae073

Adjust duration estimation for H200 performance - reduce conservative estimates

de766da

Use actual parameter count for AOT decision instead of string matching

e3e334f

Make AOT compilation conditional for models >= 2B parameters to optimize free tier usage

4500f92

Add AOT compilation optimization for ZeroGPU acceleration

a7866ff

add 4 20b+ models after enabling dynamic gpu duration

fea2910
verified

Add dynamic duration calculation for ZeroGPU acceleration

6073cc2

make qwen-4b default

d3726c6
verified

disable two models that cannot run or too run too slowly on hf spaces with zerogpu

3dc7ced

Update app.py

f1fa55c
verified

Update app.py

f07d6ab
verified

Update app.py

0992852
verified

add original apriel 15b

2b25033
verified

use apriel 8bit

a4681bd
verified

run Apriel on 4bit

2cadf8a
verified

Add Apriel-1.5-15b-Thinker

3665b54
verified

Update app.py

7f654b2
verified

Update app.py

15b78c7
verified

Update requirements.txt

4addcb2
verified

Update requirements.txt

49c0c5a
verified

Update requirements.txt

831c9e8
verified

Update app.py

7356fa6
verified

add 4 models from qwen3 family

048cfc4
verified

add qwen3 32b awq

b9efb74
verified

Update app.py

5e03586
verified

Update README.md

c6e816c
verified

Update requirements.txt

ff4ad1d
verified

Update app.py

e5a1663
verified

Update app.py

de64679
verified

Update app.py

4418827
verified

Update app.py

f2f4310
verified

Update app.py

42db70b
verified

feat(models): add Granite-4.0-Micro and Qwen3-4B-Instruct-2507 to MODELS registry

c30a7f7
verified

feat(models): Added three new models

3c22497
verified

add 5 models from liquid ai

8eefe94

add smollm2 135m multilingual

ac20174
verified

add parser_model_ner_gemma_v0 based on gemma 3 370m it

bc1bd75
verified

Add Gemma-3-270m Taiwan

74c66e7
verified

add gemma-3-270m-it

3995aec

remove prevously added breeze models (as it didn't work), add smollm 135m taiwan

b3fd72e

add breeze models

88f3bc6

add 3 sub-1B TW models from ShengweiPeng

ddfffab

add Qwen2.5-Taiwan-3B-Reason-GRPO & Llama-3.2-Taiwan-1B

f82b9e0

disable cache for better compability

ea7c44f

make qwen2.5-taiwan 1.5b the default

493107e