Edit Models filters

Apps

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

333

Full-text search

Active filters: int8

RedHatAI/Qwen2.5-72B-quantized.w8a16

Text Generation • 20B • Updated Nov 26, 2024 • 4

avans06/Meta-Llama-3.1-8B-Instruct-ct2-int8_float16

Text Generation • Updated Oct 10, 2024 • 4

avans06/Meta-Llama-3.2-8B-Instruct-ct2-int8_float16

Text Generation • Updated Oct 13, 2024 • 12

minpeter/Qwen-Qwen2.5-14B-Instruct-fmo-int8

15B • Updated Nov 8, 2024

minpeter/Qwen-Qwen2.5-32B-Instruct-fmo-int8

33B • Updated Nov 8, 2024 • 2

SteveTran/T5-small-query-expansion-INT8

Text Generation • Updated Nov 16, 2024 • 28 • 1

McaTech/Nonet

Text Generation • 0.1B • Updated Jun 30 • 457 • 3

mradermacher/ecastera-eva-westlake-7b-spanish-GGUF

7B • Updated Dec 22, 2024 • 166

RedHatAI/Llama-3.1-Nemotron-70B-Instruct-HF-quantized.w8a8

Text Generation • 71B • Updated Jan 3 • 33

RedHatAI/QwQ-32B-Preview-quantized.w8a8

Text Generation • 33B • Updated Jan 3 • 4

NeoChen1024/Dolphin3.0-Llama3.1-8B-W8A8

8B • Updated Apr 18 • 5

NeoChen1024/dolphin-2.9.3-mistral-7B-32k-W8A8

7B • Updated Jan 6 • 1

RedHatAI/granite-3.1-8b-instruct-quantized.w8a8

Text Generation • 8B • Updated Sep 25 • 109 • 2

RedHatAI/granite-3.1-2b-instruct-quantized.w8a8

Text Generation • 3B • Updated Feb 28 • 15

RedHatAI/granite-3.1-2b-base-quantized.w8a8

Text Generation • 3B • Updated Feb 28 • 26

RedHatAI/granite-3.1-8b-base-quantized.w8a8

Text Generation • 8B • Updated Feb 28 • 13

NeoChen1024/Ministral-8B-Instruct-2410-W8A8

8B • Updated Jan 17 • 5 • 2

RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8

Text Generation • 71B • Updated Sep 22 • 10.4k • 12

RedHatAI/DeepSeek-R1-Distill-Llama-8B-quantized.w8a8

Text Generation • 8B • Updated Feb 27 • 45.3k • 2

RedHatAI/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8

Text Generation • 71B • Updated Feb 27 • 2.4k • 2

RedHatAI/DeepSeek-R1-Distill-Qwen-14B-quantized.w8a8

Text Generation • 15B • Updated Feb 27 • 2.85k • 2

RedHatAI/DeepSeek-R1-Distill-Qwen-32B-quantized.w8a8

Text Generation • 33B • Updated Feb 27 • 1.93k • 13

RedHatAI/DeepSeek-R1-Distill-Qwen-7B-quantized.w8a8

Text Generation • 8B • Updated Feb 27 • 3.68k • 4

RedHatAI/DeepSeek-R1-Distill-Qwen-1.5B-quantized.w8a8

Text Generation • 2B • Updated Feb 27 • 4.04k • 2

RedHatAI/Pixtral-Large-Instruct-2411-hf-quantized.w8a8

Image-Text-to-Text • 124B • Updated Mar 31 • 32

ospatch/QwQ-32B-INT8-W8A8

Text Generation • 33B • Updated Mar 13 • 1 • 5

labaispeak/stable-diffusion-2-1-openvino-int8

Text-to-Image • Updated Mar 25

ConfidentialMind/gte-multilingual-reranker-base-onnx-op14-opt-gpu-int8

Sentence Similarity • Updated Jul 7 • 1

QuantTrio/Qwen3-235B-A22B-GPTQ-Int8

Text Generation • Updated Sep 5 • 38

Gapeleon/bytedance_BAGEL-7B-MoT-INT8

Any-to-Any • Updated Aug 2 • 6 • 24