cyankiwi
/

MiniMax-M2-REAP-162B-A10B-AWQ-4bit

Text Generation

compressed-tensors

Model card Files Files and versions

cpatonn commited on 2 days ago

Commit

bc895b0

·

verified ·

1 Parent(s): ca77181

Update README.md

Files changed (1) hide show

README.md +14 -0

README.md CHANGED Viewed

@@ -28,6 +28,20 @@ base_model:
 - **Calibration Dataset:** [nvidia/Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset)
 - **Quantization Tool:** [llm-compressor](https://github.com/vllm-project/llm-compressor)
 ## Inference
 ### Prerequisite

 - **Calibration Dataset:** [nvidia/Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset)
 - **Quantization Tool:** [llm-compressor](https://github.com/vllm-project/llm-compressor)
+### Memory Usage
+| **Type** | **MiniMax-M2-REAP-162B-A10B** | **MiniMax-M2-REAP-162B-A10B-AWQ-4bit** |
+|:---------------:|:----------------:|:----------------:|
+| **Memory Size** | 152.1 GB | 86.6 GB |
+| **KV Cache per Token** | 124.0 kB | 31.0 kB |
+| **KV Cache per Context** | 23.3 GB | 5.8 GB |
+### Evaluations
+| **Benchmarks** | **MiniMax-M2-REAP-162B-A10B** | **MiniMax-M2-REAP-162B-A10B-AWQ-4bit** |
+|:---------------:|:----------------:|:----------------:|
+| **Perplexity** | 1.75134 | 1.75138 |
 ## Inference
 ### Prerequisite