Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arXiv:2505.18129

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

Paper • 2402.04252 • Published Feb 6, 2024 • 28
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

Paper • 2402.03749 • Published Feb 6, 2024 • 14
ScreenAI: A Vision-Language Model for UI and Infographics Understanding

Paper • 2402.04615 • Published Feb 7, 2024 • 44
EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

Paper • 2402.05008 • Published Feb 7, 2024 • 23

about 9 hours ago

lusxvr/nanoVLM-222M

Image-Text-to-Text • 0.2B • Updated May 8 • 216 • 98
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Paper • 2503.09516 • Published Mar 12 • 36
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Paper • 2505.24863 • Published May 30 • 97
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Paper • 2505.17667 • Published May 23 • 88

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Paper • 2504.20571 • Published Apr 29 • 96
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 52
Performance Trade-offs of Optimizing Small Language Models for E-Commerce

Paper • 2510.21970 • Published 16 days ago • 2

One-RL-to-See-Them-All

https://github.com/MiniMax-AI/One-RL-to-See-Them-All

One-RL-to-See-Them-All/Orsta-7B

Image-Text-to-Text • 8B • Updated Jun 4 • 213 • 10
One-RL-to-See-Them-All/Orsta-32B-0321

Image-Text-to-Text • 33B • Updated May 26 • 13
One-RL-to-See-Them-All/Orsta-32B-0326

Image-Text-to-Text • 33B • Updated Jun 4 • 3 • 5
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59

Scaling Law for Quantization-Aware Training

Paper • 2505.14302 • Published May 20 • 76
Reward Reasoning Model

Paper • 2505.14674 • Published May 20 • 37
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 308
AdaptThink: Reasoning Models Can Learn When to Think

Paper • 2505.13417 • Published May 19 • 82

One-RL-to-See-Them-All

One RL to See Them All: Visual Triple Unified Reinforcement Learning. GitHub: https://github.com/MiniMax-AI/One-RL-to-See-Them-All

One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59
One-RL-to-See-Them-All/Orsta-Data-47k

Updated Jun 4 • 475 • 15
One-RL-to-See-Them-All/Orsta-7B

Image-Text-to-Text • 8B • Updated Jun 4 • 213 • 10
One-RL-to-See-Them-All/Orsta-32B-0321

Image-Text-to-Text • 33B • Updated May 26 • 13

Reinforcement learning

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Paper • 2407.20798 • Published Jul 30, 2024 • 24
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 38
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4 • 102
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper • 2502.18449 • Published Feb 25 • 75

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 262
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59
Magistral

Paper • 2506.10910 • Published Jun 12 • 65

One-RL-to-See-Them-All

https://github.com/MiniMax-AI/One-RL-to-See-Them-All

One-RL-to-See-Them-All/Orsta-7B

Image-Text-to-Text • 8B • Updated Jun 4 • 213 • 10
One-RL-to-See-Them-All/Orsta-32B-0321

Image-Text-to-Text • 33B • Updated May 26 • 13
One-RL-to-See-Them-All/Orsta-32B-0326

Image-Text-to-Text • 33B • Updated Jun 4 • 3 • 5
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

Paper • 2505.09568 • Published May 14 • 98
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 308
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Paper • 2505.11049 • Published May 16 • 60
Emerging Properties in Unified Multimodal Pretraining

Paper • 2505.14683 • Published May 20 • 134

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

Paper • 2402.04252 • Published Feb 6, 2024 • 28
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

Paper • 2402.03749 • Published Feb 6, 2024 • 14
ScreenAI: A Vision-Language Model for UI and Infographics Understanding

Paper • 2402.04615 • Published Feb 7, 2024 • 44
EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

Paper • 2402.05008 • Published Feb 7, 2024 • 23

One-RL-to-See-Them-All

One RL to See Them All: Visual Triple Unified Reinforcement Learning. GitHub: https://github.com/MiniMax-AI/One-RL-to-See-Them-All

One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59
One-RL-to-See-Them-All/Orsta-Data-47k

Updated Jun 4 • 475 • 15
One-RL-to-See-Them-All/Orsta-7B

Image-Text-to-Text • 8B • Updated Jun 4 • 213 • 10
One-RL-to-See-Them-All/Orsta-32B-0321

Image-Text-to-Text • 33B • Updated May 26 • 13

about 9 hours ago

lusxvr/nanoVLM-222M

Image-Text-to-Text • 0.2B • Updated May 8 • 216 • 98
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Paper • 2503.09516 • Published Mar 12 • 36
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Paper • 2505.24863 • Published May 30 • 97
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Paper • 2505.17667 • Published May 23 • 88

Reinforcement learning

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Paper • 2407.20798 • Published Jul 30, 2024 • 24
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 38
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4 • 102
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper • 2502.18449 • Published Feb 25 • 75

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Paper • 2504.20571 • Published Apr 29 • 96
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 52
Performance Trade-offs of Optimizing Small Language Models for E-Commerce

Paper • 2510.21970 • Published 16 days ago • 2

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 262
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59
Magistral

Paper • 2506.10910 • Published Jun 12 • 65

One-RL-to-See-Them-All

https://github.com/MiniMax-AI/One-RL-to-See-Them-All

One-RL-to-See-Them-All/Orsta-7B

Image-Text-to-Text • 8B • Updated Jun 4 • 213 • 10
One-RL-to-See-Them-All/Orsta-32B-0321

Image-Text-to-Text • 33B • Updated May 26 • 13
One-RL-to-See-Them-All/Orsta-32B-0326

Image-Text-to-Text • 33B • Updated Jun 4 • 3 • 5
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59

One-RL-to-See-Them-All

https://github.com/MiniMax-AI/One-RL-to-See-Them-All

One-RL-to-See-Them-All/Orsta-7B

Image-Text-to-Text • 8B • Updated Jun 4 • 213 • 10
One-RL-to-See-Them-All/Orsta-32B-0321

Image-Text-to-Text • 33B • Updated May 26 • 13
One-RL-to-See-Them-All/Orsta-32B-0326

Image-Text-to-Text • 33B • Updated Jun 4 • 3 • 5
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 59

Scaling Law for Quantization-Aware Training

Paper • 2505.14302 • Published May 20 • 76
Reward Reasoning Model

Paper • 2505.14674 • Published May 20 • 37
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 308
AdaptThink: Reasoning Models Can Learn When to Think

Paper • 2505.13417 • Published May 19 • 82

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

Paper • 2505.09568 • Published May 14 • 98
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 308
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Paper • 2505.11049 • Published May 16 • 60
Emerging Properties in Unified Multimodal Pretraining

Paper • 2505.14683 • Published May 20 • 134

Previous
1
2
3
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs