new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Nov 26

Submitted by

kuznetsoffandrey

GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

AIRI-Institute

AIRI - Artificial Intelligence Research Institute

Submitted by

SivanSX

MedSAM3: Delving into Segment Anything with Medical Concepts

·
8 authors

Submitted by

JiaaqiLiu

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

UNC-ChapelHill

University of North Carolina at Chapel Hill

Submitted by

jiamingZ

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

MCG-NJU

Multimedia Computing Group-Nanjing University

Submitted by

taesiri

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

stepfun-ai

Submitted by

Wayne-King

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

PekingUniversity

Peking University

Submitted by

taesiri

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

·
25 authors

Submitted by

ShuaiBai623

Soft Adaptive Policy Optimization

Qwen

Qwen

Submitted by

zen-E

SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space

·
7 authors

3

Submitted by

zhuhz22

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

thu-ml

Tsinghua Machine Learning Group

Submitted by

hankaixyz

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

huawei-noah

HUAWEI Noah's Ark Lab

Submitted by

ptjiang

MagicWorld: Interactive Geometry-driven Video World Exploration

·
8 authors

Submitted by

thomagram

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

apple

Submitted by

Longin-Yu

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

THU1911

Tsinghua University

Submitted by

byeongjun-park

ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

everex

Submitted by

taesiri

HunyuanOCR Technical Report

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

gouc

VQ-VA World: Towards High-Quality Visual Question-Visual Answering

·
13 authors

Submitted by

taesiri

Fara-7B: An Efficient Agentic Model for Computer Use

microsoft

Submitted by

SereinH

MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

SunYatsen

Sun Yat-Sen University

Submitted by

wshi83

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

eigen-ai-labs

2

Submitted by

dkliang

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

H-EmbodVis

Submitted by

taesiri

PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

·
7 authors

Submitted by

BeichenZhang

Think Visually, Reason Textually: Vision-Language Synergy in ARC

internlm

Intern Large Models

Submitted by

HaiCi

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

·
5 authors

Submitted by

KeyangLu

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

·
9 authors

Submitted by

pkargupta

Cognitive Foundations for Reasoning and Their Manifestation in LLMs

·
12 authors

Submitted by

tahirakazimi77

Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

Virginia Polytechnic Institute and State University

Submitted by

mkirchmeyer

Unified all-atom molecule generation with neural fields

Genentech

Submitted by

adhiraj1998

Concept-Aware Batch Sampling Improves Language-Image Pretraining

bethgelab

Submitted by

KieDani

Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation

MLCVLab

Chair for Machine Learning & Computer Vision

Submitted by

probejie

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

apple

Submitted by

paraslossfunk

Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking

Lossfunk

Submitted by

Dr-Loser

SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

Guang Ming Laboratory

2