세 기관 연구팀이 생성 모델링을 위한 새로운 프레임워크 VDT를 제안했습니다. 이 프레임워크는 최적 제어와 최적 전송을 선형 계획법으로 통합하여 경로를 단축하고 추론 속도를 높입니다.

ref · 5월 22, 2026, 5:05오후

UPF 소속 연구원인 파블로 모레노-무뇨스와 게르게리 뉴(ICREA), 그리고 ETH 취리히의 아드리안 뮐러는 5월 21일 arXiv(arXiv:2605.22507)에 ‘가치 기반 전송’(Value-Driven Transport, VDT)이라는 새로운 생성 모델링 프레임워크를 제안하는 논문을 발표했습니다. 이 프레임워크는 전송 문제를 이산 시간 확률 제어 문제로 모델링한 뒤 선형 계획법(LP) 형태로 재표현합니다. 이때 LP의 쌍대 변수는 제어 문제의 최적 가치 함수와 정확히 일치하며, 최적 가치 함수 자체가 최적 제어 전략을 그대로 담고 있습니다. 이를 통해 최적 제어, 강화 학습(RL), 최적 전송, 확률 원쌍대 최적화가 모두 하나의 이론 체계 안에서 통합됩니다. 이러한 LP 구조를 바탕으로 연구진은 시뮬레이션 없이도 최적 가치 함수를 근사해낸 뒤 VDT 제어 전략을 도출할 수 있는 원쌍대 알고리즘을 개발했습니다.

현재 널리 사용되는 플로우 매칭, 확산 모델, 슈뢰딩거 브리지와 비교했을 때 VDT 전략이 생성하는 전송 경로는 직선에 훨씬 가까우며, 빠르고 안정적으로 시뮬레이션이 가능합니다. 또한 제어 드리프트 항을 직접 파라미터화할 필요가 없으며, 확산 모델 및 플로우 매칭과 동일하게 조건부 생성이나 분류기 없는 유도 같은 확장 기능도 지원합니다. 게르게리 뉴는 X에 올린 글에서 “언젠가는 보상 함수를 공학적으로 설계할 필요가 없어질지도 모른다”고 언급하며, 이 프레임워크가 강화 학습의 보상 설계 방향에도 큰 시사점을 줄 것임을 시사했습니다. 논문에는 실험 결과를 보여주는 그림들이 첨부되어 있으나 코드는 아직 공개되지 않았습니다.

arXiv | X (@neu_rips)

글	댓글	조회수
MIT 提出 VPO：向量化奖励替代标量，让 LLM 测试时搜索保持多样性常规 ai研究 , 强化学习 , llm , 后训练 , 推理	7	5월 23, 2026
新论文提出"Follow the Mean"，无需微调即可用参考样本引导生成模型常规 ai , 生成模型 , flow-matching , 论文 , 图像生成	2	5월 21, 2026
GRAM：将递归推理概率化，10M 参数 ARC-AGI-1 达 52% 常规 ai , 研究 , 递归推理 , gram , arc-agi	5	5월 20, 2026
苏黎世联邦理工学院首次实现可认证"完美随机性"，30 米量子纠缠链路突破贝尔测试瓶颈常规量子计算 , 随机性 , 密码学 , eth-zurich , 量子纠缠	5	5월 29, 2026
Goodfire 论文：大模型概念呈曲面流形，SAE 以"碎片平铺"逼近，并重构为逆伊辛问题常规研究 , goodfire , sae , ai可解释性 , 神经网络	2	5월 21, 2026

세 기관 연구팀이 생성 모델링을 위한 새로운 프레임워크 VDT를 제안했습니다. 이 프레임워크는 최적 제어와 최적 전송을 선형 계획법으로 통합하여 경로를 단축하고 추론 속도를 높입니다.

Related topics