세 기관 연구팀이 생성 모델링을 위한 새로운 프레임워크 VDT를 제안했습니다. 이 프레임워크는 최적 제어와 최적 전송을 선형 계획법으로 통합하여 경로를 단축하고 추론 속도를 높입니다.

UPF 소속 연구원인 파블로 모레노-무뇨스와 게르게리 뉴(ICREA), 그리고 ETH 취리히의 아드리안 뮐러는 5월 21일 arXiv(arXiv:2605.22507)에 ‘가치 기반 전송’(Value-Driven Transport, VDT)이라는 새로운 생성 모델링 프레임워크를 제안하는 논문을 발표했습니다. 이 프레임워크는 전송 문제를 이산 시간 확률 제어 문제로 모델링한 뒤 선형 계획법(LP) 형태로 재표현합니다. 이때 LP의 쌍대 변수는 제어 문제의 최적 가치 함수와 정확히 일치하며, 최적 가치 함수 자체가 최적 제어 전략을 그대로 담고 있습니다. 이를 통해 최적 제어, 강화 학습(RL), 최적 전송, 확률 원쌍대 최적화가 모두 하나의 이론 체계 안에서 통합됩니다. 이러한 LP 구조를 바탕으로 연구진은 시뮬레이션 없이도 최적 가치 함수를 근사해낸 뒤 VDT 제어 전략을 도출할 수 있는 원쌍대 알고리즘을 개발했습니다.

현재 널리 사용되는 플로우 매칭, 확산 모델, 슈뢰딩거 브리지와 비교했을 때 VDT 전략이 생성하는 전송 경로는 직선에 훨씬 가까우며, 빠르고 안정적으로 시뮬레이션이 가능합니다. 또한 제어 드리프트 항을 직접 파라미터화할 필요가 없으며, 확산 모델 및 플로우 매칭과 동일하게 조건부 생성이나 분류기 없는 유도 같은 확장 기능도 지원합니다. 게르게리 뉴는 X에 올린 글에서 “언젠가는 보상 함수를 공학적으로 설계할 필요가 없어질지도 모른다”고 언급하며, 이 프레임워크가 강화 학습의 보상 설계 방향에도 큰 시사점을 줄 것임을 시사했습니다. 논문에는 실험 결과를 보여주는 그림들이 첨부되어 있으나 코드는 아직 공개되지 않았습니다.

arXiv | X (@neu_rips)