Das Intelligent Creation Lab von ByteDance hat das multimodale Einheitsmodell Lance veröffentlicht und open source gestellt. Mit 3 Milliarden aktivierten Parametern (insgesamt 6 Milliarden Parameter) sowie einem Trainingsbudget für maximal 128 GPUs unterstützt Lance innerhalb eines einzigen nativen Frameworks sechs Aufgabenarten: Verständnis, Generierung und Bearbeitung von Bildern sowie Videos. Zudem ermöglicht es die generierte Bild-/Videoproduktion unter Steuerung bestimmter Objekte. Bereits am Tag nach der Open-Source-Veröffentlichung erreichte Lance die Top-3-Plätze in den Trendcharts von HuggingFace. In wichtigen Benchmarks erzielte Lance folgende Werte: 85,11 Punkte bei VBench (Video-Generierung – Spitzenwert unter allen Einheitsmodellen), 62,0 Punkte bei MVBench (Video-Verständnis – bestes Ergebnis unter Einheitsmodellen; im Vergleich zum Zweitplatzierten Show-o2 7B eine relative Verbesserung von ca. 11,3 %), 0,90 Punkte bei GenEval (Bild-Generierung – gleichauf mit dem höchsten Wert unter Einheitsmodellen) sowie 7,30 Punkte bei GEdit-Bench (Bild-Bearbeitung – bestes Ergebnis unter Einheitsmodellen).
Architektonisch basiert Lance auf einem dual-stream MoE-Design: Der Verständnispfad verarbeitet semantische visuelle Tokens, während der Generierungspfad VAE-Latent-Tokens bearbeitet. Beide Pfade teilen sich einen einheitlichen, interleavierten multimodalen Kontext, bleiben dabei jedoch funktional voneinander getrennt. Zusätzlich wurde eine modalitätsbewusste rotierende Positionscodierung (MaPE) eingeführt, um heterogene visuelle Tokens mit unterschiedlichen Funktionen in derselben Sequenz explizit zu unterscheiden und Positionsstörungen bei der gemeinsamen Optimierung mehrerer Aufgaben zu reduzieren. Das Training erfolgt in vier Phasen: Prätraining, kontinuierliches Training, überwachtes Fine-Tuning sowie Reinforcement Learning. Studien zeigen, dass die kontinuierliche Integration von Daten zu Aufgaben wie Bildbearbeitung oder objektgesteuerter Generierung die Grundgenerierungsfähigkeiten des Modells weiter verbessert – dies belegt die positive Wirkung einer „vollständigen Abdeckung aller Aufgaben“ auf die emergente Generalisierung von Einheitsmodellen. Die Zusammenarbeit verschiedener Aufgaben wirkt also als fördernder Mechanismus für die Weiterentwicklung der Modellfähigkeiten, statt lediglich eine bloße Addition darzustellen. Die Modellgewichte und der Quellcode wurden auf GitHub sowie HuggingFace freigegeben; die zugehörige Forschungsarbeit ist auf arXiv veröffentlicht (arXiv:2605.18678).