ByteDance veröffentlicht Lance – ein Modell mit 3 Milliarden Parametern, das sechs Aufgaben im Bereich Bild- und Videoverständnis, Generierung sowie Bearbeitung bewältigt; bereits am Tag nach der Veröffentlichung erreichte es die Top 3 der HF-Hotlists.

ref · 22. Mai 2026 um 08:34

Das Intelligent Creation Lab von ByteDance hat das multimodale Einheitsmodell Lance veröffentlicht und open source gestellt. Mit 3 Milliarden aktivierten Parametern (insgesamt 6 Milliarden Parameter) sowie einem Trainingsbudget für maximal 128 GPUs unterstützt Lance innerhalb eines einzigen nativen Frameworks sechs Aufgabenarten: Verständnis, Generierung und Bearbeitung von Bildern sowie Videos. Zudem ermöglicht es die generierte Bild-/Videoproduktion unter Steuerung bestimmter Objekte. Bereits am Tag nach der Open-Source-Veröffentlichung erreichte Lance die Top-3-Plätze in den Trendcharts von HuggingFace. In wichtigen Benchmarks erzielte Lance folgende Werte: 85,11 Punkte bei VBench (Video-Generierung – Spitzenwert unter allen Einheitsmodellen), 62,0 Punkte bei MVBench (Video-Verständnis – bestes Ergebnis unter Einheitsmodellen; im Vergleich zum Zweitplatzierten Show-o2 7B eine relative Verbesserung von ca. 11,3 %), 0,90 Punkte bei GenEval (Bild-Generierung – gleichauf mit dem höchsten Wert unter Einheitsmodellen) sowie 7,30 Punkte bei GEdit-Bench (Bild-Bearbeitung – bestes Ergebnis unter Einheitsmodellen).

Architektonisch basiert Lance auf einem dual-stream MoE-Design: Der Verständnispfad verarbeitet semantische visuelle Tokens, während der Generierungspfad VAE-Latent-Tokens bearbeitet. Beide Pfade teilen sich einen einheitlichen, interleavierten multimodalen Kontext, bleiben dabei jedoch funktional voneinander getrennt. Zusätzlich wurde eine modalitätsbewusste rotierende Positionscodierung (MaPE) eingeführt, um heterogene visuelle Tokens mit unterschiedlichen Funktionen in derselben Sequenz explizit zu unterscheiden und Positionsstörungen bei der gemeinsamen Optimierung mehrerer Aufgaben zu reduzieren. Das Training erfolgt in vier Phasen: Prätraining, kontinuierliches Training, überwachtes Fine-Tuning sowie Reinforcement Learning. Studien zeigen, dass die kontinuierliche Integration von Daten zu Aufgaben wie Bildbearbeitung oder objektgesteuerter Generierung die Grundgenerierungsfähigkeiten des Modells weiter verbessert – dies belegt die positive Wirkung einer „vollständigen Abdeckung aller Aufgaben“ auf die emergente Generalisierung von Einheitsmodellen. Die Zusammenarbeit verschiedener Aufgaben wirkt also als fördernder Mechanismus für die Weiterentwicklung der Modellfähigkeiten, statt lediglich eine bloße Addition darzustellen. Die Modellgewichte und der Quellcode wurden auf GitHub sowie HuggingFace freigegeben; die zugehörige Forschungsarbeit ist auf arXiv veröffentlicht (arXiv:2605.18678).

ByteDance Research | arXiv

Thema	Antworten	Aufrufe
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20. Mai 2026
Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行常规开源 , 大模型 , cohere , moe , command-a	4	21. Mai 2026
IEEE Spectrum：LeRobot 机器人数据集两年暴增 50 倍，英伟达阿里巴巴押注开源具身智能常规机器人 , 具身智能 , 开源 , huggingface , lerobot	4	22. Mai 2026
Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位常规开源 , qwen , 视频理解 , 视觉语言模型 , marlin	17	20. Mai 2026
ByteDance 考虑将 2026 年 AI 资本支出提升至最高 700 亿美元常规 ai , 数据中心 , bytedance , 算力 , 资本支出	3	27. Mai 2026

ByteDance veröffentlicht Lance – ein Modell mit 3 Milliarden Parametern, das sechs Aufgaben im Bereich Bild- und Videoverständnis, Generierung sowie Bearbeitung bewältigt; bereits am Tag nach der Veröffentlichung erreichte es die Top 3 der HF-Hotlists.

Verwandte Themen