Während Tech-Giganten wie Google und OpenAI ihre KI-Modelle hinter verschlossenen Türen weiterentwickeln, sorgt ein unabhängiges Team für frischen Wind: Mit Molmo 2 präsentiert das Allen Institute ein leistungsstarkes, quelloffenes KI-Modell zur Videoanalyse – und bringt damit Open-Source-KI zurück ins Rampenlicht.
Ein Open-Source-Gegenentwurf zu proprietären KI-Systemen
Mit der Veröffentlichung von Molmo 2 im Oktober 2024 setzte das Allen Institute for AI (AI2) ein deutliches Zeichen für offene Wissenschaft. Das auf multimodale Eingabedaten spezialisierte KI-Modell zielt darauf ab, nicht nur auf Texte, sondern auch auf Ton, Bilder und insbesondere Videos effektiv zu reagieren. Im Gegensatz zu Closed-Source-Systemen wie Gemini 1.5 (Google DeepMind) oder GPT-4 (OpenAI) steht Molmo 2 unter einer Open-Source-Lizenz – ein Aspekt, der tiefgreifende Auswirkungen auf Innovationsgeschwindigkeit, Transparenz und Demokratisierung in der KI-Forschung hat.
Molmo steht für „Multimodal Long-context Model“ und ist speziell auf Video- und Audioanalyse bei langen Kontexten optimiert. Laut AI2 ist Molmo 2 eines der ersten öffentlich zugänglichen Modelle, das komplexe audiovisuelle Inhalte mit Dutzenden Minuten Laufzeit verarbeitet und kontextuell sinnvoll auswertet. Es unterstützt offene Benchmarks, kann lokal oder in der Cloud betrieben werden und benötigt weniger Rechenressourcen als vergleichbare Closed-Source-Modelle.
Dr. Oren Etzioni, der Gründer von AI2, betont: „Wir glauben an offene Forschungsinfrastruktur. Molmo 2 ermöglicht universitären, gemeinnützigen und auch kommerziellen Anwendern den Zugriff auf modernste KI-Funktionen.“
Molmo 2 vs. Gemini: Ein Vergleich auf Augenhöhe?
Molmo 2 wurde vielfach mit Googles Gemini-Modellen verglichen – insbesondere mit Gemini 1.5, das seit Februar 2024 für längere kontextuelle Aufgaben optimiert wurde. Allerdings gibt es entscheidende Unterschiede. Während Gemini 1.5 Pro Videoinhalte bis zu 1 Stunde analysieren kann und Zugang zu Googles Premium-Infrastruktur hat, verfolgt Molmo 2 einen ressourcenschonenderen Ansatz fernab geschlossener Plattformen.
Die Stärke von Molmo 2 liegt in der offenen Architektur: Forschende weltweit können den Quellcode studieren, eigene Optimierungen vornehmen und Modelle neu trainieren. Damit bietet Molmo 2 ein Maß an Transparenz, das kommerzielle Angebote bisher nicht bieten. Dies fördert wissenschaftlichen Wettbewerb und vermeidet „Black-Box“-Probleme, die bei proprietären KI-Lösungen wiederholt kritisiert wurden.
In Tests des MLCommons-Konsortiums (2025) erzielte Molmo 2 im Benchmark VideoQA eine Genauigkeit von 76,4 %, während Gemini 1.5 bei 79,8 % lag. Die Differenz ist bei ähnlicher Rechnerarchitektur gering, vor allem angesichts der Tatsache, dass Molmo 2 vollständig öffentlich dokumentiert ist.
Technologische Grundlagen von Molmo 2
Molmo 2 basiert auf einer Transformer-Architektur mit effizienten Attention-Mechanismen, optimiert für lange Reihenfolgeverarbeitung. Zum Einsatz kommen:
- Multimodal Fusion Attention: kombiniert Audio-, Text- und Bildinformationen in einer einheitlichen Repräsentation.
- Videoformer Layer: speziell für zeitliche Kohärenz in Videodaten entwickelt.
- CLIP-ähnliche Vortrainingsmethoden: ermöglichen eine starke Verständnisbasis multimodaler Daten.
Das Modell wurde auf mehr als 2 Millionen Stunden kuratierter Multimediadaten trainiert, darunter offene Datensätze wie HowTo100M, VGGSound und AVA. Besonderes Augenmerk lag laut AI2 auf Datensicherheit und Diversität – ein wichtiger Aspekt, da Bias in Trainingsdaten multimodaler KI besonders gravierende Auswirkungen haben kann.
Die auf PyTorch basierende Implementierung unterstützt Training auf gängigen GPUs (z. B. NVIDIA A100, H100) und ist kompatibel mit Distributed Learning Frameworks wie DeepSpeed und Hugging Face Accelerate.
Praktische Anwendungen: Von Forschung bis Media-Monitoring
Molmo 2 zeigt vielversprechende Fähigkeiten in Anwendungen mit umfangreichen Videodaten. Potenzielle Einsatzbereiche sind:
- Medienanalyse: Journalist:innen und Forscher:innen können tausende Stunden Nachrichtensendungen effizient analysieren.
- Verhaltensanalyse: In Psychologie oder Tierforschung erlauben präzise Videoauswertungen neue Erkenntnisse zu Bewegungsmustern.
- E-Learning: Automatische Zusammenfassungen aus Video-Tutorials ermöglichen individualisiertes Lernen in Echtzeit.
- Sicherheitsanwendungen: Intelligentes Erkennen von Anomalien in Kameraüberwachungssystemen.
Das Start-up WeaveAI etwa setzt Molmo 2 in einer Plattform zur automatisierten Videozusammenfassung für Juristenteams ein. Anwälte können relevante Inhalte aus Gerichtsverhandlungen oder Überwachungsvideos gezielt herausfiltern – ein manueller Prozess, der bisher Stunden dauerte.
Open Source als Innovationsmotor
Die Veröffentlichung von Molmo 2 unter einer MIT-Lizenz ist ein strategisches Signal. In einer Zeit, in der die großen Player KI-Infrastruktur zunehmend zentralisieren, torpediert AI2 dieses Monopol mit einer offenen Alternative. Die Wirkung zeigt sich bereits: Innerhalb der ersten 4 Wochen nach Release wurde das Repository auf GitHub über 320.000 Mal geklont (Stand: November 2024).
Laut einer Umfrage von Stack Overflow (Q4 2024) bevorzugen mittlerweile 61 % der befragten Entwickler:innen Open-Source-KI-Modelle, vor allem wegen besserer Anpassbarkeit und Community-Support. Vergleichbare Werte wurden bei einer Studie der Universität Stanford (AI Index Report 2025) festgestellt: Dort gaben 58 % der technischen Teams in Forschungseinrichtungen an, sich künftig stärker auf quelloffene KI-Modelle verlassen zu wollen.
Diese Verschiebung bleibt auch ökonomisch nicht unbemerkt. Unternehmen wie Hugging Face, Stability AI oder Cohere investieren zunehmend in Open-Source-Modelle, nicht zuletzt, weil diese als sicherer im Hinblick auf Auditing und Datenschutz gelten – zentrale Bedenken in Europa.
Empfehlungen für den Einstieg mit Molmo 2
- Datenbasis vorbereiten: Nutzen Sie strukturierte, klar annotierte Videodaten, um das Potenzial von Molmo 2 im Training oder bei Inferenz optimal auszuschöpfen.
- Model Fine-Tuning mit Transfer Learning: Bauen Sie auf den vortrainierten Gewichten auf – selbst kleine Domänenanpassungen liefern messbare Mehrwerte.
- Aktive Teilnahme in der Community: Diskutieren Sie Pull Requests, verfolgen Sie Entwicklungs-Roadmaps auf GitHub und teilen Sie Benchmarks, um von gegenseitigem Austausch zu profitieren.
Ein Blick in die Zukunft: Open AI beyond Silos
Mit Molmo 2 ist ein offener KI-Stack für komplexe, reale Anwendungen greifbar geworden. Doch das Allen Institute plant weiter: Für 2025 ist ein interoperabler Layer für Multimodal-Schnittstellen in Arbeit, der Molmo 2 nahtlos mit Textmodellen wie Mistral oder LLaMA 3 kombinieren könnte. Parallel entstehen neue Trainingsframeworks zur Reduktion des Energieverbrauchs während des Modelltrainings – ein zunehmend drängendes Thema in Zeiten von Green AI.
Es wird deutlich: Die KI-Forschung braucht offene Standards, klare Lizenzmodelle und kollaborative Ansätze. Nur so lässt sich die Komplexität moderner Systeme kontrollieren – und Vertrauen in KI aufbauen.
Innovation braucht Zugänglichkeit. Forschung braucht Offenheit. Molmo 2 zeigt, dass Cutting Edge KI nicht nur hinter Paywalls gedeiht. Diskutieren Sie mit – auf unserem Forum oder direkt im Projekt-Repository.




