
Videos automatisch lesen und kategorisieren: KI-Vision zieht Keyframes, erkennt Motive und wählt die besten Szenen — am realen Projekt
Kurz gesagt
Am realen Projekt: Stundenlanges Rohvideo wird in Minuten lesbar. Aus jedem Clip zieht ffmpeg automatisch Keyframes (Standbilder aus dem Video-Stream); eine KI-Vision (Claude bzw. ein austauschbares Bildmodell) erkennt darauf Motiv, Tag oder Nacht, Jahreszeit, Lichtstimmung, ob Personen im Bild sind und welcher Szenentyp vorliegt (Übersicht, Action, Detail). Der KI-Agent sortiert die Clips, wählt die besten Szenen aus und legt alles auf Cloudflare R2 ab — das Original als Master plus eine web-optimierte Vorschau und ein Vorschaubild. So wird ungenutztes Material auf der Festplatte zu durchsuchbarem, sofort verwertbarem Content. Gesteuert wird das von Claude Code über Node.js-Skripte. Diese Aufbereitung mache ich für Unternehmen mit eigenem Footage-Bestand — verfügbar für Projekte.

Was es bringt
Stundenlanges Material wird durchsuchbar: Statt jeden Clip einzeln zu sichten, liest die KI das Video, beschreibt jede Szene und macht den ganzen Bestand filterbar — nach Motiv, Tag/Nacht, Personen oder Szenentyp. Material, das sonst ungenutzt liegen bleibt, wird sofort auffindbar.
Die KI erkennt, was im Bild passiert: Aus den Keyframes liest ein Vision-Modell Motiv, Lichtstimmung, Jahreszeit und ob Personen zu sehen sind — und unterscheidet Übersicht, Action und Detail. So entsteht zu jedem Clip eine verwertbare Beschreibung, ganz ohne manuelles Tagging.
Beste Szenen automatisch vorgeschlagen: Der KI-Agent bewertet die Clips und hebt die stärksten Momente hervor — die Hero-Aufnahme, die dynamische Verfolgung, die ruhige Übersicht. Das spart die mühsame Suche nach dem einen guten Take in Stunden von Rohmaterial.
Sauber gespeichert in zwei Formaten: Jedes Video landet auf Cloudflare R2 — das Original als Master und parallel eine schlanke, web-optimierte Vorschau plus Vorschaubild. So ist das Material gesichert und zugleich sofort auf einer Website oder im Bericht einsetzbar.
Das Problem — und die Lösung
Problem
Nach jedem Dreh liegen Stunden an Rohvideo auf SD-Karten und Festplatten — Drohne, Handy, Kamera. Sie zu sichten, zu beschriften und die wenigen guten Szenen herauszusuchen, kostet Tage Handarbeit. Das meiste Material wird deshalb nie verwendet und verschwindet ungenutzt im Archiv.
Lösung
Eine KI liest das Video: ffmpeg zieht Keyframes, ein Vision-Modell erkennt Motiv, Licht, Jahreszeit und Personen und kategorisiert jeden Clip; der KI-Agent wählt die besten Szenen und legt alles auf R2 als Master plus Web-Vorschau ab. Aus totem Footage wird ein durchsuchbarer, sofort verwertbarer Bestand.
19 von 19
Clips (18 Drohne + 1 Handy, 7,4 GB) automatisch klassifiziert — Keyframes gezogen, Szenen erkannt, beste Takes ausgewählt und web-optimiert auf R2 abgelegt
heiner.io (eigener Projektlauf) (20.6.2026)

Aus der Praxis
7,4 GB rohes Drohnen- und Handy-Material (18 Clips + 1 Foto) automatisch eingelesen: pro Clip Keyframes gezogen, per KI-Vision Motiv/Tag-Nacht/Personen/Szenentyp erkannt und in Kategorien (Hero, Tracking, Luftbild, Übersicht) einsortiert — in Minuten statt Tagen.
Aus dem Bestand die besten Szenen ausgewählt und web-optimierte Vorschauen plus Vorschaubilder erzeugt, alles auf Cloudflare R2 gesichert (Original als Master) und direkt in eine Landingpage übernommen.
Häufige Fragen
+Lassen sich meine eigenen Footage-Bestände automatisch kategorisieren?
Ja. Ich richte die KI-Vision-Pipeline (Keyframes ziehen, Bildmodell, Ablage auf R2) auf Ihrem eigenen Footage-Bestand ein, sodass er durchsuchbar und filterbar wird. Als AI Engineer im Rhein-Main/DACH setze ich das projektweise um — auch über Vermittler. Ein kurzer Call klärt Umfang, Datenfluss und Modellwahl.
+Kann eine KI Videos automatisch kategorisieren?
Ja. Man zieht aus dem Video Standbilder (Keyframes) und lässt ein Vision-Modell beschreiben, was darauf zu sehen ist — Motiv, Tag oder Nacht, Personen, Szenentyp. Aus diesen Beschreibungen entsteht zu jedem Clip eine Kategorie, nach der sich der ganze Bestand filtern lässt. Im realen Projekt wurden so 19 Clips in Minuten einsortiert.
+Was sind Keyframes und wie zieht man sie aus einem Video?
Keyframes sind einzelne Standbilder aus dem laufenden Video. Mit dem freien Werkzeug ffmpeg lässt sich an beliebigen Stellen (z. B. bei 15 %, 50 %, 85 % der Laufzeit) je ein Bild herausziehen — schnell und ohne das ganze Video neu zu rendern. Diese Bilder sind die Grundlage, die die KI dann analysiert.
+Was erkennt die KI in einem Video?
Auf den Keyframes erkennt ein Vision-Modell das Motiv (z. B. Weinberg, Stadt, Innenraum), ob es Tag oder Nacht ist, die Jahreszeit und Lichtstimmung, ob Personen im Bild sind und welcher Szenentyp vorliegt — Übersicht, Action oder Detail. Daraus lässt sich auch ableiten, welche Clips die stärksten sind.
+Wo wird das Material gespeichert und was kostet das?
Auf Cloudflare R2 — als Original-Master plus eine schlanke Web-Vorschau und ein Vorschaubild. R2 berechnet keinen Egress (keine Auslieferungs-/Traffic-Gebühren), nur Speicher (rund 0,015 $ pro GB und Monat über einem Gratis-Kontingent). Selbst große Footage-Bestände kosten so nur wenige Euro im Monat.
+Wie schnell ist das im Vergleich zu Handarbeit?
Minuten statt Tage. Das Sichten und Beschriften von Stunden Rohmaterial von Hand zieht sich; die KI liest die Keyframes parallel und liefert zu jedem Clip sofort eine Kategorie und Bewertung. Im realen Projekt war ein 7,4-GB-Bestand in Minuten durchsuchbar — inklusive Vorschlag der besten Szenen.

Passt das zu deinem Vorhaben?
André Heiner— GenAI & LLM Expert aus Wiesbaden, tätig im Rhein-Main-Gebiet. Agentic AI, RAG, Workflow-Automatisierung und KI in den Produktivbetrieb. Mehr im KI-Labor.
Kontakt aufnehmenWeiter im KI-Labor
- Vom Rohvideo zur fertigen Präsenz: Ein KI-Agent baut Landingpage, PDF-Bericht und gebrandete E-Mail — vollautomatisch, am realen Projekt
- Cloudflare R2 als Media-CDN: Videos & Bilder günstig und schnell ausliefern
- Gebrandete Berichte und E-Mails per KI: PDF im Corporate Design, Brevo-Versand und E-Mail-Routing — am realen Projekt
- KI-Entwickler & AI Engineer im Rhein-Main-Gebiet: KI-Projekte real umgesetzt — Claude Code, AI-Agenten, MCP
