Andr\u00e9 Heiner GenAI & LLM Expert Logo
André Heiner — Videos automatisch kategorisieren: KI-Vision zieht Keyframes und erkennt die besten Szenen (heiner.io KI-Labor)
LLM in ProduktionAktualisiert: 21. Juni 2026

Videos automatisch lesen und kategorisieren: KI-Vision zieht Keyframes, erkennt Motive und wählt die besten Szenen — am realen Projekt

Kurz gesagt

Am realen Projekt: Stundenlanges Rohvideo wird in Minuten lesbar. Aus jedem Clip zieht ffmpeg automatisch Keyframes (Standbilder aus dem Video-Stream); eine KI-Vision (Claude bzw. ein austauschbares Bildmodell) erkennt darauf Motiv, Tag oder Nacht, Jahreszeit, Lichtstimmung, ob Personen im Bild sind und welcher Szenentyp vorliegt (Übersicht, Action, Detail). Der KI-Agent sortiert die Clips, wählt die besten Szenen aus und legt alles auf Cloudflare R2 ab — das Original als Master plus eine web-optimierte Vorschau und ein Vorschaubild. So wird ungenutztes Material auf der Festplatte zu durchsuchbarem, sofort verwertbarem Content. Gesteuert wird das von Claude Code über Node.js-Skripte. Diese Aufbereitung mache ich für Unternehmen mit eigenem Footage-Bestand — verfügbar für Projekte.

Im EinsatzClaude CodeClaude VisionffmpegCloudflare R2
Anschaulich erklärt
Whiteboard: Video, Keyframes, KI-Vision erkennt Motiv/Tag-Nacht/Personen, Ablage auf R2 als Master und Vorschau
Worum es geht — als schnelle Whiteboard-Skizze: vom Video-Stream zur durchsuchbaren Kategorie.

Was es bringt

01

Stundenlanges Material wird durchsuchbar: Statt jeden Clip einzeln zu sichten, liest die KI das Video, beschreibt jede Szene und macht den ganzen Bestand filterbar — nach Motiv, Tag/Nacht, Personen oder Szenentyp. Material, das sonst ungenutzt liegen bleibt, wird sofort auffindbar.

02

Die KI erkennt, was im Bild passiert: Aus den Keyframes liest ein Vision-Modell Motiv, Lichtstimmung, Jahreszeit und ob Personen zu sehen sind — und unterscheidet Übersicht, Action und Detail. So entsteht zu jedem Clip eine verwertbare Beschreibung, ganz ohne manuelles Tagging.

03

Beste Szenen automatisch vorgeschlagen: Der KI-Agent bewertet die Clips und hebt die stärksten Momente hervor — die Hero-Aufnahme, die dynamische Verfolgung, die ruhige Übersicht. Das spart die mühsame Suche nach dem einen guten Take in Stunden von Rohmaterial.

04

Sauber gespeichert in zwei Formaten: Jedes Video landet auf Cloudflare R2 — das Original als Master und parallel eine schlanke, web-optimierte Vorschau plus Vorschaubild. So ist das Material gesichert und zugleich sofort auf einer Website oder im Bericht einsetzbar.

Das Problem — und die Lösung

Problem

Nach jedem Dreh liegen Stunden an Rohvideo auf SD-Karten und Festplatten — Drohne, Handy, Kamera. Sie zu sichten, zu beschriften und die wenigen guten Szenen herauszusuchen, kostet Tage Handarbeit. Das meiste Material wird deshalb nie verwendet und verschwindet ungenutzt im Archiv.

Lösung

Eine KI liest das Video: ffmpeg zieht Keyframes, ein Vision-Modell erkennt Motiv, Licht, Jahreszeit und Personen und kategorisiert jeden Clip; der KI-Agent wählt die besten Szenen und legt alles auf R2 als Master plus Web-Vorschau ab. Aus totem Footage wird ein durchsuchbarer, sofort verwertbarer Bestand.

19 von 19

Clips (18 Drohne + 1 Handy, 7,4 GB) automatisch klassifiziert — Keyframes gezogen, Szenen erkannt, beste Takes ausgewählt und web-optimiert auf R2 abgelegt

heiner.io (eigener Projektlauf) (20.6.2026)

So wird Video lesbar
Ablauf: Video-Stream, ffmpeg zieht Keyframes, KI-Vision erkennt Motiv/Tag-Nacht/Personen, Kategorisierung und beste Szenen, Ablage auf R2 als Master plus Web-Vorschau
Vom Stream zur Kategorie: Keyframes ziehen, mit KI-Vision erkennen, beste Szenen wählen, auf R2 als Master und Vorschau ablegen.

Aus der Praxis

verifiziert

7,4 GB rohes Drohnen- und Handy-Material (18 Clips + 1 Foto) automatisch eingelesen: pro Clip Keyframes gezogen, per KI-Vision Motiv/Tag-Nacht/Personen/Szenentyp erkannt und in Kategorien (Hero, Tracking, Luftbild, Übersicht) einsortiert — in Minuten statt Tagen.

verifiziert

Aus dem Bestand die besten Szenen ausgewählt und web-optimierte Vorschauen plus Vorschaubilder erzeugt, alles auf Cloudflare R2 gesichert (Original als Master) und direkt in eine Landingpage übernommen.

Häufige Fragen

+Lassen sich meine eigenen Footage-Bestände automatisch kategorisieren?

Ja. Ich richte die KI-Vision-Pipeline (Keyframes ziehen, Bildmodell, Ablage auf R2) auf Ihrem eigenen Footage-Bestand ein, sodass er durchsuchbar und filterbar wird. Als AI Engineer im Rhein-Main/DACH setze ich das projektweise um — auch über Vermittler. Ein kurzer Call klärt Umfang, Datenfluss und Modellwahl.

+Kann eine KI Videos automatisch kategorisieren?

Ja. Man zieht aus dem Video Standbilder (Keyframes) und lässt ein Vision-Modell beschreiben, was darauf zu sehen ist — Motiv, Tag oder Nacht, Personen, Szenentyp. Aus diesen Beschreibungen entsteht zu jedem Clip eine Kategorie, nach der sich der ganze Bestand filtern lässt. Im realen Projekt wurden so 19 Clips in Minuten einsortiert.

+Was sind Keyframes und wie zieht man sie aus einem Video?

Keyframes sind einzelne Standbilder aus dem laufenden Video. Mit dem freien Werkzeug ffmpeg lässt sich an beliebigen Stellen (z. B. bei 15 %, 50 %, 85 % der Laufzeit) je ein Bild herausziehen — schnell und ohne das ganze Video neu zu rendern. Diese Bilder sind die Grundlage, die die KI dann analysiert.

+Was erkennt die KI in einem Video?

Auf den Keyframes erkennt ein Vision-Modell das Motiv (z. B. Weinberg, Stadt, Innenraum), ob es Tag oder Nacht ist, die Jahreszeit und Lichtstimmung, ob Personen im Bild sind und welcher Szenentyp vorliegt — Übersicht, Action oder Detail. Daraus lässt sich auch ableiten, welche Clips die stärksten sind.

+Wo wird das Material gespeichert und was kostet das?

Auf Cloudflare R2 — als Original-Master plus eine schlanke Web-Vorschau und ein Vorschaubild. R2 berechnet keinen Egress (keine Auslieferungs-/Traffic-Gebühren), nur Speicher (rund 0,015 $ pro GB und Monat über einem Gratis-Kontingent). Selbst große Footage-Bestände kosten so nur wenige Euro im Monat.

+Wie schnell ist das im Vergleich zu Handarbeit?

Minuten statt Tage. Das Sichten und Beschriften von Stunden Rohmaterial von Hand zieht sich; die KI liest die Keyframes parallel und liefert zu jedem Clip sofort eine Kategorie und Bewertung. Im realen Projekt war ein 7,4-GB-Bestand in Minuten durchsuchbar — inklusive Vorschlag der besten Szenen.

André Heiner — AI Engineer & KI-Berater, Rhein-Main

Passt das zu deinem Vorhaben?

André Heiner— GenAI & LLM Expert aus Wiesbaden, tätig im Rhein-Main-Gebiet. Agentic AI, RAG, Workflow-Automatisierung und KI in den Produktivbetrieb. Mehr im KI-Labor.

Kontakt aufnehmen