KI-InfrastrukturAktualisiert: 26. Juni 2026

HeyGen per REST-API statt MCP: warum ein Avatar-Renderer ein deterministischer Batch ist — und die teuerste Lehre (Format-Match)

Kurz gesagt

Kurz gesagt: HeyGen hängt bei mir bewusst per REST-API am System, nicht per MCP. Grund: Ein Avatar-Renderer ist ein deterministischer, wiederholbarer Batch — der Avatar ist fest, die Stimme ist fest, und die Bild-Dimension kommt hart aus dem Zielformat. Hier soll nichts ein Agent zur Laufzeit entscheiden, sondern jedes Video gleich und reproduzierbar herauskommen. Die teuerste Lehre dabei: Das Avatar-Format muss zum Ziel-Format passen — ein 16:9-Avatar in einem 9:16-Canvas ergibt schwarze Balken (Letterbox). Deshalb steht das Format als Code-Regel im Client, nicht im Ermessen eines Agenten. Neu 2026: HeyGens Video Agent v3 erzeugt aus einem Prompt ganze Multi-Szenen-Videos mit Auto-B-Roll — und ist per API scriptbar.

Im EinsatzHeyGenVideo Agent v3Node.jsffmpegClaude Code

Am Whiteboard

Kurz erklärt: HeyGen per API ist ein deterministischer Render-Batch — fester Avatar, feste Stimme, Format als Code-Regel.

Was es bringt

Reproduzierbar statt zufällig: ein fester Avatar, eine feste Stimme, ein festes Format — jedes Video läuft gleich. Genau das will man bei einer Render-Pipeline, kein Agent, der IDs errät.

Die teuerste Lehre als Code-Regel: Avatar-Format gleich Ziel-Format. So entstehen nie wieder schwarze Balken durch ein 16:9-Gesicht im 9:16-Rahmen.

Scriptbar und günstig: Per API laufen Renders im Batch, mit test-Flag als Dry-Run — kein UI-Klicken, voll automatisierbar in der Content-Pipeline.

Neu 2026: Video Agent v3 macht aus einem Prompt ein ganzes Multi-Szenen-Erklärvideo mit Auto-B-Roll — der gebrandete Avatar bleibt über alle Szenen konsistent.

Das Problem — und die Lösung

Problem

Im MCP-Hype landet schnell alles am Agenten — auch ein Avatar-Renderer. Dabei ist genau das der falsche Ort für Laufzeit-Ermessen: Wenn der Agent Avatar-IDs oder Formate errät, kommen inkonsistente Videos oder schwarze Balken heraus. Und ohne feste Format-Regel passiert der teuerste Fehler: ein 16:9-Avatar im 9:16-Canvas.

Lösung

HeyGen als deterministischer REST-Batch: feste avatar_id und voice_id, Dimension hart aus dem Format, test-Flag für Dry-Runs. Das Format-Matching ist eine Code-Regel, kein Agent-Urteil. Für Erklärvideos kommt der Video Agent v3 dazu — per API scriptbar, mit konsistentem gebrandetem Avatar.

16:9 ≠ 9:16

Format-Match ist Pflicht: Ein 16:9-Avatar im 9:16-Canvas ergibt Letterbox — deshalb kommt die Dimension hart aus dem Zielformat, nicht aus Agent-Ermessen

heiner.io (eigene Render-Pipeline) (25.6.2026)

Code-Regel: DIMENSIONS aus dem Zielformat, AVATAR_LOOKS kennt sein Format, dimension = DIMENSIONS aus look.format — Das Format-Matching steht im Code, nicht im Ermessen eines Agenten.

Aus der Praxis

25.06.2026verifiziert

Eigener HeyGen-Client (lib/heygen.js) als schlanker REST-Wrapper: feste avatar_id und voice_id, Dimension aus dem Format, verifizierte Avatar-Looks je Format (16:9 vs 9:16) — ein reproduzierbarer Render-Batch ohne MCP.

25.06.2026verifiziert

Per HeyGen-API einen kompletten News-/Coach-Clip mit deutschem Stimm-Klon produziert (Skript, Render, Lower-Third, Musik) — voll automatisiert, ohne UI.

25.06.2026verifiziert

HeyGen Video Agent v3 (POST /v3/video-agents) live getestet: Aus einem Prompt entsteht ein Multi-Szenen-Erklärvideo mit Auto-B-Roll — per API scriptbar, mit gebrandetem Avatar.

Im Video

+Transkript

Beispiel-Clip, produziert mit genau diesem HeyGen-API-Stack: KI-Avatar (HeyGen, deutscher Stimm-Klon) plus Wort-Highlight-Untertitel, Motion-Graphic-Overlays und Hintergrundmusik — alles automatisiert in der Pipeline. Inhalt des Clips: Anthropic hat sein stärkstes KI-Modell Claude Fable 5 auf Anweisung der US-Regierung gesperrt — eine Einordnung als GenAI-Engineer.

Häufige Fragen

+Hat HeyGen einen MCP-Server?

HeyGen wird bei mir bewusst per REST-API angebunden, nicht per MCP. Ein Avatar-Renderer ist ein deterministischer Batch — fester Avatar, feste Stimme, festes Format. Hier braucht es kein Laufzeit-Ermessen eines Agenten, sondern reproduzierbare, gleiche Ergebnisse.

+Warum bindet man HeyGen per API statt per MCP an?

Weil DU vorab entscheidest, was herauskommt: welcher Avatar, welche Stimme, welches Format. Das ist die klassische API-Situation (deterministischer, wiederholbarer Ablauf). MCP lohnt sich dort, wo ein Agent zur Laufzeit aus vielen Optionen wählt — beim Rendern eines festen Avatars ist das nicht der Fall.

+Wie verhindert man Letterbox (schwarze Balken) bei HeyGen-Avataren?

Indem das Avatar-Format zum Ziel-Format passt: Ein 16:9-Avatar gehört in einen 16:9-Canvas, ein 9:16-Avatar in 9:16. Sonst entsteht Letterbox. In meinem Client kommt die Dimension hart aus dem Zielformat, und die Avatar-Looks sind je Format hinterlegt — keine Format-Entscheidung zur Laufzeit.

+Was ist der HeyGen Video Agent v3?

Der Video Agent v3 (POST /v3/video-agents) erzeugt aus einem einzigen Prompt ein ganzes Multi-Szenen-Video mit Auto-B-Roll und animierten Grafiken — das Screen-Recording-Gefühl, aber voll avatar-generiert und per API scriptbar. Damit lassen sich Erklär- und Kursvideos mit konsistentem, gebrandetem Avatar automatisieren.

+Wer baut KI-Avatar-Video-Pipelines im Rhein-Main?

André Heiner, AI Engineer aus Wiesbaden, baut HeyGen- und Avatar-Video-Pipelines produktionsreif und automatisiert — vom Skript über Render bis zur Veröffentlichung. Verfügbar für Projekte, direkt oder über Personalvermittler.

André Heiner — AI Engineer & KI-Berater, Rhein-Main

Passt das zu deinem Vorhaben?

André Heiner— GenAI & LLM Expert aus Wiesbaden, tätig im Rhein-Main-Gebiet. Agentic AI, RAG, Workflow-Automatisierung und KI in den Produktivbetrieb. Mehr im KI-Labor.

Kontakt aufnehmen

Weiter im KI-Labor