
HeyGen per REST-API statt MCP: warum ein Avatar-Renderer ein deterministischer Batch ist — und die teuerste Lehre (Format-Match)
Kurz gesagt
Kurz gesagt: HeyGen hängt bei mir bewusst per REST-API am System, nicht per MCP. Grund: Ein Avatar-Renderer ist ein deterministischer, wiederholbarer Batch — der Avatar ist fest, die Stimme ist fest, und die Bild-Dimension kommt hart aus dem Zielformat. Hier soll nichts ein Agent zur Laufzeit entscheiden, sondern jedes Video gleich und reproduzierbar herauskommen. Die teuerste Lehre dabei: Das Avatar-Format muss zum Ziel-Format passen — ein 16:9-Avatar in einem 9:16-Canvas ergibt schwarze Balken (Letterbox). Deshalb steht das Format als Code-Regel im Client, nicht im Ermessen eines Agenten. Neu 2026: HeyGens Video Agent v3 erzeugt aus einem Prompt ganze Multi-Szenen-Videos mit Auto-B-Roll — und ist per API scriptbar.

Was es bringt
Reproduzierbar statt zufällig: ein fester Avatar, eine feste Stimme, ein festes Format — jedes Video läuft gleich. Genau das will man bei einer Render-Pipeline, kein Agent, der IDs errät.
Die teuerste Lehre als Code-Regel: Avatar-Format gleich Ziel-Format. So entstehen nie wieder schwarze Balken durch ein 16:9-Gesicht im 9:16-Rahmen.
Scriptbar und günstig: Per API laufen Renders im Batch, mit test-Flag als Dry-Run — kein UI-Klicken, voll automatisierbar in der Content-Pipeline.
Neu 2026: Video Agent v3 macht aus einem Prompt ein ganzes Multi-Szenen-Erklärvideo mit Auto-B-Roll — der gebrandete Avatar bleibt über alle Szenen konsistent.
Das Problem — und die Lösung
Problem
Im MCP-Hype landet schnell alles am Agenten — auch ein Avatar-Renderer. Dabei ist genau das der falsche Ort für Laufzeit-Ermessen: Wenn der Agent Avatar-IDs oder Formate errät, kommen inkonsistente Videos oder schwarze Balken heraus. Und ohne feste Format-Regel passiert der teuerste Fehler: ein 16:9-Avatar im 9:16-Canvas.
Lösung
HeyGen als deterministischer REST-Batch: feste avatar_id und voice_id, Dimension hart aus dem Format, test-Flag für Dry-Runs. Das Format-Matching ist eine Code-Regel, kein Agent-Urteil. Für Erklärvideos kommt der Video Agent v3 dazu — per API scriptbar, mit konsistentem gebrandetem Avatar.
16:9 ≠ 9:16
Format-Match ist Pflicht: Ein 16:9-Avatar im 9:16-Canvas ergibt Letterbox — deshalb kommt die Dimension hart aus dem Zielformat, nicht aus Agent-Ermessen
heiner.io (eigene Render-Pipeline) (25.6.2026)

Aus der Praxis
Eigener HeyGen-Client (lib/heygen.js) als schlanker REST-Wrapper: feste avatar_id und voice_id, Dimension aus dem Format, verifizierte Avatar-Looks je Format (16:9 vs 9:16) — ein reproduzierbarer Render-Batch ohne MCP.
Per HeyGen-API einen kompletten News-/Coach-Clip mit deutschem Stimm-Klon produziert (Skript, Render, Lower-Third, Musik) — voll automatisiert, ohne UI.
HeyGen Video Agent v3 (POST /v3/video-agents) live getestet: Aus einem Prompt entsteht ein Multi-Szenen-Erklärvideo mit Auto-B-Roll — per API scriptbar, mit gebrandetem Avatar.
Im Video
+Transkript
Beispiel-Clip, produziert mit genau diesem HeyGen-API-Stack: KI-Avatar (HeyGen, deutscher Stimm-Klon) plus Wort-Highlight-Untertitel, Motion-Graphic-Overlays und Hintergrundmusik — alles automatisiert in der Pipeline. Inhalt des Clips: Anthropic hat sein stärkstes KI-Modell Claude Fable 5 auf Anweisung der US-Regierung gesperrt — eine Einordnung als GenAI-Engineer.
Häufige Fragen
+Hat HeyGen einen MCP-Server?
HeyGen wird bei mir bewusst per REST-API angebunden, nicht per MCP. Ein Avatar-Renderer ist ein deterministischer Batch — fester Avatar, feste Stimme, festes Format. Hier braucht es kein Laufzeit-Ermessen eines Agenten, sondern reproduzierbare, gleiche Ergebnisse.
+Warum bindet man HeyGen per API statt per MCP an?
Weil DU vorab entscheidest, was herauskommt: welcher Avatar, welche Stimme, welches Format. Das ist die klassische API-Situation (deterministischer, wiederholbarer Ablauf). MCP lohnt sich dort, wo ein Agent zur Laufzeit aus vielen Optionen wählt — beim Rendern eines festen Avatars ist das nicht der Fall.
+Wie verhindert man Letterbox (schwarze Balken) bei HeyGen-Avataren?
Indem das Avatar-Format zum Ziel-Format passt: Ein 16:9-Avatar gehört in einen 16:9-Canvas, ein 9:16-Avatar in 9:16. Sonst entsteht Letterbox. In meinem Client kommt die Dimension hart aus dem Zielformat, und die Avatar-Looks sind je Format hinterlegt — keine Format-Entscheidung zur Laufzeit.
+Was ist der HeyGen Video Agent v3?
Der Video Agent v3 (POST /v3/video-agents) erzeugt aus einem einzigen Prompt ein ganzes Multi-Szenen-Video mit Auto-B-Roll und animierten Grafiken — das Screen-Recording-Gefühl, aber voll avatar-generiert und per API scriptbar. Damit lassen sich Erklär- und Kursvideos mit konsistentem, gebrandetem Avatar automatisieren.
+Wer baut KI-Avatar-Video-Pipelines im Rhein-Main?
André Heiner, AI Engineer aus Wiesbaden, baut HeyGen- und Avatar-Video-Pipelines produktionsreif und automatisiert — vom Skript über Render bis zur Veröffentlichung. Verfügbar für Projekte, direkt oder über Personalvermittler.

Passt das zu deinem Vorhaben?
André Heiner— GenAI & LLM Expert aus Wiesbaden, tätig im Rhein-Main-Gebiet. Agentic AI, RAG, Workflow-Automatisierung und KI in den Produktivbetrieb. Mehr im KI-Labor.
Kontakt aufnehmenWeiter im KI-Labor
- MCP vs. API — wann nimmt man das Model Context Protocol, wann eine normale API? Das Entscheidungs-Framework aus der Praxis
- KI-Entwickler & AI Engineer im Rhein-Main-Gebiet: KI-Projekte real umgesetzt — Claude Code, AI-Agenten, MCP
- Vom Rohvideo zur fertigen Präsenz: Ein KI-Agent baut Landingpage, PDF-Bericht und gebrandete E-Mail — vollautomatisch, am realen Projekt
