Fintutto Translator
Architektur & Fallback-Systeme — Eine technische Dokumentation für Entwickler*innen und Systemarchitekt*innen im Bereich Echtzeit-Übersetzung und Sprachverarbeitung.
Zur Architektur
Überblick
Was ist Fintutto Translator?
Fintutto Translator ist ein mehrschichtiges Echtzeit-Übersetzungssystem, das in unterschiedlichsten Umgebungen — von Behörden-Schaltern bis hin zu Kreuzfahrtschiffen — zuverlässig arbeitet. Die Architektur ist auf maximale Resilienz ausgelegt: Kein Einzelfehler darf das Gesamtsystem zum Absturz bringen.
Das System kombiniert Spracherkennung (STT), maschinelle Übersetzung und Sprachausgabe (TTS) in einer mehrstufigen, redundanten Pipeline. Jede Schicht verfügt über eigene Fallback-Ketten, die automatisch greifen, wenn ein Dienst nicht erreichbar ist.
19 spezialisierte Vercel-Deployments decken verschiedene Marktsegmente ab — von Tourismus bis hin zu hochsicheren Behörden-Lösungen mit DSGVO-konformer Offline-Verarbeitung.
Kernkomponenten
  • 2 Haupt-Architekturen
  • 4 Verbindungsmodi
  • 3 Fallback-Ketten (STT, Translate, TTS)
  • 19 spezialisierte Apps
  • 1 gemeinsames Monorepo

💡 Für Einsteiger: Stellt euch das System wie ein Dolmetscher-Netz vor: Wenn der Haupt-Dolmetscher ausfällt, übernimmt automatisch der nächste in der Reihe — ohne dass der Nutzer etwas bemerkt.
Kapitel 1
Die zwei Haupt-Architekturen
Das System unterscheidet grundlegend zwischen zwei verschiedenen Nutzungsszenarien, die technisch völlig unterschiedlich implementiert sind — je nach Anforderung an Konnektivität, Skalierung und Datenschutz.
Architektur 1
Gesprächsmodus (Standalone)
Für Behörden-Schalter & Medical-Umgebungen
Architektur 2
Live-Session (Speaker → Listener)
Für Konferenzen, Führungen & Events

💡 Für Einsteiger: Architektur 1 ist wie ein lokales Walkie-Talkie — alles passiert auf einem Gerät. Architektur 2 ist wie ein Radio-Sender: Ein Sprecher sendet, viele hören gleichzeitig zu.
Architektur 1: Gesprächsmodus (Standalone)
Die StandaloneTranslatePage ist für bilaterale Gespräche optimiert — typischerweise zwischen einem Sachbearbeiter und einem fremdsprachigen Bürger. Der Nutzer drückt einen Button, spricht, der Text wird übersetzt und direkt auf demselben Gerät vorgelesen.
Diese Architektur ist vollständig offline-fähig, wenn Whisper STT als Erkennungs-Engine eingesetzt wird. Es ist keine Supabase-Verbindung erforderlich, was das System extrem robust gegen Netzwerkschwankungen macht — ideal für Umgebungen, in denen Internetverbindungen unzuverlässig sind.
Offline-fähig
Vollständig lokal mit Whisper STT via WebAssembly
Kein Backend
Keine Supabase-Verbindung erforderlich
Robust
Unempfindlich gegenüber Netzwerkausfällen
Architektur 2: Live-Session (Speaker → Listener)
Das Herzstück für Konferenzen, Führungen und Events. Ein Speaker spricht in sein Gerät — der Text wird übersetzt und über einen Supabase Realtime Broadcast Channel an beliebig viele Listener gesendet. Jeder Listener empfängt den Text in seiner individuell gewählten Sprache und kann ihn sich vorlesen lassen.
Unbegrenzte Skalierung
Bis zu 5.000 gleichzeitige Listener in der Event Pro-Konfiguration. Supabase Realtime ermöglicht nahezu unbegrenzte horizontale Skalierung.
Alle Sprachen gleichzeitig
Jeder Listener wählt seine eigene Zielsprache. Die Übersetzung erfolgt parallel für alle Sprachpaare ohne zusätzliche Latenz.
Presence-Erkennung
Das System erkennt in Echtzeit, welche Nutzer verbunden sind. Ideal für Moderatoren und Event-Manager zur Steuerung der Session.

💡 Für Einsteiger: Stellt euch einen UN-Dolmetscher vor, der aber für 5.000 Zuhörer gleichzeitig arbeitet — und das vollautomatisch und in Echtzeit über das Internet.
Kapitel 2
Verbindungsmodi (Transport-Layer)
Um in jeder Umgebung — von der Konferenzhalle bis zum Kreuzfahrtschiff ohne Internetverbindung — zuverlässig zu funktionieren, verfügt das System über vier verschiedene Verbindungsmodi. Der passende Modus wird automatisch oder manuell je nach Einsatzszenario gewählt.
Die Modi sind nach Konnektivitätsanforderung und Latenz gestaffelt — von Cloud-basierter Infrastruktur bis hin zu vollständig autonomen Peer-to-Peer-Verbindungen ohne jegliche Netzwerkabhängigkeit.

💡 Für Einsteiger: Wie ein Handy, das zuerst 5G, dann 4G, dann WiFi und schließlich Bluetooth probiert — je nachdem, was verfügbar ist.
Verbindungsmodus 1: Cloud (Supabase WebSocket)
Technische Kenndaten
  • Technologie: Supabase WebSocket
  • Internet: Erforderlich
  • Latenz: 50–200 ms
  • Einsatz: Konferenzen, Remote-Events
Beschreibung
Der Standard-Modus für die meisten Einsatzszenarien. Supabase Realtime nutzt WebSocket-Verbindungen für bidirektionale Echtzeit-Kommunikation. Der Broadcast Channel ermöglicht effizientes Fan-out von einem Speaker zu beliebig vielen Listenern.
Die Latenz von 50–200 ms ist für Sprach-Übersetzung absolut ausreichend und in der Praxis kaum wahrnehmbar. Dieser Modus profitiert von der globalen Supabase-Infrastruktur mit automatischem Failover.
Verbindungsmodus 2: Local (Eingebetteter Relay-Server)
Beschreibung
Wenn kein Internet verfügbar ist, aber alle Teilnehmer im selben lokalen WiFi-Netzwerk sind, übernimmt ein eingebetteter Relay-Server die Kommunikation. Dieser läuft direkt auf dem Speaker-Gerät oder einem dedizierten lokalen Server.
Mit einer Latenz von unter 20 ms ist dieser Modus sogar schneller als der Cloud-Modus — da keine externen Netzwerkhops anfallen. Ideal für Kreuzfahrtschiffe, Messehallen oder Regionen mit instabiler Internetverbindung.
Technische Kenndaten
  • Technologie: Eingebetteter Relay-Server
  • Internet: Nicht erforderlich (nur lokales WiFi)
  • Latenz: < 20 ms
  • Einsatz: Kreuzfahrtschiffe, Funklöcher
Verbindungsmodus 3: BLE (Bluetooth Low Energy)
Bluetooth Low Energy ermöglicht Verbindungen ohne jegliche Netzwerkinfrastruktur — ideal für kurze Distanzen und Offline-Führungen in Museen, Fabrikhallen oder Outdoor-Umgebungen ohne WiFi.
Mit einer Latenz von ca. 100 ms ist BLE etwas träger als die anderen Modi, bietet aber maximale Unabhängigkeit. Kein Router, kein Internet, kein Server — nur zwei Geräte in Bluetooth-Reichweite.
Verbindungsmodus 4: WebRTC (P2P Audio)
WebRTC ermöglicht direktes Peer-to-Peer Audio-Streaming zwischen Geräten — ohne Audio über Server zu routen. Für das initiale Signaling wird kurz Internet benötigt, danach läuft die Verbindung direkt.
Mit einer Latenz unter 50 ms ist WebRTC die beste Wahl für live Audiowiedergabe im Event Pro-Segment, wo minimale Verzögerung entscheidend ist.

💡 Für Einsteiger: BLE ist wie Flüstern in einem Raum — funktioniert ohne jede Infrastruktur. WebRTC ist wie ein Direktgespräch — die Verbindung wird kurz über einen Server hergestellt, läuft danach aber direkt zwischen den Geräten.
Die vier Verbindungsmodi bilden ein lückenloses Spektrum von vollständig cloud-abhängig bis vollständig offline — so ist das System in nahezu jeder denkbaren Netzwerkumgebung einsatzbereit.
Kapitel 3
Die Fallback-Ketten — Resilienz by Design
Das System ist darauf ausgelegt, niemals vollständig auszufallen. Wenn ein Dienst — etwa Google oder Azure — nicht erreichbar ist, ein API-Limit überschritten wird oder ein Netzwerkfehler auftritt, greift automatisch der nächste Dienst in der vordefinierten Kette. Dieser Mechanismus funktioniert transparent für den Endnutzer.
Es gibt drei unabhängige Fallback-Ketten: eine für Spracherkennung (STT), eine für Übersetzung und eine für Sprachausgabe (TTS). Jede Kette ist nach Qualität und Kosten priorisiert — die beste und günstigste Option steht an erster Stelle, der robusteste Offline-Fallback am Ende.

💡 Für Einsteiger: Stellt euch vor, ihr habt drei Backup-Generatoren: Fällt der erste aus, springt der zweite an — vollautomatisch, ohne dass der Lichtschalter flackert.
Fallback-Kette 3.1: Spracherkennung (STT)
Die Spracherkennung ist die komplexeste Fallback-Kette, da sie stark vom Betriebssystem und Browser abhängt. iOS blockiert beispielsweise die Web Speech API, was eigene Lösungswege erfordert. Die Kette priorisiert je nach Kontext Datenschutz, Qualität oder Verfügbarkeit.
01
Whisper Offline
Nur aktiv wenn preferOffline=true. Läuft vollständig lokal im Browser via WebAssembly. Für hochsichere Behörden — kein Audiodaten verlässt das Gerät. Null Netzwerkabhängigkeit.
02
Apple SpeechAnalyzer
Nativer Wrapper für iOS-Apps. Nutzt Apples On-Device-Spracherkennung für beste Performance und Datenschutz auf Apple-Geräten. Nur für native App-Variante verfügbar.
03
STT Proxy (Azure EU)
Standard für iOS und Android im Browser. Leitet Audio datenschutzkonform über einen Vercel-Proxy an Azure Cognitive Services in Frankfurt (germanywestcentral) weiter. DSGVO-konform.
04
Web Speech API
Standard für Desktop (Chrome/Edge). Nutzt die internen Google-Server des Browsers direkt. Keine zusätzlichen API-Kosten, da in den Browser-Engines integriert.
05
Google Cloud STT
Letzter Fallback, falls Azure ausfällt oder nicht verfügbar ist. Direkte API-Integration mit Googles Cloud Speech-to-Text-Dienst für maximale Erkennungsqualität.

💡 Für Einsteiger: Das ist wie ein Übersetzer, der zuerst seine Notizen (lokal) befragt, dann eine Kollegin im Büro, dann ein Callcenter — jeweils in der Reihenfolge, die am schnellsten und günstigsten ist.
Fallback-Kette 3.2: Übersetzung
Die Übersetzungskette ist nach Kosten und Verfügbarkeit optimiert. Der primäre Dienst ist Azure Translator, der mit einem großzügigen Gratis-Kontingent für die meisten Anwendungsfälle ausreicht. Die nachgelagerten Dienste greifen automatisch, wenn Limits erreicht werden.
MyMemory
Letzter Fallback — völlig kostenlos (10K Zeichen/Tag). Hat das System gerettet, als Azure-Keys fehlten.
Google Translate
Erster Fallback — 500K Zeichen/Monat kostenlos, danach Pay-as-you-go.
Azure Translator
Primärer Dienst — 2 Mio. Zeichen/Monat kostenlos, danach Pay-as-you-go.
Dieser Fallback hat das System in der Vergangenheit gerettet, als die Azure-Keys fehlten. MyMemory als letzter Anker hat einen vollständigen Service-Ausfall verhindert.

💡 Für Einsteiger: Azure ist das Erstklassticket, Google Translate die Economy-Klasse und MyMemory der Notsitz — aber man kommt ans Ziel.
Fallback-Kette 3.3: Sprachausgabe (TTS)
Die TTS-Kette priorisiert Klangqualität. An oberster Stelle stehen hochwertige KI-Stimmen (Google Chirp 3 HD), die nur für zahlende Tiers freigeschaltet sind. Am Ende der Kette steht der Browser als letzter, kostenloser Sicherheitsanker — immer verfügbar, auch ohne Internet.
Google Chirp 3 HD
Höchste Qualität — nur für Pro/Premium Tiers
Google Neural2
Standard für die meisten bezahlten Tiers
Google Standard
Fallback via Proxy — gute Qualität, niedrigere Kosten
Browser speechSynthesis
Kostenlos, lokal — auch ohne Internet verfügbar

💡 Für Einsteiger: Wie bei Kopfhörern: Premium-Noise-Cancelling zuerst, dann normale Kopfhörer, dann der eingebaute Lautsprecher — immer noch besser als Stille.
Kapitel 4
Tiers und Markt-Segmente
Fintutto verfolgt die Philosophie der Markt-Spezialisierung. Anstatt einer einzigen monolithischen App gibt es 19 spezialisierte Vercel-Projekte, die auf verschiedene Zielgruppen und deren spezifische Anforderungen zugeschnitten sind. Jedes Segment hat eigene Tier-Definitionen mit spezifischen Limits, konfiguriert in src/lib/tiers.ts.

💡 Für Einsteiger: Statt einer Einheits-App gibt es 19 spezialisierte Varianten — wie verschiedene Modelle eines Autos für Stadt, Autobahn oder Gelände.
Guide / Tourismus
Fokus: Gruppengröße
  • 15 bis 30 gleichzeitige Listener
  • Optimiert für Museen, Stadtführungen
  • BLE-Modus für Offline-Führungen
Event / Konferenz
Fokus: Skalierung
  • Bis zu 5.000 gleichzeitige Listener
  • WebRTC P2P Audio-Streaming
  • Echtzeit-Dashboard für Moderatoren
Behörden (Authority)
Fokus: Datenschutz
  • DSGVO-konform, Azure EU only
  • Whisper Offline für sensible Daten
  • Kein Audiodaten-Transfer ins Ausland
Kreuzfahrt (Cruise)
Fokus: Offline-Fähigkeit
  • Local Relay für internetfreie Umgebungen
  • Flotten-Management für mehrere Schiffe
  • Automatisches Reconnect bei Signalverlust
Tier-Architektur: Wie Limits definiert werden
Alle Tier-Definitionen werden zentral in der Datei src/lib/tiers.ts verwaltet. Diese Datei ist die einzige Source of Truth für alle Limits, Features und Berechtigungen — über alle 19 Apps hinweg. Eine Änderung hier wirkt sich sofort auf alle Deployments aus.
Jedes Tier definiert typischerweise: maximale Listener-Anzahl, erlaubte STT-Engines, TTS-Qualitätsstufe, erlaubte Verbindungsmodi und aktivierte Features wie WebRTC oder Whisper Offline.
Konfigurierte Limits (Beispiel)
  • Free: 5 Listener, Web Speech API, Browser TTS
  • Starter: 15 Listener, Azure STT, Neural2 TTS
  • Pro: 100 Listener, Azure STT, Chirp 3 HD TTS
  • Premium: 5.000 Listener, alle Modi, WebRTC
  • Authority: Whisper Only, Azure EU, DSGVO-Modus

💡 Für Einsteiger: tiers.ts ist wie die Schaltzentrale — ein einziger Ort, an dem alle Regeln für alle Apps festgelegt werden. Änderung an einer Stelle, Wirkung überall.
Kapitel 5
Deployment-Infrastruktur
Alle 19 spezialisierten Apps werden aus einem einzigen GitHub-Monorepo (alexanderdeibel-Fintutto/translator) deployt. Dieses Architekturprinzip — ein Repository, viele Deployments — maximiert die Code-Wiederverwendung bei gleichzeitiger Markt-Spezialisierung.
Die gemeinsame Infrastruktur teilt sich in drei Schichten: Supabase als zentrales Backend, Vercel für Frontends und Serverless Functions sowie Azure und Google für die kognitiven KI-Dienste.
Die drei Infrastruktur-Schichten
🗄️ Supabase
aaefocdqgdgexkcrjhks
Zentrales Backend für alle 19 Apps:
  • Authentifizierung & Nutzerverwaltung
  • PostgreSQL-Datenbank
  • Realtime Broadcast Channels
  • Presence-Erkennung
Vercel
Edge-Infrastruktur für Frontends:
  • Hosting aller 19 App-Frontends
  • /api/stt — STT-Proxy nach Azure EU
  • /api/tts — TTS-Proxy nach Google
  • /api/translate — Übersetzungs-Proxy
🧠 Azure & Google
Kognitive KI-Dienste:
  • Azure Cognitive Services (STT, Translate)
  • Region: germanywestcentral
  • Google Cloud STT, TTS, Translate
  • Whisper WASM (lokal, kein Cloud-Dienst)

💡 Für Einsteiger: Supabase ist das Rückgrat (Datenbank + Echtzeit), Vercel ist die Haustür (Frontend + API), Azure und Google sind die Spezialisten im Hintergrund (KI-Dienste).
Monorepo-Deployment-Strategie
Das Monorepo-Prinzip bedeutet: ein gemeinsamer Code-Stamm, viele Äste. Alle 19 Apps teilen sich dieselbe Business-Logik, die Fallback-Ketten, die Tier-Definitionen und die UI-Komponenten. Unterschiede entstehen durch Umgebungsvariablen und Build-Konfigurationen — nicht durch separaten Code.
Neue Features müssen nur einmal entwickelt und getestet werden. Sie stehen sofort allen 19 Deployments zur Verfügung — nach einem einzelnen Merge in den Haupt-Branch und einem automatischen Vercel-Deploy.
1 Repository
Alle 19 Apps in einem GitHub-Repo
19 Vercel-Projekte
Jede App hat ein eigenes Deployment
1 Supabase-Instanz
Gemeinsames Backend für alle
Env-basierte Konfiguration
Segmentierung über Umgebungsvariablen
API-Proxy-Architektur auf Vercel
Die drei Serverless-Edge-Functions auf Vercel fungieren als datenschutzkonformer Mittelsmann zwischen den Browser-Clients und den externen KI-Diensten. Clients kommunizieren niemals direkt mit Azure oder Google — alle API-Schlüssel bleiben serverseitig verborgen.

💡 Für Einsteiger: Die Vercel-Proxys sind wie Datenschutz-Filter: Nutzer senden ihre Daten an Vercel, Vercel leitet sie DSGVO-konform weiter — die API-Schlüssel der externen Dienste sind nirgendwo im Browser sichtbar.
Gesamtübersicht: Der komplette Datenfluss
Der vollständige Datenfluss von Spracheingabe bis Sprachwiedergabe durchläuft alle drei Fallback-Ketten sequenziell. Jede Stufe ist unabhängig resilient — ein Ausfall in der STT-Kette beeinflusst nicht die Verfügbarkeit der TTS-Kette. Das Gesamtsystem ist damit deutlich robuster als jede monolithische Lösung.

💡 Für Einsteiger: Wie eine Fabrik mit drei unabhängigen Fließbändern: Wenn Band 1 stockt, läuft Band 2 und 3 weiter — die Produktion hält nie vollständig an.
Sicherheit & Datenschutz (DSGVO)
Der Datenschutz ist in die Architektur eingebaut — nicht nachträglich hinzugefügt. Für datenschutzsensible Einsatzgebiete (Behörden, Medizin) verarbeitet Whisper Offline alle Audiodaten vollständig lokal im Browser via WebAssembly. Kein Bit Audiodaten verlässt das Gerät des Nutzers.
Für Cloud-basierte STT-Verarbeitung wird ausschließlich Azure in der Region germanywestcentral (Frankfurt) verwendet — eine explizite Anforderung für DSGVO-Konformität. Alle API-Calls laufen über den Vercel-Proxy, der API-Schlüssel clientseitig verbirgt.
🔒 Whisper Offline
Audio bleibt lokal — 100% on-device, kein Netzwerk-Traffic
🇩🇪 Azure EU Only
Nur Frankfurt-Region für Cloud-STT im Authority-Segment
🔑 API-Key-Schutz
Alle Schlüssel nur serverseitig auf Vercel — nie im Client
Resilienz in der Praxis: Gelerntes aus dem Betrieb
MyMemory als letzter Fallback der Übersetzungskette hat das System gerettet, als die Azure API-Keys fehlten. Ohne diesen Mechanismus wäre der Dienst komplett ausgefallen.
iOS blockiert die Web Speech API im Browser vollständig — ohne den STT-Proxy auf Azure EU wäre die gesamte iOS-Nutzerbasis ohne Spracherkennung.
Diese realen Erfahrungen aus dem Betrieb zeigen: Die mehrstufigen Fallback-Ketten sind kein theoretisches Design-Pattern, sondern eine praktische Notwendigkeit. Die Architekturentscheidung, niemals einen Single Point of Failure zu tolerieren, hat sich in kritischen Momenten mehrfach bewährt.

💡 Für Einsteiger: Wie ein Notstromaggregat — man hofft, es nie zu brauchen, aber wenn der Strom ausfällt, ist man froh, dass man daran gedacht hat.
Zusammenfassung & Architektur-Prinzipien
Markt-Spezialisierung
19 spezialisierte Apps statt einer monolithischen Lösung — optimiert für jedes Segment
Resilienz by Design
Mehrstufige Fallback-Ketten in jeder Schicht — kein Single Point of Failure
Umgebungsagnostisch
Vier Verbindungsmodi von Cloud bis BLE — funktioniert überall, auch ohne Internet
Privacy First
Datenschutz ist in die Architektur integriert — Whisper Offline, Azure EU, API-Proxy
Single Source of Truth
Ein Monorepo, eine Supabase-Instanz, eine Tier-Konfiguration — maximale Konsistenz
Dokumentation generiert von Manus AI. Technische Details: Fintutto Translator, Version aktuelle. Repository: