Wie unsere KI deine Startup tatsächlich bewertet

Die meisten KI-Tools sind Black Boxes. Man gibt etwas hinein, bekommt eine Zahl heraus und soll dem Ganzen vertrauen.

Wir finden, das ist nicht gut genug – besonders, wenn man das Lebenswerk von jemandem bewertet.

Dieser Beitrag erklärt, wie GemScore Startups bewertet: die Agenten, die Recherche, die Debatte, die Bewertung. Kein Marketing. Kein Schönreden. Nur das System.

Der 60-Sekunden-Überblick

Wenn du eine Idee zur Bewertung einreichst, passiert Folgendes:

Fünf spezialisierte KI-Agenten analysieren dein Startup parallel – jeder konzentriert sich auf eine andere Dimension
Jeder Agent führt einen zweiphasigen Prozess durch: zuerst Webrecherche, dann strukturierte Analyse
Ein Validierungs-Agent überprüft alle fünf Agenten auf Widersprüche und nicht verifizierte Behauptungen
Ein Optimist und ein Pessimist debattieren über die Vorzüge deines Startups
Ein abschließender Richter wägt die Debatte ab und erstellt kalibrierte Bewertungen
Dein Bericht wird mit Beweisketten, Konfidenzintervallen und einem IC-ähnlichen Memo generiert

Gesamtdauer: 8-15 Minuten für eine vollständige Bewertung. Jede Behauptung wird auf eine Quelle zurückgeführt. Jede Bewertung wird begründet.

So sieht der Abschlussbericht aus (du kannst einen Live-Demo-Bericht anzeigen, um ihn in Aktion zu sehen):

┌─────────────────────────────────────────────────────────────────┐
│  GEMSCORE EVALUATION REPORT                                      │
│  Project: AcmeHealth — AI-Powered Patient Triage                 │
│  Evaluated: Feb 9, 2026                                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│   POTENTIAL           READINESS            RECOMMENDATION         │
│   ┌─────────┐        ┌─────────┐          ┌──────────────┐      │
│   │   78    │        │   52    │          │    YES       │      │
│   │  /100   │        │  /100   │          │              │      │
│   └─────────┘        └─────────┘          └──────────────┘      │
│   range: 72-84        range: 44-60                               │
│   confidence: Medium  confidence: Medium                          │
│                                                                   │
│   TL;DR: Strong founding team with healthcare domain expertise.  │
│   TAM verified at $8.2B. MVP in pilot with 3 hospitals.          │
│   Key risk: regulatory pathway unclear, no compliance lead.      │
│   Recommend: hire compliance officer, secure 2 more pilots.      │
│                                                                   │
│   [Full Report]  [Investment Memo]  [Charts]  [Data Room]       │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Die fünf Agenten

Jeder Agent ist ein Spezialist. Sie laufen parallel – nicht sequenziell –, weil eine frische Perspektive wichtiger ist als ein Konsens.

Agent	Fokus	Was er bewertet
Team	Personen	Gründerhintergründe, Fachkenntnisse, Ausführungsbilanz, Vollständigkeit des Teams
Market	Chance	TAM/SAM/SOM-Validierung, Wachstumstrends, Wettbewerbslandschaft, Nachfragesignale
Business	Modell	Umsatzmodell, Stückkosten, Skalierbarkeit, Kapitaleffizienz
Product	Lösung	Problem-Lösungs-Passung, technische Machbarkeit, MVP-Klarheit, Verteidigungsfähigkeit, Alleinstellungsmerkmal
Risk	Bedrohungen	Wettbewerbsbedrohungen, Ausführungsrisiken, historische Misserfolge in diesem Bereich

Die Gewichtungen sind so kalibriert, dass sie die Prioritäten von Frühphaseninvestitionen widerspiegeln. Das Team hat das höchste Gewicht – was damit übereinstimmt, wie die meisten VCs in der Pre-Seed- und Seed-Phase bewerten. Wenn Startups reifer werden, werden Produkt und Geschäftsmodell natürlich wichtiger. Die genaue Gewichtung ist Teil unseres proprietären Bewertungsmodells und wird kontinuierlich an realen Ergebnissen angepasst.

So sieht die Aufschlüsselung nach Agenten in einem Bericht aus:

┌─────────────────────────────────────────────────────────────────┐
│  AGENT SCORES BREAKDOWN                                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  TEAM        ████████████████████░░░░  Potential: 8.2 / 10      │
│              ██████████████░░░░░░░░░░  Readiness: 6.1 / 10      │
│              Confidence: High — 3 founders verified via public   │
│              records. CTO has 2 prior exits confirmed.           │
│                                                                   │
│  MARKET      ████████████████░░░░░░░░  Potential: 7.4 / 10      │
│              ██████████████████░░░░░░  Readiness: 6.8 / 10      │
│              Confidence: Medium — TAM verified via Gartner.      │
│              SAM estimate unverified (user claim only).          │
│                                                                   │
│  BUSINESS    ██████████████░░░░░░░░░░  Potential: 6.5 / 10      │
│              ████████░░░░░░░░░░░░░░░░  Readiness: 3.8 / 10      │
│              Confidence: Low — Unit economics not provided.      │
│              Revenue model based on comparable SaaS benchmarks.  │
│                                                                   │
│  PRODUCT     ██████████████████░░░░░░  Potential: 7.8 / 10      │
│              ██████████░░░░░░░░░░░░░░  Readiness: 4.5 / 10      │
│              Confidence: Medium — MVP exists but no usage data.  │
│              Technical architecture appears sound.                │
│                                                                   │
│  RISK        ████████████░░░░░░░░░░░░  Potential: 5.6 / 10      │
│              ██████████████░░░░░░░░░░  Readiness: 6.2 / 10      │
│              Confidence: High — 4 direct competitors identified. │
│              Regulatory risk flagged as primary concern.          │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Das Dual-Agenten-Muster: Recherche + Analyse

Hier wird es interessant. Jeder der fünf Agenten ist eigentlich zwei Agenten, die nacheinander arbeiten.

Phase 1: Der Researcher (Websuche)

Der erste Agent sucht im offenen Web nach Hinweisen. Er vertraut deinen Behauptungen nicht – er überprüft sie.

Für den Team-Agenten bedeutet dies:

Die Behauptungen der Gründer mit öffentlichen Aufzeichnungen, Pressemitteilungen und beruflichen Profilen abzugleichen
Frühere Unternehmungen und beanspruchte Rollen zu überprüfen
Behauptungen über Fachkenntnisse zu validieren

Für den Market-Agenten:

Deine TAM/SAM/SOM-Behauptungen mit Branchenberichten und Analystendaten zu validieren
Wachstumstrends in deinem Sektor anhand aktueller Quellen zu überprüfen
Die Wettbewerbslandschaft anhand von Live-Daten abzubilden – nicht anhand veralteter Datenbanken

Für den Risk-Agenten:

Konkurrenten zu finden, die du nicht erwähnt hast
Historische Misserfolge in deinem Bereich zu untersuchen
Regulatorische und Ausführungsrisiken zu identifizieren, die speziell für deinen Markt gelten

Der Researcher gibt natürlichsprachliche Erkenntnisse aus – rohe Beweise, keine Bewertungen.

Jenseits der Websuche: Verifizierte Datenquellen

Die Websuche ist die Basis, nicht die Obergrenze. Wir erweitern die Rechercheebene kontinuierlich mit direkten API-Integrationen, die verifizierte, strukturierte Daten liefern – keine Web-Scrapes:

Berufsprofile – LinkedIn API für Beschäftigungsverlauf, Ausbildung und Empfehlungen
Finanzdaten – Stripe, Zahlungsabwickler zur Umsatzverifizierung
Nutzungsanalysen – Google Analytics, Mixpanel für Traktionsmetriken
Codeaktivität – GitHub für Entwicklungsgeschwindigkeit und Teamgröße-Signale
Unternehmensdaten – Firmenregister, Patentdatenbanken, SEC-Anmeldungen
Marktdaten – Branchenanalysten-APIs zur TAM-Validierung und für Benchmarks

Jede Integration fügt eine Quellebene über der Websuche hinzu. Wenn der Team-Agent die Rolle eines Gründers über eine professionelle API anstelle einer Blog-Erwähnung verifizieren kann, steigt das Confidence Tier – und damit auch die Zuverlässigkeit der Bewertung.

Wir fügen jedes Quartal neue verifizierte Quellen hinzu. Das Ziel: die Abhängigkeit von der Websuche im Laufe der Zeit zu verringern und uns in eine Welt zu bewegen, in der die meisten Behauptungen programmatisch verifiziert werden.

Phase 2: Der Analyst (strukturierte Bewertung)

Der zweite Agent nimmt die Rechercheergebnisse und erstellt eine strukturierte Analyse:

Dualachsen-Bewertungen: Jede Dimension erhält sowohl eine Potentielle Bewertung (0-10) als auch eine Readiness-Bewertung (0-10)
Konfidenzintervalle: Jede Bewertung enthält untere/obere Grenzen, die auf der Qualität der Beweise basieren
Beweisketten: Jede Behauptung wird mit einem Confidence Tier mit ihrer Quelle verknüpft
Begründung: Schriftliche Begründung für jede Bewertung

Warum zwei separate Agenten? Verschiedene KI-Modelle zeichnen sich bei unterschiedlichen Aufgaben aus. Die für die Websuche optimierten Modelle sind nicht dieselben, die die beste strukturierte Analyse liefern. Also teilen wir die Arbeit auf: Ein Agent sammelt, ein Agent urteilt. Jeder verwendet das richtige Modell für seine Aufgabe.

Dualachsen-Bewertung: Potenzial vs. Bereitschaft

Die meisten Bewertungssysteme geben dir eine einzige Zahl. Das ist, als würde man ein Restaurant auf einer Skala von 1-10 bewerten – es fasst zu viele Dimensionen in einer zusammen.

GemScore verwendet zwei Achsen:

Potenzial (0-100): Wie groß könnte das werden, wenn alles gut geht?

Marktgröße und -wachstum
Fähigkeitsgrenze des Teams
Skalierbarkeit des Geschäftsmodells
Potenzial der technischen Differenzierung

Readiness (0-100): Wie gut ist dieses Startup im Moment auf die Umsetzung vorbereitet?

Vollständigkeit und Verfügbarkeit des Teams
Marktvalidierung und Traktion
Klarheit des Geschäftsmodells und Stückkosten
Produktentwicklungsstadium

Dadurch entstehen vier aussagekräftige Quadranten:

                         READINESS
                   Low              High
              ┌──────────────┬──────────────┐
              │              │              │
    High      │  Big Vision  │   Strong     │
              │  Needs Help  │   Candidate  │
 POTENTIAL    │              │              │
              ├──────────────┼──────────────┤
              │              │              │
    Low       │   Rethink    │   Solid Biz  │
              │   Needed     │   Low Upside │
              │              │              │
              └──────────────┴──────────────┘

Eine Idee in der Frühphase wird naturgemäß ein hohes Potenzial und eine geringere Readiness haben – das ist zu erwarten. Ein reifes Startup sollte in beiden Bereichen hoch punkten. Die Achsen erzählen unterschiedlichen Zielgruppen unterschiedliche Geschichten: Gründer kümmern sich um Readiness-Lücken, die sie beheben können; Investoren kümmern sich um das Potenzial, auf das sie wetten können.

Der Airbnb 2008 Test

Wir kalibrieren unser System anhand historischer Startups, die so bewertet werden, als hätten wir sie in ihrer frühesten Phase gesehen. Nehmen wir Airbnb im Jahr 2008:

Potenzial: Sollte hoch punkten – riesiger Markt (Reisen), Netzwerkeffekte, Plattformökonomie
Readiness: Sollte niedrig punkten – keine Traktion, unbewiesenes Konzept, dünnes Team

Wenn unser System Airbnb 2008 als "Geringes Potenzial" bewertet hätte – wie viele VCs zu dieser Zeit –, wäre das ein Kalibrierungsfehler. Das Dualachsen-System verhindert den häufigen Fehler, große Ideen dafür zu bestrafen, dass sie früh sind.

Konfidenzintervalle: Ehrlichkeit über Unsicherheit

Jede Bewertung in einem GemScore-Bericht enthält eine Confidence Range:

┌─────────────────────────────────────────────────────────────────┐
│  CONFIDENCE VISUALIZATION — Market Potential                     │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│    0        25        50        75       100                     │
│    ├─────────┼─────────┼─────────┼─────────┤                     │
│                              [====●====]                          │
│                              68   74   80                         │
│                                                                   │
│    Score: 74        Range: 68 — 80        Confidence: Medium     │
│                                                                   │
│    Interpretation: We're reasonably confident the true score     │
│    is between 68 and 80. The width reflects evidence quality.    │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Enge Range (z. B. 72-76): Starke Beweise aus mehreren verifizierten Quellen. Hohe Confidence. Breite Range (z. B. 55-80): Begrenzte Beweise, mehr Unsicherheit. Die tatsächliche Position des Startups könnte erheblich variieren.

Wir zeigen dir lieber ehrliche Unsicherheit als falsche Präzision.

Evidence Tiers

Nicht alle Beweise sind gleich. Wir klassifizieren Beweise in Confidence Tiers:

Tier	Quellentypen	Signal
API-Verified	Direkte API-Daten (Stripe-Umsatz, LinkedIn API, Google Analytics)	Höchste – maschinell verifiziert, manipulationssicher
Verified	Öffentliche Anmeldungen, bestätigte Pressemitteilungen, Regierungsaufzeichnungen, Patentdatenbanken	Sehr hoch – unabhängig verifizierbar
Corroborated	Mehrere unabhängige Webquellen stimmen überein	Hoch – quellenübergreifend geprüft
Partial	Berufsprofile, Erwähnungen aus einer einzigen Quelle	Moderat – plausibel, aber nicht bestätigt
Claimed	Vom Benutzer eingereicht ohne externe Beweise	Baseline – akzeptiert, aber abgewertet
Absent	Keine Beweise dafür oder dagegen gefunden	Minimal – unzureichende Daten

Das System wertet nicht verifizierte Behauptungen erheblich ab. Wir bezeichnen Gründer nicht als Lügner – aber außergewöhnliche Behauptungen brauchen zumindest einige Beweise, um eine aussagekräftige Gewichtung zu haben. Unsere Verifizierungs-Pipeline verwendet mehrere Cross-Referenzierungsstrategien, die wir kontinuierlich verbessern.

So sehen Beweisketten im Bericht aus:

┌─────────────────────────────────────────────────────────────────┐
│  EVIDENCE CHAIN — Team Agent                                     │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  CLAIM: "CTO has 12 years experience in healthcare AI"           │
│  ┌─────────────────────────────────────────────────────────────┐ │
│  │  Evidence #1: LinkedIn profile (public)                     │ │
│  │  → Confirmed: Senior ML Engineer at MedTech Inc (2018-2023) │ │
│  │  → Confirmed: PhD in Computational Biology, Stanford        │ │
│  │  → Tier: Corroborated                                       │ │
│  ├─────────────────────────────────────────────────────────────┤ │
│  │  Evidence #2: Press mention                                 │ │
│  │  → TechCrunch (2022): "MedTech acqui-hire of AI team led   │ │
│  │    by [name]"                                               │ │
│  │  → Tier: Verified                                           │ │
│  ├─────────────────────────────────────────────────────────────┤ │
│  │  Evidence #3: Patent records                                │ │
│  │  → 3 patents in NLP for clinical data (USPTO)              │ │
│  │  → Tier: Verified                                           │ │
│  └─────────────────────────────────────────────────────────────┘ │
│                                                                   │
│  VERDICT: Claim verified with High confidence                    │
│  Impact on Team score: +1.2 Potential, +1.8 Readiness           │
│                                                                   │
│  CLAIM: "2,000 daily active users on pilot"                      │
│  ┌─────────────────────────────────────────────────────────────┐ │
│  │  Evidence: None found                                       │ │
│  │  → No public usage data, no app store presence              │ │
│  │  → Tier: Claimed (user-submitted only)                      │ │
│  └─────────────────────────────────────────────────────────────┘ │
│                                                                   │
│  VERDICT: Claim unverified — weight significantly reduced        │
│  Note: Connect analytics (Stripe, GA) in V4 to auto-verify      │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Der Validierungs-Agent: Widersprüche aufdecken

Nachdem alle fünf Agenten ihre Analyse abgeschlossen haben, überprüft ein Validierungs-Agent ihre kombinierte Ausgabe:

Querverweise: Stimmt die Wettbewerbslandschaft des Market-Agenten mit den Erkenntnissen des Risk-Agenten überein?
Widerspruchserkennung: Hat der Team-Agent "starker technischer Hintergrund" gesagt, während der Product-Agent "Bedenken hinsichtlich der Machbarkeit" angemerkt hat?
Nicht verifizierte Behauptungen mit hoher Wirkung: Wenn eine Schlüsselbewertung von einer Behauptung mit geringer Confidence abhängt, wird dies gekennzeichnet
Schwerpunkte der Debatte: Der Validierungs-Agent teilt dem Debattensystem mit, worauf es sich konzentrieren soll

Dieser Schritt fängt die Fälle ab, in denen einzelne Agenten vernünftige Annahmen getroffen haben, die sich in Kombination widersprechen.

Die Debatte: Optimist vs. Pessimist

Das ist der Teil, den die Leute am interessantesten finden.

Nachdem die Agenten bewertet haben und der Validierungs-Agent Crosschecks durchgeführt hat, argumentieren zwei synthetische Debattierer über dein Startup:

Der Optimist baut den bestmöglichen Fall auf:

Hebt die vielversprechendsten Signale hervor
Argumentiert für Aufwärtsszenarien
Stellt Risikobewertungen in Frage, die übermäßig konservativ erscheinen
Verweist auf vergleichbare Erfolge

Der Pessimist stresstestet alles:

Identifiziert die schwächsten Annahmen
Argumentiert für Abwärtsszenarien
Stellt optimistische Prognosen in Frage
Verweist auf vergleichbare Misserfolge

Sie argumentieren hin und her, wobei jeder auf die Argumente des anderen eingeht. Die Debatte ist strukturiert – keine freie Argumentation –, wobei jede Runde bestimmte Dimensionen behandelt.

So sieht die Debattenzusammenfassung im Bericht aus:

┌─────────────────────────────────────────────────────────────────┐
│  DEBATE SUMMARY                                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  OPTIMIST argued:                                                │
│  "Healthcare AI market growing 42% CAGR. Team has rare combo    │
│  of clinical + technical expertise. 3 hospital pilots is strong  │
│  signal for a pre-seed company. Regulatory moat once achieved    │
│  creates defensibility most SaaS can't match."                   │
│                                                                   │
│  PESSIMIST argued:                                               │
│  "Regulatory pathway is the critical unknown. No compliance      │
│  lead on team — this isn't a nice-to-have, it's existential.    │
│  2 of 3 hospital pilots are with the same health system,         │
│  reducing signal strength. Burn rate not disclosed."             │
│                                                                   │
│  RESOLUTION:                                                      │
│  Pessimist's regulatory concern was compelling — Potential        │
│  adjusted slightly down, Readiness adjusted down more            │
│  significantly. Optimist's market growth argument held: TAM      │
│  data verified independently. Net effect: Potential stable,      │
│  Readiness decreased due to compliance gap.                      │
│                                                                   │
│  Score adjustments applied: Potential ─, Readiness ↓             │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Warum Debatten wichtig sind

Das Debattensystem existiert, weil einzelne Agenten einen bekannten Fehlermodus haben: Sie verankern sich an ihrer ersten Einschätzung. Wenn der Team-Agent einen Gründer gut bewertet hat, wird er den Fall für eine niedrigere Bewertung nicht von sich aus in Betracht ziehen.

Die Debatte zwingt beide Fälle, explizit argumentiert zu werden. Der abschließende Richter wägt diese Argumente dann gegen die ursprünglichen Agentenbewertungen ab und passt sie nach oben oder unten an, je nachdem, welcher Debattierer stärkere, beweisgestützte Punkte vorgebracht hat.

Die Anpassungen sind aussagekräftig, aber begrenzt – die Debatte verfeinert die Bewertungen, anstatt sie zu überschreiben. Es ist der Unterschied zwischen "Vielleicht" und "Ja" – oder "Ja" und "Starkes Ja".

Der abschließende Richter: Kalibrierte Bewertung

Der abschließende Richter nimmt alles:

Fünf Agentenbewertungen mit Konfidenzintervallen
Validierungs-Agent-Flags
Vollständiges Debattentprotokoll
Beweisketten von allen Agenten

Und erstellt den Abschlussbericht:

┌─────────────────────────────────────────────────────────────────┐
│  FINAL JUDGMENT                                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  RECOMMENDATION:  YES                                     │   │
│  │                                                           │   │
│  │  Potential:  78 / 100   (range: 72-84, confidence: Med)   │   │
│  │  Readiness:  52 / 100   (range: 44-60, confidence: Med)   │   │
│  │                                                           │   │
│  │  Percentile: Top 22% in HealthTech (Potential)            │   │
│  │              Top 45% in HealthTech (Readiness)            │   │
│  └──────────────────────────────────────────────────────────┘   │
│                                                                   │
│  EXECUTIVE SUMMARY (TL;DR):                                      │
│  AcmeHealth presents a compelling opportunity in a large,        │
│  fast-growing healthcare AI market. The founding team has         │
│  strong domain expertise verified through public records,        │
│  including a CTO with published patents in clinical NLP.         │
│  Three hospital pilots demonstrate early market pull. The        │
│  primary risk is regulatory: no compliance lead on the team      │
│  and an unclear FDA pathway. Business model unit economics       │
│  were not provided, limiting our ability to assess capital       │
│  efficiency. Recommend hiring a compliance officer as first      │
│  priority and securing at least 2 pilots outside the current     │
│  health system to broaden the signal.                            │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Der Richter ist auf unseren historischen Datensatz bekannter Ergebnisse kalibriert. Er weiß zum Beispiel, dass Healthtech-Startups ohne regulatorische Expertise historisch gesehen mit längeren Zeiträumen konfrontiert sind, und passt die Erwartungen entsprechend an.

Das Investment Memo

Jeder vollständige GemScore-Bericht generiert auch ein IC-ähnliches Investment Memo – die Art, die ein VC-Associate für sein Investmentkomitee schreiben würde:

┌─────────────────────────────────────────────────────────────────┐
│  INVESTMENT MEMO — AcmeHealth                                    │
│  Generated: Feb 9, 2026                                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  EXECUTIVE SUMMARY                                               │
│  AcmeHealth is building an AI-powered patient triage system      │
│  for hospital emergency departments. The company is pre-seed     │
│  with 3 hospital pilots (2 within a single health system).       │
│                                                                   │
│  INVESTMENT THESIS                                               │
│  Healthcare AI market is $8.2B (Gartner, 2025) growing at       │
│  42% CAGR. Team has rare clinical + technical combination.       │
│  FDA regulatory moat creates long-term defensibility.            │
│                                                                   │
│  KEY STRENGTHS                                                    │
│  1. CTO: 12yr healthcare AI, 3 patents, Stanford PhD            │
│  2. Market: Large TAM with strong secular tailwind               │
│  3. Traction: 3 hospital pilots active                           │
│                                                                   │
│  KEY RISKS                                                        │
│  1. No regulatory/compliance lead (critical for FDA path)        │
│  2. 2/3 pilots within same health system                         │
│  3. Unit economics not provided                                  │
│                                                                   │
│  RECOMMENDATION                                                   │
│  Proceed to next stage. Conditional on regulatory hire.          │
│                                                                   │
│  [Download PDF]  [Share with Co-investors]                       │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Das Memo ist für den professionellen Gebrauch strukturiert: Teile es mit Co-Investoren, verwende es für dein IC oder gib es im Rahmen deiner Due-Diligence-Dokumentation an einen LP weiter.

Die vollständige Pipeline

Hier ist der vollständige Ablauf von der Einreichung bis zum Bericht:

┌──────────────────────────────────────────────────────────────┐
│                    GEMSCORE EVALUATION PIPELINE                │
├──────────────────────────────────────────────────────────────┤
│                                                                │
│  1. INGESTION                                                  │
│     └─ Parse structured input / documents / voice transcript   │
│                                                                │
│  2. PARALLEL AGENTS (5 running simultaneously)                 │
│     ┌─────────────────┐  ┌─────────────────┐                  │
│     │  Team           │  │  Market         │                  │
│     │  Research → ◆   │  │  Research → ◆   │                  │
│     │  Analysis  → ◆  │  │  Analysis  → ◆  │                  │
│     └─────────────────┘  └─────────────────┘                  │
│     ┌─────────────────┐  ┌─────────────────┐                  │
│     │  Business       │  │  Product        │                  │
│     │  Research → ◆   │  │  Research → ◆   │                  │
│     │  Analysis  → ◆  │  │  Analysis  → ◆  │                  │
│     └─────────────────┘  └─────────────────┘                  │
│     ┌─────────────────┐                                       │
│     │  Risk           │                                       │
│     │  Research → ◆   │                                       │
│     │  Analysis  → ◆  │                                       │
│     └────────┬────────┘                                       │
│              ▼                                                 │
│  3. VALIDATION                                                 │
│     └─ Cross-check all agent outputs for contradictions        │
│              ▼                                                 │
│  4. DEBATE                                                     │
│     ├─ Optimist builds bull case                               │
│     ├─ Pessimist builds bear case                              │
│     └─ Multiple rounds of structured argument                  │
│              ▼                                                 │
│  5. FINAL JUDGMENT                                             │
│     └─ Calibrated scores + recommendation + TL;DR              │
│              ▼                                                 │
│  6. REPORT GENERATION                                          │
│     ├─ Full report with evidence chains                        │
│     ├─ IC-style investment memo                                │
│     └─ Visual analytics (charts, competitive maps)             │
│                                                                │
│  Total: 8-15 minutes. All agents parallel where possible.      │
│                                                                │
└──────────────────────────────────────────────────────────────┘

Was passiert, wenn etwas schief geht

KI-Systeme versagen. Wir haben dafür vorgesorgt.

Wenn ein Agent während der Bewertung ausfällt:

Die gesamte Bewertung wird sofort gestoppt – keine Teilergebnisse
Dein Guthaben wird automatisch zurückerstattet
Ein Fehlerbericht wird zur Fehlersuche gespeichert
Du wirst benachrichtigt und kannst es erneut versuchen

Wir erstellen keine Berichte mit fehlenden Daten. Wenn der Market-Agent ausfällt und die anderen vier erfolgreich sind, erhältst du keinen Bericht mit einem leeren Marktbereich. Du erhältst eine Rückerstattung und eine Entschuldigung.

Dies ist ein bewusster Kompromiss. Wir geben dir lieber nichts, als dir etwas Irreführendes zu geben.

Full vs. Lite: Was sich ändert

Wir bieten jeden Monat eine kostenlose Quick Validation an. Hier sind die Unterschiede zur vollständigen Bewertung:

Dimension	Quick Validation (Free)	Full GemScore
Agents	4 (Team, Market, Business, Risk)	5 (+ Product)
Scoring	Nur Potenzial	Potenzial + Readiness
Debate	Nein	Ja (Optimist vs. Pessimist)
Evidence depth	Einfache Websuche	Tiefgehende Verifizierung aus mehreren Quellen
Confidence intervals	Nein	Ja
Time	2-4 Minuten	8-15 Minuten
Output	Go/No-Go-Urteil + nächste Schritte	Vollständiger Bericht + Memo + Diagramme
Cost	Kostenlos (1/Monat)	Bezahltes Guthaben

So sieht die Quick Validation aus:

┌─────────────────────────────────────────────────────────────────┐
│  QUICK VALIDATION — AcmeHealth                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  VERDICT:  ● WORTH PURSUING                                      │
│                                                                   │
│  Potential Score:  74 / 100                                      │
│                                                                   │
│  Market Opportunity:   Strong  ●●●●○                             │
│  Founder-Idea Fit:     Good    ●●●○○                             │
│  Competitive Landscape: Emerging (3 direct competitors found)    │
│                                                                   │
│  TOP STRENGTH                                                     │
│  Founding team combines clinical and AI expertise — a rare       │
│  combination that most competitors lack.                         │
│                                                                   │
│  CRITICAL ISSUE                                                   │
│  No regulatory strategy or compliance expertise on team.         │
│  Healthcare AI without an FDA pathway is a non-starter           │
│  for institutional investors.                                    │
│                                                                   │
│  NEXT STEPS                                                       │
│  1. Hire or advise with a regulatory/compliance expert (Week 1)  │
│  2. Map FDA pathway: 510(k) vs De Novo for your use case        │
│  3. Secure 2 additional hospital pilots outside current system   │
│                                                                   │
│  ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─  │
│  Want the full picture? Upgrade to Full GemScore for:            │
│  ✦ Readiness scoring  ✦ Debate analysis  ✦ Investment memo       │
│  ✦ Confidence intervals  ✦ Visual analytics  ✦ Evidence chains  │
│                                                                   │
│  [Upgrade to Full GemScore]                                      │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Der kostenlose Tier gibt dir eine echte Antwort: Ist es wert, verfolgt zu werden? Der kostenpflichtige Tier gibt dir das Gesamtbild: Wie stark ist es, wo sind die Lücken und was würde ein IC-Memo sagen?

Die KI herausfordern: Notizen zu Berichten

KI macht Fehler. Das erwarten wir – und wir haben ein System entwickelt, mit dem Gründer sich wehren können.

Wenn du mit etwas in deinem Bericht nicht einverstanden bist, kannst du den Text auswählen, eine Notiz hinzufügen, in der du erklärst, warum, und eine Neubewertung beantragen. Die KI wird mit deinem zusätzlichen Kontext neu ausgeführt.

┌─────────────────────────────────────────────────────────────────┐
│  NOTES ON REPORT — AcmeHealth                                    │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  NOTE #1 (Team Analysis)                                         │
│  Selected: "No evidence of prior healthcare exits"               │
│  Your note: "Our CTO led the patient-flow team at MedTech       │
│  before the Optum acquisition in 2022. The product was sold      │
│  for $38M. Here's the press release: [link]"                     │
│                                                                   │
│  AI Decision: ✓ ACCEPTED                                         │
│  Agent: Team Analyzer                                            │
│  Response: "The press release confirms CTO's involvement in      │
│  the Optum acquisition. This strengthens the team's execution    │
│  track record. Prior exit verified — confidence upgraded from    │
│  Claimed to Corroborated."                                       │
│  Impact: Team Readiness score improved naturally.                │
│                                                                   │
│  ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─  │
│                                                                   │
│  NOTE #2 (Market Analysis)                                       │
│  Selected: "TAM of $50B appears inflated"                        │
│  Your note: "The $50B figure includes all clinical AI, not       │
│  just triage. Our addressable market is ED triage specifically   │
│  — I meant to enter $4.2B."                                      │
│                                                                   │
│  AI Decision: ✓ ACCEPTED                                         │
│  Agent: Market Analyzer                                          │
│  Response: "Corrected TAM to $4.2B for ED triage segment.       │
│