Athanor Team 10 Min. Lesezeit

Wie unsere KI deine Startup tatsächlich bewertet

Fünf spezialisierte KI-Agenten, Echtzeit-Webrecherche, eine strukturierte Debatte und ein abschließender Richter. Hier ist genau, wie GemScore im Inneren funktioniert – keine Black Boxes.

AI evaluation GemScore startup scoring dual-axis scoring confidence intervals investment memo
Wie unsere KI deine Startup tatsächlich bewertet

Die meisten KI-Tools sind Black Boxes. Man gibt etwas hinein, bekommt eine Zahl heraus und soll dem Ganzen vertrauen.

Wir finden, das ist nicht gut genug – besonders, wenn man das Lebenswerk von jemandem bewertet.

Dieser Beitrag erklärt, wie GemScore Startups bewertet: die Agenten, die Recherche, die Debatte, die Bewertung. Kein Marketing. Kein Schönreden. Nur das System.


Der 60-Sekunden-Überblick

Wenn du eine Idee zur Bewertung einreichst, passiert Folgendes:

  1. Fünf spezialisierte KI-Agenten analysieren dein Startup parallel – jeder konzentriert sich auf eine andere Dimension
  2. Jeder Agent führt einen zweiphasigen Prozess durch: zuerst Webrecherche, dann strukturierte Analyse
  3. Ein Validierungs-Agent überprüft alle fünf Agenten auf Widersprüche und nicht verifizierte Behauptungen
  4. Ein Optimist und ein Pessimist debattieren über die Vorzüge deines Startups
  5. Ein abschließender Richter wägt die Debatte ab und erstellt kalibrierte Bewertungen
  6. Dein Bericht wird mit Beweisketten, Konfidenzintervallen und einem IC-ähnlichen Memo generiert

Gesamtdauer: 8-15 Minuten für eine vollständige Bewertung. Jede Behauptung wird auf eine Quelle zurückgeführt. Jede Bewertung wird begründet.

So sieht der Abschlussbericht aus (du kannst einen Live-Demo-Bericht anzeigen, um ihn in Aktion zu sehen):

┌─────────────────────────────────────────────────────────────────┐
│  GEMSCORE EVALUATION REPORT                                      │
│  Project: AcmeHealth — AI-Powered Patient Triage                 │
│  Evaluated: Feb 9, 2026                                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│   POTENTIAL           READINESS            RECOMMENDATION         │
│   ┌─────────┐        ┌─────────┐          ┌──────────────┐      │
│   │   78    │        │   52    │          │    YES       │      │
│   │  /100   │        │  /100   │          │              │      │
│   └─────────┘        └─────────┘          └──────────────┘      │
│   range: 72-84        range: 44-60                               │
│   confidence: Medium  confidence: Medium                          │
│                                                                   │
│   TL;DR: Strong founding team with healthcare domain expertise.  │
│   TAM verified at $8.2B. MVP in pilot with 3 hospitals.          │
│   Key risk: regulatory pathway unclear, no compliance lead.      │
│   Recommend: hire compliance officer, secure 2 more pilots.      │
│                                                                   │
│   [Full Report]  [Investment Memo]  [Charts]  [Data Room]       │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Die fünf Agenten

Jeder Agent ist ein Spezialist. Sie laufen parallel – nicht sequenziell –, weil eine frische Perspektive wichtiger ist als ein Konsens.

Agent Fokus Was er bewertet
Team Personen Gründerhintergründe, Fachkenntnisse, Ausführungsbilanz, Vollständigkeit des Teams
Market Chance TAM/SAM/SOM-Validierung, Wachstumstrends, Wettbewerbslandschaft, Nachfragesignale
Business Modell Umsatzmodell, Stückkosten, Skalierbarkeit, Kapitaleffizienz
Product Lösung Problem-Lösungs-Passung, technische Machbarkeit, MVP-Klarheit, Verteidigungsfähigkeit, Alleinstellungsmerkmal
Risk Bedrohungen Wettbewerbsbedrohungen, Ausführungsrisiken, historische Misserfolge in diesem Bereich

Die Gewichtungen sind so kalibriert, dass sie die Prioritäten von Frühphaseninvestitionen widerspiegeln. Das Team hat das höchste Gewicht – was damit übereinstimmt, wie die meisten VCs in der Pre-Seed- und Seed-Phase bewerten. Wenn Startups reifer werden, werden Produkt und Geschäftsmodell natürlich wichtiger. Die genaue Gewichtung ist Teil unseres proprietären Bewertungsmodells und wird kontinuierlich an realen Ergebnissen angepasst.

So sieht die Aufschlüsselung nach Agenten in einem Bericht aus:

┌─────────────────────────────────────────────────────────────────┐
│  AGENT SCORES BREAKDOWN                                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  TEAM        ████████████████████░░░░  Potential: 8.2 / 10      │
│              ██████████████░░░░░░░░░░  Readiness: 6.1 / 10      │
│              Confidence: High — 3 founders verified via public   │
│              records. CTO has 2 prior exits confirmed.           │
│                                                                   │
│  MARKET      ████████████████░░░░░░░░  Potential: 7.4 / 10      │
│              ██████████████████░░░░░░  Readiness: 6.8 / 10      │
│              Confidence: Medium — TAM verified via Gartner.      │
│              SAM estimate unverified (user claim only).          │
│                                                                   │
│  BUSINESS    ██████████████░░░░░░░░░░  Potential: 6.5 / 10      │
│              ████████░░░░░░░░░░░░░░░░  Readiness: 3.8 / 10      │
│              Confidence: Low — Unit economics not provided.      │
│              Revenue model based on comparable SaaS benchmarks.  │
│                                                                   │
│  PRODUCT     ██████████████████░░░░░░  Potential: 7.8 / 10      │
│              ██████████░░░░░░░░░░░░░░  Readiness: 4.5 / 10      │
│              Confidence: Medium — MVP exists but no usage data.  │
│              Technical architecture appears sound.                │
│                                                                   │
│  RISK        ████████████░░░░░░░░░░░░  Potential: 5.6 / 10      │
│              ██████████████░░░░░░░░░░  Readiness: 6.2 / 10      │
│              Confidence: High — 4 direct competitors identified. │
│              Regulatory risk flagged as primary concern.          │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Das Dual-Agenten-Muster: Recherche + Analyse

Hier wird es interessant. Jeder der fünf Agenten ist eigentlich zwei Agenten, die nacheinander arbeiten.

Phase 1: Der Researcher (Websuche)

Der erste Agent sucht im offenen Web nach Hinweisen. Er vertraut deinen Behauptungen nicht – er überprüft sie.

Für den Team-Agenten bedeutet dies:

  • Die Behauptungen der Gründer mit öffentlichen Aufzeichnungen, Pressemitteilungen und beruflichen Profilen abzugleichen
  • Frühere Unternehmungen und beanspruchte Rollen zu überprüfen
  • Behauptungen über Fachkenntnisse zu validieren

Für den Market-Agenten:

  • Deine TAM/SAM/SOM-Behauptungen mit Branchenberichten und Analystendaten zu validieren
  • Wachstumstrends in deinem Sektor anhand aktueller Quellen zu überprüfen
  • Die Wettbewerbslandschaft anhand von Live-Daten abzubilden – nicht anhand veralteter Datenbanken

Für den Risk-Agenten:

  • Konkurrenten zu finden, die du nicht erwähnt hast
  • Historische Misserfolge in deinem Bereich zu untersuchen
  • Regulatorische und Ausführungsrisiken zu identifizieren, die speziell für deinen Markt gelten

Der Researcher gibt natürlichsprachliche Erkenntnisse aus – rohe Beweise, keine Bewertungen.

Jenseits der Websuche: Verifizierte Datenquellen

Die Websuche ist die Basis, nicht die Obergrenze. Wir erweitern die Rechercheebene kontinuierlich mit direkten API-Integrationen, die verifizierte, strukturierte Daten liefern – keine Web-Scrapes:

  • Berufsprofile – LinkedIn API für Beschäftigungsverlauf, Ausbildung und Empfehlungen
  • Finanzdaten – Stripe, Zahlungsabwickler zur Umsatzverifizierung
  • Nutzungsanalysen – Google Analytics, Mixpanel für Traktionsmetriken
  • Codeaktivität – GitHub für Entwicklungsgeschwindigkeit und Teamgröße-Signale
  • Unternehmensdaten – Firmenregister, Patentdatenbanken, SEC-Anmeldungen
  • Marktdaten – Branchenanalysten-APIs zur TAM-Validierung und für Benchmarks

Jede Integration fügt eine Quellebene über der Websuche hinzu. Wenn der Team-Agent die Rolle eines Gründers über eine professionelle API anstelle einer Blog-Erwähnung verifizieren kann, steigt das Confidence Tier – und damit auch die Zuverlässigkeit der Bewertung.

Wir fügen jedes Quartal neue verifizierte Quellen hinzu. Das Ziel: die Abhängigkeit von der Websuche im Laufe der Zeit zu verringern und uns in eine Welt zu bewegen, in der die meisten Behauptungen programmatisch verifiziert werden.

Phase 2: Der Analyst (strukturierte Bewertung)

Der zweite Agent nimmt die Rechercheergebnisse und erstellt eine strukturierte Analyse:

  • Dualachsen-Bewertungen: Jede Dimension erhält sowohl eine Potentielle Bewertung (0-10) als auch eine Readiness-Bewertung (0-10)
  • Konfidenzintervalle: Jede Bewertung enthält untere/obere Grenzen, die auf der Qualität der Beweise basieren
  • Beweisketten: Jede Behauptung wird mit einem Confidence Tier mit ihrer Quelle verknüpft
  • Begründung: Schriftliche Begründung für jede Bewertung

Warum zwei separate Agenten? Verschiedene KI-Modelle zeichnen sich bei unterschiedlichen Aufgaben aus. Die für die Websuche optimierten Modelle sind nicht dieselben, die die beste strukturierte Analyse liefern. Also teilen wir die Arbeit auf: Ein Agent sammelt, ein Agent urteilt. Jeder verwendet das richtige Modell für seine Aufgabe.


Dualachsen-Bewertung: Potenzial vs. Bereitschaft

Die meisten Bewertungssysteme geben dir eine einzige Zahl. Das ist, als würde man ein Restaurant auf einer Skala von 1-10 bewerten – es fasst zu viele Dimensionen in einer zusammen.

GemScore verwendet zwei Achsen:

Potenzial (0-100): Wie groß könnte das werden, wenn alles gut geht?

  • Marktgröße und -wachstum
  • Fähigkeitsgrenze des Teams
  • Skalierbarkeit des Geschäftsmodells
  • Potenzial der technischen Differenzierung

Readiness (0-100): Wie gut ist dieses Startup im Moment auf die Umsetzung vorbereitet?

  • Vollständigkeit und Verfügbarkeit des Teams
  • Marktvalidierung und Traktion
  • Klarheit des Geschäftsmodells und Stückkosten
  • Produktentwicklungsstadium

Dadurch entstehen vier aussagekräftige Quadranten:

                         READINESS
                   Low              High
              ┌──────────────┬──────────────┐
              │              │              │
    High      │  Big Vision  │   Strong     │
              │  Needs Help  │   Candidate  │
 POTENTIAL    │              │              │
              ├──────────────┼──────────────┤
              │              │              │
    Low       │   Rethink    │   Solid Biz  │
              │   Needed     │   Low Upside │
              │              │              │
              └──────────────┴──────────────┘

Eine Idee in der Frühphase wird naturgemäß ein hohes Potenzial und eine geringere Readiness haben – das ist zu erwarten. Ein reifes Startup sollte in beiden Bereichen hoch punkten. Die Achsen erzählen unterschiedlichen Zielgruppen unterschiedliche Geschichten: Gründer kümmern sich um Readiness-Lücken, die sie beheben können; Investoren kümmern sich um das Potenzial, auf das sie wetten können.

Der Airbnb 2008 Test

Wir kalibrieren unser System anhand historischer Startups, die so bewertet werden, als hätten wir sie in ihrer frühesten Phase gesehen. Nehmen wir Airbnb im Jahr 2008:

  • Potenzial: Sollte hoch punkten – riesiger Markt (Reisen), Netzwerkeffekte, Plattformökonomie
  • Readiness: Sollte niedrig punkten – keine Traktion, unbewiesenes Konzept, dünnes Team

Wenn unser System Airbnb 2008 als "Geringes Potenzial" bewertet hätte – wie viele VCs zu dieser Zeit –, wäre das ein Kalibrierungsfehler. Das Dualachsen-System verhindert den häufigen Fehler, große Ideen dafür zu bestrafen, dass sie früh sind.


Konfidenzintervalle: Ehrlichkeit über Unsicherheit

Jede Bewertung in einem GemScore-Bericht enthält eine Confidence Range:

┌─────────────────────────────────────────────────────────────────┐
│  CONFIDENCE VISUALIZATION — Market Potential                     │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│    0        25        50        75       100                     │
│    ├─────────┼─────────┼─────────┼─────────┤                     │
│                              [====●====]                          │
│                              68   74   80                         │
│                                                                   │
│    Score: 74        Range: 68 — 80        Confidence: Medium     │
│                                                                   │
│    Interpretation: We're reasonably confident the true score     │
│    is between 68 and 80. The width reflects evidence quality.    │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Enge Range (z. B. 72-76): Starke Beweise aus mehreren verifizierten Quellen. Hohe Confidence. Breite Range (z. B. 55-80): Begrenzte Beweise, mehr Unsicherheit. Die tatsächliche Position des Startups könnte erheblich variieren.

Wir zeigen dir lieber ehrliche Unsicherheit als falsche Präzision.

Evidence Tiers

Nicht alle Beweise sind gleich. Wir klassifizieren Beweise in Confidence Tiers:

Tier Quellentypen Signal
API-Verified Direkte API-Daten (Stripe-Umsatz, LinkedIn API, Google Analytics) Höchste – maschinell verifiziert, manipulationssicher
Verified Öffentliche Anmeldungen, bestätigte Pressemitteilungen, Regierungsaufzeichnungen, Patentdatenbanken Sehr hoch – unabhängig verifizierbar
Corroborated Mehrere unabhängige Webquellen stimmen überein Hoch – quellenübergreifend geprüft
Partial Berufsprofile, Erwähnungen aus einer einzigen Quelle Moderat – plausibel, aber nicht bestätigt
Claimed Vom Benutzer eingereicht ohne externe Beweise Baseline – akzeptiert, aber abgewertet
Absent Keine Beweise dafür oder dagegen gefunden Minimal – unzureichende Daten

Das System wertet nicht verifizierte Behauptungen erheblich ab. Wir bezeichnen Gründer nicht als Lügner – aber außergewöhnliche Behauptungen brauchen zumindest einige Beweise, um eine aussagekräftige Gewichtung zu haben. Unsere Verifizierungs-Pipeline verwendet mehrere Cross-Referenzierungsstrategien, die wir kontinuierlich verbessern.

So sehen Beweisketten im Bericht aus:

┌─────────────────────────────────────────────────────────────────┐
│  EVIDENCE CHAIN — Team Agent                                     │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  CLAIM: "CTO has 12 years experience in healthcare AI"           │
│  ┌─────────────────────────────────────────────────────────────┐ │
│  │  Evidence #1: LinkedIn profile (public)                     │ │
│  │  → Confirmed: Senior ML Engineer at MedTech Inc (2018-2023) │ │
│  │  → Confirmed: PhD in Computational Biology, Stanford        │ │
│  │  → Tier: Corroborated                                       │ │
│  ├─────────────────────────────────────────────────────────────┤ │
│  │  Evidence #2: Press mention                                 │ │
│  │  → TechCrunch (2022): "MedTech acqui-hire of AI team led   │ │
│  │    by [name]"                                               │ │
│  │  → Tier: Verified                                           │ │
│  ├─────────────────────────────────────────────────────────────┤ │
│  │  Evidence #3: Patent records                                │ │
│  │  → 3 patents in NLP for clinical data (USPTO)              │ │
│  │  → Tier: Verified                                           │ │
│  └─────────────────────────────────────────────────────────────┘ │
│                                                                   │
│  VERDICT: Claim verified with High confidence                    │
│  Impact on Team score: +1.2 Potential, +1.8 Readiness           │
│                                                                   │
│  CLAIM: "2,000 daily active users on pilot"                      │
│  ┌─────────────────────────────────────────────────────────────┐ │
│  │  Evidence: None found                                       │ │
│  │  → No public usage data, no app store presence              │ │
│  │  → Tier: Claimed (user-submitted only)                      │ │
│  └─────────────────────────────────────────────────────────────┘ │
│                                                                   │
│  VERDICT: Claim unverified — weight significantly reduced        │
│  Note: Connect analytics (Stripe, GA) in V4 to auto-verify      │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Der Validierungs-Agent: Widersprüche aufdecken

Nachdem alle fünf Agenten ihre Analyse abgeschlossen haben, überprüft ein Validierungs-Agent ihre kombinierte Ausgabe:

  • Querverweise: Stimmt die Wettbewerbslandschaft des Market-Agenten mit den Erkenntnissen des Risk-Agenten überein?
  • Widerspruchserkennung: Hat der Team-Agent "starker technischer Hintergrund" gesagt, während der Product-Agent "Bedenken hinsichtlich der Machbarkeit" angemerkt hat?
  • Nicht verifizierte Behauptungen mit hoher Wirkung: Wenn eine Schlüsselbewertung von einer Behauptung mit geringer Confidence abhängt, wird dies gekennzeichnet
  • Schwerpunkte der Debatte: Der Validierungs-Agent teilt dem Debattensystem mit, worauf es sich konzentrieren soll

Dieser Schritt fängt die Fälle ab, in denen einzelne Agenten vernünftige Annahmen getroffen haben, die sich in Kombination widersprechen.


Die Debatte: Optimist vs. Pessimist

Das ist der Teil, den die Leute am interessantesten finden.

Nachdem die Agenten bewertet haben und der Validierungs-Agent Crosschecks durchgeführt hat, argumentieren zwei synthetische Debattierer über dein Startup:

Der Optimist baut den bestmöglichen Fall auf:

  • Hebt die vielversprechendsten Signale hervor
  • Argumentiert für Aufwärtsszenarien
  • Stellt Risikobewertungen in Frage, die übermäßig konservativ erscheinen
  • Verweist auf vergleichbare Erfolge

Der Pessimist stresstestet alles:

  • Identifiziert die schwächsten Annahmen
  • Argumentiert für Abwärtsszenarien
  • Stellt optimistische Prognosen in Frage
  • Verweist auf vergleichbare Misserfolge

Sie argumentieren hin und her, wobei jeder auf die Argumente des anderen eingeht. Die Debatte ist strukturiert – keine freie Argumentation –, wobei jede Runde bestimmte Dimensionen behandelt.

So sieht die Debattenzusammenfassung im Bericht aus:

┌─────────────────────────────────────────────────────────────────┐
│  DEBATE SUMMARY                                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  OPTIMIST argued:                                                │
│  "Healthcare AI market growing 42% CAGR. Team has rare combo    │
│  of clinical + technical expertise. 3 hospital pilots is strong  │
│  signal for a pre-seed company. Regulatory moat once achieved    │
│  creates defensibility most SaaS can't match."                   │
│                                                                   │
│  PESSIMIST argued:                                               │
│  "Regulatory pathway is the critical unknown. No compliance      │
│  lead on team — this isn't a nice-to-have, it's existential.    │
│  2 of 3 hospital pilots are with the same health system,         │
│  reducing signal strength. Burn rate not disclosed."             │
│                                                                   │
│  RESOLUTION:                                                      │
│  Pessimist's regulatory concern was compelling — Potential        │
│  adjusted slightly down, Readiness adjusted down more            │
│  significantly. Optimist's market growth argument held: TAM      │
│  data verified independently. Net effect: Potential stable,      │
│  Readiness decreased due to compliance gap.                      │
│                                                                   │
│  Score adjustments applied: Potential ─, Readiness ↓             │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Warum Debatten wichtig sind

Das Debattensystem existiert, weil einzelne Agenten einen bekannten Fehlermodus haben: Sie verankern sich an ihrer ersten Einschätzung. Wenn der Team-Agent einen Gründer gut bewertet hat, wird er den Fall für eine niedrigere Bewertung nicht von sich aus in Betracht ziehen.

Die Debatte zwingt beide Fälle, explizit argumentiert zu werden. Der abschließende Richter wägt diese Argumente dann gegen die ursprünglichen Agentenbewertungen ab und passt sie nach oben oder unten an, je nachdem, welcher Debattierer stärkere, beweisgestützte Punkte vorgebracht hat.

Die Anpassungen sind aussagekräftig, aber begrenzt – die Debatte verfeinert die Bewertungen, anstatt sie zu überschreiben. Es ist der Unterschied zwischen "Vielleicht" und "Ja" – oder "Ja" und "Starkes Ja".


Der abschließende Richter: Kalibrierte Bewertung

Der abschließende Richter nimmt alles:

  1. Fünf Agentenbewertungen mit Konfidenzintervallen
  2. Validierungs-Agent-Flags
  3. Vollständiges Debattentprotokoll
  4. Beweisketten von allen Agenten

Und erstellt den Abschlussbericht:

┌─────────────────────────────────────────────────────────────────┐
│  FINAL JUDGMENT                                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │  RECOMMENDATION:  YES                                     │   │
│  │                                                           │   │
│  │  Potential:  78 / 100   (range: 72-84, confidence: Med)   │   │
│  │  Readiness:  52 / 100   (range: 44-60, confidence: Med)   │   │
│  │                                                           │   │
│  │  Percentile: Top 22% in HealthTech (Potential)            │   │
│  │              Top 45% in HealthTech (Readiness)            │   │
│  └──────────────────────────────────────────────────────────┘   │
│                                                                   │
│  EXECUTIVE SUMMARY (TL;DR):                                      │
│  AcmeHealth presents a compelling opportunity in a large,        │
│  fast-growing healthcare AI market. The founding team has         │
│  strong domain expertise verified through public records,        │
│  including a CTO with published patents in clinical NLP.         │
│  Three hospital pilots demonstrate early market pull. The        │
│  primary risk is regulatory: no compliance lead on the team      │
│  and an unclear FDA pathway. Business model unit economics       │
│  were not provided, limiting our ability to assess capital       │
│  efficiency. Recommend hiring a compliance officer as first      │
│  priority and securing at least 2 pilots outside the current     │
│  health system to broaden the signal.                            │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Der Richter ist auf unseren historischen Datensatz bekannter Ergebnisse kalibriert. Er weiß zum Beispiel, dass Healthtech-Startups ohne regulatorische Expertise historisch gesehen mit längeren Zeiträumen konfrontiert sind, und passt die Erwartungen entsprechend an.


Das Investment Memo

Jeder vollständige GemScore-Bericht generiert auch ein IC-ähnliches Investment Memo – die Art, die ein VC-Associate für sein Investmentkomitee schreiben würde:

┌─────────────────────────────────────────────────────────────────┐
│  INVESTMENT MEMO — AcmeHealth                                    │
│  Generated: Feb 9, 2026                                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  EXECUTIVE SUMMARY                                               │
│  AcmeHealth is building an AI-powered patient triage system      │
│  for hospital emergency departments. The company is pre-seed     │
│  with 3 hospital pilots (2 within a single health system).       │
│                                                                   │
│  INVESTMENT THESIS                                               │
│  Healthcare AI market is $8.2B (Gartner, 2025) growing at       │
│  42% CAGR. Team has rare clinical + technical combination.       │
│  FDA regulatory moat creates long-term defensibility.            │
│                                                                   │
│  KEY STRENGTHS                                                    │
│  1. CTO: 12yr healthcare AI, 3 patents, Stanford PhD            │
│  2. Market: Large TAM with strong secular tailwind               │
│  3. Traction: 3 hospital pilots active                           │
│                                                                   │
│  KEY RISKS                                                        │
│  1. No regulatory/compliance lead (critical for FDA path)        │
│  2. 2/3 pilots within same health system                         │
│  3. Unit economics not provided                                  │
│                                                                   │
│  RECOMMENDATION                                                   │
│  Proceed to next stage. Conditional on regulatory hire.          │
│                                                                   │
│  [Download PDF]  [Share with Co-investors]                       │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Das Memo ist für den professionellen Gebrauch strukturiert: Teile es mit Co-Investoren, verwende es für dein IC oder gib es im Rahmen deiner Due-Diligence-Dokumentation an einen LP weiter.


Die vollständige Pipeline

Hier ist der vollständige Ablauf von der Einreichung bis zum Bericht:

┌──────────────────────────────────────────────────────────────┐
│                    GEMSCORE EVALUATION PIPELINE                │
├──────────────────────────────────────────────────────────────┤
│                                                                │
│  1. INGESTION                                                  │
│     └─ Parse structured input / documents / voice transcript   │
│                                                                │
│  2. PARALLEL AGENTS (5 running simultaneously)                 │
│     ┌─────────────────┐  ┌─────────────────┐                  │
│     │  Team           │  │  Market         │                  │
│     │  Research → ◆   │  │  Research → ◆   │                  │
│     │  Analysis  → ◆  │  │  Analysis  → ◆  │                  │
│     └─────────────────┘  └─────────────────┘                  │
│     ┌─────────────────┐  ┌─────────────────┐                  │
│     │  Business       │  │  Product        │                  │
│     │  Research → ◆   │  │  Research → ◆   │                  │
│     │  Analysis  → ◆  │  │  Analysis  → ◆  │                  │
│     └─────────────────┘  └─────────────────┘                  │
│     ┌─────────────────┐                                       │
│     │  Risk           │                                       │
│     │  Research → ◆   │                                       │
│     │  Analysis  → ◆  │                                       │
│     └────────┬────────┘                                       │
│              ▼                                                 │
│  3. VALIDATION                                                 │
│     └─ Cross-check all agent outputs for contradictions        │
│              ▼                                                 │
│  4. DEBATE                                                     │
│     ├─ Optimist builds bull case                               │
│     ├─ Pessimist builds bear case                              │
│     └─ Multiple rounds of structured argument                  │
│              ▼                                                 │
│  5. FINAL JUDGMENT                                             │
│     └─ Calibrated scores + recommendation + TL;DR              │
│              ▼                                                 │
│  6. REPORT GENERATION                                          │
│     ├─ Full report with evidence chains                        │
│     ├─ IC-style investment memo                                │
│     └─ Visual analytics (charts, competitive maps)             │
│                                                                │
│  Total: 8-15 minutes. All agents parallel where possible.      │
│                                                                │
└──────────────────────────────────────────────────────────────┘

Was passiert, wenn etwas schief geht

KI-Systeme versagen. Wir haben dafür vorgesorgt.

Wenn ein Agent während der Bewertung ausfällt:

  1. Die gesamte Bewertung wird sofort gestoppt – keine Teilergebnisse
  2. Dein Guthaben wird automatisch zurückerstattet
  3. Ein Fehlerbericht wird zur Fehlersuche gespeichert
  4. Du wirst benachrichtigt und kannst es erneut versuchen

Wir erstellen keine Berichte mit fehlenden Daten. Wenn der Market-Agent ausfällt und die anderen vier erfolgreich sind, erhältst du keinen Bericht mit einem leeren Marktbereich. Du erhältst eine Rückerstattung und eine Entschuldigung.

Dies ist ein bewusster Kompromiss. Wir geben dir lieber nichts, als dir etwas Irreführendes zu geben.


Full vs. Lite: Was sich ändert

Wir bieten jeden Monat eine kostenlose Quick Validation an. Hier sind die Unterschiede zur vollständigen Bewertung:

Dimension Quick Validation (Free) Full GemScore
Agents 4 (Team, Market, Business, Risk) 5 (+ Product)
Scoring Nur Potenzial Potenzial + Readiness
Debate Nein Ja (Optimist vs. Pessimist)
Evidence depth Einfache Websuche Tiefgehende Verifizierung aus mehreren Quellen
Confidence intervals Nein Ja
Time 2-4 Minuten 8-15 Minuten
Output Go/No-Go-Urteil + nächste Schritte Vollständiger Bericht + Memo + Diagramme
Cost Kostenlos (1/Monat) Bezahltes Guthaben

So sieht die Quick Validation aus:

┌─────────────────────────────────────────────────────────────────┐
│  QUICK VALIDATION — AcmeHealth                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  VERDICT:  ● WORTH PURSUING                                      │
│                                                                   │
│  Potential Score:  74 / 100                                      │
│                                                                   │
│  Market Opportunity:   Strong  ●●●●○                             │
│  Founder-Idea Fit:     Good    ●●●○○                             │
│  Competitive Landscape: Emerging (3 direct competitors found)    │
│                                                                   │
│  TOP STRENGTH                                                     │
│  Founding team combines clinical and AI expertise — a rare       │
│  combination that most competitors lack.                         │
│                                                                   │
│  CRITICAL ISSUE                                                   │
│  No regulatory strategy or compliance expertise on team.         │
│  Healthcare AI without an FDA pathway is a non-starter           │
│  for institutional investors.                                    │
│                                                                   │
│  NEXT STEPS                                                       │
│  1. Hire or advise with a regulatory/compliance expert (Week 1)  │
│  2. Map FDA pathway: 510(k) vs De Novo for your use case        │
│  3. Secure 2 additional hospital pilots outside current system   │
│                                                                   │
│  ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─  │
│  Want the full picture? Upgrade to Full GemScore for:            │
│  ✦ Readiness scoring  ✦ Debate analysis  ✦ Investment memo       │
│  ✦ Confidence intervals  ✦ Visual analytics  ✦ Evidence chains  │
│                                                                   │
│  [Upgrade to Full GemScore]                                      │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

Der kostenlose Tier gibt dir eine echte Antwort: Ist es wert, verfolgt zu werden? Der kostenpflichtige Tier gibt dir das Gesamtbild: Wie stark ist es, wo sind die Lücken und was würde ein IC-Memo sagen?


Die KI herausfordern: Notizen zu Berichten

KI macht Fehler. Das erwarten wir – und wir haben ein System entwickelt, mit dem Gründer sich wehren können.

Wenn du mit etwas in deinem Bericht nicht einverstanden bist, kannst du den Text auswählen, eine Notiz hinzufügen, in der du erklärst, warum, und eine Neubewertung beantragen. Die KI wird mit deinem zusätzlichen Kontext neu ausgeführt.

┌─────────────────────────────────────────────────────────────────┐
│  NOTES ON REPORT — AcmeHealth                                    │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  NOTE #1 (Team Analysis)                                         │
│  Selected: "No evidence of prior healthcare exits"               │
│  Your note: "Our CTO led the patient-flow team at MedTech       │
│  before the Optum acquisition in 2022. The product was sold      │
│  for $38M. Here's the press release: [link]"                     │
│                                                                   │
│  AI Decision: ✓ ACCEPTED                                         │
│  Agent: Team Analyzer                                            │
│  Response: "The press release confirms CTO's involvement in      │
│  the Optum acquisition. This strengthens the team's execution    │
│  track record. Prior exit verified — confidence upgraded from    │
│  Claimed to Corroborated."                                       │
│  Impact: Team Readiness score improved naturally.                │
│                                                                   │
│  ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─  │
│                                                                   │
│  NOTE #2 (Market Analysis)                                       │
│  Selected: "TAM of $50B appears inflated"                        │
│  Your note: "The $50B figure includes all clinical AI, not       │
│  just triage. Our addressable market is ED triage specifically   │
│  — I meant to enter $4.2B."                                      │
│                                                                   │
│  AI Decision: ✓ ACCEPTED                                         │
│  Agent: Market Analyzer                                          │
│  Response: "Corrected TAM to $4.2B for ED triage segment.       │
│