Genome · Handbuch

Hilfe

Alles zu BAM/CRAM-Analyse, FASTQ-Konvertierung, Extraktion, Haplogruppen und klinischer Pipeline. Alle Berechnungen laufen lokal, keine Cloud.

← Zurück zu Genome

Schnellstart

Genome analysiert BAM/CRAM-Dateien aus Whole Genome Sequencing (WGS) und extrahiert genetische Daten für Ancestry-, Haplogruppen- und klinische Analyse-Plattformen.

Was ist Genome?

Genome ist eine macOS-App für bioinformatische Auswertung von WGS-Rohdaten. Sie konvertiert BAM/CRAM-Dateien in Microarray-kompatible Formate (23andMe, AncestryDNA, FTDNA, GEDmatch), extrahiert Y- und MT-DNA, ruft Varianten und berechnet Haplogruppen. Alle Berechnungen laufen lokal, keine Cloud, keine Datenweitergabe.

Systemvoraussetzungen

macOS 26 oder neuer · Apple Silicon (M1+) erforderlich · 16 GB RAM empfohlen (8 GB Minimum) · Interne SSD empfohlen, auf M4 mit 16 GB RAM und interner SSD dauert FASTQ→BAM ca. 12 Stunden · ~1–2 GB pro Referenzgenom · Internetverbindung nur für Tool-Installation und Referenzgenom-Download erforderlich.

Richtwerte für 30× WGS auf Apple M2: Microarray-Extraktion ~20–40 Min · Y VCF ~5–10 Min · MT VCF ~2–5 Min · FASTQ→BAM ~90–180 Min. Hauptfaktoren: Coverage, Dateigröße, SSD-Geschwindigkeit, verfügbare CPU-Kerne.

Erste Schritte
  1. Verzeichnisse → Reference Library wählen (z. B. /Volumes/SSD/Referenz), hier werden Genome und Panels gespeichert.
  2. Referenzen → Referenzgenom herunterladen. hs38d1 (GRCh38 + Decoys, ~871 MB) für beste Qualität empfohlen, alternativ hs38 (GRCh38 no-alt, ~832 MB).
  3. Tools → Alle installieren. Homebrew wird automatisch installiert falls nicht vorhanden.
  4. Haben Sie FASTQ-Rohdaten (R1 + R2)? → Konvertierung → R1- und R2-Datei wählen → optional Fastp (Qualitätsfilterung) → dann Alignment starten. Das erzeugt eine fertige BAM-Datei im Output-Verzeichnis.
  5. Verzeichnisse → BAM/CRAM Datei auswählen (entweder direkt gelieferte BAM oder aus Schritt 4 erzeugte). Die App liest Build, Coverage, Geschlecht automatisch.
  6. Extraktion oder Analyse starten. Ergebnisse erscheinen im Output-Verzeichnis.
Typischer Workflow

WGS-BAM laden → Microarray extrahieren → zu 23andMe/GEDmatch hochladen für Ancestry. Für Haplogruppen: Y BAM + Y VCF extrahieren → zu yFull, yDNA Warehouse hochladen. MT VCF für Haplogrep oder Mitoverse. FASTQ-Rohdaten: erst mit Fastp bereinigen, dann FASTQ→BAM Alignment, dann weiter wie oben.

Der Status-Balken am unteren Fensterrand zeigt den Fortschritt laufender Operationen. Ein roter Fehlerbalken erscheint bei Problemen, dieser liefert die Fehlerursache und kann mit ✕ geschlossen werden.

Startseite

Workflow-Presets bündeln Referenzgenom, Tools und Haplogruppen-Einstellungen für typische Analysen.

Was sind Presets?

Presets sind vorkonfigurierte Workflow-Profile für häufige Analyse-Szenarien. Fünf integrierte Presets stehen zur Verfügung: WGS Klinisch, Exom, Mitochondrial, Y-Chromosom und Consumer-Genetik. Jedes Preset definiert das passende Referenzgenom, die benötigten Tools und Haplogruppen-Einstellungen.

Preset aktivieren

Klicken Sie auf ein Preset um die Details anzuzeigen, dann auf 'Aktivieren'. Die App zeigt fehlende Voraussetzungen an (z. B. nicht installierte Tools oder fehlendes Referenzgenom) bevor das Preset angewendet wird.

Eigene Presets

Erstellen Sie eigene Presets aus der aktuellen Konfiguration. Vergeben Sie einen Namen, ein Icon und eine Beschreibung. Das Preset speichert alle aktuellen Einstellungen und kann jederzeit wieder aktiviert werden.

💡

Presets ändern nur Einstellungen, sie starten keine Pipeline. Nach dem Aktivieren eines Presets können Sie die Konfiguration prüfen und den Workflow manuell starten.

📁 Verzeichnisse

Output-Verzeichnis

Alle erzeugten Dateien (BAMs, VCFs, Microarray-Textdateien, Berichte) landen hier. Standard ist das Verzeichnis der geladenen BAM-Datei. Empfohlen: eigenes Ausgabe-Verzeichnis auf einer SSD wählen. Das Verzeichnis wird beim Start automatisch wiederhergestellt.

Temporäres Verzeichnis

Zwischendateien während laufender Prozesse: entpackte Referenzgenome, Alignment-Zwischenstände, Sortierdateien. Standard: ~/Library/Caches/Genome. Diese Dateien werden nach erfolgreicher Verarbeitung automatisch gelöscht. Bei Abbruch können Reste zurückbleiben, manuell löschbar.

Reference Library Wichtig

Zentrales Verzeichnis für alle Referenzdaten: Referenzgenome (.fa / .fa.gz + .fai-Index), Microarray-Panels (.tab.gz / .vcf.gz) und haplogrep.jar. Empfohlen: externe SSD mit mindestens 5 GB freiem Speicher, da jedes Referenzgenom ~1 GB belegt. Beim ersten Start wird das Verzeichnis geprüft, fehlende Ressourcen werden durch farbige Indikatoren in Referenzen und Tools angezeigt.

BAM/CRAM Datei laden

Lädt eine BAM-, CRAM- oder SAM-Datei als Eingabe. Die App liest beim Laden automatisch: Referenzgenom-Name aus dem BAM-Header, Genomaufbau (hg38/hg19/hs37d5), durchschnittliche Lesetiefe (Coverage), biologisches Geschlecht (Y/X-Chromosom-Reads), Dateiinhalt (WGS/WES/Panel) und Indexierungsstatus (.bai / .crai). CRAM erfordert ein passendes Referenzgenom in der Reference Library.

Ohne Index-Datei (.bai für BAM, .crai für CRAM) sind viele Extraktions- und Analysefunktionen nicht verfügbar. Index mit 'samtools index datei.bam' erstellen.

💡

CRAM-Dateien sind 40–50 % kleiner als BAM, benötigen aber beim Entpacken das Referenzgenom. Lege das passende Genom in die Reference Library bevor du CRAM-Dateien lädst.

Konvertierung

Konvertiert FASTQ-Rohdaten in ausgerichtete BAM-Dateien (Alignment) oder wandelt BAMs zurück in FASTQ. Enthält auch Qualitätskontrolle für Rohdaten.

FASTQ → BAM (Alignment)

FASTQ → BAM bwa samtools

Richtet Paired-End FASTQ-Dateien (R1 + R2) gegen ein Referenzgenom aus. Pipeline: bwa mem → samtools fixmate → samtools sort → samtools markdup. Ergebnis: indexierte, sortierte, deduplizierte BAM-Datei.

Voraussetzungen FASTQ→BAM

Benötigt: samtools, bwa (oder bwa-mem2 für höhere Geschwindigkeit). Referenzgenom muss in der Reference Library vorliegen und mit 'bwa index' indiziert sein (.bwt / .amb / .ann / .pac / .sa Dateien). bwa-Index wird beim ersten Alignment automatisch erstellt falls fehlend, dauert ~30–60 Minuten für ein 3 GB Genom.

Alignment-Parameter

Threads: wird automatisch auf die Anzahl logischer CPU-Kerne gesetzt. Read-Group wird aus dem Dateinamen generiert (RGID, RGSM, RGPL=ILLUMINA, RGLB=lib1). Markdup entfernt PCR-Duplikate. Sortierung ist koordinatenbasiert (für Indexierung benötigt).

Split-Read-Modus Empfohlen: Supplementary

Steuert wie chimäre/Split-Reads (Reads die an mehreren Stellen im Genom alignen) im BAM markiert werden.

• Supplementary (Standard, empfohlen): Kürzere Split-Hits werden als supplementäre Alignments markiert. Moderner Standard, kompatibel mit allen aktuellen Tools (samtools, GATK 4+, bcftools).

• Secondary (-M): Kürzere Split-Hits werden als sekundäre Alignments markiert (bwa -M Flag). Nötig für ältere Tools wie Picard <2.0. Erzeugt leicht größere BAM-Dateien.

Die Einstellung befindet sich im Konvertierung-Tab unter der Referenzgenom-Auswahl.

Fortsetzen nach Abbruch

Wird ein laufendes FASTQ→BAM-Alignment abgebrochen oder schlägt fehl, erkennt die App beim nächsten Start automatisch vorhandene Zwischendateien. Beim Klick auf 'Alignment starten' erscheint ein Dialog mit drei Optionen:

• Fortsetzen: Setzt die Pipeline ab dem letzten erfolgreichen Schritt fort (z. B. ab Sort-Merge, Index oder Flagstat). • Von vorne: Löscht alle Zwischendateien und startet komplett neu. • Abbrechen: Keine Aktion.

Die Pipeline kann von jedem Schritt fortgesetzt werden: Sort-Chunks → Merge → Markdup → Index → Flagstat/Laden.

Bei I/O-Timeouts (z. B. auf externen SSDs) bricht die Pipeline nicht automatisch ab. Stattdessen erscheint ein Dialog: 'Wiederholen' versucht den fehlgeschlagenen Schritt erneut, 'Abbrechen' stoppt die Pipeline. So können Sie z. B. eine externe SSD wieder anschließen und fortfahren.

BAM → FASTQ (Rückkonvertierung)

BAM → FASTQ samtools

Konvertiert eine BAM-Datei zurück in zwei FASTQ-Dateien (R1, R2) via samtools collate + fastq. Nützlich wenn Originaldateien fehlen oder ein Re-Alignment gegen ein anderes Referenzgenom nötig ist. Unmapped Reads werden optional eingeschlossen.

Qualitätskontrolle

Fastp fastp

Fastp analysiert FASTQ-Dateien auf Qualität, Adapter-Kontamination und GC-Gehalt. Erstellt einen interaktiven HTML-Bericht und optional bereinigte FASTQ-Dateien (Adapter-Trimming, Low-Quality-Read-Filterung). Empfohlen vor jedem Alignment. Geschwindigkeit: ~500 MB/s auf Apple Silicon.

FastQC FastQC Java

FastQC erstellt einen detaillierten HTML-Qualitätsbericht pro FASTQ-Datei. Enthält: Per-Base-Sequenzqualität, Per-Sequenz-Qualitätsscores, Sequenz-Duplikationslevel, Überlängen-Reads, Adapter-Kontamination, Kmer-Analyse. Benötigt Java Runtime. Ergebnis: HTML-Datei im Output-Verzeichnis.

💡

Für beste Ergebnisse: Fastp vor dem Alignment ausführen. FastQC für eine detailliertere visuelle Analyse der Rohdaten. Beide Tools ergänzen sich und können nacheinander ausgeführt werden.

Extraktion

Extrahiert spezifische Datensätze aus der geladenen BAM-Datei. Alle Ausgaben landen im Output-Verzeichnis. Benötigt eine indizierte BAM/CRAM-Datei und ein passendes Referenzgenom.

Microarray-Extraktion

Referenzpanel

Das Referenzpanel enthält die SNP-Positionen der kommerziellen DNA-Chip-Plattformen (.tab.gz oder .vcf.gz). Panels werden im Reference Library Verzeichnis gespeichert und beim Start automatisch erkannt. Der Indikator zeigt: grün = Panel vorhanden, orange = Panel fehlt (alle Varianten ohne rsID werden ausgegeben).

Ausgabeformate wählen

Über das aufklappbare Format-Menü einzelne Plattformen aktivieren. Schaltflächen: 'Empfohlen' wählt die gängigsten Formate (23andMe v3/v5, AncestryDNA v2, CombinedKit). 'Alle' aktiviert alle verfügbaren Versionen. 'Keines' leert die Auswahl. CombinedKit enthält alle gerufenen SNPs, für GEDmatch, Gedmatch Genesis und FTDNA geeignet.

Header-Kopfzeile

Der Schalter 'Header' (im aufgeklappten Ausgabeformate-Menü, neben Alle/Keines) steuert, ob beim Erstellen der Ausgabedateien eine plattformspezifische Kopfzeile vorangestellt wird. Standardmäßig eingeschaltet. Ist Header aktiv, wird außerdem der Zeitstempel in der Kopfzeile immer auf das aktuelle Datum und die aktuelle Uhrzeit aktualisiert, im jeweils plattformkorrekten Format (z. B. 23andMe: 'Thu Dec 29 11:59:59 2012', AncestryDNA: '03/21/2013 11:15:47 MDT', MyHeritage: '2019-05-04 14:21:19'). Ist Header ausgeschaltet, werden die Dateien ohne Kopfzeile erstellt (nur Datensätze). Für FTDNA gibt es keinen Zeitstempel in der Vorlage.

Header passen sich dynamisch dem Referenzgenom-Build (37/38) an. Bei Verwendung von hg38 werden Build-Referenzen in den Kopfzeilen automatisch aktualisiert (z. B. "build 37" → "build 38", "GRCh37.p13" → "GRCh38.p14").

Microarray extrahieren bcftools

Startet die Microarray-Extraktion. Interne Pipeline: bcftools mpileup (Pileup aller Referenzpositionen) → bcftools call (Variantenruf) → Panel-spezifische Filterung → Format-Konvertierung. Mit Panel: chip-spezifische SNP-Filterung + rsID-Annotation + CombinedKit + Einzelformate. Ohne Panel: rohe Varianten-VCF. Dauer: 15–90 Minuten je nach Coverage und Genomgröße.

Ausgabedateien Microarray

Pro aktiviertem Format: eine .txt-Datei (Tab-getrennt) im Output-Verzeichnis. Dateiname: [BAM-Name]_[Format]_[Datum].txt. Format-Beispiel 23andMe v5: Spalten rsid / chromosome / position / allele1allele2. CombinedKit: alle gerufenen SNPs mit rsID falls Panel vorhanden.

Mitochondriale DNA

MT FASTA samtools

Extrahiert das mitochondriale Chromosom als FASTA-Konsensussequenz. Verwendet: samtools view (MT-Reads) → samtools mpileup → Konsensusberechnung. Geeignet für yFull (weiblich), Mitoverse, EMPOP. Ausgabe: [Name]_MT.fasta.

MT BAM samtools

Extrahiert alle MT-Reads als separate BAM-Datei. Chromosom-Name passt sich automatisch an (chrM für hg38, MT für hs37d5). Geeignet für manuelle Analyse und Weiterverarbeitung. Ausgabe: [Name]_MT.bam + .bai Index.

MT VCF bcftools

Ruft Varianten auf dem MT-Chromosom mit bcftools mpileup + call und erstellt eine komprimierte VCF-Datei. Enthält alle SNPs und Indels des MT-Genoms. Geeignet für Haplogrep (direkter Import), Mitoverse, PhyloTree-basierte Analyse. Ausgabe: [Name]_MT.vcf.gz.

Y-Chromosom

Y+MT BAM yFull

Extrahiert Y-Chromosom und MT-DNA gemeinsam als BAM. Optimal für yFull (männlich) da dort beide Chromosomen benötigt werden. Build 38 (hg38/hs38) wird von yFull bevorzugt. Ausgabe: [Name]_YMT.bam + .bai.

Y BAM

Extrahiert nur das Y-Chromosom als BAM. Geeignet für yDNA Warehouse und yTree. Chromosom-Name: chrY (hg38) oder Y (hs37d5). Ausgabe: [Name]_Y.bam + .bai.

Y VCF bcftools

Ruft Varianten auf dem Y-Chromosom und erstellt eine komprimierte VCF. Geeignet für manuelle Analyse und Hochladen zu yFull (als VCF-Option). Enthält alle Y-SNPs und Y-STRs. Ausgabe: [Name]_Y.vcf.gz.

Y-Chromosom-Extraktion ist nur für männliche Proben sinnvoll. Die App erkennt das biologische Geschlecht automatisch aus dem Y/X-Reads-Verhältnis und zeigt eine Warnung bei weiblichen Proben.

Klinische Varianten-Pipeline

Pipeline starten bcftools VEP PharmCAT OpenCRAVAT

Verarbeitet die geladene BAM-Datei in sequenziellen Schritten: (1) Variant Calling via bcftools mpileup | call, (2) Hard-Filterung (QUAL≥30, DP≥10, MQ≥40), (3) VEP-Annotation (optional, wenn installiert), (4) PharmCAT-Pharmakogenomik-Analyse (optional), (5) OpenCRAVAT-Variantenannotation (optional), (6) TSV-Export + Zusammenfassung. Optionale Schritte werden automatisch übersprungen wenn das jeweilige Tool nicht installiert ist. Alle Ausgaben landen unter clinical_pipeline/ im Output-Verzeichnis.

Optionale Tools optional

VEP + Cache: Varianten-Annotation mit Gen, SIFT, PolyPhen, gnomAD und ClinVar (~15 GB Cache). PharmCAT: Pharmakogenomik-Report für Medikamentendosierungsempfehlungen (~30 MB). OpenCRAVAT: Modulare Annotation aus ClinVar, gnomAD, COSMIC, PharmGKB (~10–50 GB Module). Installation unter Tools → Bioinformatik-Tools.

Fortsetzen nach Abbruch

Die klinische Pipeline kann nach einem Abbruch ab dem letzten erfolgreichen Schritt fortgesetzt werden. Die App erkennt automatisch vorhandene Zwischendateien (raw_variants.vcf.gz, filtered.vcf.gz, annotated.vcf) und bietet im Analyse-Tab einen 'Ab Schritt X fortsetzen'-Button an. Bei Fehlern in Schritt 1 oder 2 erscheint ein Retry-Dialog: 'Wiederholen' oder 'Abbrechen'.

Ausgabedateien

raw_variants.vcf.gz: Rohvarianten. filtered.vcf.gz: Qualitätsgefilterte Varianten. annotated.vcf: VEP-annotiert (wenn VEP installiert). pgx/: PharmCAT HTML + JSON (wenn PharmCAT installiert). opencravat/: OpenCRAVAT Excel-Report (wenn OpenCRAVAT installiert). snp_liste.tsv: Alle PASS-Varianten als Tab-Tabelle.

Analyse

Direkte Analyse-Funktionen auf Basis der geladenen BAM-Datei ohne externe Plattformen. Haplogruppen, CNV, Mikrobiom und VCF-Analyse.

Y-Haplogruppe bcftools ISOGG

Berechnet die väterliche Y-Haplogruppe direkt aus der BAM-Datei. Die App ruft Y-SNPs via bcftools, vergleicht diese mit der ISOGG/PhyloTree-Datenbank und liefert die tiefste passende Klade. Anzeige: Haplogruppe, Konfidenz, unterstützende SNPs. Schneller als externes Hochladen, keine Internetverbindung nötig.

MT-Haplogruppe (Haplogrep 2/3) Haplogrep 2 Haplogrep 3 PhyloTree

Bestimmt die mütterliche MT-Haplogruppe mit Haplogrep 2 oder Haplogrep 3. Die Version wird im Analyse-Tab über einen Segment-Picker ausgewählt.

• Haplogrep 2 (seppinho/haplogrep-cmd 2.4.0): Klassisches Tool, ~8 MB, Aufruf mit '--format vcf'. Bewährt.

• Haplogrep 3 (genepi/haplogrep3 3.2.2): Nachfolger mit moderner Codebasis, ~50 MB inkl. Phylotree-Daten. Nutzt konfigurierbare Phylotrees (Standard: phylotree-rcrs@17.2). Liefert mit --extend-report zusätzliche Spalten (Polymorphismen, Hotspots, Lineage-Notes).

Beide Versionen können parallel installiert sein. Eingabe: MT-VCF aus Extraktion → MT VCF. Ausgabe: Haplogruppe + Qualitätsscore + Mutations-Liste. Installation: Tools → Haplogrep 2/3 herunterladen.

HLA-Typisierung (HLA*LA) HLA*LA HLA-A/B/C DRB1

Bestimmt HLA-Allele für die klassischen MHC-Gene (HLA-A, -B, -C, -DRB1, -DQB1, -DPB1 u. a.) direkt aus der geladenen BAM-Datei. HLA*LA nutzt einen Populations-Referenzgraphen (PRG_MHC_GRCh38_withIMGT) für hochgenaue Typisierung auch aus Standard-WGS ohne separaten HLA-Anreicherungsschritt.

Voraussetzungen: HLA*LA installiert (Tools → HLA*LA), PRG-Graph heruntergeladen (Referenzen → HLA-Referenz), GRCh38-alignierte BAM-Datei mit Index (.bai). Laufzeit: 20–60 Minuten.

Ausgabe: <SampleID>_HLA_typing.txt im Output-Verzeichnis. Klinische Anwendung: Spenderabgleich bei Transplantation, Medikamenten-Hypersensitivität (HLA-B*57:01, HLA-B*15:02), Autoimmun-Risikogene.

LPA / KIV-2 CNV CNV LPA

Schätzt die Kopienzahl (CNV) der KIV-2-Wiederholungseinheiten im LPA-Gen (Lipoprotein(a)). Klinisch relevant: hohe KIV-2-Kopienzahl korreliert mit niedrigem Lp(a)-Spiegel. Methode: Coverage-Analyse der KIV-2-Region relativ zu einer stabilen Referenzregion. Ergebnis: geschätzte Kopienzahl + Coverage-Plot.

Unmapped Reads

Extrahiert Reads die nicht gegen das Referenzgenom ausgerichtet wurden. Mögliche Ursachen: nicht-humane DNA (Bakterien, Viren), Sequenzierungsfehler, sehr kurze Reads, Sequenzen in Referenzlücken. Ausgabe: FASTQ-Datei mit unmapped Reads. Nützlich für metagenomische Analyse (Kaiju, CosmosID).

VCF-Analyse

VCF annotieren bcftools

Setzt Varianten-IDs nach dem Schema CHROM:POS:REF:ALT via bcftools annotate. Falls keine VCF im Output-Verzeichnis vorhanden ist, wird zuerst automatisch ein Variant Calling aus dem geladenen BAM durchgeführt (bcftools mpileup | call). Ausgabe: _annotated.vcf.gz.

VCF filtern bcftools

Filtert VCF-Varianten nach Qualitätskriterien: QUAL≥20 und Lesetiefe DP≥10 via bcftools view. Falls keine VCF vorhanden, wird zuerst Variant Calling ausgeführt. Ausgabe: _filtered.vcf.gz.

Varianten-QC (VarQC) Ts/Tv bcftools

Berechnet Qualitätsmetriken einer VCF via bcftools stats: Ts/Tv-Ratio (Zielwert WGS: 2,0–2,1), SNP/Indel-Verhältnis, Heterozygotie-Rate, Varianten pro Chromosom. Falls keine VCF vorhanden, wird zuerst Variant Calling ausgeführt. Ausgabe: _stats.txt.

🔍 SNP-Suche

Schnelle Suche nach Ihrer DNA in einer Genotyp-Datei. Laden Sie eine TXT-Datei (CombinedKit.txt, 23andMe, etc.), geben Sie rsIDs ein und erhalten Sie sofort die Genotypen, Chromosomen und Positionen. Mit Template-Verwaltung und Filter für schnelle Suchen.

SNP-Datei laden

Die SNP-Datei (TXT-Format) wird im Tab 'Verzeichnisse' ausgewählt, genau wie die BAM/CRAM-Datei. Unterstützte Formate: CombinedKit.txt (alle Plattformen), 23andMe TXT, AncestryDNA TXT, oder andere Tab-getrennte Formate mit rsid/Position/Genotype-Spalten. Die App zeigt die Anzahl der SNPs in der Datei nach dem Laden an.

rsIDs eingeben rs-Format

Geben Sie eine oder mehrere rsIDs in das Textfeld ein, eine pro Zeile. Format: rs123456 oder einfach 123456. Sie können auch aus anderen Programmen kopieren und einfügen; der Filter bereinigt automatisch extra Zeichen. Die Abzählung zeigt wie viele rsID(s) Sie eingegeben haben.

Filter-Schaltfläche Regex

Der Filter-Button erscheint automatisch wenn Sie Text mit Sonderzeichen oder Whitespace eingeben. Ein Klick extrahiert automatisch alle rsID-Muster (rs + Zahlen) aus dem Text und entfernt alles andere, perfekt zum Bereinigen von kopierten Listen mit extra Leerzeichen oder Kommas.

Suche ausführen O(1)-Lookup

Klicken Sie 'Suchen' um die Suche zu starten. Die App durchsucht die geladene SNP-Datei nach exaktem Treffer mit jedem rsID. Schnelle Indexierung: Die SNP-Datei wird einmalig in eine Nachschlagtabelle konvertiert, selbst große Dateien (100.000+ SNPs) sind in Millisekunden durchsuchbar.

Ergebnisse anzeigen TSV-Export

Gefundene rsIDs werden in einer Tabelle mit Spalten angezeigt: rsID | Chromosom | Position | Genotyp. Nicht gefundene rsIDs werden in einem separaten Bereich aufgelistet. Mit dem Kopieren-Button können Sie alle Ergebnisse als Tab-getrennte Werte (TSV) in die Zwischenablage kopieren, perfekt zum Einfügen in Excel oder andere Programme.

Vorlagen speichern Persistenz SF Symbols

Speichern Sie häufig gesuchte rsID-Listen als Vorlagen mit Namen (z. B. 'Meine Ancestry SNPs', 'Gesundheits-Panel'). Jede Vorlage kann ein individuelles SF-Symbol-Icon und eine Bemerkung erhalten. Vorlagen erscheinen im Dropdown-Picker oben. Eingebaute Vorlagen sind vordefiniert und nicht löschbar.

Vorlagen verwalten Edit Delete Import/Export

Jede Vorlage hat Optionen zum Laden, Bearbeiten und Löschen. 'Laden' befüllt das Suchfeld mit den gespeicherten rsIDs. 'Bearbeiten' öffnet ein Formular zum Ändern von Name, Symbol und rsID-Liste. Bemerkungen werden automatisch gespeichert (Debounce). Import/Export ermöglicht das Teilen von Vorlagen als TXT-Datei.

💡

Tipp: Speichern Sie häufig benutzte rsID-Listen als Vorlagen. So sparen Sie Zeit bei wiederholten Suchen über verschiedene Dateien. Der Filter ist besonders nützlich wenn Sie Listen aus Websites oder PDFs kopieren, die Extra-Leerzeichen enthalten. Mit Import/Export können Sie Vorlagen mit anderen teilen.

🔧 Tools

Bioinformatische Kommandozeilen-Tools die von Genome verwendet werden. Installation via Homebrew (wird automatisch eingerichtet falls nicht vorhanden).

Homebrew Basis

Paketmanager für macOS. Wird automatisch unter /opt/homebrew (Apple Silicon) oder /usr/local (Intel) installiert falls nicht vorhanden. Homebrew verwaltet alle weiteren bioinformatischen Tools. Nach der Installation kann 'brew update && brew upgrade' manuell ausgeführt werden.

samtools samtools

Standard-Tool für BAM/SAM-Verarbeitung. Verwendet für: BAM sortieren, indexieren, Reads extrahieren (view), Pileup berechnen, BAM→FASTQ Konvertierung, Coverage-Analyse. Version 1.18+ empfohlen. Über 'samtools --version' prüfbar.

bcftools bcftools

Variant-Calling und VCF-Verarbeitung. Verwendet für: mpileup (Pileup-Erstellung), call (Variantenruf), view (VCF filtern/konvertieren), annotate (Annotierung), stats (Qualitätsstatistiken). Oft zusammen mit htslib installiert.

bwa / bwa-mem2 bwa bwa-mem2

Burrows-Wheeler Aligner für Short-Read Alignment (Illumina). bwa mem: Standard-Algorithmus für Reads >70 bp. bwa-mem2: ~3× schnellere Variante mit identischer Ausgabe. Auf Apple Silicon wird automatisch bwa-mem2 bevorzugt. Für Alignment benötigt: bwa index (einmalig pro Referenzgenom).

fastp fastp

Schnelles FASTQ-Qualitätskontroll- und Preprocessing-Tool. Features: Adapter-Erkennung und -Trimming, Qualitäts-Trimming, Längen-Filterung, Duplikat-Entfernung, GC-Analyse, interaktiver HTML-Bericht. Geschwindigkeit: ~500 MB/s auf M-Prozessoren.

FastQC FastQC Java

Java-basiertes FASTQ-Analyse-Tool mit detailliertem HTML-Bericht. Gut für erste Qualitätsprüfung vor dem Alignment. Langsamer als Fastp. Benötigt Java Runtime Environment (JRE), wird über Homebrew installiert (java@21 oder neuer).

sambamba sambamba

Multithreaded BAM-Verarbeitung. Verwendet als Alternative zu samtools für Markdup (Duplikat-Markierung) bei FASTQ→BAM-Pipeline. Bis zu 4× schneller als samtools markdup auf mehrkernigen Systemen. Optional, samtools markdup wird als Fallback verwendet.

Haplogrep 2 Haplogrep 2 Java

Klassisches Java-Tool (seppinho/haplogrep-cmd 2.4.0) zur MT-Haplogruppen-Klassifizierung basierend auf PhyloTree. Eingabe: MT-VCF-Datei. Ausgabe: Haplogruppe mit Qualitätsscore, Liste erwarteter/gefundener/privater Mutationen. Wird als haplogrep.jar (~8 MB) in der Reference Library gespeichert (direkter Download von GitHub). CLI: java -jar haplogrep.jar classify --in X --format vcf --out Y.

Haplogrep 3 Haplogrep 3 Phylotree 17.2 Java 11+

Nachfolger von Haplogrep 2 (genepi/haplogrep3 3.2.2) mit moderner Codebasis. Unterstützt mehrere Phylotrees (phylotree-rcrs@17.2, phylotree-fu-rcrs@1.2, usw.) und liefert mit --extend-report zusätzliche Spalten zu Polymorphismen und Hotspots. Wird als komplettes Verzeichnis (haplogrep3.jar + data/) in refLib/haplogrep3/ installiert (~50 MB). Benötigt Java 11 oder neuer. CLI: java -jar haplogrep3.jar classify --in X --tree phylotree-rcrs@17.2 --out Y.

Kann parallel zu Haplogrep 2 installiert sein, die Version für die MT-Analyse wird im Analyse-Tab gewählt.

HLA*LA HLA*LA Graph Genome IMGT

HLA-Typisierungs-Tool von Dilthey Lab (github.com/DiltheyLab/HLA-LA). Bestimmt HLA-Allele für die klassischen Gene HLA-A, -B, -C, -DRB1, -DQB1, -DPB1 und weitere direkt aus dem WGS-BAM. Methode: Graph-Genome-Ansatz mit dem PRG_MHC_GRCh38_withIMGT Referenzgraph.

Installation: Homebrew-Abhängigkeiten (boost@1.85, bamtools), dann Quell-Build via make (~30 Minuten, ~500 MB). Boost-Patch wird automatisch angewendet. Das Binary landet unter dem konfigurierten Tool-Verzeichnis in HLA-LA/bin/HLA-LA.

Zusätzlich benötigt: PRG_MHC_GRCh38_withIMGT Referenzgraph (~2.3 GB) unter Referenzen → HLA-Referenz herunterladen.

Ausgabe: Datei <SampleID>_HLA_typing.txt mit HLA-Allelen im Standard-IMGT-Format (z. B. A*01:01, B*07:02). Laufzeit: 20–60 Minuten.

Klinische Pipeline Tools

VEP (Ensembl) VEP ClinVar gnomAD Homebrew

Ensembl Variant Effect Predictor, annotiert Varianten mit Gen, Konsequenz, Impact, SIFT, PolyPhen, gnomAD-Frequenz und klinischer Signifikanz (ClinVar). Installation via Homebrew (~200 MB). Dazu kommt ein Offline-Cache (~15 GB) mit Mensch-GRCh38-Annotationen. Der Cache wird in der Reference Library unter vep_cache/ gespeichert. Ohne Cache wird Schritt 3 der Pipeline übersprungen.

PharmCAT PharmCAT CPIC Java

Pharmakogenomik-Analyse-Tool von PharmGKB/Stanford. Analysiert Varianten in pharmakogenomisch relevanten Genen (CYP2D6, CYP2C19, SLCO1B1 u. a.) und liefert CPIC-Empfehlungen zur Medikamentendosierung. Eingabe: normalisierte VCF. Ausgabe: HTML- und JSON-Report. Wird als pharmcat.jar (~30 MB) in der Reference Library gespeichert.

OpenCRAVAT OpenCRAVAT ClinVar COSMIC pip

Modulares Varianten-Annotations-Framework. Kombiniert Datenbanken wie ClinVar (klinische Signifikanz), gnomAD (Populationsfrequenzen), COSMIC (Krebs-Mutationen), PharmGKB (Pharmakogenomik) und MutationAssessor (funktioneller Impact). Installation via pip: 'pip install open-cravat' (~5 MB). Module werden separat installiert: 'oc module install clinvar gnomad cosmic pharmgkb mutation_assessor' (10–50 GB je nach Auswahl). Ausgabe: interaktiver HTML-Report und Excel-Tabelle mit allen Annotationen pro Variante. Schritt 4 der klinischen Pipeline führt OpenCRAVAT automatisch aus, sofern mindestens ein Modul installiert ist.

💡

Die Badge 'Module fehlen' erscheint, wenn OpenCRAVAT installiert ist, aber noch kein einziges Annotationsmodul geladen wurde. Lösung: im Terminal ausführen:

oc module install clinvar gnomad

Für eine vollständige klinische Analyse empfehlen sich zusätzlich: cosmic pharmgkb mutation_assessor. Nach der Installation 'Erkennen' klicken — die Badge verschwindet sobald mindestens ein Modul vorhanden ist.

GATK (optional) GATK HaplotypeCaller Java

Genome Analysis Toolkit von Broadinstitute, Gold-Standard für Varianten-Calling in der Humanmedizin. Algorithmus: HaplotypeCaller (lokale De-novo-Assemblierung) liefert in der Regel 10–15 % mehr Varianten als bcftools, besonders bei komplexen Regionen und Indels. Nachteil: 6–12 Stunden Rechenzeit für 30× WGS. GATK ist optional, bcftools wird standardmäßig verwendet und ist deutlich schneller. Wird als gatk.jar (~670 MB) in der Reference Library gespeichert.

Alle installieren

Installiert alle bioinformatischen Tools auf einmal via 'brew install samtools bcftools bwa fastp fastqc sambamba'. Benötigt Internetverbindung. Dauer: 2–10 Minuten je nach Verbindungsgeschwindigkeit. Homebrew wird zuerst installiert falls nötig. Fortschritt im Protokoll sichtbar.

Erkennen

Prüft welche Tools bereits installiert sind und aktualisiert den Status-Indikator. Nützlich nach manueller Installation via Terminal. Führt 'which <tool>' und '<tool> --version' aus.

💡

Tools können auch manuell im Terminal installiert werden: 'brew install samtools bcftools bwa fastp', danach 'Erkennen' klicken um den Status zu aktualisieren.

Beim Deinstallieren von Tools prüft die App den Exit-Code (brew/pip) bzw. den Dateilöscherfolg. Fehlgeschlagene Deinstallationen werden über den Fehlerbalken gemeldet und das Tool bleibt als installiert markiert.

📦 Referenzen

Referenzgenome und Microarray-Panels werden in der Reference Library verwaltet. Download und Verwaltung erfolgen direkt in der App.

Microarray-Panels

Panel-Übersicht

Panels sind Build-spezifisch: hg38-Panels für hg38/hs38-BAMs, hg19-Panels für hg19/hs37d5-BAMs. Enthalten SNP-Koordinaten aller gängigen Chip-Plattformen. Dateiformate: .tab.gz (Tab-getrennt, schneller) oder .vcf.gz (VCF-Format). Ablage im Reference Library Verzeichnis.

Referenzgenome

hs38 (GRCh38 no-alt) Empfohlen

GRCh38 ohne alternative Contigs von NCBI (~832 MB komprimiert, ~3 GB entpackt). Standard im 1000 Genomes Project und WGS Extract. Empfohlen für Alignment und Extraktion, weniger Mapping-Artefakte als hg38 mit alt-Contigs. Lokal gespeichert als hs38.fa.gz → nach Download automatisch entpackt zu hs38.fa.

hs38d1 (GRCh38 + Decoys) Empfohlen für WGS

GRCh38 mit Decoy-Contigs von NCBI (~871 MB komprimiert, ~3,1 GB entpackt). Enthält alle Chromosomen plus künstliche Decoy-Sequenzen (hs38d1), die Reads abfangen, die keinem echten Chromosom entsprechen (z. B. virale, bakterielle oder repetitive Sequenzen). Vorteile gegenüber hs38: sauberere Alignments, weniger falsch-positive Varianten, leicht kleinere BAMs. Empfohlen für WGS-Alignment wenn bestmögliche Qualität gewünscht ist. Wird auch von WGS Extract verwendet.

GRCh38 / hg38

Aktuelles humanes Referenzgenom von UCSC (~983 MB komprimiert). Enthält Hauptassembly + Alternativsequenzen. Chromosomennamen mit 'chr'-Präfix (chr1, chrX, chrY, chrM). Für BAMs die bereits gegen hg38 ausgerichtet wurden.

GRCh37 / hg19

Älteres humanes Referenzgenom (~938 MB). Chromosomennamen ohne Präfix (1, X, Y, MT). Viele ältere WGS-Datensätze nutzen diesen Build. Microarray-Extraktion mit hg19-Panel empfohlen.

hs37d5 (1000 Genomes)

hg19-basiertes Genom mit Decoy-Contigs (~906 MB). Häufig bei kommerziellen WGS-Anbietern (Dante Labs, Nebula Genomics). Enthält 'hs37d5'-Contig für Reads die zu keinem echten Chromosom passen. Optimiert für Microarray-Extraktion kommerzieller WGS-Dateien.

HLA-Referenz

PRG_MHC_GRCh38_withIMGT GRCh38 IMGT/HLA ~2,3 GB

Populations-Referenzgraph für HLA*LA. Enthält vorgefertigte Graphstrukturen für den MHC-Bereich auf Basis von GRCh38 + IMGT/HLA-Alleldatenbank. Wird für die HLA-Typisierung im Analyse-Tab benötigt.

Größe: ~2,3 GB. Gespeichert unter <Tool-Verzeichnis>/HLA-LA_PRG/. Download von Zenodo. Ohne diesen Graph läuft die HLA-Typisierung nicht.

Nach dem Download werden Referenzgenome automatisch mit samtools faidx indexiert (.fai). Dieser Schritt dauert 2–5 Minuten und muss nur einmal pro Genom durchgeführt werden. Abbruch während des Downloads oder Indexierens kann zu korrupten Dateien führen, in diesem Fall Datei löschen und erneut herunterladen.

Beim Löschen von Referenzen oder Panels prüft die App den Löscherfolg. Kann eine Datei nicht entfernt werden (z. B. fehlende Berechtigungen), erscheint ein Fehlerbalken und das Element bleibt als installiert markiert.

Protokoll

Das Protokoll zeigt alle ausgeführten Befehle, Fortschritte und Fehler in Echtzeit.

Echtzeit-Ausgabe

Jeder ausgeführte Shell-Befehl wird mit seinem vollständigen Ausgabe-Text angezeigt. Farbcodierung: normaler Text = stdout, rote Einträge = stderr/Fehler. Fortschrittsbalken-Ausgaben werden als laufende Zeile aktualisiert.

Kopieren

Kopiert den gesamten sichtbaren Log-Inhalt in die Zwischenablage. Nützlich für Fehlerberichte oder Debugging. Der Inhalt enthält alle Zeitstempel und Befehle der aktuellen Session.

Anzeige leeren

Löscht die Log-Anzeige in der App (sichtbarer Bereich). Die physische Logdatei unter ~/Library/Application Support/Genome/logs/ bleibt vollständig erhalten.

Logdateien

Jede App-Session wird automatisch als Logdatei gespeichert: ~/Library/Application Support/Genome/logs/genome_YYYY-MM-DD_HHmmss.log. Die letzten 20 Sessions werden aufbewahrt, ältere automatisch gelöscht. Im Finder erreichbar über: Gehe zu → Bibliothek → Application Support → Genome → logs.

Debug-Logging

In Einstellungen → Debug-Logging aktivierbar. Zeigt zusätzlich interne Zustände, Parsing-Ergebnisse und Entscheidungslogik. Nur für Fehleranalyse empfohlen, verlangsamt die Anzeige bei intensiver Ausgabe.

Ausführungsverlauf

Verlauf der Analysen

Der Ausführungsverlauf protokolliert alle abgeschlossenen Analysen mit Typ, Datum, Dauer, Erfolg/Fehlschlag und vollständigem Log. Die letzten 100 Durchläufe werden in ~/Library/Application Support/Genome/run_history.json gespeichert.

Ausführungstypen

Erfasste Typen: Alignment, Extraktion, Microarray, Klinische Pipeline, Haplogruppe, LPA, Sonstige.

Einstellungen

Allgemeine App-Einstellungen und erweiterte Optionen im Entwicklermenü.

Darstellung & Sprache

Farbschema: System (folgt macOS), Hell oder Dunkel. Sprache: System (folgt macOS), Deutsch oder Englisch. Beide Einstellungen werden sofort angewendet und gespeichert.

Warnsound

Wenn aktiviert (Standard: ein), spielt die App einen Warnsound ab wenn ein laufender Prozess unerwartet verlangsamt. Hilft, Probleme wie I/O-Timeouts oder SSD-Schlafmodus zu erkennen, ohne den Bildschirm ständig zu beobachten.

Während der Verarbeitung wird automatisch der macOS-Schlafmodus verhindert (Idle-Sleep, Disk-Sleep und System-Sleep). Pipelines laufen unterbrechungsfrei, auch bei geschlossenem Deckel oder abgelaufenem Idle-Timer. Keine Konfiguration nötig.

Entwicklermenü

Entwicklermenü aktivieren

In den Einstellungen kann das Entwicklermenü aktiviert werden. Es zeigt erweiterte Optionen: Pipeline-Tool-Auswahl, Test-Datengenerator, Dock-Icon-Einstellungen und Debug-Logging. Die Akzentfarbe wechselt zu Blau als visueller Hinweis.

Pipeline-Tool-Auswahl bwa GATK sambamba

Auswahl der Pipeline-Komponenten: Aligner (bwa / minimap2), Sorter (samtools / sambamba), Markdup (samtools / sambamba / picard), Variant Caller (bcftools / GATK). GATK dauert 3–6× länger, findet aber 10–15 % mehr Varianten. Sambamba ist auf Multi-Core-Systemen bis zu 40 % schneller als samtools.

Test-Datengenerator

Erzeugt ein synthetisches Mini-Dataset (100 kb Referenz + 5.000 Read-Paare) für schnelle Funktionsprüfung. Die komplette Pipeline dauert damit Sekunden statt Stunden. Nützlich zum Testen aller Funktionen ohne echte WGS-Daten. Daten werden unter ~/GenomeTest/ gespeichert.

Dock-Icon

Das App-Icon im Dock und in der App-Übersicht kann unabhängig vom Systemdesign auf Hell, Dunkel oder Auto gestellt werden.

🩺 Fehlerbehebung

Häufige Probleme und ihre Lösungen. Bei anhaltenden Problemen das vollständige Protokoll (Kopieren-Button) für die Fehleranalyse verwenden.

Fehler: Keine Indexdatei

Problem: 'No index file found', Extraktion startet nicht. Lösung: samtools index <datei.bam> im Terminal ausführen. Für CRAM: samtools index <datei.cram>. Der Index (.bai/.crai) muss im selben Verzeichnis wie die BAM/CRAM-Datei liegen.

Fehler: Referenzgenom fehlt

Problem: 'Reference genome not found' oder CRAM lässt sich nicht öffnen. Lösung: Referenzen → passendes Referenzgenom herunterladen. Sicherstellen dass Reference Library auf das richtige Verzeichnis zeigt (Verzeichnisse → Reference Library). CRAM benötigt exakt dasselbe Genom gegen das aligniert wurde.

Fehler: Tool nicht gefunden

Problem: 'samtools not found' / 'bcftools not found' / 'bwa not found'. Lösung: Tools → Alle installieren. Falls Homebrew installiert ist aber Tool nicht: 'brew install samtools bcftools bwa' im Terminal ausführen, dann Tools → Erkennen klicken. PATH-Problem: /opt/homebrew/bin muss im PATH sein.

Fehler: BWA-Index fehlt

Problem: 'bwa index not found' beim FASTQ→BAM Alignment. Lösung: Der bwa-Index wird automatisch erstellt wenn er fehlt, das dauert 30–60 Minuten für ein 3 GB Genom. Alternativ manuell: 'bwa index /pfad/zum/referenz.fa'. Index-Dateien (.bwt, .amb, .ann, .pac, .sa) müssen im selben Verzeichnis wie das Referenzgenom liegen.

Warnung: Niedrige Coverage

Problem: Lesetiefe unter 10×, Extraktion eingeschränkt. Ursache: zu wenige Reads, schlechte Sequenzierungsqualität, oder WES (nicht WGS). Microarray-Extraktion ist ab ~5× möglich, aber viele SNPs werden als 'no call' ausgegeben. Y/MT-Analyse ab ~15× zuverlässig. Coverage mit 'samtools coverage <datei.bam>' prüfbar.

CRAM: falsches Referenzgenom

Problem: CRAM-Datei öffnet nicht oder liefert leere Ausgabe. Ursache: Das Referenzgenom in der Reference Library stimmt nicht exakt mit dem ursprünglichen Alignment-Genom überein. Lösung: Genaue MD5-Prüfsumme des Alignment-Genoms vom Anbieter erfragen. Für Dante Labs: hs37d5. Für Nebula: hg38.

Haplogrep 2/3 startet nicht

Problem: MT-Haplogruppe nicht berechenbar, 'haplogrep.jar not found'. Lösung: Tools → Haplogrep installieren. Sicherstellen dass Reference Library gesetzt ist. Java muss installiert sein (java@21 via Homebrew). Manuell prüfen: 'java -jar /pfad/haplogrep.jar --help'.

HLA*LA: Fehler bei Installation oder Typisierung

Installation fehlgeschlagen: (1) Prüfen ob Xcode Command Line Tools installiert sind: 'xcode-select --install'. (2) make-Fehler im Protokoll prüfen, häufig fehlen Boost-Include-Pfade. (3) Erneut versuchen: Trash-Button → erneut installieren.

HLA*LA nicht gefunden nach Installation: 'Erkennen' klicken. Das Binary liegt unter <Tool-Verzeichnis>/HLA-LA/bin/HLA-LA.

Typisierung fehlgeschlagen / PRG fehlt: Referenzen → HLA-Referenz → PRG_MHC_GRCh38_withIMGT herunterladen (~2,3 GB).

Typisierung fehlgeschlagen / BAM-Fehler: Die BAM-Datei muss GRCh38-aligniert und indexiert sein (.bai). Y-only oder MT-only BAMs werden nicht unterstützt.

Keine Ausgabedateien

Problem: Extraktion läuft durch aber keine Dateien im Output-Verzeichnis. Mögliche Ursachen: (1) Output-Verzeichnis falsch gesetzt, Verzeichnisse prüfen. (2) Keine Schreibrechte im Output-Verzeichnis. (3) BAM enthält keine Reads für die gewählte Region (z. B. kein Y-Chromosom in weiblicher Probe). Protokoll auf Fehlermeldungen prüfen.

I/O-Timeout auf externer SSD

Problem: Pipeline bricht mit 'Operation timed out' oder 'bgzf_read' Fehler ab, besonders auf externen USB-SSDs. Ursache: Die SSD geht in den Ruhezustand oder die USB-Verbindung wird kurz unterbrochen. Lösung: Bei I/O-Timeouts erscheint ein Retry-Dialog. 'Wiederholen' versucht den Schritt erneut. SSD-Schlaf verhindern: Systemeinstellungen → Energie → 'Festplatten im Ruhezustand deaktivieren' ausschalten. Für lange Pipelines: interne SSD verwenden oder externe SSD direkt anschließen (kein Hub).

Prozess sehr langsam

Normale Zeiten: FASTQ→BAM 30× WGS ~2–4 Stunden, Microarray-Extraktion 30× WGS ~20–60 Minuten, Referenzgenom-Download ~5–30 Minuten. Beschleunigung: bwa-mem2 statt bwa installieren (3× schneller), sambamba für Markdup, SSD für Reference Library und Temp-Verzeichnis. Prozessor-Throttling bei Wärme prüfen: 'sudo powermetrics --samplers cpu_power -n 1' im Terminal.

💡

Bei unklaren Fehlern: Protokoll → Kopieren → vollständigen Log-Text in einen Texteditor einfügen. Der genaue Fehlerbefehl und die Fehlermeldung stehen immer direkt unter dem ausgeführten Befehl.

📖 Begriffe & Konzepte

Erklärung der wichtigsten bioinformatischen Fachbegriffe.

BAM / CRAM / SAM

Standardformate für ausgerichtete Sequenzierungsdaten. SAM (Sequence Alignment/Map): textbasiert, menschenlesbar. BAM: binäres, komprimiertes SAM (~25 % Größe). CRAM: noch stärker komprimiert (benötigt Referenzgenom zum Entpacken, ~60 % kleiner als BAM). Alle erfordern eine Indexdatei (.bai / .crai) für schnellen Zugriff auf bestimmte Genomregionen.

FASTQ

Rohformat für Sequenzierungs-Reads mit Qualitätswerten. Jeder Read besteht aus 4 Zeilen: Name, Sequenz, '+', Qualitätswerte (Phred-Score, kodiert als ASCII). Paired-End: R1 (Forward-Read) + R2 (Reverse-Read) in zwei Dateien. Typische Größen: 30× WGS ~100–150 GB pro Datei.

VCF

Variant Call Format, listet alle gefundenen Abweichungen vom Referenzgenom. Enthält: CHROM, POS, ID (rsID), REF (Referenzallel), ALT (Alternativallel), QUAL (Qualitätsscore), FILTER, INFO, FORMAT, Sample-Genotyp. Komprimiert als .vcf.gz mit Tabix-Index (.tbi) für schnellen Zugriff.

SNP / rsID / Indel

SNP (Single Nucleotide Polymorphism): einzelne Basenvariation (z. B. A→G). rsID: eindeutiger Bezeichner aus der NCBI dbSNP-Datenbank (z. B. rs1805007 = MC1R Rotgenvariante). Indel: Insertion oder Deletion von einer oder mehreren Basen. Microarray-Chips messen hauptsächlich bekannte SNPs.

Haplogruppe

Gruppe genetisch verwandter Individuen mit gemeinsamem Vorfahren. Y-Haplogruppen (väterliche Linie): A bis T (PhyloTree Y). MT-Haplogruppen (mütterliche Linie): A bis Z + Untergruppen (PhyloTree MT). Nomenklatur: R1b1a1a2a1a1 = R1b-L11 = Westeuropäischer Zweig. Tiefere Bezeichnungen = genauere Abstammung.

Coverage / Lesetiefe

Durchschnittliche Anzahl Reads die eine Position abdecken. WGS-Standardwerte: 30× (Standard, gut für alle Anwendungen), 15× (ausreichend für Microarray-Extraktion), <10× (niedrig, viele No-Calls). Mittels 'samtools coverage' oder 'samtools depth' berechenbar. Formel: Coverage = (Anzahl Reads × Readlänge) / Genomgröße.

Genomaufbau / Build

Version des Referenzgenoms: GRCh38/hg38 (aktuell seit 2013), GRCh37/hg19 (2009), hs37d5 (hg19+Decoys). Chromosomkoordinaten unterscheiden sich zwischen Builds, eine hg19-BAM kann nicht direkt mit einem hg38-Panel verwendet werden. Build wird automatisch aus dem BAM-Header gelesen.

Ts/Tv-Ratio

Verhältnis von Transitionen (Purin→Purin: A↔G, oder Pyrimidin→Pyrimidin: C↔T) zu Transversionen (Purin↔Pyrimidin: A/G↔C/T). Erwartungswert WGS: 2,0–2,1. WES: 2,5–3,0 (Exom enthält mehr CpG-Stellen). Abweichungen deuten auf Sequenzierungsprobleme oder Alignment-Fehler hin.

Phred-Score / Qualitätswert

Logarithmischer Fehlerwahrscheinlichkeitswert pro Base: Q20 = 1 % Fehler, Q30 = 0,1 % Fehler, Q40 = 0,01 % Fehler. Illumina-Standard: ≥Q30 für ≥80 % aller Basen. Im FASTQ-Format als ASCII kodiert (Offset 33). Fastp/FastQC zeigen Verteilung der Qualitätswerte.

PCR-Duplikate

Reads mit identischer Start- und Endposition, entstehen durch PCR-Amplifikation vor der Sequenzierung. Verfälschen Variantenruf und Coverage-Statistiken. Werden durch samtools markdup oder sambamba identifiziert und markiert (nicht gelöscht). Duplikat-Rate >30 % deutet auf Bibliotheksprobleme hin.

Decoy-Contigs hs38d1 hs37d5

Künstliche DNA-Sequenzen die dem Referenzgenom hinzugefügt werden, um 'verwaiste' Reads aufzufangen. Sequenzierungsdaten enthalten Reads aus Viren, Bakterien, repetitiven Elementen oder Kontaminationen. Ohne Decoys werden diese Reads fälschlicherweise auf echte Chromosomen gemappt und erzeugen falsch-positive Varianten. Mit Decoys (z. B. hs38d1) werden sie korrekt auf die Decoy-Sequenz ausgerichtet und stören die Analyse nicht. Ergebnis: sauberere BAMs, weniger Rauschen, leicht weniger Multi-Mapping.

Supplementäre vs. Sekundäre Alignments

Wenn ein Read an mehreren Stellen im Genom alignt (Split-Read/chimäres Alignment), gibt es zwei Markierungsarten:

• Supplementary (FLAG 2048): Das kürzere Alignment-Fragment ist supplementär zum primären. Moderner Standard, von allen aktuellen Tools unterstützt.

• Secondary (FLAG 256): Das kürzere Fragment wird als sekundäres Alignment markiert (bwa -M Flag). Nötig für ältere Tools. Sekundäre Reads enthalten mehr Daten pro Eintrag und erzeugen leicht größere BAM-Dateien.

In der Genome-App einstellbar unter Konvertierung → Split-Reads.

CNV

Copy Number Variation, Abweichung von der normalen diploiden Kopienzahl (2) einer Genomregion. Deletionen (0–1 Kopien) und Duplikationen (3+ Kopien) betreffen teils ganze Gene. Klinisch relevant z. B. LPA/KIV-2 CNV für Lipoprotein(a)-Spiegel, CYP2D6 CNV für Medikamenten-Metabolismus.

Strang-Konvention (Plus/Minus)

DNA ist doppelsträngig, jede Base hat ein Komplement (A↔T, C↔G). Genotypisierungsplattformen können den Plus-Strang (Forward) oder den Minus-Strang (Reverse) als Referenz verwenden. Dadurch kann derselbe SNP als 'A' (Plus-Strang) oder 'T' (Minus-Strang) angegeben werden. Beim Vergleich von Daten aus verschiedenen Quellen (z. B. 23andMe vs. WGS-Extraktion) müssen die Strang-Konventionen berücksichtigt werden. Besonders A/T- und C/G-SNPs sind mehrdeutig, da Plus- und Minus-Strang nicht unterscheidbar sind.

Liftover

Konvertierung genomischer Koordinaten zwischen verschiedenen Referenzgenom-Versionen (z. B. hg19 → hg38). Notwendig wenn Daten aus unterschiedlichen Builds verglichen werden sollen. Die gleiche Variante hat in hg19 und hg38 unterschiedliche Positionsangaben, da sich die Referenzsequenz zwischen den Versionen geändert hat (Lücken geschlossen, Contigs verschoben). Tools: UCSC LiftOver, CrossMap, Picard LiftoverVcf.

? FAQ

Häufig gestellte Fragen.

WGS vs. WES, was ist der Unterschied?

WGS (Whole Genome Sequencing): gesamtes Genom (~3,2 Mrd. Basen). Alle Bereiche abgedeckt. WES (Whole Exome Sequencing): nur kodierende Regionen (~1 % des Genoms). Für Microarray-Extraktion ist WGS bevorzugt, WES liefert kaum nicht-kodierende SNPs. Genome erkennt automatisch ob WGS oder WES geladen ist.

Welches Referenzgenom soll ich nehmen?

hs38d1 (GRCh38 + Decoys): beste Qualität für eigenes WGS-Alignment, Decoy-Contigs fangen Rauschen ab. hs38 (GRCh38 no-alt): gute Alternative ohne Decoys, Standard bei WGS Extract. hg38: wenn BAM bereits gegen hg38 ausgerichtet. hs37d5: wenn BAM von Dante Labs, Genome Quebec oder ähnlichem Anbieter. hg19: wenn BAM von älteren Sequenzierungslabors. Den Build der BAM-Datei erkennt die App automatisch.

Kann ich die Extraktion bei 23andMe hochladen?

Nein, 23andMe akzeptiert keine externen Dateien. Die extrahierten Dateien im 23andMe-Format eignen sich für andere Plattformen die dieses Format lesen: GEDmatch, MyHeritage DNA, FamilyTreeDNA (als rohe Datei), DNA.Land, Gedmatch Genesis, Promethease, SelfDecode.

Welches Format für GEDmatch?

CombinedKit (enthält alle gerufenen SNPs) ist für GEDmatch am besten geeignet, maximale Abdeckung. Alternativ: 23andMe v3 oder v5 (weniger SNPs aber breiter unterstützt). Für GEDmatch Genesis: CombinedKit oder AncestryDNA v2 empfohlen.

Werden Daten in die Cloud hochgeladen? Datenschutz

Nein. Genome arbeitet vollständig lokal. Kein Datenaustausch mit externen Servern. Einzige Netzwerkaktivität: Download von Referenzgenomen (UCSC/NCBI), Tool-Installation via Homebrew, und Haplogrep-Download von GitHub, alles explizit durch den Nutzer angestoßen.

Wie lange dauert die Extraktion?

Richtwerte für 30× WGS auf Apple M2: Microarray-Extraktion ~20–40 Min, Y VCF ~5–10 Min, MT VCF ~2–5 Min, FASTQ→BAM ~90–180 Min. Auf älteren Intel-Macs: 2–3× länger. Hauptfaktoren: Coverage, Dateigröße, SSD-Geschwindigkeit, verfügbare CPU-Kerne.

BAM hat keine Chromosomennamen im Header

Manche BAM-Dateien haben einen unvollständigen Header. Die App erkennt dann Build und Chromosomennamen nicht automatisch. Lösung: BAM-Header mit samtools view -H <datei.bam> prüfen. Falls @SQ-Zeilen fehlen: 'samtools reheader' mit korrektem Header ausführen oder das Tool 'samtools addreplacerg' verwenden.

Warum unterscheiden sich Genotypen zwischen Plattformen? Wichtig

Beim Vergleich von Genotypisierungsdaten aus unterschiedlichen Quellen (z. B. 23andMe vs. WGS-Extraktion) treten systembedingte Unterschiede auf, die keine echten biologischen Abweichungen darstellen:

1. Genomische Positionen: Verschiedene Referenzgenom-Versionen (hg19 vs. hg38) verwenden unterschiedliche Koordinatensysteme. Die gleiche Variante hat dadurch unterschiedliche Positionsangaben. Ein Liftover-Tool kann diese ineinander überführen.

2. Allel-Reihenfolge: Heterozygote Genotypen können in beliebiger Reihenfolge geschrieben werden (AG oder GA). Das ist rein kosmetisch, biologisch identisch.

3. Strang-Konvention: Je nach Plattform wird der Plus- oder Minus-Strang als Referenz verwendet. Dadurch erscheinen Komplementär-Basen (A↔T, C↔G), obwohl der gleiche Genotyp gemeint ist.

4. Echte Calling-Unterschiede: Verschiedene Technologien (SNP-Array vs. WGS) und deren Algorithmen können bei einzelnen Varianten zu abweichenden Calls führen.

Fazit: Über 99,7 % der Genotypen stimmen inhaltlich überein. Die sichtbaren Unterschiede sind fast ausschließlich auf Referenzgenom, Strang-Konvention und Allel-Notation zurückzuführen.

Was braucht yFull?

yFull akzeptiert: Y+MT BAM (bevorzugt, Build hg38/hs38 empfohlen) oder Y VCF. Männliche Probe erforderlich. BAM-Datei muss indexiert sein. Genome erstellt die benötigten Dateien unter Extraktion → Y+MT BAM und Extraktion → Y VCF. Hochladen direkt auf yfull.com.

Weitere Ressourcen

Diese Hilfe ist auch direkt in der App verfügbar. Für Rückmeldungen oder Fragen zur Anwendung schreib an info@pjlabs.dev.