Genome · Handbuch
Hilfe
Alles zu BAM/CRAM-Analyse, FASTQ-Konvertierung, Extraktion, Haplogruppen und klinischer Pipeline. Alle Berechnungen laufen lokal, keine Cloud.
⚡ Schnellstart
Genome analysiert BAM/CRAM-Dateien aus Whole Genome Sequencing (WGS) und extrahiert genetische Daten für Ancestry-, Haplogruppen- und klinische Analyse-Plattformen.
Was ist Genome? ↓
Genome ist eine macOS-App für bioinformatische Auswertung von WGS-Rohdaten. Sie konvertiert BAM/CRAM-Dateien in Microarray-kompatible Formate (23andMe, AncestryDNA, FTDNA, GEDmatch), extrahiert Y- und MT-DNA, ruft Varianten und berechnet Haplogruppen. Alle Berechnungen laufen lokal, keine Cloud, keine Datenweitergabe.
Systemvoraussetzungen ↓
macOS 26 oder neuer · Apple Silicon (M1+) erforderlich · 16 GB RAM empfohlen (8 GB Minimum) · Interne SSD empfohlen, auf M4 mit 16 GB RAM und interner SSD dauert FASTQ→BAM ca. 12 Stunden · ~1–2 GB pro Referenzgenom · Internetverbindung nur für Tool-Installation und Referenzgenom-Download erforderlich.
Richtwerte für 30× WGS auf Apple M2: Microarray-Extraktion ~20–40 Min · Y VCF ~5–10 Min · MT VCF ~2–5 Min · FASTQ→BAM ~90–180 Min. Hauptfaktoren: Coverage, Dateigröße, SSD-Geschwindigkeit, verfügbare CPU-Kerne.
Erste Schritte ↓
- Verzeichnisse → Reference Library wählen (z. B. /Volumes/SSD/Referenz), hier werden Genome und Panels gespeichert.
- Referenzen → Referenzgenom herunterladen. hs38d1 (GRCh38 + Decoys, ~871 MB) für beste Qualität empfohlen, alternativ hs38 (GRCh38 no-alt, ~832 MB).
- Tools → Alle installieren. Homebrew wird automatisch installiert falls nicht vorhanden.
- Haben Sie FASTQ-Rohdaten (R1 + R2)? → Konvertierung → R1- und R2-Datei wählen → optional Fastp (Qualitätsfilterung) → dann Alignment starten. Das erzeugt eine fertige BAM-Datei im Output-Verzeichnis.
- Verzeichnisse → BAM/CRAM Datei auswählen (entweder direkt gelieferte BAM oder aus Schritt 4 erzeugte). Die App liest Build, Coverage, Geschlecht automatisch.
- Extraktion oder Analyse starten. Ergebnisse erscheinen im Output-Verzeichnis.
Typischer Workflow ↓
WGS-BAM laden → Microarray extrahieren → zu 23andMe/GEDmatch hochladen für Ancestry. Für Haplogruppen: Y BAM + Y VCF extrahieren → zu yFull, yDNA Warehouse hochladen. MT VCF für Haplogrep oder Mitoverse. FASTQ-Rohdaten: erst mit Fastp bereinigen, dann FASTQ→BAM Alignment, dann weiter wie oben.
Der Status-Balken am unteren Fensterrand zeigt den Fortschritt laufender Operationen. Ein roter Fehlerbalken erscheint bei Problemen, dieser liefert die Fehlerursache und kann mit ✕ geschlossen werden.
▶ Startseite
Workflow-Presets bündeln Referenzgenom, Tools und Haplogruppen-Einstellungen für typische Analysen.
Was sind Presets? ↓
Presets sind vorkonfigurierte Workflow-Profile für häufige Analyse-Szenarien. Fünf integrierte Presets stehen zur Verfügung: WGS Klinisch, Exom, Mitochondrial, Y-Chromosom und Consumer-Genetik. Jedes Preset definiert das passende Referenzgenom, die benötigten Tools und Haplogruppen-Einstellungen.
Preset aktivieren ↓
Klicken Sie auf ein Preset um die Details anzuzeigen, dann auf 'Aktivieren'. Die App zeigt fehlende Voraussetzungen an (z. B. nicht installierte Tools oder fehlendes Referenzgenom) bevor das Preset angewendet wird.
Eigene Presets ↓
Erstellen Sie eigene Presets aus der aktuellen Konfiguration. Vergeben Sie einen Namen, ein Icon und eine Beschreibung. Das Preset speichert alle aktuellen Einstellungen und kann jederzeit wieder aktiviert werden.
Presets ändern nur Einstellungen, sie starten keine Pipeline. Nach dem Aktivieren eines Presets können Sie die Konfiguration prüfen und den Workflow manuell starten.
📁 Verzeichnisse
Output-Verzeichnis ↓
Alle erzeugten Dateien (BAMs, VCFs, Microarray-Textdateien, Berichte) landen hier. Standard ist das Verzeichnis der geladenen BAM-Datei. Empfohlen: eigenes Ausgabe-Verzeichnis auf einer SSD wählen. Das Verzeichnis wird beim Start automatisch wiederhergestellt.
Temporäres Verzeichnis ↓
Zwischendateien während laufender Prozesse: entpackte Referenzgenome, Alignment-Zwischenstände, Sortierdateien. Standard: ~/Library/Caches/Genome. Diese Dateien werden nach erfolgreicher Verarbeitung automatisch gelöscht. Bei Abbruch können Reste zurückbleiben, manuell löschbar.
Reference Library Wichtig ↓
Zentrales Verzeichnis für alle Referenzdaten: Referenzgenome (.fa / .fa.gz + .fai-Index), Microarray-Panels (.tab.gz / .vcf.gz) und haplogrep.jar. Empfohlen: externe SSD mit mindestens 5 GB freiem Speicher, da jedes Referenzgenom ~1 GB belegt. Beim ersten Start wird das Verzeichnis geprüft, fehlende Ressourcen werden durch farbige Indikatoren in Referenzen und Tools angezeigt.
BAM/CRAM Datei laden ↓
Lädt eine BAM-, CRAM- oder SAM-Datei als Eingabe. Die App liest beim Laden automatisch: Referenzgenom-Name aus dem BAM-Header, Genomaufbau (hg38/hg19/hs37d5), durchschnittliche Lesetiefe (Coverage), biologisches Geschlecht (Y/X-Chromosom-Reads), Dateiinhalt (WGS/WES/Panel) und Indexierungsstatus (.bai / .crai). CRAM erfordert ein passendes Referenzgenom in der Reference Library.
Ohne Index-Datei (.bai für BAM, .crai für CRAM) sind viele Extraktions- und Analysefunktionen nicht verfügbar. Index mit 'samtools index datei.bam' erstellen.
CRAM-Dateien sind 40–50 % kleiner als BAM, benötigen aber beim Entpacken das Referenzgenom. Lege das passende Genom in die Reference Library bevor du CRAM-Dateien lädst.
⇄ Konvertierung
Konvertiert FASTQ-Rohdaten in ausgerichtete BAM-Dateien (Alignment) oder wandelt BAMs zurück in FASTQ. Enthält auch Qualitätskontrolle für Rohdaten.
FASTQ → BAM (Alignment)
FASTQ → BAM bwa samtools ↓
Richtet Paired-End FASTQ-Dateien (R1 + R2) gegen ein Referenzgenom aus. Pipeline: bwa mem → samtools fixmate → samtools sort → samtools markdup. Ergebnis: indexierte, sortierte, deduplizierte BAM-Datei.
Voraussetzungen FASTQ→BAM ↓
Benötigt: samtools, bwa (oder bwa-mem2 für höhere Geschwindigkeit). Referenzgenom muss in der Reference Library vorliegen und mit 'bwa index' indiziert sein (.bwt / .amb / .ann / .pac / .sa Dateien). bwa-Index wird beim ersten Alignment automatisch erstellt falls fehlend, dauert ~30–60 Minuten für ein 3 GB Genom.
Alignment-Parameter ↓
Threads: wird automatisch auf die Anzahl logischer CPU-Kerne gesetzt. Read-Group wird aus dem Dateinamen generiert (RGID, RGSM, RGPL=ILLUMINA, RGLB=lib1). Markdup entfernt PCR-Duplikate. Sortierung ist koordinatenbasiert (für Indexierung benötigt).
Split-Read-Modus Empfohlen: Supplementary ↓
Steuert wie chimäre/Split-Reads (Reads die an mehreren Stellen im Genom alignen) im BAM markiert werden.
• Supplementary (Standard, empfohlen): Kürzere Split-Hits werden als supplementäre Alignments markiert. Moderner Standard, kompatibel mit allen aktuellen Tools (samtools, GATK 4+, bcftools).
• Secondary (-M): Kürzere Split-Hits werden als sekundäre Alignments markiert (bwa -M Flag). Nötig für ältere Tools wie Picard <2.0. Erzeugt leicht größere BAM-Dateien.
Die Einstellung befindet sich im Konvertierung-Tab unter der Referenzgenom-Auswahl.
Fortsetzen nach Abbruch ↓
Wird ein laufendes FASTQ→BAM-Alignment abgebrochen oder schlägt fehl, erkennt die App beim nächsten Start automatisch vorhandene Zwischendateien. Beim Klick auf 'Alignment starten' erscheint ein Dialog mit drei Optionen:
• Fortsetzen: Setzt die Pipeline ab dem letzten erfolgreichen Schritt fort (z. B. ab Sort-Merge, Index oder Flagstat). • Von vorne: Löscht alle Zwischendateien und startet komplett neu. • Abbrechen: Keine Aktion.
Die Pipeline kann von jedem Schritt fortgesetzt werden: Sort-Chunks → Merge → Markdup → Index → Flagstat/Laden.
Bei I/O-Timeouts (z. B. auf externen SSDs) bricht die Pipeline nicht automatisch ab. Stattdessen erscheint ein Dialog: 'Wiederholen' versucht den fehlgeschlagenen Schritt erneut, 'Abbrechen' stoppt die Pipeline. So können Sie z. B. eine externe SSD wieder anschließen und fortfahren.
BAM → FASTQ (Rückkonvertierung)
BAM → FASTQ samtools ↓
Konvertiert eine BAM-Datei zurück in zwei FASTQ-Dateien (R1, R2) via samtools collate + fastq. Nützlich wenn Originaldateien fehlen oder ein Re-Alignment gegen ein anderes Referenzgenom nötig ist. Unmapped Reads werden optional eingeschlossen.
Qualitätskontrolle
Fastp fastp ↓
Fastp analysiert FASTQ-Dateien auf Qualität, Adapter-Kontamination und GC-Gehalt. Erstellt einen interaktiven HTML-Bericht und optional bereinigte FASTQ-Dateien (Adapter-Trimming, Low-Quality-Read-Filterung). Empfohlen vor jedem Alignment. Geschwindigkeit: ~500 MB/s auf Apple Silicon.
FastQC FastQC Java ↓
FastQC erstellt einen detaillierten HTML-Qualitätsbericht pro FASTQ-Datei. Enthält: Per-Base-Sequenzqualität, Per-Sequenz-Qualitätsscores, Sequenz-Duplikationslevel, Überlängen-Reads, Adapter-Kontamination, Kmer-Analyse. Benötigt Java Runtime. Ergebnis: HTML-Datei im Output-Verzeichnis.
Für beste Ergebnisse: Fastp vor dem Alignment ausführen. FastQC für eine detailliertere visuelle Analyse der Rohdaten. Beide Tools ergänzen sich und können nacheinander ausgeführt werden.
↓ Extraktion
Extrahiert spezifische Datensätze aus der geladenen BAM-Datei. Alle Ausgaben landen im Output-Verzeichnis. Benötigt eine indizierte BAM/CRAM-Datei und ein passendes Referenzgenom.
Microarray-Extraktion
Referenzpanel ↓
Das Referenzpanel enthält die SNP-Positionen der kommerziellen DNA-Chip-Plattformen (.tab.gz oder .vcf.gz). Panels werden im Reference Library Verzeichnis gespeichert und beim Start automatisch erkannt. Der Indikator zeigt: grün = Panel vorhanden, orange = Panel fehlt (alle Varianten ohne rsID werden ausgegeben).
Ausgabeformate wählen ↓
Über das aufklappbare Format-Menü einzelne Plattformen aktivieren. Schaltflächen: 'Empfohlen' wählt die gängigsten Formate (23andMe v3/v5, AncestryDNA v2, CombinedKit). 'Alle' aktiviert alle verfügbaren Versionen. 'Keines' leert die Auswahl. CombinedKit enthält alle gerufenen SNPs, für GEDmatch, Gedmatch Genesis und FTDNA geeignet.
Header-Kopfzeile ↓
Der Schalter 'Header' (im aufgeklappten Ausgabeformate-Menü, neben Alle/Keines) steuert, ob beim Erstellen der Ausgabedateien eine plattformspezifische Kopfzeile vorangestellt wird. Standardmäßig eingeschaltet. Ist Header aktiv, wird außerdem der Zeitstempel in der Kopfzeile immer auf das aktuelle Datum und die aktuelle Uhrzeit aktualisiert, im jeweils plattformkorrekten Format (z. B. 23andMe: 'Thu Dec 29 11:59:59 2012', AncestryDNA: '03/21/2013 11:15:47 MDT', MyHeritage: '2019-05-04 14:21:19'). Ist Header ausgeschaltet, werden die Dateien ohne Kopfzeile erstellt (nur Datensätze). Für FTDNA gibt es keinen Zeitstempel in der Vorlage.
Header passen sich dynamisch dem Referenzgenom-Build (37/38) an. Bei Verwendung von hg38 werden Build-Referenzen in den Kopfzeilen automatisch aktualisiert (z. B. "build 37" → "build 38", "GRCh37.p13" → "GRCh38.p14").
Microarray extrahieren bcftools ↓
Startet die Microarray-Extraktion. Interne Pipeline: bcftools mpileup (Pileup aller Referenzpositionen) → bcftools call (Variantenruf) → Panel-spezifische Filterung → Format-Konvertierung. Mit Panel: chip-spezifische SNP-Filterung + rsID-Annotation + CombinedKit + Einzelformate. Ohne Panel: rohe Varianten-VCF. Dauer: 15–90 Minuten je nach Coverage und Genomgröße.
Ausgabedateien Microarray ↓
Pro aktiviertem Format: eine .txt-Datei (Tab-getrennt) im Output-Verzeichnis. Dateiname: [BAM-Name]_[Format]_[Datum].txt. Format-Beispiel 23andMe v5: Spalten rsid / chromosome / position / allele1allele2. CombinedKit: alle gerufenen SNPs mit rsID falls Panel vorhanden.
Mitochondriale DNA
MT FASTA samtools ↓
Extrahiert das mitochondriale Chromosom als FASTA-Konsensussequenz. Verwendet: samtools view (MT-Reads) → samtools mpileup → Konsensusberechnung. Geeignet für yFull (weiblich), Mitoverse, EMPOP. Ausgabe: [Name]_MT.fasta.
MT BAM samtools ↓
Extrahiert alle MT-Reads als separate BAM-Datei. Chromosom-Name passt sich automatisch an (chrM für hg38, MT für hs37d5). Geeignet für manuelle Analyse und Weiterverarbeitung. Ausgabe: [Name]_MT.bam + .bai Index.
MT VCF bcftools ↓
Ruft Varianten auf dem MT-Chromosom mit bcftools mpileup + call und erstellt eine komprimierte VCF-Datei. Enthält alle SNPs und Indels des MT-Genoms. Geeignet für Haplogrep (direkter Import), Mitoverse, PhyloTree-basierte Analyse. Ausgabe: [Name]_MT.vcf.gz.
Y-Chromosom
Y+MT BAM yFull ↓
Extrahiert Y-Chromosom und MT-DNA gemeinsam als BAM. Optimal für yFull (männlich) da dort beide Chromosomen benötigt werden. Build 38 (hg38/hs38) wird von yFull bevorzugt. Ausgabe: [Name]_YMT.bam + .bai.
Y BAM ↓
Extrahiert nur das Y-Chromosom als BAM. Geeignet für yDNA Warehouse und yTree. Chromosom-Name: chrY (hg38) oder Y (hs37d5). Ausgabe: [Name]_Y.bam + .bai.
Y VCF bcftools ↓
Ruft Varianten auf dem Y-Chromosom und erstellt eine komprimierte VCF. Geeignet für manuelle Analyse und Hochladen zu yFull (als VCF-Option). Enthält alle Y-SNPs und Y-STRs. Ausgabe: [Name]_Y.vcf.gz.
Y-Chromosom-Extraktion ist nur für männliche Proben sinnvoll. Die App erkennt das biologische Geschlecht automatisch aus dem Y/X-Reads-Verhältnis und zeigt eine Warnung bei weiblichen Proben.
Klinische Varianten-Pipeline
Pipeline starten bcftools VEP PharmCAT OpenCRAVAT ↓
Verarbeitet die geladene BAM-Datei in sequenziellen Schritten: (1) Variant Calling via bcftools mpileup | call, (2) Hard-Filterung (QUAL≥30, DP≥10, MQ≥40), (3) VEP-Annotation (optional, wenn installiert), (4) PharmCAT-Pharmakogenomik-Analyse (optional), (5) OpenCRAVAT-Variantenannotation (optional), (6) TSV-Export + Zusammenfassung. Optionale Schritte werden automatisch übersprungen wenn das jeweilige Tool nicht installiert ist. Alle Ausgaben landen unter clinical_pipeline/ im Output-Verzeichnis.
Optionale Tools optional ↓
VEP + Cache: Varianten-Annotation mit Gen, SIFT, PolyPhen, gnomAD und ClinVar (~15 GB Cache). PharmCAT: Pharmakogenomik-Report für Medikamentendosierungsempfehlungen (~30 MB). OpenCRAVAT: Modulare Annotation aus ClinVar, gnomAD, COSMIC, PharmGKB (~10–50 GB Module). Installation unter Tools → Bioinformatik-Tools.
Fortsetzen nach Abbruch ↓
Die klinische Pipeline kann nach einem Abbruch ab dem letzten erfolgreichen Schritt fortgesetzt werden. Die App erkennt automatisch vorhandene Zwischendateien (raw_variants.vcf.gz, filtered.vcf.gz, annotated.vcf) und bietet im Analyse-Tab einen 'Ab Schritt X fortsetzen'-Button an. Bei Fehlern in Schritt 1 oder 2 erscheint ein Retry-Dialog: 'Wiederholen' oder 'Abbrechen'.
Ausgabedateien ↓
raw_variants.vcf.gz: Rohvarianten. filtered.vcf.gz: Qualitätsgefilterte Varianten. annotated.vcf: VEP-annotiert (wenn VEP installiert). pgx/: PharmCAT HTML + JSON (wenn PharmCAT installiert). opencravat/: OpenCRAVAT Excel-Report (wenn OpenCRAVAT installiert). snp_liste.tsv: Alle PASS-Varianten als Tab-Tabelle.
∿ Analyse
Direkte Analyse-Funktionen auf Basis der geladenen BAM-Datei ohne externe Plattformen. Haplogruppen, CNV, Mikrobiom und VCF-Analyse.
Y-Haplogruppe bcftools ISOGG ↓
Berechnet die väterliche Y-Haplogruppe direkt aus der BAM-Datei. Die App ruft Y-SNPs via bcftools, vergleicht diese mit der ISOGG/PhyloTree-Datenbank und liefert die tiefste passende Klade. Anzeige: Haplogruppe, Konfidenz, unterstützende SNPs. Schneller als externes Hochladen, keine Internetverbindung nötig.
MT-Haplogruppe (Haplogrep 2/3) Haplogrep 2 Haplogrep 3 PhyloTree ↓
Bestimmt die mütterliche MT-Haplogruppe mit Haplogrep 2 oder Haplogrep 3. Die Version wird im Analyse-Tab über einen Segment-Picker ausgewählt.
• Haplogrep 2 (seppinho/haplogrep-cmd 2.4.0): Klassisches Tool, ~8 MB, Aufruf mit '--format vcf'. Bewährt.
• Haplogrep 3 (genepi/haplogrep3 3.2.2): Nachfolger mit moderner Codebasis, ~50 MB inkl. Phylotree-Daten. Nutzt konfigurierbare Phylotrees (Standard: phylotree-rcrs@17.2). Liefert mit --extend-report zusätzliche Spalten (Polymorphismen, Hotspots, Lineage-Notes).
Beide Versionen können parallel installiert sein. Eingabe: MT-VCF aus Extraktion → MT VCF. Ausgabe: Haplogruppe + Qualitätsscore + Mutations-Liste. Installation: Tools → Haplogrep 2/3 herunterladen.
HLA-Typisierung (HLA*LA) HLA*LA HLA-A/B/C DRB1 ↓
Bestimmt HLA-Allele für die klassischen MHC-Gene (HLA-A, -B, -C, -DRB1, -DQB1, -DPB1 u. a.) direkt aus der geladenen BAM-Datei. HLA*LA nutzt einen Populations-Referenzgraphen (PRG_MHC_GRCh38_withIMGT) für hochgenaue Typisierung auch aus Standard-WGS ohne separaten HLA-Anreicherungsschritt.
Voraussetzungen: HLA*LA installiert (Tools → HLA*LA), PRG-Graph heruntergeladen (Referenzen → HLA-Referenz), GRCh38-alignierte BAM-Datei mit Index (.bai). Laufzeit: 20–60 Minuten.
Ausgabe: <SampleID>_HLA_typing.txt im Output-Verzeichnis. Klinische Anwendung: Spenderabgleich bei Transplantation, Medikamenten-Hypersensitivität (HLA-B*57:01, HLA-B*15:02), Autoimmun-Risikogene.
LPA / KIV-2 CNV CNV LPA ↓
Schätzt die Kopienzahl (CNV) der KIV-2-Wiederholungseinheiten im LPA-Gen (Lipoprotein(a)). Klinisch relevant: hohe KIV-2-Kopienzahl korreliert mit niedrigem Lp(a)-Spiegel. Methode: Coverage-Analyse der KIV-2-Region relativ zu einer stabilen Referenzregion. Ergebnis: geschätzte Kopienzahl + Coverage-Plot.
Unmapped Reads ↓
Extrahiert Reads die nicht gegen das Referenzgenom ausgerichtet wurden. Mögliche Ursachen: nicht-humane DNA (Bakterien, Viren), Sequenzierungsfehler, sehr kurze Reads, Sequenzen in Referenzlücken. Ausgabe: FASTQ-Datei mit unmapped Reads. Nützlich für metagenomische Analyse (Kaiju, CosmosID).
VCF-Analyse
VCF annotieren bcftools ↓
Setzt Varianten-IDs nach dem Schema CHROM:POS:REF:ALT via bcftools annotate. Falls keine VCF im Output-Verzeichnis vorhanden ist, wird zuerst automatisch ein Variant Calling aus dem geladenen BAM durchgeführt (bcftools mpileup | call). Ausgabe: _annotated.vcf.gz.
VCF filtern bcftools ↓
Filtert VCF-Varianten nach Qualitätskriterien: QUAL≥20 und Lesetiefe DP≥10 via bcftools view. Falls keine VCF vorhanden, wird zuerst Variant Calling ausgeführt. Ausgabe: _filtered.vcf.gz.
Varianten-QC (VarQC) Ts/Tv bcftools ↓
Berechnet Qualitätsmetriken einer VCF via bcftools stats: Ts/Tv-Ratio (Zielwert WGS: 2,0–2,1), SNP/Indel-Verhältnis, Heterozygotie-Rate, Varianten pro Chromosom. Falls keine VCF vorhanden, wird zuerst Variant Calling ausgeführt. Ausgabe: _stats.txt.
🔍 SNP-Suche
Schnelle Suche nach Ihrer DNA in einer Genotyp-Datei. Laden Sie eine TXT-Datei (CombinedKit.txt, 23andMe, etc.), geben Sie rsIDs ein und erhalten Sie sofort die Genotypen, Chromosomen und Positionen. Mit Template-Verwaltung und Filter für schnelle Suchen.
SNP-Datei laden ↓
Die SNP-Datei (TXT-Format) wird im Tab 'Verzeichnisse' ausgewählt, genau wie die BAM/CRAM-Datei. Unterstützte Formate: CombinedKit.txt (alle Plattformen), 23andMe TXT, AncestryDNA TXT, oder andere Tab-getrennte Formate mit rsid/Position/Genotype-Spalten. Die App zeigt die Anzahl der SNPs in der Datei nach dem Laden an.
rsIDs eingeben rs-Format ↓
Geben Sie eine oder mehrere rsIDs in das Textfeld ein, eine pro Zeile. Format: rs123456 oder einfach 123456. Sie können auch aus anderen Programmen kopieren und einfügen; der Filter bereinigt automatisch extra Zeichen. Die Abzählung zeigt wie viele rsID(s) Sie eingegeben haben.
Filter-Schaltfläche Regex ↓
Der Filter-Button erscheint automatisch wenn Sie Text mit Sonderzeichen oder Whitespace eingeben. Ein Klick extrahiert automatisch alle rsID-Muster (rs + Zahlen) aus dem Text und entfernt alles andere, perfekt zum Bereinigen von kopierten Listen mit extra Leerzeichen oder Kommas.
Suche ausführen O(1)-Lookup ↓
Klicken Sie 'Suchen' um die Suche zu starten. Die App durchsucht die geladene SNP-Datei nach exaktem Treffer mit jedem rsID. Schnelle Indexierung: Die SNP-Datei wird einmalig in eine Nachschlagtabelle konvertiert, selbst große Dateien (100.000+ SNPs) sind in Millisekunden durchsuchbar.
Ergebnisse anzeigen TSV-Export ↓
Gefundene rsIDs werden in einer Tabelle mit Spalten angezeigt: rsID | Chromosom | Position | Genotyp. Nicht gefundene rsIDs werden in einem separaten Bereich aufgelistet. Mit dem Kopieren-Button können Sie alle Ergebnisse als Tab-getrennte Werte (TSV) in die Zwischenablage kopieren, perfekt zum Einfügen in Excel oder andere Programme.
Vorlagen speichern Persistenz SF Symbols ↓
Speichern Sie häufig gesuchte rsID-Listen als Vorlagen mit Namen (z. B. 'Meine Ancestry SNPs', 'Gesundheits-Panel'). Jede Vorlage kann ein individuelles SF-Symbol-Icon und eine Bemerkung erhalten. Vorlagen erscheinen im Dropdown-Picker oben. Eingebaute Vorlagen sind vordefiniert und nicht löschbar.
Vorlagen verwalten Edit Delete Import/Export ↓
Jede Vorlage hat Optionen zum Laden, Bearbeiten und Löschen. 'Laden' befüllt das Suchfeld mit den gespeicherten rsIDs. 'Bearbeiten' öffnet ein Formular zum Ändern von Name, Symbol und rsID-Liste. Bemerkungen werden automatisch gespeichert (Debounce). Import/Export ermöglicht das Teilen von Vorlagen als TXT-Datei.
Tipp: Speichern Sie häufig benutzte rsID-Listen als Vorlagen. So sparen Sie Zeit bei wiederholten Suchen über verschiedene Dateien. Der Filter ist besonders nützlich wenn Sie Listen aus Websites oder PDFs kopieren, die Extra-Leerzeichen enthalten. Mit Import/Export können Sie Vorlagen mit anderen teilen.
🔧 Tools
Bioinformatische Kommandozeilen-Tools die von Genome verwendet werden. Installation via Homebrew (wird automatisch eingerichtet falls nicht vorhanden).
Homebrew Basis ↓
Paketmanager für macOS. Wird automatisch unter /opt/homebrew (Apple Silicon) oder /usr/local (Intel) installiert falls nicht vorhanden. Homebrew verwaltet alle weiteren bioinformatischen Tools. Nach der Installation kann 'brew update && brew upgrade' manuell ausgeführt werden.
samtools samtools ↓
Standard-Tool für BAM/SAM-Verarbeitung. Verwendet für: BAM sortieren, indexieren, Reads extrahieren (view), Pileup berechnen, BAM→FASTQ Konvertierung, Coverage-Analyse. Version 1.18+ empfohlen. Über 'samtools --version' prüfbar.
bcftools bcftools ↓
Variant-Calling und VCF-Verarbeitung. Verwendet für: mpileup (Pileup-Erstellung), call (Variantenruf), view (VCF filtern/konvertieren), annotate (Annotierung), stats (Qualitätsstatistiken). Oft zusammen mit htslib installiert.
bwa / bwa-mem2 bwa bwa-mem2 ↓
Burrows-Wheeler Aligner für Short-Read Alignment (Illumina). bwa mem: Standard-Algorithmus für Reads >70 bp. bwa-mem2: ~3× schnellere Variante mit identischer Ausgabe. Auf Apple Silicon wird automatisch bwa-mem2 bevorzugt. Für Alignment benötigt: bwa index (einmalig pro Referenzgenom).
fastp fastp ↓
Schnelles FASTQ-Qualitätskontroll- und Preprocessing-Tool. Features: Adapter-Erkennung und -Trimming, Qualitäts-Trimming, Längen-Filterung, Duplikat-Entfernung, GC-Analyse, interaktiver HTML-Bericht. Geschwindigkeit: ~500 MB/s auf M-Prozessoren.
FastQC FastQC Java ↓
Java-basiertes FASTQ-Analyse-Tool mit detailliertem HTML-Bericht. Gut für erste Qualitätsprüfung vor dem Alignment. Langsamer als Fastp. Benötigt Java Runtime Environment (JRE), wird über Homebrew installiert (java@21 oder neuer).
sambamba sambamba ↓
Multithreaded BAM-Verarbeitung. Verwendet als Alternative zu samtools für Markdup (Duplikat-Markierung) bei FASTQ→BAM-Pipeline. Bis zu 4× schneller als samtools markdup auf mehrkernigen Systemen. Optional, samtools markdup wird als Fallback verwendet.
Haplogrep 2 Haplogrep 2 Java ↓
Klassisches Java-Tool (seppinho/haplogrep-cmd 2.4.0) zur MT-Haplogruppen-Klassifizierung basierend auf PhyloTree. Eingabe: MT-VCF-Datei. Ausgabe: Haplogruppe mit Qualitätsscore, Liste erwarteter/gefundener/privater Mutationen. Wird als haplogrep.jar (~8 MB) in der Reference Library gespeichert (direkter Download von GitHub). CLI: java -jar haplogrep.jar classify --in X --format vcf --out Y.
Haplogrep 3 Haplogrep 3 Phylotree 17.2 Java 11+ ↓
Nachfolger von Haplogrep 2 (genepi/haplogrep3 3.2.2) mit moderner Codebasis. Unterstützt mehrere Phylotrees (phylotree-rcrs@17.2, phylotree-fu-rcrs@1.2, usw.) und liefert mit --extend-report zusätzliche Spalten zu Polymorphismen und Hotspots. Wird als komplettes Verzeichnis (haplogrep3.jar + data/) in refLib/haplogrep3/ installiert (~50 MB). Benötigt Java 11 oder neuer. CLI: java -jar haplogrep3.jar classify --in X --tree phylotree-rcrs@17.2 --out Y.
Kann parallel zu Haplogrep 2 installiert sein, die Version für die MT-Analyse wird im Analyse-Tab gewählt.
HLA*LA HLA*LA Graph Genome IMGT ↓
HLA-Typisierungs-Tool von Dilthey Lab (github.com/DiltheyLab/HLA-LA). Bestimmt HLA-Allele für die klassischen Gene HLA-A, -B, -C, -DRB1, -DQB1, -DPB1 und weitere direkt aus dem WGS-BAM. Methode: Graph-Genome-Ansatz mit dem PRG_MHC_GRCh38_withIMGT Referenzgraph.
Installation: Homebrew-Abhängigkeiten (boost@1.85, bamtools), dann Quell-Build via make (~30 Minuten, ~500 MB). Boost-Patch wird automatisch angewendet. Das Binary landet unter dem konfigurierten Tool-Verzeichnis in HLA-LA/bin/HLA-LA.
Zusätzlich benötigt: PRG_MHC_GRCh38_withIMGT Referenzgraph (~2.3 GB) unter Referenzen → HLA-Referenz herunterladen.
Ausgabe: Datei <SampleID>_HLA_typing.txt mit HLA-Allelen im Standard-IMGT-Format (z. B. A*01:01, B*07:02). Laufzeit: 20–60 Minuten.
Klinische Pipeline Tools
VEP (Ensembl) VEP ClinVar gnomAD Homebrew ↓
Ensembl Variant Effect Predictor, annotiert Varianten mit Gen, Konsequenz, Impact, SIFT, PolyPhen, gnomAD-Frequenz und klinischer Signifikanz (ClinVar). Installation via Homebrew (~200 MB). Dazu kommt ein Offline-Cache (~15 GB) mit Mensch-GRCh38-Annotationen. Der Cache wird in der Reference Library unter vep_cache/ gespeichert. Ohne Cache wird Schritt 3 der Pipeline übersprungen.
PharmCAT PharmCAT CPIC Java ↓
Pharmakogenomik-Analyse-Tool von PharmGKB/Stanford. Analysiert Varianten in pharmakogenomisch relevanten Genen (CYP2D6, CYP2C19, SLCO1B1 u. a.) und liefert CPIC-Empfehlungen zur Medikamentendosierung. Eingabe: normalisierte VCF. Ausgabe: HTML- und JSON-Report. Wird als pharmcat.jar (~30 MB) in der Reference Library gespeichert.
OpenCRAVAT OpenCRAVAT ClinVar COSMIC pip ↓
Modulares Varianten-Annotations-Framework. Kombiniert Datenbanken wie ClinVar (klinische Signifikanz), gnomAD (Populationsfrequenzen), COSMIC (Krebs-Mutationen), PharmGKB (Pharmakogenomik) und MutationAssessor (funktioneller Impact). Installation via pip: 'pip install open-cravat' (~5 MB). Module werden separat installiert: 'oc module install clinvar gnomad cosmic pharmgkb mutation_assessor' (10–50 GB je nach Auswahl). Ausgabe: interaktiver HTML-Report und Excel-Tabelle mit allen Annotationen pro Variante. Schritt 4 der klinischen Pipeline führt OpenCRAVAT automatisch aus, sofern mindestens ein Modul installiert ist.
Die Badge 'Module fehlen' erscheint, wenn OpenCRAVAT installiert ist, aber noch kein einziges Annotationsmodul geladen wurde. Lösung: im Terminal ausführen:
oc module install clinvar gnomad
Für eine vollständige klinische Analyse empfehlen sich zusätzlich: cosmic pharmgkb mutation_assessor. Nach der Installation 'Erkennen' klicken — die Badge verschwindet sobald mindestens ein Modul vorhanden ist.
GATK (optional) GATK HaplotypeCaller Java ↓
Genome Analysis Toolkit von Broadinstitute, Gold-Standard für Varianten-Calling in der Humanmedizin. Algorithmus: HaplotypeCaller (lokale De-novo-Assemblierung) liefert in der Regel 10–15 % mehr Varianten als bcftools, besonders bei komplexen Regionen und Indels. Nachteil: 6–12 Stunden Rechenzeit für 30× WGS. GATK ist optional, bcftools wird standardmäßig verwendet und ist deutlich schneller. Wird als gatk.jar (~670 MB) in der Reference Library gespeichert.
Alle installieren ↓
Installiert alle bioinformatischen Tools auf einmal via 'brew install samtools bcftools bwa fastp fastqc sambamba'. Benötigt Internetverbindung. Dauer: 2–10 Minuten je nach Verbindungsgeschwindigkeit. Homebrew wird zuerst installiert falls nötig. Fortschritt im Protokoll sichtbar.
Erkennen ↓
Prüft welche Tools bereits installiert sind und aktualisiert den Status-Indikator. Nützlich nach manueller Installation via Terminal. Führt 'which <tool>' und '<tool> --version' aus.
Tools können auch manuell im Terminal installiert werden: 'brew install samtools bcftools bwa fastp', danach 'Erkennen' klicken um den Status zu aktualisieren.
Beim Deinstallieren von Tools prüft die App den Exit-Code (brew/pip) bzw. den Dateilöscherfolg. Fehlgeschlagene Deinstallationen werden über den Fehlerbalken gemeldet und das Tool bleibt als installiert markiert.
📦 Referenzen
Referenzgenome und Microarray-Panels werden in der Reference Library verwaltet. Download und Verwaltung erfolgen direkt in der App.
Microarray-Panels
Panel-Übersicht ↓
Panels sind Build-spezifisch: hg38-Panels für hg38/hs38-BAMs, hg19-Panels für hg19/hs37d5-BAMs. Enthalten SNP-Koordinaten aller gängigen Chip-Plattformen. Dateiformate: .tab.gz (Tab-getrennt, schneller) oder .vcf.gz (VCF-Format). Ablage im Reference Library Verzeichnis.
Referenzgenome
hs38 (GRCh38 no-alt) Empfohlen ↓
GRCh38 ohne alternative Contigs von NCBI (~832 MB komprimiert, ~3 GB entpackt). Standard im 1000 Genomes Project und WGS Extract. Empfohlen für Alignment und Extraktion, weniger Mapping-Artefakte als hg38 mit alt-Contigs. Lokal gespeichert als hs38.fa.gz → nach Download automatisch entpackt zu hs38.fa.
hs38d1 (GRCh38 + Decoys) Empfohlen für WGS ↓
GRCh38 mit Decoy-Contigs von NCBI (~871 MB komprimiert, ~3,1 GB entpackt). Enthält alle Chromosomen plus künstliche Decoy-Sequenzen (hs38d1), die Reads abfangen, die keinem echten Chromosom entsprechen (z. B. virale, bakterielle oder repetitive Sequenzen). Vorteile gegenüber hs38: sauberere Alignments, weniger falsch-positive Varianten, leicht kleinere BAMs. Empfohlen für WGS-Alignment wenn bestmögliche Qualität gewünscht ist. Wird auch von WGS Extract verwendet.
GRCh38 / hg38 ↓
Aktuelles humanes Referenzgenom von UCSC (~983 MB komprimiert). Enthält Hauptassembly + Alternativsequenzen. Chromosomennamen mit 'chr'-Präfix (chr1, chrX, chrY, chrM). Für BAMs die bereits gegen hg38 ausgerichtet wurden.
GRCh37 / hg19 ↓
Älteres humanes Referenzgenom (~938 MB). Chromosomennamen ohne Präfix (1, X, Y, MT). Viele ältere WGS-Datensätze nutzen diesen Build. Microarray-Extraktion mit hg19-Panel empfohlen.
hs37d5 (1000 Genomes) ↓
hg19-basiertes Genom mit Decoy-Contigs (~906 MB). Häufig bei kommerziellen WGS-Anbietern (Dante Labs, Nebula Genomics). Enthält 'hs37d5'-Contig für Reads die zu keinem echten Chromosom passen. Optimiert für Microarray-Extraktion kommerzieller WGS-Dateien.
HLA-Referenz
PRG_MHC_GRCh38_withIMGT GRCh38 IMGT/HLA ~2,3 GB ↓
Populations-Referenzgraph für HLA*LA. Enthält vorgefertigte Graphstrukturen für den MHC-Bereich auf Basis von GRCh38 + IMGT/HLA-Alleldatenbank. Wird für die HLA-Typisierung im Analyse-Tab benötigt.
Größe: ~2,3 GB. Gespeichert unter <Tool-Verzeichnis>/HLA-LA_PRG/. Download von Zenodo. Ohne diesen Graph läuft die HLA-Typisierung nicht.
Nach dem Download werden Referenzgenome automatisch mit samtools faidx indexiert (.fai). Dieser Schritt dauert 2–5 Minuten und muss nur einmal pro Genom durchgeführt werden. Abbruch während des Downloads oder Indexierens kann zu korrupten Dateien führen, in diesem Fall Datei löschen und erneut herunterladen.
Beim Löschen von Referenzen oder Panels prüft die App den Löscherfolg. Kann eine Datei nicht entfernt werden (z. B. fehlende Berechtigungen), erscheint ein Fehlerbalken und das Element bleibt als installiert markiert.
▣ Protokoll
Das Protokoll zeigt alle ausgeführten Befehle, Fortschritte und Fehler in Echtzeit.
Echtzeit-Ausgabe ↓
Jeder ausgeführte Shell-Befehl wird mit seinem vollständigen Ausgabe-Text angezeigt. Farbcodierung: normaler Text = stdout, rote Einträge = stderr/Fehler. Fortschrittsbalken-Ausgaben werden als laufende Zeile aktualisiert.
Kopieren ↓
Kopiert den gesamten sichtbaren Log-Inhalt in die Zwischenablage. Nützlich für Fehlerberichte oder Debugging. Der Inhalt enthält alle Zeitstempel und Befehle der aktuellen Session.
Anzeige leeren ↓
Löscht die Log-Anzeige in der App (sichtbarer Bereich). Die physische Logdatei unter ~/Library/Application Support/Genome/logs/ bleibt vollständig erhalten.
Logdateien ↓
Jede App-Session wird automatisch als Logdatei gespeichert: ~/Library/Application Support/Genome/logs/genome_YYYY-MM-DD_HHmmss.log. Die letzten 20 Sessions werden aufbewahrt, ältere automatisch gelöscht. Im Finder erreichbar über: Gehe zu → Bibliothek → Application Support → Genome → logs.
Debug-Logging ↓
In Einstellungen → Debug-Logging aktivierbar. Zeigt zusätzlich interne Zustände, Parsing-Ergebnisse und Entscheidungslogik. Nur für Fehleranalyse empfohlen, verlangsamt die Anzeige bei intensiver Ausgabe.
Ausführungsverlauf
Verlauf der Analysen ↓
Der Ausführungsverlauf protokolliert alle abgeschlossenen Analysen mit Typ, Datum, Dauer, Erfolg/Fehlschlag und vollständigem Log. Die letzten 100 Durchläufe werden in ~/Library/Application Support/Genome/run_history.json gespeichert.
Ausführungstypen ↓
Erfasste Typen: Alignment, Extraktion, Microarray, Klinische Pipeline, Haplogruppe, LPA, Sonstige.
⚙ Einstellungen
Allgemeine App-Einstellungen und erweiterte Optionen im Entwicklermenü.
Darstellung & Sprache ↓
Farbschema: System (folgt macOS), Hell oder Dunkel. Sprache: System (folgt macOS), Deutsch oder Englisch. Beide Einstellungen werden sofort angewendet und gespeichert.
Warnsound ↓
Wenn aktiviert (Standard: ein), spielt die App einen Warnsound ab wenn ein laufender Prozess unerwartet verlangsamt. Hilft, Probleme wie I/O-Timeouts oder SSD-Schlafmodus zu erkennen, ohne den Bildschirm ständig zu beobachten.
Während der Verarbeitung wird automatisch der macOS-Schlafmodus verhindert (Idle-Sleep, Disk-Sleep und System-Sleep). Pipelines laufen unterbrechungsfrei, auch bei geschlossenem Deckel oder abgelaufenem Idle-Timer. Keine Konfiguration nötig.
Entwicklermenü
Entwicklermenü aktivieren ↓
In den Einstellungen kann das Entwicklermenü aktiviert werden. Es zeigt erweiterte Optionen: Pipeline-Tool-Auswahl, Test-Datengenerator, Dock-Icon-Einstellungen und Debug-Logging. Die Akzentfarbe wechselt zu Blau als visueller Hinweis.
Pipeline-Tool-Auswahl bwa GATK sambamba ↓
Auswahl der Pipeline-Komponenten: Aligner (bwa / minimap2), Sorter (samtools / sambamba), Markdup (samtools / sambamba / picard), Variant Caller (bcftools / GATK). GATK dauert 3–6× länger, findet aber 10–15 % mehr Varianten. Sambamba ist auf Multi-Core-Systemen bis zu 40 % schneller als samtools.
Test-Datengenerator ↓
Erzeugt ein synthetisches Mini-Dataset (100 kb Referenz + 5.000 Read-Paare) für schnelle Funktionsprüfung. Die komplette Pipeline dauert damit Sekunden statt Stunden. Nützlich zum Testen aller Funktionen ohne echte WGS-Daten. Daten werden unter ~/GenomeTest/ gespeichert.
Dock-Icon ↓
Das App-Icon im Dock und in der App-Übersicht kann unabhängig vom Systemdesign auf Hell, Dunkel oder Auto gestellt werden.
🩺 Fehlerbehebung
Häufige Probleme und ihre Lösungen. Bei anhaltenden Problemen das vollständige Protokoll (Kopieren-Button) für die Fehleranalyse verwenden.
Fehler: Keine Indexdatei ↓
Problem: 'No index file found', Extraktion startet nicht. Lösung: samtools index <datei.bam> im Terminal ausführen. Für CRAM: samtools index <datei.cram>. Der Index (.bai/.crai) muss im selben Verzeichnis wie die BAM/CRAM-Datei liegen.
Fehler: Referenzgenom fehlt ↓
Problem: 'Reference genome not found' oder CRAM lässt sich nicht öffnen. Lösung: Referenzen → passendes Referenzgenom herunterladen. Sicherstellen dass Reference Library auf das richtige Verzeichnis zeigt (Verzeichnisse → Reference Library). CRAM benötigt exakt dasselbe Genom gegen das aligniert wurde.
Fehler: Tool nicht gefunden ↓
Problem: 'samtools not found' / 'bcftools not found' / 'bwa not found'. Lösung: Tools → Alle installieren. Falls Homebrew installiert ist aber Tool nicht: 'brew install samtools bcftools bwa' im Terminal ausführen, dann Tools → Erkennen klicken. PATH-Problem: /opt/homebrew/bin muss im PATH sein.
Fehler: BWA-Index fehlt ↓
Problem: 'bwa index not found' beim FASTQ→BAM Alignment. Lösung: Der bwa-Index wird automatisch erstellt wenn er fehlt, das dauert 30–60 Minuten für ein 3 GB Genom. Alternativ manuell: 'bwa index /pfad/zum/referenz.fa'. Index-Dateien (.bwt, .amb, .ann, .pac, .sa) müssen im selben Verzeichnis wie das Referenzgenom liegen.
Warnung: Niedrige Coverage ↓
Problem: Lesetiefe unter 10×, Extraktion eingeschränkt. Ursache: zu wenige Reads, schlechte Sequenzierungsqualität, oder WES (nicht WGS). Microarray-Extraktion ist ab ~5× möglich, aber viele SNPs werden als 'no call' ausgegeben. Y/MT-Analyse ab ~15× zuverlässig. Coverage mit 'samtools coverage <datei.bam>' prüfbar.
CRAM: falsches Referenzgenom ↓
Problem: CRAM-Datei öffnet nicht oder liefert leere Ausgabe. Ursache: Das Referenzgenom in der Reference Library stimmt nicht exakt mit dem ursprünglichen Alignment-Genom überein. Lösung: Genaue MD5-Prüfsumme des Alignment-Genoms vom Anbieter erfragen. Für Dante Labs: hs37d5. Für Nebula: hg38.
Haplogrep 2/3 startet nicht ↓
Problem: MT-Haplogruppe nicht berechenbar, 'haplogrep.jar not found'. Lösung: Tools → Haplogrep installieren. Sicherstellen dass Reference Library gesetzt ist. Java muss installiert sein (java@21 via Homebrew). Manuell prüfen: 'java -jar /pfad/haplogrep.jar --help'.
HLA*LA: Fehler bei Installation oder Typisierung ↓
Installation fehlgeschlagen: (1) Prüfen ob Xcode Command Line Tools installiert sind: 'xcode-select --install'. (2) make-Fehler im Protokoll prüfen, häufig fehlen Boost-Include-Pfade. (3) Erneut versuchen: Trash-Button → erneut installieren.
HLA*LA nicht gefunden nach Installation: 'Erkennen' klicken. Das Binary liegt unter <Tool-Verzeichnis>/HLA-LA/bin/HLA-LA.
Typisierung fehlgeschlagen / PRG fehlt: Referenzen → HLA-Referenz → PRG_MHC_GRCh38_withIMGT herunterladen (~2,3 GB).
Typisierung fehlgeschlagen / BAM-Fehler: Die BAM-Datei muss GRCh38-aligniert und indexiert sein (.bai). Y-only oder MT-only BAMs werden nicht unterstützt.
Keine Ausgabedateien ↓
Problem: Extraktion läuft durch aber keine Dateien im Output-Verzeichnis. Mögliche Ursachen: (1) Output-Verzeichnis falsch gesetzt, Verzeichnisse prüfen. (2) Keine Schreibrechte im Output-Verzeichnis. (3) BAM enthält keine Reads für die gewählte Region (z. B. kein Y-Chromosom in weiblicher Probe). Protokoll auf Fehlermeldungen prüfen.
I/O-Timeout auf externer SSD ↓
Problem: Pipeline bricht mit 'Operation timed out' oder 'bgzf_read' Fehler ab, besonders auf externen USB-SSDs. Ursache: Die SSD geht in den Ruhezustand oder die USB-Verbindung wird kurz unterbrochen. Lösung: Bei I/O-Timeouts erscheint ein Retry-Dialog. 'Wiederholen' versucht den Schritt erneut. SSD-Schlaf verhindern: Systemeinstellungen → Energie → 'Festplatten im Ruhezustand deaktivieren' ausschalten. Für lange Pipelines: interne SSD verwenden oder externe SSD direkt anschließen (kein Hub).
Prozess sehr langsam ↓
Normale Zeiten: FASTQ→BAM 30× WGS ~2–4 Stunden, Microarray-Extraktion 30× WGS ~20–60 Minuten, Referenzgenom-Download ~5–30 Minuten. Beschleunigung: bwa-mem2 statt bwa installieren (3× schneller), sambamba für Markdup, SSD für Reference Library und Temp-Verzeichnis. Prozessor-Throttling bei Wärme prüfen: 'sudo powermetrics --samplers cpu_power -n 1' im Terminal.
Bei unklaren Fehlern: Protokoll → Kopieren → vollständigen Log-Text in einen Texteditor einfügen. Der genaue Fehlerbefehl und die Fehlermeldung stehen immer direkt unter dem ausgeführten Befehl.
📖 Begriffe & Konzepte
Erklärung der wichtigsten bioinformatischen Fachbegriffe.
BAM / CRAM / SAM ↓
Standardformate für ausgerichtete Sequenzierungsdaten. SAM (Sequence Alignment/Map): textbasiert, menschenlesbar. BAM: binäres, komprimiertes SAM (~25 % Größe). CRAM: noch stärker komprimiert (benötigt Referenzgenom zum Entpacken, ~60 % kleiner als BAM). Alle erfordern eine Indexdatei (.bai / .crai) für schnellen Zugriff auf bestimmte Genomregionen.
FASTQ ↓
Rohformat für Sequenzierungs-Reads mit Qualitätswerten. Jeder Read besteht aus 4 Zeilen: Name, Sequenz, '+', Qualitätswerte (Phred-Score, kodiert als ASCII). Paired-End: R1 (Forward-Read) + R2 (Reverse-Read) in zwei Dateien. Typische Größen: 30× WGS ~100–150 GB pro Datei.
VCF ↓
Variant Call Format, listet alle gefundenen Abweichungen vom Referenzgenom. Enthält: CHROM, POS, ID (rsID), REF (Referenzallel), ALT (Alternativallel), QUAL (Qualitätsscore), FILTER, INFO, FORMAT, Sample-Genotyp. Komprimiert als .vcf.gz mit Tabix-Index (.tbi) für schnellen Zugriff.
SNP / rsID / Indel ↓
SNP (Single Nucleotide Polymorphism): einzelne Basenvariation (z. B. A→G). rsID: eindeutiger Bezeichner aus der NCBI dbSNP-Datenbank (z. B. rs1805007 = MC1R Rotgenvariante). Indel: Insertion oder Deletion von einer oder mehreren Basen. Microarray-Chips messen hauptsächlich bekannte SNPs.
Haplogruppe ↓
Gruppe genetisch verwandter Individuen mit gemeinsamem Vorfahren. Y-Haplogruppen (väterliche Linie): A bis T (PhyloTree Y). MT-Haplogruppen (mütterliche Linie): A bis Z + Untergruppen (PhyloTree MT). Nomenklatur: R1b1a1a2a1a1 = R1b-L11 = Westeuropäischer Zweig. Tiefere Bezeichnungen = genauere Abstammung.
Coverage / Lesetiefe ↓
Durchschnittliche Anzahl Reads die eine Position abdecken. WGS-Standardwerte: 30× (Standard, gut für alle Anwendungen), 15× (ausreichend für Microarray-Extraktion), <10× (niedrig, viele No-Calls). Mittels 'samtools coverage' oder 'samtools depth' berechenbar. Formel: Coverage = (Anzahl Reads × Readlänge) / Genomgröße.
Genomaufbau / Build ↓
Version des Referenzgenoms: GRCh38/hg38 (aktuell seit 2013), GRCh37/hg19 (2009), hs37d5 (hg19+Decoys). Chromosomkoordinaten unterscheiden sich zwischen Builds, eine hg19-BAM kann nicht direkt mit einem hg38-Panel verwendet werden. Build wird automatisch aus dem BAM-Header gelesen.
Ts/Tv-Ratio ↓
Verhältnis von Transitionen (Purin→Purin: A↔G, oder Pyrimidin→Pyrimidin: C↔T) zu Transversionen (Purin↔Pyrimidin: A/G↔C/T). Erwartungswert WGS: 2,0–2,1. WES: 2,5–3,0 (Exom enthält mehr CpG-Stellen). Abweichungen deuten auf Sequenzierungsprobleme oder Alignment-Fehler hin.
Phred-Score / Qualitätswert ↓
Logarithmischer Fehlerwahrscheinlichkeitswert pro Base: Q20 = 1 % Fehler, Q30 = 0,1 % Fehler, Q40 = 0,01 % Fehler. Illumina-Standard: ≥Q30 für ≥80 % aller Basen. Im FASTQ-Format als ASCII kodiert (Offset 33). Fastp/FastQC zeigen Verteilung der Qualitätswerte.
PCR-Duplikate ↓
Reads mit identischer Start- und Endposition, entstehen durch PCR-Amplifikation vor der Sequenzierung. Verfälschen Variantenruf und Coverage-Statistiken. Werden durch samtools markdup oder sambamba identifiziert und markiert (nicht gelöscht). Duplikat-Rate >30 % deutet auf Bibliotheksprobleme hin.
Decoy-Contigs hs38d1 hs37d5 ↓
Künstliche DNA-Sequenzen die dem Referenzgenom hinzugefügt werden, um 'verwaiste' Reads aufzufangen. Sequenzierungsdaten enthalten Reads aus Viren, Bakterien, repetitiven Elementen oder Kontaminationen. Ohne Decoys werden diese Reads fälschlicherweise auf echte Chromosomen gemappt und erzeugen falsch-positive Varianten. Mit Decoys (z. B. hs38d1) werden sie korrekt auf die Decoy-Sequenz ausgerichtet und stören die Analyse nicht. Ergebnis: sauberere BAMs, weniger Rauschen, leicht weniger Multi-Mapping.
Supplementäre vs. Sekundäre Alignments ↓
Wenn ein Read an mehreren Stellen im Genom alignt (Split-Read/chimäres Alignment), gibt es zwei Markierungsarten:
• Supplementary (FLAG 2048): Das kürzere Alignment-Fragment ist supplementär zum primären. Moderner Standard, von allen aktuellen Tools unterstützt.
• Secondary (FLAG 256): Das kürzere Fragment wird als sekundäres Alignment markiert (bwa -M Flag). Nötig für ältere Tools. Sekundäre Reads enthalten mehr Daten pro Eintrag und erzeugen leicht größere BAM-Dateien.
In der Genome-App einstellbar unter Konvertierung → Split-Reads.
CNV ↓
Copy Number Variation, Abweichung von der normalen diploiden Kopienzahl (2) einer Genomregion. Deletionen (0–1 Kopien) und Duplikationen (3+ Kopien) betreffen teils ganze Gene. Klinisch relevant z. B. LPA/KIV-2 CNV für Lipoprotein(a)-Spiegel, CYP2D6 CNV für Medikamenten-Metabolismus.
Strang-Konvention (Plus/Minus) ↓
DNA ist doppelsträngig, jede Base hat ein Komplement (A↔T, C↔G). Genotypisierungsplattformen können den Plus-Strang (Forward) oder den Minus-Strang (Reverse) als Referenz verwenden. Dadurch kann derselbe SNP als 'A' (Plus-Strang) oder 'T' (Minus-Strang) angegeben werden. Beim Vergleich von Daten aus verschiedenen Quellen (z. B. 23andMe vs. WGS-Extraktion) müssen die Strang-Konventionen berücksichtigt werden. Besonders A/T- und C/G-SNPs sind mehrdeutig, da Plus- und Minus-Strang nicht unterscheidbar sind.
Liftover ↓
Konvertierung genomischer Koordinaten zwischen verschiedenen Referenzgenom-Versionen (z. B. hg19 → hg38). Notwendig wenn Daten aus unterschiedlichen Builds verglichen werden sollen. Die gleiche Variante hat in hg19 und hg38 unterschiedliche Positionsangaben, da sich die Referenzsequenz zwischen den Versionen geändert hat (Lücken geschlossen, Contigs verschoben). Tools: UCSC LiftOver, CrossMap, Picard LiftoverVcf.
? FAQ
Häufig gestellte Fragen.
WGS vs. WES, was ist der Unterschied? ↓
WGS (Whole Genome Sequencing): gesamtes Genom (~3,2 Mrd. Basen). Alle Bereiche abgedeckt. WES (Whole Exome Sequencing): nur kodierende Regionen (~1 % des Genoms). Für Microarray-Extraktion ist WGS bevorzugt, WES liefert kaum nicht-kodierende SNPs. Genome erkennt automatisch ob WGS oder WES geladen ist.
Welches Referenzgenom soll ich nehmen? ↓
hs38d1 (GRCh38 + Decoys): beste Qualität für eigenes WGS-Alignment, Decoy-Contigs fangen Rauschen ab. hs38 (GRCh38 no-alt): gute Alternative ohne Decoys, Standard bei WGS Extract. hg38: wenn BAM bereits gegen hg38 ausgerichtet. hs37d5: wenn BAM von Dante Labs, Genome Quebec oder ähnlichem Anbieter. hg19: wenn BAM von älteren Sequenzierungslabors. Den Build der BAM-Datei erkennt die App automatisch.
Kann ich die Extraktion bei 23andMe hochladen? ↓
Nein, 23andMe akzeptiert keine externen Dateien. Die extrahierten Dateien im 23andMe-Format eignen sich für andere Plattformen die dieses Format lesen: GEDmatch, MyHeritage DNA, FamilyTreeDNA (als rohe Datei), DNA.Land, Gedmatch Genesis, Promethease, SelfDecode.
Welches Format für GEDmatch? ↓
CombinedKit (enthält alle gerufenen SNPs) ist für GEDmatch am besten geeignet, maximale Abdeckung. Alternativ: 23andMe v3 oder v5 (weniger SNPs aber breiter unterstützt). Für GEDmatch Genesis: CombinedKit oder AncestryDNA v2 empfohlen.
Werden Daten in die Cloud hochgeladen? Datenschutz ↓
Nein. Genome arbeitet vollständig lokal. Kein Datenaustausch mit externen Servern. Einzige Netzwerkaktivität: Download von Referenzgenomen (UCSC/NCBI), Tool-Installation via Homebrew, und Haplogrep-Download von GitHub, alles explizit durch den Nutzer angestoßen.
Wie lange dauert die Extraktion? ↓
Richtwerte für 30× WGS auf Apple M2: Microarray-Extraktion ~20–40 Min, Y VCF ~5–10 Min, MT VCF ~2–5 Min, FASTQ→BAM ~90–180 Min. Auf älteren Intel-Macs: 2–3× länger. Hauptfaktoren: Coverage, Dateigröße, SSD-Geschwindigkeit, verfügbare CPU-Kerne.
BAM hat keine Chromosomennamen im Header ↓
Manche BAM-Dateien haben einen unvollständigen Header. Die App erkennt dann Build und Chromosomennamen nicht automatisch. Lösung: BAM-Header mit samtools view -H <datei.bam> prüfen. Falls @SQ-Zeilen fehlen: 'samtools reheader' mit korrektem Header ausführen oder das Tool 'samtools addreplacerg' verwenden.
Warum unterscheiden sich Genotypen zwischen Plattformen? Wichtig ↓
Beim Vergleich von Genotypisierungsdaten aus unterschiedlichen Quellen (z. B. 23andMe vs. WGS-Extraktion) treten systembedingte Unterschiede auf, die keine echten biologischen Abweichungen darstellen:
1. Genomische Positionen: Verschiedene Referenzgenom-Versionen (hg19 vs. hg38) verwenden unterschiedliche Koordinatensysteme. Die gleiche Variante hat dadurch unterschiedliche Positionsangaben. Ein Liftover-Tool kann diese ineinander überführen.
2. Allel-Reihenfolge: Heterozygote Genotypen können in beliebiger Reihenfolge geschrieben werden (AG oder GA). Das ist rein kosmetisch, biologisch identisch.
3. Strang-Konvention: Je nach Plattform wird der Plus- oder Minus-Strang als Referenz verwendet. Dadurch erscheinen Komplementär-Basen (A↔T, C↔G), obwohl der gleiche Genotyp gemeint ist.
4. Echte Calling-Unterschiede: Verschiedene Technologien (SNP-Array vs. WGS) und deren Algorithmen können bei einzelnen Varianten zu abweichenden Calls führen.
Fazit: Über 99,7 % der Genotypen stimmen inhaltlich überein. Die sichtbaren Unterschiede sind fast ausschließlich auf Referenzgenom, Strang-Konvention und Allel-Notation zurückzuführen.
Was braucht yFull? ↓
yFull akzeptiert: Y+MT BAM (bevorzugt, Build hg38/hs38 empfohlen) oder Y VCF. Männliche Probe erforderlich. BAM-Datei muss indexiert sein. Genome erstellt die benötigten Dateien unter Extraktion → Y+MT BAM und Extraktion → Y VCF. Hochladen direkt auf yfull.com.
Weitere Ressourcen
Diese Hilfe ist auch direkt in der App verfügbar. Für Rückmeldungen oder Fragen zur Anwendung schreib an info@pjlabs.dev.