Information

Open-Access-Datensätze für die QTL-Analyse?

Open-Access-Datensätze für die QTL-Analyse?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich beginne gerade damit, die Verwendung des QTL-Pakets in R Studio zu erlernen, und versuche, zusätzliche Datensätze zum Üben zu finden. Ich habe die Datensätze hier auf der Rqtl-Website bereits durchgearbeitet. Kann ich irgendwo ähnliche Datensätze finden, mit denen ich arbeiten kann? Ich möchte speziell mit autosomalen Daten arbeiten.


Qtlizer: umfassende QTL-Annotation von GWAS-Ergebnissen

Die Untersuchung genetischer Varianten-zu-Gen-Beziehungen durch quantitative Trait-Loci wie Expressions-QTLs ist ein häufig verwendetes Werkzeug in genomweiten Assoziationsstudien. Das breite Angebot an öffentlichen QTL-Datenbanken und das Fehlen von Batch-Annotationsfunktionen erschweren jedoch eine umfassende Annotation von GWAS-Ergebnissen. In dieser Arbeit stellen wir das Tool „Qtlizer“ zur Annotation von Variantenlisten beim Menschen mit assoziierten Veränderungen der Genexpression und Proteinabundanz unter Verwendung einer integrierten Datenbank veröffentlichter QTLs vor. Zu den Merkmalen gehören der Einbau von Varianten in das Kopplungsungleichgewicht und die umgekehrte Suche nach Gennamen. Die Analyse der Datenbank auf Basenpaarabstände zwischen den bestsignifikanten eQTLs und ihren betroffenen Genen legt nahe, dass die üblicherweise verwendeten cis-Abstandsgrenze von 1.000.000 Basenpaaren könnte zu restriktiv sein, was eine erhebliche Menge falscher und noch nicht entdeckter eQTLs impliziert. Wir haben Gene auch in Bezug auf die maximale Anzahl von gewebespezifischen eQTL-Studien eingestuft, in denen ein höchst signifikantes eQTL-Signal konsistent war. Bei den Top 100 Genen beobachteten wir die stärkste Anreicherung mit Housekeeping-Genen (P = 2 × 10 –6 ) und mit den 10 % am höchsten exprimierten Genen (P = 0,005) nach Gruppierung von eQTLs nach r 2 > 0,95, was die Relevanz von LD-Informationen in eQTL-Analysen unterstreicht. Qtlizer kann über https://genehopper.de/qtlizer oder über das jeweilige Bioconductor R-Paket (https://doi.org/10.18129/B9.bioc.Qtlizer) aufgerufen werden.


Einführung

Deep Learning 1 hat sowohl in der Wissenschaft als auch in der Industrie große Anziehungskraft erlangt. Im Bereich Computer Vision werden auf Deep-Learning basierende Techniken, die ein Convolutional Neural Network (CNN) verwenden, aktiv auf verschiedene Aufgaben angewendet, wie z. B. Bildklassifizierung 2 , Objekterkennung 3, 4 und semantische/Instanzsegmentierung 5, 6, 7 . Solche Techniken haben auch den Bereich der Landwirtschaft beeinflusst. Dies beinhaltet die bildbasierte Phänotypisierung, einschließlich der Unkrauterkennung 8 , der Diagnose von Pflanzenkrankheiten 9,10 , der Fruchterkennung 11 und vieler anderer Anwendungen, die in der jüngsten Übersicht 12 aufgeführt sind. In der Zwischenzeit wurde ein neuronales Netzwerk nicht nur anhand von Bildern, sondern auch mit Umgebungsvariablen funktionalisiert, um Pflanzenwasserstress für die automatisierte Steuerung der Bewässerung von Gewächshaustomaten vorherzusagen 13 . Die Nutzung der zahlreichen und kontextbezogenen Daten, die im relevanten Bereich generiert werden, scheint eine hohe Affinität zum Deep Learning zu haben.

Einer der Nachteile der Verwendung von Deep Learning ist jedoch die Notwendigkeit, eine große Menge an gekennzeichneten Daten vorzubereiten. Der ImageNet-Datensatz (Stand 2012) besteht aus 1,2 Millionen bzw. 150.000 manuell klassifizierten Bildern im Trainingsdatensatz und im Validierungs-/Testdatensatz 14 . Inzwischen umfasst die COCO 2014 Object Detection Task 328.000 Bilder mit 2,5 Millionen gekennzeichneten Objektinstanzen von 91 Kategorien 15 . Diese Reihenfolge der annotierten Datensätze ist im Allgemeinen für eine Einzelperson oder eine Forschungsgruppe schwer vorzubereiten. Im landwirtschaftlichen Bereich wurde berichtet, dass ein Netzwerk zur Erkennung von Sorghumköpfen mit einem Datensatz trainiert werden kann, der aus 52 Bildern mit durchschnittlich 400 Objekten pro Bild besteht 16 , während ein Netzwerk zur Erkennung von Feldfrüchten ausgehend von 822 Bildern trainiert wurde 17 . Diese Fallstudien implizieren, dass die für eine spezialisierte Aufgabe erforderliche Datenmenge im Vergleich zu einer relativ verallgemeinerten Aufgabe, wie z. B. ImageNet-Klassifizierung und COCO-Erkennungsherausforderungen, möglicherweise geringer ist. Nichtsdestotrotz ist die notwendige und ausreichende Menge an Anmerkungsdaten zum Trainieren eines neuronalen Netzes im Allgemeinen unbekannt. Obwohl viele Techniken zur Senkung der Arbeitskosten, wie Domänenanpassung oder aktives Lernen, in pflanzenwissenschaftlichen/biowissenschaftlichen Anwendungen weit verbreitet sind 18,19,20 , ist der Annotationsprozess für Forscher sehr stressig, da er wie ein Marathonlauf ist, ohne es zu wissen das Ziel.

Eine traditionelle Methode zur Minimierung der Anzahl manueller Anmerkungen besteht darin, aus synthetischen Bildern zu lernen, die gelegentlich als sim2real-Übertragung bezeichnet wird. Einer der wichtigen Vorteile der Verwendung eines synthetischen Datensatzes für das Training besteht darin, dass die Ground-Truth-Annotationen automatisch ohne menschliche Arbeit erhalten werden können. Ein erfolgreiches Beispiel kann in einem Personenbildanalyseverfahren gefunden werden, das den Bilddatensatz mit synthetischen menschlichen Modellen 21 für verschiedene Zwecke verwendet, wie beispielsweise die Schätzung der Personenpose 22 . Ähnliche Ansätze wurden auch für die Aufbereitung von Trainingsdaten für die Pflanzenbildanalyse verwendet. Isokanet al. 23 verwendeten die synthetischen Pflanzenmodelle zur Schätzung des Verzweigungsmusters, während Ward et al. erzeugte künstliche Bilder von Arabidopsis aus 3D-Modellen gerendert und für das neuronale Netztraining bei der Blattsegmentierung verwendet 24 .

Ein Nachteil des sim2real-Ansatzes sind die Lücken zwischen den synthetisierten Bildern und den realen Szenen, z. B. unrealistische Erscheinungen. Um diesem Problem zu begegnen, versuchen viele Studien, realistische Bilder aus synthetischen Datensätzen zu generieren, beispielsweise durch die Verwendung von Generative Adversarial Networks (GAN) 25,26 . Auf dem Gebiet der Pflanzenbildanalyse haben Giuffrida et al. 27 verwendeten GAN-generierte Bilder, um ein neuronales Netzwerk für zu trainieren Arabidopsis Blatt zählen. Ähnlich haben Arsenovic et al. verwendet StyleGAN 28 , um Trainingsbilder für die Klassifizierung von Pflanzenkrankheitsbildern zu erstellen 29 .

Andererseits ist ein Vorteil des sim2real-Ansatzes die Möglichkeit, (fast) unendlich viele Trainingsdaten zu erstellen. Ansätze, die die Sim2real-Lücke überbrücken, indem sie den Vorteil nutzen, ist die Domänenrandomisierung, die die tiefen Netzwerke unter Verwendung großer Variationen synthetischer Bilder mit zufällig abgetasteten physikalischen Parametern trainiert. Obwohl die Domänenrandomisierung etwas mit der Datenerweiterung (z. B. zufälliges Spiegeln und Drehen der Bilder) zu tun hat, ermöglicht die synthetische Umgebung die Darstellung von Variationen unter vielen Bedingungen, was im Allgemeinen durch einfache Datenerweiterungstechniken für reale Bilder schwierig zu erreichen ist. Ein früher Versuch einer Domänen-Randomisierung wurde unternommen, indem die Bilder unter Verwendung verschiedener Kamerapositionen, Objektpositionen und Beleuchtungsbedingungen erzeugt wurden, was der Technik ähnelt, die auf die Steuerung von Robotern 30 angewendet wird. Für Objekterkennungsaufgaben haben Tremblay et al. 31 schlug ein Verfahren vor, um Bilder mit einer randomisierten Textur auf synthetischen Daten zu erzeugen. Auf dem Gebiet der Pflanzenphänotypisierung haben Kuznichov et al. schlug eine Methode zum Segmentieren und Zählen von Blättern nicht nur vor Arabidopsis, aber auch die von Avocado und Banane, unter Verwendung einer synthetischen Blatttextur mit verschiedenen Größen/Winkeln, um Bilder zu imitieren, die in realen landwirtschaftlichen Szenen aufgenommen wurden 32 . Insgesamt hat die Verwendung synthetischer Bilder ein enormes Potenzial im Forschungsfeld der Pflanzenphänotypisierung.

Die Samenform ist zusammen mit der Samengröße ein wichtiger landwirtschaftlicher Phänotyp. Sie besteht aus Ertragskomponenten von Nutzpflanzen, die im späteren Entwicklungsstadium von Umweltbedingungen beeinflusst werden. Die Samengröße und -form können die Keimungsraten und die nachfolgende Entwicklung von Pflanzen vorhersagen 33,34 . Die genetische Veränderung der Samengröße trug zu einer signifikanten Zunahme des Tausendkorngewichts im gegenwärtigen Gerste-kultivierten Keimplasma bei 35 . Mehrere Studien berichten über die Steigerung des Reisertrags durch die Verwendung der Saatbreite als Metrik 36,37 . Darüber hinaus verwendeten andere elliptische Fourier-Deskriptoren, die es ermöglichen, die Samenform als Variablen zu handhaben, die eine geschlossene Kontur darstellen, wodurch die Merkmale verschiedener Arten erfolgreich charakterisiert wurden 38,39,40,41. Die Fokussierung auf morphologische Parameter von Saatgut scheint eine starke Metrik sowohl für die Verbesserung der Ernteerträge als auch für biologische Studien zu sein. Viele der früheren Studien, einschließlich der genannten Berichte, haben jedoch die Samenform durch qualitative Metriken (z. Die Phänotypisierung ist in der Regel arbeitsintensiv und kann Quantifizierungsfehler, die sich je nach Annotator unterscheiden, nicht vollständig ausschließen. Um eine präzise und groß angelegte Analyse durchzuführen, wurde die Automatisierung des Seed-Phänotypisierungsschritts bevorzugt.

In den letzten Jahren wurde über mehrere Studien berichtet, die die Morphologie von Pflanzensamen systematisch durch Bildanalyse analysieren. Ayoub et al. konzentrierte sich auf die Charakterisierung von Gerstensamen in Bezug auf Fläche, Umfang, Länge, Breite, F-Kreis und F-Form basierend auf mit einer Digitalkamera aufgenommenen Bildern 42 . Herridgeet al. verwendet eine Partikelanalysefunktion von ImageJ (https://imagej.nih.gov/ij/), um die Samengröße von . zu quantifizieren und zu differenzieren Arabidopsis Mutanten aus der Hintergrundpopulation 43 . Die SmartGrain-Software wurde entwickelt, um die Hochdurchsatz-Phänotypisierung von Kulturpflanzensamen zu realisieren und den QTL, der für die Samenlänge von Reis verantwortlich ist, erfolgreich zu identifizieren 44 . Milleret al. berichteten über eine Hochdurchsatz-Bildanalyse zur Messung morphologischer Merkmale von Maiskolben, Maiskolben und Körnern 45 . Wenet al. entwickelten eine Bildanalysesoftware, die Samenformparameter wie Breite, Länge und projizierte Fläche sowie die Farbmerkmale von Maissamen messen kann: Sie fanden eine Korrelation zwischen diesen physikalischen Eigenschaften und der Samenvitalität 46 . Darüber hinaus zielen kommerziell erhältliche Produkte wie der Germination Scanalyzer (Lemnatec, Deutschland) und der tragbare Tablettester PT (Greenpheno, China) auch darauf ab, die morphologische Form von Samen zu quantifizieren. Die zuvor erwähnten Ansätze erfordern jedoch, dass die Seeds für eine effiziente Segmentierung spärlich ausgerichtet sind. Wenn Samen dicht beprobt werden und sich physisch berühren, werden sie oft als einheitlicher Bereich erkannt, was zu einer anormalen Ausgabe der Samenform führt. Dies erfordert, dass der Benutzer die Seeds auf spärliche Weise manuell neu ausrichtet, was ein potenzielles Hindernis ist, um eine ausreichende Menge an biologischem Replikat im Verlauf der Hochdurchsatzanalyse sicherzustellen. In solchen Situationen kann eine auf Deep-Learning basierende Instanzsegmentierung verwendet werden, um ein solches Problem zu überwinden, indem die jeweiligen Seed-Regionen unabhängig von ihrer Ausrichtung segmentiert werden. Nichtsdestotrotz wurde der Annotationsprozess, wie er zuvor beschrieben wurde, als potenziell limitierender Schritt angesehen.

In diesem Artikel zeigen wir, dass die Verwendung eines synthetischen Datensatzes, bei dem die Kombination und Ausrichtung von Seeds künstlich gerendert wird, ausreicht, um eine Instanzsegmentierung eines tiefen neuronalen Netzwerks zu trainieren, um reale Bilder zu verarbeiten. Darüber hinaus ermöglicht uns die Anwendung unserer Pipeline, morphologische Parameter in großem Maßstab mit einer präzisen Charakterisierung der natürlichen Variation der Gerste aus einer multivariaten Perspektive zu extrahieren. Die vorgeschlagene Methode kann den arbeitsintensiven Annotationsprozess erleichtern, um die schnelle Entwicklung einer Deep-Learning-basierten Bildanalysepipeline im landwirtschaftlichen Bereich zu realisieren, wie in Abb. 1 dargestellt. Unsere Methode ist weitgehend verwandt mit den sim2real-Ansätzen mit der Domänenrandomisierung, wobei wir eine Reihe von Trainingsbildern generieren, indem wir die synthetischen Seeds zufällig mit tatsächlichen Texturen lokalisieren, indem wir ihre Ausrichtung und Position ändern.

Ein herkömmliches Verfahren erfordert eine manuelle Kennzeichnung von Bildern, um den Trainingsdatensatz zu generieren, während unser vorgeschlagenes Verfahren einen solchen Schritt durch die Verwendung eines synthetischen Datensatzes für das Segmentierungsmodell für Pflanzensameninstanzen ersetzen kann.


EINLEITUNG

In den letzten 30 Jahren haben die Metazoen Caenorhabditis elegans hat sich zu einem führenden Tiermodell zur Bestimmung der genetischen Grundlage quantitativer Merkmale entwickelt (1,2). Das umfassende Wissen über molekulare, zelluläre und neuronale Grundlagen komplexer Phänotypen macht C. elegans ein ideales System für das nächste Unterfangen: die Bestimmung der Rolle der natürlichen genetischen Variation für die Systemvariation. Diese Bemühungen haben zu einer Anhäufung einer wertvollen Menge phänotypischer, molekularer und genotypischer Daten mit hohem Durchsatz über verschiedene Entwicklungsstadien und Umgebungen von Würmern in Hunderten von Stämmen geführt (3�). Darüber hinaus wurde ein ähnlicher Reichtum auf Hunderten von verschiedenen C. elegans Wildisolate und andere Arten (20). Zum Beispiel, C. briggsae ist ein aufstrebender Modellorganismus, der evolutionäre Vergleiche mit C. elegans und quantitative genetische Erforschung seiner eigenen einzigartigen biologischen Eigenschaften (21).

Dieser schnelle Anstieg an wertvollen Daten erfordert eine leicht zugängliche Datenbank, die vergleichende Analysen und Metaanalysen innerhalb und außerhalb ermöglicht Caenorhabditis Arten (22). Um dies zu erleichtern, haben wir ein öffentliches Datenbank-Repository für die Wurm-Community entworfen, WormQTL (http://www.wormqtl.org). Angetrieben durch das PANACEA-Projekt des Systembiologie-Programms der EU wurde sein Design auf die Bedürfnisse von C. elegans Forscher durch eine intensive Reihe interaktiver Design- und Benutzerbewertungssitzungen mit dem Ziel, alle verfügbaren Daten in das Projekt zu integrieren.

Dadurch lassen sich Daten, die über verschiedene Plattformen und Datenbanken verstreut waren, jetzt einfach und umfassend in WormQTL speichern, herunterladen, analysieren und visualisieren. Darüber hinaus bietet die Datenbank eine Reihe von Analysetools mit Benutzerschnittstelle, um die Datenbank zu durchsuchen und die Genotyp-Phänotyp-Zuordnung basierend auf R/qtl zu untersuchen (23,24). Neue Daten können mit dem erweiterbaren Klartextformat für Genotyp und Phänotypen, XGAP (25), hoch- und heruntergeladen werden. Die Art der Daten (von der Genexpression bis hin zu Protein-, Metabolit- oder Zelldaten), die aufgrund ihres erweiterbaren Designs berücksichtigt werden können, sind unbegrenzt. Auf alle Daten und Tools kann über eine öffentliche Web-Benutzeroberfläche und Programmierschnittstellen zu R- und REST-Webservices zugegriffen werden, die mit dem MOLGENIS-Biosoftware-Toolkit erstellt wurden (26). Darüber hinaus können Benutzer weitere R-Skripte als ‘plugin’ hochladen und teilen, damit die Kollegen in der Community sie direkt verwenden können, und diese auf einem Computercluster mit Softwaremodulen von xQTL Workbench (27) ausführen. Dies erfordert eine Anmeldung, um Missbrauch zu verhindern. Alle Software kann kostenlos heruntergeladen werden, um beispielsweise als lokaler Spiegel der Datenbank und/oder zum Hosten neuer Studien verwendet zu werden.

Die gesamte Software wurde als Open Source erstellt, wobei vorhandene Open-Source-Komponenten so weit wie möglich wiederverwendet und darauf aufgebaut wurden. WormQTL ist ohne Registrierung frei zugänglich und wird auf einem großen Rechencluster gehostet, der Hochdurchsatzanalysen unter http://www.wormqtl.org ermöglicht. Im Folgenden beschreiben wir die Ergebnisse, die Methoden zur Implementierung des Systems und die zukünftigen Pläne.


Open-Access-Daten und Computerressourcen zur Bekämpfung von COVID-19

Open-Access-Daten und Rechenressourcen zu COVID-19 werden von Bundesbehörden, einschließlich NIH, öffentlichen Konsortien und privaten Einrichtungen, bereitgestellt. Diese Ressourcen stehen Forschern kostenlos zur Verfügung, und diese Seite wird aktualisiert, sobald weitere Informationen verfügbar sind.

Das Office of Data Science Strategy möchte der Forschungsgemeinschaft Links zu Open-Access-Daten, Rechen- und unterstützende Ressourcen. Diese Ressourcen werden aggregiert und für wissenschaftliche und öffentliche Gesundheitsinteressen veröffentlicht. Die Aufnahme einer Ressource in diese Liste bedeutet nicht, dass sie von NIH bewertet oder gebilligt wurde.

Um eine neue Ressource vorzuschlagen, senden Sie bitte eine E-Mail mit dem Namen der Ressource, der Website und einer kurzen Beschreibung an [email protected]

NIAID Clinical Trials Data Repository, [email protected], ist eine cloudbasierte, sichere Datenplattform von NIAID, die den Austausch und den Zugriff auf Berichte und Datensätze von NIAID COVID-19 und anderen gesponserten klinischen Studien für die Grundlagen- und klinische Forschungsgemeinschaft ermöglicht.

Ein zentralisiertes Repository mit aktuellen und kuratierten Datensätzen zu oder im Zusammenhang mit der Verbreitung und den Merkmalen von SARS-CoV-2 und COVID-19. Informationen zur optimalen Nutzung dieser Ressource sind verfügbar.

Der Broad Terra Cloud-Arbeitsbereich für Best Practices mit COVID-19-Genomdaten

  • Rohdaten der COVID-19-Sequenzierung aus dem NCBI Sequence Read Archive (SRA)
  • Arbeitsabläufe für Genomassemblierung, Qualitätskontrolle, metagenomische Klassifizierung und aggregierte Statistiken
  • Jupyter Notebook erstellt Qualitätskontrolldiagramme für die Workflow-Ausgabe

Der Open-Source-Datensatz von fast 50.000 chemischen Substanzen umfasst antivirale Medikamente und verwandte Verbindungen, die strukturell bekannten antiviralen Mitteln für Anwendungen wie Forschung, Data Mining, maschinelles Lernen und Analytik ähneln. Ein COVID-19 Protein Target Thesaurus ist ebenfalls verfügbar. CAS ist eine Abteilung der American Chemical Society.

Die CDC stellt eine Vielzahl von Daten zu COVID-19 in den Vereinigten Staaten zur Verfügung.

Das vom China National Center for Bioinformation/National Genomics Data Center verwaltete 2019nCoVR ist eine umfassende Ressource zu COVID-19, die aktuelle Informationen zu allen veröffentlichten Sequenzen, Mutationsanalysen, Literatur und anderen kombiniert.

Sehen Sie sich aufgelistete klinische Studien im Zusammenhang mit der Coronavirus-Krankheit (COVID-19) an. Studien werden in einem strukturierten Format direkt von den Sponsoren und Prüfern, die die Studien durchführen, eingereicht. Eingereichte Studieninformationen werden im Allgemeinen innerhalb von 2 Tagen nach der ersten Einreichung auf ClinicalTrials.gov veröffentlicht und der Inhalt der Site wird täglich aktualisiert. Der vollständige Website-Inhalt ist auch über die API verfügbar.

Diese Dateisammlung enthält Informationen zum Drucken von physischen 3D-Modellen von SARS-CoV-2-Proteinen und ist Teil des NIH 3D Print Exchange.

Frei verfügbarer Datensatz mit 45.000 wissenschaftlichen Artikeln, davon über 33.000 mit Volltext, zu COVID-19, SARS-CoV-2 und verwandten Coronaviren. Diese maschinenlesbare Ressource wird bereitgestellt, um die Anwendung der Verarbeitung natürlicher Sprache und anderer KI-Techniken zu ermöglichen.

Sehen Sie sich die CORD-19 Challenge an, die in Zusammenarbeit mit Kaggle entwickelt wurde. Amazon Web Services verfügt über eine CORD-19-Suchwebsite.

Lesen Sie den begleitenden Aufruf zum Handeln des Büros für Wissenschafts- und Technologiepolitik des Weißen Hauses und erfahren Sie mehr über die Schaffung von CORD-19.

Dieser webbasierte Viewer bietet eine 3D-Visualisierung und Analyse von SARS-CoV-2-Proteinstrukturen in Bezug auf die CoV-2-Mutationsmuster.

Das COVID-DPR bietet ganze Objektträgerbilder von histopathologischen Proben, die für COVID-19 relevant sind, einschließlich Biopsieproben und Autopsieproben. Der aktuelle Schwerpunkt des Endlagers umfasst Gewebe aus Lunge, Herz, Leber und Niere. Das Repository enthält Beispiele für H1N1, SARS und MERS zum Vergleich.

Das NCI Cancer Imaging Program (CIP) nutzt sein Cancer Imaging Archive als Ressource, um COVID-19-Radiologie- und digitalisierte histopathologische Patientenbildersätze öffentlich zugänglich zu machen.

Ein zentralisiertes Sequenzarchiv für alle Stämme des neuartigen Coronavirus (SARS-CoV-2), das beim National Center for Biotechnology Information (NCBI) eingereicht wurde. Enthalten sind sowohl die vom Hauptprüfarzt eingereichten Originalsequenzen als auch SRA-verarbeitete Sequenzen, die das SRA-Toolkit zur Analyse benötigen.

Alle Veröffentlichungen, Datensätze und klinischen Studien von Dimensions zu COVID-19 werden täglich aktualisiert. Inhalte, die aus der offen zugänglichen Dimensions-Anwendung exportiert wurden, die unter https://covid-19.dimensions.ai/ zugänglich ist.

Das European Bioinformatics Institute (EMBL-EBI), Teil des European Molecular Biology Laboratory, verfügt über ein COVID-19-Datenportal, um den Datenaustausch und die Analyse zu erleichtern und letztendlich zur europäischen COVID-19-Datenplattform beizutragen. EMBL-EBI ist Teil der International Nucleotide Sequence Database Collaboration (INSDC) das National Center for Biotechnology Information (NCBI) ist der US-amerikanische Partner des INSDC.

Die herunterladbare Datendatei wird täglich aktualisiert und enthält die neuesten verfügbaren öffentlichen Daten zu COVID-19. Jede Zeile/jeder Eintrag enthält die Anzahl der neu gemeldeten Fälle pro Tag und pro Land. Sie dürfen die Daten gemäß den Urheberrechtsrichtlinien des ECDC verwenden.

Bietet schnellen, offenen und uneingeschränkten Zugang zu Virus-Nukleotidsequenzen und ist das von NIAID und CDC empfohlene Repository für Prüfer und öffentliche Gesundheitsanträge. Aufgrund des Umfangs der Datenindizierung kann es zu Verzögerungen kommen, bis neue Einreichungen indiziert und mit einer begriffsbasierten Abfrage abrufbar sind.

Bietet schnellen, offenen und uneingeschränkten Zugriff auf konzeptionell übersetzte Proteinsequenzen von Viren und ist das von NIAID und CDC empfohlene Repository für Prüfer und öffentliche Gesundheitsanträge. Aufgrund des Umfangs der Datenindizierung kann es zu Verzögerungen kommen, bis neue Einreichungen indiziert und mit einer begriffsbasierten Abfrage abrufbar sind.

Transkriptionsreaktionen des Menschen auf eine SARS-CoV-2-Infektion

Internationale Datenbank mit hCoV-19-Genomsequenzen und zugehörigen klinischen und epidemiologischen Daten

Die GCP hostet ein Repository mit öffentlichen Datensätzen und bietet kostenloses Hosting und Abfragen von COVID-Datensätzen. Erfahren Sie mehr über das kostenlose Hosting und Abfragen von COVID-Datensätzen.

Umfassendes, von Experten kuratiertes Portfolio von COVID-19-Publikationen und Preprints, das von Experten begutachtete Artikel von PubMed und Preprints von medRxiv, bioRxiv, ChemRxiv und arXiv umfasst.

Von NLM kuratiertes Literaturzentrum für COVID-19

NIGMS-finanzierte Modellierungsforschung. Öffentlich zugängliche Datensammlungen mit dokumentierten Metadaten.

NCATS erstellt eine Sammlung von Datensätzen, indem es ein Panel von SARS-CoV-2-bezogenen Assays gegen alle zugelassenen Medikamente durchsucht. Diese Datensätze sowie die zu ihrer Generierung verwendeten Assayprotokolle werden der wissenschaftlichen Gemeinschaft auf dieser Site sofort zur Verfügung gestellt, sobald diese Screens abgeschlossen sind.

SARS-CoV-2-fokussierter Inhalt des NCBI-Virus, einschließlich Links zu verwandten Ressourcen. Suchen, filtern und laden Sie die aktuellsten Nukleotid- und Proteinsequenzen von GenBank und RefSeq (Taxid 2697049) herunter. Generieren Sie mehrere Sequenz-Alignments und phylogenetische Bäume für Sequenzen von Interesse. Bietet mit einem Klick Zugriff auf die Betacoronavirus BLAST-Datenbank und relevante Literatur in PubMed.

Open-Source-SARS-CoV-2-Genomdaten sowie Analyse- und Visualisierungstools

Das Interuniversitäre Konsortium für Politik- und Sozialforschung (ICPSR) hat ein neues Datenarchiv eingerichtet, das die Auswirkungen der neuartigen globalen Coronavirus-Pandemie untersucht. Dieses Repository ist eine kostenlose Selbstveröffentlichungsoption für Forscher, um COVID-19-bezogene Daten auszutauschen.

Eine Ressource zur Aggregation von Daten, die für die wissenschaftliche Forschung bei Ausbrüchen neu auftretender Krankheiten wie COVID-19 wichtig sind

Kleinmolekulare Verbindungen, Bioaktivitätsdaten, biologische Ziele, Bioassays, chemische Substanzen, Patente und Wege

Am 13. März forderten nationale Wissenschafts- und Technologieberater aus einem Dutzend Ländern, darunter die Vereinigten Staaten, die Verlage auf, freiwillig zuzustimmen, ihre COVID-19- und Coronavirus-bezogenen Veröffentlichungen sowie die verfügbaren Daten, die sie unterstützen, sofort in PMC und anderen zugänglich zu machen geeignete öffentliche Repositorien zur Unterstützung der laufenden Notfallmaßnahmen im Bereich der öffentlichen Gesundheit. Die zu PMC hinzugefügten Artikel werden über das PMC Open Access Subset verteilt und in CORD-19 zur Verfügung gestellt.

Die RCSB-Proteindatenbank bietet Zugang zu COVID-19-bezogenen PDB-Strukturen für die Forschung und dazugehörige Bilder und Videos für die Bildung.

Reactome ist eine kostenlose, quelloffene, kuratierte und von Experten begutachtete Pathway-Datenbank. Ziel ist es, intuitive bioinformatische Werkzeuge für die Visualisierung, Interpretation und Analyse von Pathway-Wissen bereitzustellen, um Grundlagenforschung, Genomanalyse, Modellierung, Systembiologie und Bildung zu unterstützen. Als Reaktion auf die COVID-19-Pandemie verfolgt Reactome die Annotation der menschlichen Coronavirus-Infektionswege im Schnellverfahren.

Eine Datenbank mit sorgfältig validierten SARS-CoV-2-Proteinstrukturen, einschließlich vieler Strukturmodelle, die neu verfeinert oder aufbereitet wurden. Die Ressource wird wöchentlich vom Minor Lab an der University of Virginia aktualisiert, da neue SARS-CoV-2-Strukturen in der Proteindatenbank hinterlegt werden.

Bietet schnellen, offenen und uneingeschränkten Zugriff auf Virusnukleotid- oder metagenomische Sequenzdaten und ist das von NIAID und CDC empfohlene Repository für Prüfer und öffentliche Gesundheitsanträge. Aufgrund des Umfangs der Datenindizierung kann es zu Verzögerungen kommen, bis neue Einreichungen indiziert und mit einer begriffsbasierten Abfrage abrufbar sind.


Ergebnisse

Simulierte Beispiele

In diesem Abschnitt veranschaulichen wir die Anwendung der Q-, n-, und NL-Methoden für zwei simulierte Datensätze: einen mit hochkorrelierten Merkmalen und den anderen mit unkorrelierten Merkmalen. Wir generierten Daten aus Rückkreuzungen, die aus 112 Individuen mit 16 Chromosomen einer Länge von 400 cM bestanden, die jeweils 185 Marker mit gleichem Abstand enthielten, und Phänotypdaten zu 6000 Merkmalen. Die Phänotypdaten wurden nach den Modellen Y k = β M + θ L + ε k , falls Y k zu einem Hotspot gehört , Y k = θ L + ε k , falls Y k nicht zu einem Hotspot gehört , generiert , wobei Ln(0, σ 2) stellt eine latente Variable dar, die alle betrifft k = 1, … , 6000 Merkmale θ stellt die latente variable Wirkung auf den Phänotyp dar und wirkt als Abstimmungsparameter, um die Stärke der Korrelation zwischen den Merkmalen zu kontrollieren m = Q + εm stellt ein Hauptregulatormerkmal dar, das die Phänotypen im Hotspot beeinflusst β stellt die Hauptregulatorwirkung auf den Phänotyp dar und Q stellt die QTL dar, die zum Hotspot führt. Beachten Sie, dass die Merkmale, aus denen der Hotspot besteht, direkt vom Master-Regler beeinflusst werden m und zuordnen zu Q indirekt, γ stellt den QTL-Effekt auf den Master-Regler dar, und εk und εm repräsentieren unabhängige und identisch verteilte Fehlerterme nach a n(0, σ 2) Verteilung.

In beiden Beispielen haben wir drei Hotspots simuliert: (i) ein kleiner Hotspot bei 200 cM auf Chromosom 5 mit hohen LOD-Werten (siehe Abbildung S5, A und D), (ii) ein großer Hotspot bei 200 cM auf Chromosom 7 mit LOD Werte von klein bis hoch (siehe Abbildung S5, B und E) und (iii) ein großer Hotspot bei 200 cM auf Chromosom 15 mit LOD-Werten von klein bis mäßig (siehe Abbildung S5, C und F).

In beiden Simulationen setzen wir σ 2 = 1 und γ = 2. Die QTL-Analyse wurde unter Verwendung der Haley-Knott-Regression (Haley und Knott 1992) mit der R/qtl-Software (Broman et al. 2003). Wir haben die Kartenfunktion von Haldane und die Genotypfehlerrate von 0,0001 übernommen. Da wir eine dichte genetische Karte übernommen haben (unsere Marker sind 2,16 cM auseinander), haben wir mutmaßliche QTL-Positionen zwischen den Markern nicht berücksichtigt.

Im ersten Beispiel, das als simuliertes Beispiel 1 bezeichnet wird, haben wir einen latenten Effekt von 1,5 angenommen. Im zweiten Beispiel, das als simuliertes Beispiel 2 bezeichnet wird, haben wir einen latenten Effekt von 0 und simulierte unkorrelierte Merkmale angenommen. Abbildung S6, A und B, zeigt die Verteilung aller paarweisen Korrelationen zwischen den 6000 Merkmalen für beide simulierten Beispiele. Diese extremen Beispiele veranschaulichen den Effekt der Phänotypkorrelation auf die QTL-Hotspot-Größen. Die Korrelationen der realen Daten sind eigentlich intermediär (siehe Abbildung S6C).

Abbildung 1 zeigt die Ergebnisse für die Q- und n-Methoden für simuliertes Beispiel 1, mit α = 0,05. Abbildung 1A zeigt die Hotspot-Architektur, die mit einem Single-Trait-LOD-Schwellenwert von 3,65 . berechnet wurde d.h., zeigt das Diagramm an jeder genomischen Stelle die Anzahl der Merkmale mit einem LOD-Wert >3,65. Zusätzlich zu den simulierten Hotspots auf den Chromosomen 5, 7 und 15 zeigt Abbildung 1A einige falsche Hotspots, darunter einen großen Hotspot auf Chromosom 8. Die blauen und roten Linien zeigen die n- und Q-Methodenschwellen, 560 bzw. 7. In diesem Beispiel die n-Methode konnte keine Hotspots erkennen, während die Q-Methode erkannte falsche Hotspots auf den Chromosomen 3, 6, 8, 9, 12 und 16. Abbildung 1, B und C zeigt die Nullverteilungen der Hotspot-Größe und die 5% Signifikanzschwellen für die n- und Q-Methoden bzw.

n- und Q-Methodenanalysen für simuliertes Beispiel 1. (A) Abgeleitete Hotspot-Architektur unter Verwendung eines Single-Trait-Permutationsschwellenwerts von 3,65, was einer GWER von 5% entspricht, wenn mindestens ein QTL irgendwo im Genom falsch nachgewiesen wird. Die blaue Linie bei Zählung 560 entspricht der zufällig erwarteten Hotspot-Größe bei einem GWER von 5 % gemäß n-Methoden-Permutationstest. Die rote Linie bei Zählung 7 entspricht der Q-Methode 5% Signifikanzschwelle. Die Hotspots auf den Chromosomen 5, 7, 8 und 15 haben die Größen 50, 500, 125 bzw. 280. (B) n-Methoden Permutation Nullverteilung der maximalen genomweiten Hotspot-Größe. Die blaue Linie entspricht der zufällig erwarteten Hotspot-Größe 560 bei einem GWER von 5 %. (C) Q-Methoden Permutation Nullverteilung der maximalen genomweiten Hotspot-Größe. Die rote Linie bei 7 zeigt den Schwellenwert von 5 %. Die Ergebnisse basieren auf 1000 Permutationen.

Die Abbildungen 2 und 3 zeigen die NL-Methodenanalyseergebnisse für simuliertes Beispiel 1, unter Verwendung von α = 0,05. Abbildung 2, A–D, zeigt die abgeleitete Hotspot-Architektur unter Verwendung von vier verschiedenen quantilbasierten Permutationsschwellenwerten. Abbildung 2A zeigt die abgeleitete Hotspot-Architektur mit einem LOD-Schwellenwert von 7,07. Nur die wahren Hotspots (auf den Chromosomen 5, 7 und 15) waren bei dieser konservativen Schwelle signifikant. Abbildung 2B zeigt die Hotspot-Architektur, die mit einem LOD-Schwellenwert von 4,93 berechnet wurde, der darauf abzielt, GWER ≤ 0,05 für falsche Hotspots der Größe 50 zu kontrollieren. Die Hotspots auf den Chromosomen 5, 7 und 15 wurden durch diesen Schwellenwert erkannt. Abbildung 2, C und D, zeigt die Hotspot-Architekturen mit LOD-Schwellenwerten von 4,21 bzw. 3,72. Für diese Schwellenwerte wurde nur der Hotspot auf Chromosom 7 als signifikant erkannt. Beachten Sie, dass weder der große störende Hotspot auf Chromosom 8 noch einer der anderen in Abbildung 1A gezeigten störenden Hotspots von den quantilbasierten Schwellenwerten erfasst wurden.

NL-Methodenanalyse für simuliertes Beispiel 1. (A–D) Hotspot-Architektur abgeleitet unter Verwendung verschiedener quantilbasierter Permutationsschwellen d.h., zeigt es für jede genomische Position die Anzahl der Merkmale, die dort mit einem LOD-Schwellenwert über dem quantilbasierten Permutationsschwellenwert kartiert wurden. (A) Hotspot-Architektur, abgeleitet unter Verwendung einer Permutations-LOD-Schwelle von 7,07, die der LOD-Schwelle entspricht, die die Wahrscheinlichkeit kontrolliert, mindestens eine einzelne Verknüpfung für eines der Merkmale irgendwo im Genom unter der Nullhypothese, dass keines der Merkmale ein a . hat, fälschlicherweise zu erkennen QTL überall im Genom mit einer Fehlerrate von 5 %. (B, C und D) Hotspot-Architekturen, die unter Verwendung von QTL-Mapping-LOD-Schwellenwerten von 4,93, 4,21 und 3,72 berechnet wurden, die darauf abzielen, GWER bei einer Fehlerrate von 5% für falsche eQTL-Hotspots der Größen 50, 200 bzw. 500 zu kontrollieren.

Hotspot-Größen-Signifikanzprofil abgeleitet mit dem NL-Methode für simuliertes Beispiel 1. Für jede genomische Position (d.h., x-Achsenposition) werden die Hotspot-Größen angezeigt, bei denen der Hotspot signifikant war, d. h. bei denen der Hotspot-Locus mehr Merkmale mit einem LOD-Wert über dem rechten Schwellenwert aufweist, als zufällig erwartet. Die Skala auf der linken Seite zeigt den Bereich der von unserem Ansatz untersuchten Größen von Stör-Hotspots. Die Skala auf der rechten Seite zeigt die jeweiligen LOD-Schwellenwerte, die mit den falschen Hotspot-Größen auf der linken Seite verbunden sind. Der Bereich reicht von 7,07, dem konservativen empirischen LOD-Schwellenwert, der mit einem falschen „Hotspot der Größe 1“ verbunden ist, bis 3,65, dem empirischen Schwellenwert für ein einzelnes Merkmal, der mit einem falschen Hotspot der Größe 560 verbunden ist. Alle Permutationsschwellen wurden mit dem Ziel GWER ≤ 0,05 . berechnet , zum n = 1, … , 560.

Abbildung 3 verbindet die Hotspot-Größe mit dem quantilbasierten Schwellenwert. Dieses Signifikanzprofil der Hotspot-Größe zeigt ein gleitendes Fenster von Schwellenwerten für die Hotspot-Größe im Bereich von n = 1, … , n, wo n = 560 entspricht dem Hotspot-Größenschwellenwert, abgeleitet aus n Methode. For each genomic location, the hotspot size (left axis) is significant for the LOD threshold (right axis). For example, the chromosome 5 hotspot was significant up to size 49, meaning that >1 trait mapped to the hotspot locus with LOD > 7.07, >2 traits mapped to the hotspot locus with LOD > 6.46, and so on up to hotspot size 49 where >49 traits mapped to the hotspot locus with LOD > 4.93. The hotspot on chromosome 7 was significant up to size 499, and the hotspot on chromosome 15 (higher peak) was significant for hotspot sizes 2–129 and 132–143.

Die NL-method detected only the real hotspots on chromosomes 5, 7, and 15, whereas the n-method did not detect any hotspots and the Q-method detected 6 spurious hotspots, in addition to the real hotspots. The sliding window of quantile-based thresholds detected the small hotspot composed of traits with high LOD scores on chromosome 5 as well the big hotspots on chromosomes 7 and 15. Equally important, the NL-method dismissed spurious hotspots, such as chromosome 8, composed of numerous traits with LOD scores <5.57.

Figure 4 shows the results for the Q- und n-methods for simulated example 2, using α = 0,05. Figure 4A shows the hotspot architecture. The blue and red lines show the n- und Q-method’s thresholds, 19 and 8, respectively. In this example, both the n- und Q-methods were able to correctly pick up the hotspots on chromosomes 5, 7, and 15.

n- und Q-method analyses for simulated example 2. (A) Inferred hotspot architecture using a single-trait permutation threshold of 3.65 corresponding to a GWER of 5% of falsely detecting at least one QTL somewhere in the genome. The blue line at count 19 corresponds to the hotspot size expected by chance at a GWER of 5% according to the n-method permutation test. The red line at count 8 corresponds to the Q-method’s 5% significance threshold. The hotspots on chromosomes 5, 7, and 15 have sizes 50, 464, and 220, respectively. (B) Die n-method’s permutation null distribution of the maximum genome-wide hotspot size. The blue line at 19 corresponds to the hotspot size expected by chance at a GWER of 5%. (C) The Q-method’s permutation null distribution of the maximum genome-wide hotspot size. The red line at 8 shows the 5% threshold. Results are based on 1000 permutations.

Comparison of Figures 1A and 4A shows that the spurious hotspots tend to be much smaller when the traits are uncorrelated (compare chromosome 8 on both plots), leading to much smaller n-method thresholds (compare the blue lines). Die Q-method thresholds, on the other hand, are quite close. This is expected since the Q-method threshold depends on the number of significant QTL (we observed 3162 significant linkages in simulated example 1, against 3586 significant linkages in example 2) and not on the correlation among the traits.

Figure S7 displays the hotspot size significance profile for simulated example 2. The NL-method also detected the hotspots on chromosomes 5, 7, and 15.

Simulationsstudie

In this simulation study we assess and compare the error rates of the Q-, n-, und NL-methods under three different levels of correlation among the traits. To determine whether the methods are capable of controlling the GWER at the target levels, we conduct separate simulation experiments as follows:

We generate a “null genetical genomics data set” from a backcross composed of (i) 6000 traits, none of which is affected by a QTL, but that are nevertheless affected by a common latent variable to generate a correlation structure among the traits, and (ii) genotype data on 2960 equally spaced markers across 16 chromosomes of length 400 cM (185 markers per chromosome). Any detected QTL hotspot is spurious, arising from correlation among the traits.

We perform QTL mapping analysis, and 1.5-LOD support interval processing, of the 6000 traits. For each one of the following single-trait QTL mapping permutation thresholds (that control GWER at the α = 0.01, 0.02, … , 0.10 levels, respectively), we do the following:

A. We compute the observed QTL matrix and generate the Q-method hotspot size threshold on the basis of 1000 permutations of the observed QTL matrix. We record whether or not we see at least one spurious hotspot of size greater than the Q-method threshold anywhere in the genome.

B. For each genomic location we count the number of traits above the single-trait LOD threshold. We compute the n-method hotspot size threshold on the basis of 1000 permutations of the null data set. We record whether at least one spurious hotspot of size greater than the n-method threshold is anywhere in the genome.

C. We compute the NL-method LOD thresholds for spurious hotspot size thresholds ranging from 1 to the n-method threshold. Für jeden NL-method LOD threshold, λn,α, wo n = 1, … , n, we count, at each genomic location, how many traits mapped to that genomic location with a LOD > λn,α and record whether there is at least one spurious hotspot of size greater than n anywhere in the genome.

We repeat the first two steps 1000 times. For each one of the three methods, the proportion of times we recorded spurious hotspots, out of the 1000 simulations, gives us an estimate of the empirical GWER associated with the method.

QTL analysis was performed as described above. Figure 5 shows the simulation results for null data sets generated using latent variable effects of 0.0, 0.25, and 1.0. Die Q- und n-methods, with observed GWER (red), and target error rate (black), have two α-levels, α1 for QTL mapping and α2 for the tail area of the hotspot size permutation null distribution. Figure 5 displays the results when α1 = α2 = 0.01, 0.02, … , 0.10. Die NL-method has a single α-level the red curves are the observed GWERs for spurious hotspot sizes n = 1, … , n, wo n repräsentiert die n method’s permutation threshold.

Observed GWER for the Q-, n-, und NL-methods under varying strengths of phenotype correlation. Black lines show the targeted error rates. Red curves show the observed GWER. (A–C) Results for uncorrelated phenotypes. (D–F) Results for weakly correlated phenotypes generated using a latent variable effect of 0.25. (G–I) Simulation results for highly correlated phenotypes generated using latent effect set to 1. The left, middle, and right columns show the results for the Q-, n-, und NL-methods, respectively. Note the different ja-axis scales for the Q-method panels. The red curves on the NL-method panels show the observed GWER for hotspot sizes ranging from 1 to n, wo n is the median n-method threshold for α = 0.10.

Figure 5, A–C, shows that for uncorrelated traits the Q- und n-methods were conservative, below target levels, whereas the NL-method shows error rates about the right target levels for most hotspot sizes. Figure 5, D and G, shows that error rates for the Q-method are higher than target levels when the traits are correlated and increase with correlation strength among the phenotypes. These results are expected since the Q-method’s thresholds depend on the number of QTL detected in the unpermuted data and tend to increase with the number of phenotypes. Because we generated the same number of phenotypes in the three simulation studies, the Q-method’s thresholds were similar. Therefore, the number and the size of the spurious QTL tend to be proportional to the correlation strength of the phenotypes. Die n- und NL-methods, on the other hand, are designed to cope with the correlation structure among the phenotypes and show error rates close to the target levels as shown in Figure 5, E, F, H, and I.

Yeast data set example

In this section we illustrate and compare the Q-, n-, und NL-methods using data generated from a cross between two parent strains of yeast: a laboratory strain and a wild isolate from a California vineyard (Brem and Kruglyak 2005). The data consist of expression measurements on 5740 transcripts measured on 112 segregant strains, with dense genotype data on 2956 markers. Processing of the expression measurements of raw data was done as described in Brem and Kruglyak (2005), with an additional step of converting the processed measurements to normal quantiles by the transformation Φ − 1 [ ( r i − 0.5 ) / 112 ] , where Φ is the standard normal cumulative density function, and the rich are the ranks. We performed QTL analysis using Haley–Knott regression (Haley and Knott 1992) with the R/qtl software (Broman et al. 2003). We adopted Haldane’s map function, with a genotype error rate of 0.0001, and set the maximum distance between positions at which genotype probabilities were calculated to 2 cM.

Hotspot analysis of the yeast data, based on the n-method (Figure 6A), detected significant eQTL hotpots on chromosomes 2 (second peak), 3, 12 (first peak), 14, and 15 (first peak), at a GWER of 5% according to null distribution of hotspot sizes shown in Figure 6B. The blue line represents the n method’s significance threshold of n = 96. The maximum hotspot size on chromosome 8 was 95 and almost reached significance. Nonetheless, Figure 6A also shows suggestive (although substantially smaller) peaks on chromosomes 1, 4, 5, 7, 9, 12 (second peak), 13, 15 (second peak), and 16 that did not reach significance according to the n-method’s significance threshold.

n- und Q-method analyses for the yeast data. (A) Inferred hotspot architecture using a single-trait permutation threshold of 3.44 corresponding to a GWER of 5% of falsely detecting at least one QTL somewhere in the genome. The blue and red lines at counts 96 and 28 correspond to the hotspot size expected by chance at a GWER of 5% according to the n- and the Q-method permutation tests, respectively. (B and C) The permutation null distributions of the maximum genome-wide hotspot size based on 1000 permutations. The blue and red lines at 96 and 28 correspond, respectively, to the hotspot size expected by chance at a GWER of 5% for the n- und Q-methods.

The red line in Figure 6A represents the Q-method’s significance threshold of 28, derived from the null distribution of hotspot sizes shown in Figure 6C. Die Q-method detected significant hotspots on chromosomes 2 (both peaks), 3, 4, 5 (both peaks), 7, 8, 12 (both peaks), 13, 14, and 15 (both peaks).

Figure 7 shows the hotspot significance profile for the NL-method. The major hotspots on chromosomes 2, 3, 12 (first peak), 14, and 15 (first peak) were significant across all thresholds tested up, and the hotspot on chromosome 8 was significant up to size 93. Furthermore, the NL-method showed that the small hotspots detected by the Q-method on chromosomes 5, 12 (second peak), 13, and 15 (second peak) might indeed be real. Nonetheless, the small hotspots on chromosomes 4 and 7, detected by the Q-method, are less interesting than the small hotspot on chromosome 1 that was actually missed by the Q-method.

Hotspot size significance profile derived with the NL-method. The range is from 7.40, the conservative empirical LOD threshold associated with a spurious “hotspot of size 1,” to 3.45, the single-trait empirical threshold, associated with a spurious hotspot of size 96. All permutation thresholds were computed targeting GWER ≤ 0.05, for n = 1, … , 96.


Hintergrund

Plant breeders and geneticists have benefited from the availability of tools for the rapid and cost-effective development of molecular marker-based linkage maps. As predicted by Tanksley et al. [1], linkage maps have proven to be useful for discovering, dissecting and manipulating the genes that determine simple and complex traits in crop plants. Gerade noch (Hordeum vulgare) is a model for plant breeding and genetics because it is diploid (2n = 2x = 14) and has a long history of genetics research. Over the past decade, increasingly dense maps of the barley genome have been constructed using multiple populations and many types of molecular markers [2]. Most recently, Szűcs et al. [3] reported an integrated 2383-locus linkage map developed in the Oregon Wolfe Barley (OWB) mapping population based on representative early generation markers (e.g. morphological loci, RFLPs, and SSRs) and single nucleotide polymorphisms (SNPs).

SNP markers have become increasingly important tools for molecular genetic analysis, as single base-pair changes are the most abundant small-scale genetic variation present between related sequences of DNA [4]. To date, most SNP development efforts in larger, more complex genomes such as barley have focused on "complexity reduction" techniques that aim to sequence a fraction of the genome, such as that represented in EST collections. Once a panel of markers is established from initial SNP discovery, samples from a selected population are then genotyped using oligo-extension or array-based platforms [5]. Both these strategies were used for construction of the current barley SNP-based maps [3, 6, 7].

The emergence of massively-parallel, next-generation sequencing (NGS) platforms capable of producing millions of short (50-100 bp) DNA sequence reads has reduced the costs of DNA sequencing and offers the tantalizing possibility of making direct, genotyping-by-sequencing (GBS) practical (Reviewed in [8]). Recently, Huang and colleagues [9] have elegantly demonstrated how genotyping using NGS data can facilitate the rapid development of linkage maps in domesticated rice, Oryza sativa. Despite the attractiveness of this approach and availability of next-generation sequencing platforms, at present, GBS methods retain significant limitations. First, current protocols for synthesis of DNA fragment libraries compatible with high-throughput sequencing platforms are laborious, costly and would be impractical for production efforts involving hundreds of samples [10]. Second, sequence-based genotyping is restricted to those species with available, high-quality, pseudomolecule-sized genome assemblies [9]. While many key economic and scientifically meritorious species will undoubtedly be sequenced as a direct result of the ongoing revolution in NGS technologies, what is required are marker platforms that can provide GBS independent of the status of an assembled genome.

Restriction-site Associated DNA (RAD) markers detect genetic variation adjacent to restriction enzyme cleavage sites across a target genome [11]. The first iteration of RAD markers facilitated cloning of mutants isolated from genetic screens in classic model systems [12, 13]. More recent efforts have focused on adapting the RAD technique for use in NGS platforms, specifically the Illumina sequencing-by-synthesis method, to enable individual sequence based genotyping of samples [14]. The sequenced RAD marker system enjoys two favourable characteristics for high-throughput GBS. As previously mentioned, the RAD method uses restriction enzymes as a complexity reduction strategy to reduce the sequenced portion of the genome anywhere from 0.01% to 10% [15]. Furthermore, RAD protocols facilitate the creation of highly multiplexed NGS sequencing formulations containing many tens of samples in a single library, thereby reducing library preparation costs [14]. While previously published RAD studies have explored NGS of limited numbers of individuals or bulked genotyping of pooled populations, the objective of this research was to determine the feasibility of constructing a RAD marker genetic map in barley. We used the OWB population as a mapping resource in order to directly compare RAD and EST-based SNP maps and to assess the quality and utility of a linkage map built with the two types of data.


Ergebnisse

qtl.outbred has been extensively tested. Firstly, we established that the triM algorithm produce exactly the same genotype probabilities as R/qtl when inbred line cross data are used (i.e. line crosses of inbred mouse strains). Secondly, we used genotypic data from an outbred line cross between domesticated and wild chickens with a simulated phenotype. Genotype probabilities were calculated with the triM algorithm using qtl.outbred to interface it with R/qtl. The single- and two-QTL genome scan for this dataset is illustrated in Figure ​ Figure1. 1. The identified peaks correspond to where the QTL were simulated. Lastly, we calculated QTL genotype probabilities for the simulated chicken intercross using GridQTL. These genotype probabilities were imported in R/qtl, using the qtl.outbred interface, and the conducted QTL scan gave similar results to those reported in Figure ​ Figure1 1 .

The graph was obtained by using outbred line cross data (domesticated and wild chicken intercross genotypic data with simulated phenotype), calculating genotype probabilities with the triM algorithm from the qtl.outbred interface and importing it directly to R/qtl where the genome scans were performed. LOD scores for Haley-Knott regression [6] for (a) single-QTL genome scan and (b) two-QTL genome scan are reported. LOD scores are indicated on the colour scale where, numbers to the left correspond to the upper triangle indicating two-locus epistasis and values to the right correspond to the lower triangle indicating the significance for a test of two versus one QTL.


Danksagung

The authors would like to acknowledge all farm owners and managers who took part in our study, and in particular Joyce Voogt for her valuable insights into farmer opinions. We would like to acknowledge Fiona Brown, Nicolas Lopez-Villalobos, Danny Donaghy and Martin Correa Luna from Massey University and Sandeep Seernam from AgResearch for their help during the data collection process. Lastly, we would like to acknowledge Stella Sim, Esther Donkersloot and Neil Macdonald from LIC for providing photographs used in this research.


New NIH Resource to Analyze Biomedical Research Citations: The Open Citation Collection

Citations from scientific articles are more than lines on a page. They can, when reading between those lines, shed some light on the development of scientific thought and on the progress of biomedical technology. We’ve previously posted some examples in blogs here, here, and here. But to better see the light, we all would benefit from more comprehensive data and easier access to them.

My colleagues within the NIH Office of Portfolio Analysis sought to answer this call. Drs. Ian Hutchins and George Santangelo embarked on a hefty bibliometric endeavor over the past several years to curate biomedical citation data. They aggregated over 420 million citation links from sources like Medline, PubMed Central, Entrez, CrossRef, and other unrestricted, open-access datasets. With this information in hand, we can now take a better glimpse into relationships between basic and applied research, into how a researchers’ works are cited, and into ways to make large-scale analyses of citation metrics easier and free.

As described in their recent PLOS Biology essay, the resulting resource, called the NIH Open Citation Collection (OCC), is now freely available and ready for the biomedical and behavioral research communities to use. You can access, visualize, and bulk download OCC data as part of the NIH’s webtool called iCite (Abbildung 1). iCite allows users to access bibliometric tools, look at productivity of research, and see how often references are cited.

Abbildung 1

Figure 2 illustrates the new OCC web interface. Data from a group of publications are displayed on a summary table on the top. Various charts with visualizations lie beneath the summary table. They show publications over time (left), total citations per year by the publication year of the referenced article (center left) or the citing article (center right), and average citations per article in each publication year (right). These tables are customizable as publications are selected or deselected from the portfolio. You can also see information related to the article, such as links to the citing and referenced papers on PubMed, on the bottom of the screen.

Figur 2

The new OCC resource collection within iCite aims to reduce the costs of large-scale analyses of structured citation data, a recognized impediment for the bibliometrics field. OCC goes further still. It enhances the quality, robustness, and reproducibility of analyses using citation data. Moreover, it allows those interested to freely access structured data and share it with others. And, it also provides for transparency, which improves understanding of how knowledge flows and applied technologies develop.

Let’s use OCC to see that knowledge flow in action (Figure 3). Here the team assessed citation networks associated with the development of cancer immunotherapy. Each dot represents a scientific paper. The color represents whether the paper describes basic (green), translational (yellow), or clinical (red) science. The most influential clinical trials are shown in the large red dots in the center. These trials formed part of the evidence base FDA required for approval as a clinical treatment.

Information available in OCC will continue to grow. In addition to accumulating citations, the OCC will acquire data preprint servers and other materials currently not indexed in PubMed.

We invite you to take a look at and use the OCC. It will be exciting to see how the research community will use this new resource when conducting their own analyses. Data from these studies delving into citation dynamics may even provide additional insights that help all of us better understand how the scientific enterprise works and how we could make it even better.


Schau das Video: . US Government Data. Free Data Source for Data Science (Kann 2022).


Bemerkungen:

  1. Garrad

    Even if it was, don't rub it into my soul ..

  2. Nek

    Bravo, dieser hervorragende Satz ist übrigens notwendig

  3. Abdul-Basit

    genau genau !!!



Eine Nachricht schreiben