The Genome Analysis Toolkit or GATK is a software package developed at the Broad Institute to analyze high-throughput sequencing data. The toolkit offers a wide variety of tools, with a primary focus on variant discovery and genotyping as well as strong emphasis on data quality assurance. Its robust architecture, powerful processing engine and high-performance computing features make it capable of taking on projects of any size.
La licence est valide pour un usage académique de recherche hors contrat.
Extrait de la licence :
LICENSEE agrees to include appropriate attribution if any results obtained from use of the PROGRAM are included in any publication.
Pour sélectionner la version voulue : utiliser les modules
gatk a été placé dans l'ensemble bio
Pour charger l'ensemble des logiciels de Bio, dans leurs versions par défaut :
module load bio
Pour charger seulement l'environnement de bedtools en version 3.2-2 :
module load bio/gatk/3.2-2
Gatk (ou Queue) est une librairie JAVA. Vous devez suivre la documentation de gatk pour apprendre à lancer les commandes. Sur CALI, les fichier JAR sont installés sous le dossier $GATK_HOME
, la commande java devient alors :
java -jar $GATK_HOME/GenomeAnalysisTK.jar -T CountReads -R exampleFASTA.fasta -I exampleBAM.bam
avec dans cet exemple :
-T CountReads
specifies which analysis tool we want to use-R exampleFASTA.fasta
specifies the reference sequence-I exampleBAM.bam
specifies the file of aligned reads we want to analyze.