====== gatk ====== The Genome Analysis Toolkit or GATK is a software package developed at the [[https://www.broadinstitute.org/ | Broad Institute]] to analyze high-throughput sequencing data. The toolkit offers a wide variety of tools, with a primary focus on variant discovery and genotyping as well as strong emphasis on data quality assurance. Its robust architecture, powerful processing engine and high-performance computing features make it capable of taking on projects of any size. * Site web : https://www.broadinstitute.org/gatk/ * Versions installées : * 3.2-2 (GATK et Queue) * 3.7 (GATK et Queue) :!: nécessite en plus le chargement de [[../Java]] 1.8 ===== Conditions d'utilisation ===== La licence est valide pour un **usage académique de recherche hors contrat**. Extrait de la licence : LICENSEE agrees to include appropriate attribution if any results obtained from use of the PROGRAM are included in any publication. ===== Utilisation ===== ==== Sélection de la version ==== Pour sélectionner la version voulue : utiliser les [[:modules]] //gatk// a été placé dans l'ensemble ''bio'' Pour charger l'ensemble des logiciels de Bio, dans leurs versions par défaut : module load bio Pour charger seulement l'environnement de //bedtools// en version 3.2-2 : module load bio/gatk/3.2-2 ==== Lancer GATK ou QUEUE ==== Gatk (ou Queue) est une librairie JAVA. Vous devez suivre la documentation de gatk pour apprendre à lancer les commandes. Sur CALI, les fichier JAR sont installés sous le dossier ''$GATK_HOME'', la commande java devient alors : java -jar $GATK_HOME/GenomeAnalysisTK.jar -T CountReads -R exampleFASTA.fasta -I exampleBAM.bam avec dans cet exemple : * ''-T CountReads'' specifies which analysis tool we want to use * ''-R exampleFASTA.fasta'' specifies the reference sequence * ''-I exampleBAM.bam'' specifies the file of aligned reads we want to analyze. ==== Travailler avec slurm ==== /* Faut-il utiliser des fichiers de commandes spéciaux ? */ /* Exemples de batch spécifiques */