Pfam

Pfam es una base de datos de bioinformática para familias de proteínas que clasifican varias propiedades de dominios de proteínas en función de sus alineamientos de secuencia múltiple  (en) . Creado en 1997 por los bioinformáticos Erik Sonnhammer del Karolinska Institute en Estocolmo , Sean Eddy de la Washington University en Saint-Louis ( Missouri ) y Richard Durbin del Sanger Center en Cambridge , proporciona información sobre arquitectura en particular. Dominios de proteínas, su distribución entre especies vivas, enlaces a otras bases de datos y estructuras proteicas conocidas de estas familias.

La clasificación de dominios de proteínas de Pfam cubre casi el 80% de las proteínas enumeradas en UniProt . Se construye identificando secuencias recurrentes en el uso de algoritmos de aprendizaje automático para el reconocimiento de patrones utilizando un modelo de Markov oculto .

Esta base de datos tiene dos secciones, denominadas Pfam A y Pfam B.

La sección A se anota manualmente en línea y se contabilizan, al 11 de junio de 2020 (versión 33.1), 18,259 familias. Desde la última versión, se han creado 355 familias nuevas y se han eliminado 25. Cada familia comprent datos de la alineación de secuencia y el modelo de Markov oculto, que puede usarse para identificar nuevas alineaciones de secuencia usando el módulo HMMER  (en) .

Hasta la versión 28.0, la sección B complementaba la anterior con una gran cantidad de familias de proteínas más pequeñas y menos documentadas. Fue generado automáticamente por un algoritmo llamado ADDA, para el algoritmo de descomposición automática de dominios . Permitió cubrir tantos dominios proteicos como fuera posible, a costa, sin embargo, de una calidad inferior a Pfam A. Su última actualización se remonta a 2015.

Notas y referencias

  1. (en) Robert D. Finn, John Tate, Jaina Mistry, Penny C. Coggill Stephen John Sammut, Hans-Rudolf Hotz Goran Ceric Kristoffer Forslund, Sean R. Eddy, Erik LL Sonnhammer y Alex Bateman , La base de datos de familias de proteínas de Pfam  ” , Investigación de ácidos nucleicos , vol.  36, Enero de 2008, D281-D288 ( PMID  18039703 , PMCID  2238907 , DOI  10.1093 / nar / gkm960 , leer en línea )
  2. (en) Alex Bateman Lachlan Corner, Richard Durbin, Robert D. Finn, Volker Hollich Sam Griffiths-Jones, Ajay Khanna, Mhairi Marshall, Simon Moxon, Erik LL Sonnhammer, David J. Studholme, Corin Yeats y Sean R. Eddy , La base de datos de familias de proteínas Pfam  " , Nucleic Acids Research , vol.  32, enero de 2004, D138-D141 ( PMID  14681378 , PMCID  308855 , DOI  10.1093 / nar / gkh121 , leer en línea )
  3. (en) Robert D. Finn, Jaina Mistry, Benjamin Schuster Böckler Sam Griffiths-Jones, Volker Hollich Timo Lassmann Simon Moxon, Mhairi Marshall, Ajay Khanna, Richard Durbin, Sean R. Eddy, Erik y Alex LL Sonnhammer Bateman , Pfam : clanes, herramientas y servicios web  " , Nucleic Acids Research , vol.  43, enero de 2006, D247-D251 ( PMID  16381856 , PMCID  1347511 , DOI  10.1093 / nar / gkj149 , leer en línea )
  4. (en) Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund Goran Ceric Jody Clements, Andreas Heger, Liisa Holm, Erik LL Sonnhammer Sean R Eddy, Alex Bateman y Robert D. Finn , La base de datos de familias de proteínas Pfam  " , Nucleic Acids Research , vol.  40, n o  D1, enero 2012, D290-D301 ( PMID  22127870 , PMCID  3245129 , DOI  10.1093 / nar / gkr1065 , leer en línea )
  5. (en) R. Durbin, S. Eddy, A. Krogh y G. Mitchison, Análisis de secuencia biológica , Cambridge University Press, 1998( ISBN  0-521-62041-4 )
  6. (en) Jaina y Alex, Pfam 33.1 est disponible  " en Xfam Blog , 11 de junio de 2020(consultado el 19 de octubre de 2020 ) .

Apéndices