GIGO y la importancia de los biocuradores en las bases de datos

bannerg11
databases_itemimagelargeDurante estos últimos años la biologia ha generado volumenes inmensos de información, tanto genética como de otra clases. La biologia computacional nace como consecuencia de esa acumulación de data, es imperativo para la biología moderna el analisis e interpretación de toda esa información. Respuestas fundamentales en la biologia han sido obtenidas de el analisis de volumenes de información acumulados por años.

La biología computacional es el uso de algoritmos y técnicas informáticas para abordar problemas de contextos biológicos que reunen volúmenes inmensos de información, el propósito de  esta disciplina es el entendimiento quizás no pleno pero si semiparcial de problemas biológicos. Siempre he notado y explicado a amigos y alumnos que pese a que la biologia computácional usa métodos numéricos no es una ciencia exacta, mas bien maneja unos criterios fundamentalmente empíricos. El más conocido de estos criterios, y que quizás constituya también la operación y algoritmo implementado  mas usado sobre la internet por bioinformáticos es el famoso BLAST. Esta es una operación , basada en un algoritmo de alineamiento de cadenas de caracteres, desde ese punto de vista pudiera parecer algo numérico, algoritmico, exacto, pero cuidado no lo es. La operación BLAST basicamente busca cadenas similares sea de ADN o proteinicas a la que uno posee y que ignoramos su actividad biológica contra  otras proteinas contenidas en una base de dato y que ya han sido caracterizadas en su actividad biológica, es importante notar que los resultados se obtienen de un modo eficiente. Una vez que se encuentran cadenas similares en una base de datos, asumimos que una cadena de caracteres , por ejemplo un gen , una pieza de ADN, codifica por una enzima similar a las ya  contenidas en la base de dato. Aun más se maneja el criterio que proteinas desconocidas en función biológicas pero similares en sequencia a otras cadenas proteicas conocidas anteriormente tienden a jugar roles biológicos idénticos o al menos muy cercanos. Este criterio de trabajo funciona en muchos casos, pero desgraciadamente no trabaja en otros casos de un modo tan simple y puede ser extremadamente confuso.Desgraciadamente eficiencia no es todo,generalmente eficiencia es el subproducto del sacrificio de otros parametros.  BLAST es un método heuristico, que sacrifica la busqueda de máxima exactitud en el alineamiento de cadenas a cambio de velocidad y menor consumo de recursos computacionales, es necesario entender que las bases de datos que contienen proteinas conocidas y caraterizadas estan en la internet y son accedidas por aplicaciones web, escenario que condiciona una politica de economia de recursos debido a un alto volumen de operaciones . La biología computacional abarca varios campos ya establecidos: química, bioquímica, matemáticas, programación, física, estadísticas. Es probablemente la más interdisciplinaria de las ciencias.

La información contenida en las bases de datos en Biología molecular se incrementa de manera casi exponencial,el control de estas base de dato involucran una colaboración cercana entre distintos centros de investigación en el mundo entero. Para mencionar una solamente se calcula que la información contenida en el GenBank se duplica cada año.El trabajo que se desarrolla  para mantener la calidad de la información de estas bases de datos es intensivo y requiere de profesionales dedicados y con una alta preparación profesional. Estos profesionales, guardianes de la calidad de la información contenidas en las bases de datos los llamamos curadores. Hace años atrás la palabra curador la relacionaba solo con museos. Los curadores en los museos son responsables por las colecciones y por las presentación de las exibiciones. Ahora tenemos esta nueva clase de curadores, tenemos los biocuradores que realizan su labor en las bases de datos de contexto biológico. Ellos son la última garantía de que la información contenida en la base de dato reune la mas minima calidad.

Originalmente las bases de datos se inplementaron  como simples repositorios de información con algunos mecanismos elementales de búsqueda, pero con el tiempo han evolucionado a sistemas altamente integrados y complejos  que permiten llevar a cabo operaciones e implementar algoritmos que nos reportan nuevas informaciones y relaciones anteriormente desconocidas. En este punto los biocuradores son nuestra última linea de defensa, en definitiva nuestros resultados bioinformáticos van a ser tan buenos como la información contenida o que se añade a la base de dato. Ellos son nuestros heroes anónimos. Aun recuerdo mi profesor Suchner en la asignatura de base de datos, su famoso GIGO slogan, Garbage in-Garbage out, es necesario aun en los escenarios mas elementales de uso de base de datos el control de la calidad de la data que se incorpora, porque lo que obtengamos después, sea el resultado de la operación mas elemental es directa consecuencia de la calidad de la información contenida en la base de dato. Desgraciadamente muy pocos conocen o reconocen el trabajo incansable y abnegado de estos curadores de biodata. Ellos son los enforzadores de los parametros de calidad y rigurosidad de la información que  es sometida y añadida diariamente a los repositorios biológicos. Gracias a ellos los resultados de nuestras operaciones con bases de datos biológicas  tienen un mayor grado de solidez y confiabilidad. Ellos trabajan desde la anonimidad, jugando un papel protagónico en la ciencia y carecen del glamour holliwodense de algunos académicos que solo hablan @&^&^*^&*   y obtienen jugosos grants y publicaciones .

Incluyo la publicaciones Biocurators: Contributors to the World of Science y The Biocurator: Connecting and Enhancing Scientific Data ambos artículos provenientes de los PLoS de Biología Computacional.

Citation: Bourne PE, McEntyre J (2006) Biocurators: Contributors to the World of Science. PLoS Comput Biol 2(10): e142. doi:10.1371/journal.pcbi.0020142 

pdfLea o descargue la publicación en formato PDF

Citation: Salimi N, Vita R (2006) The Biocurator: Connecting and Enhancing Scientific Data. PLoS Comput Biol 2(10): e125. doi:10.1371/journal.pcbi.0020125

pdf The Biocurator: Connecting and Enhancing Scientific Data

2 Responses to GIGO y la importancia de los biocuradores en las bases de datos

  1. Luis Israel Abreu says:

    Ruben,

    Exelente artículo. Es necesario que la gente conozca el trabajo anónimo relacionado con estos temas.

    • Ruben Fernández says:

      Siempre han existido heroes anónimos de la ciencia, estos hacen posible la ciencia moderna , merecen ser identificados y reconocidos, en esta época de acumulación exponencial de información estos especialistas juegan un papel vital y la biologia de los proximos años dependen en gran medida de ellos.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: