Es lo mismo la Biología Computacional y la Bioinformática?

April 5, 2010

Muchos me han preguntado a lo largo de estos últimos años si existe alguna diferencia fundamental entre la Biología Computacional y la Bioinformática. Son acaso dos nombres para definir una misma disciplina científica? En definitiva ambas disciplinas  usan términos como informática y computacional y de algún modo ambas palabras implican el uso de computadoras aplicadas a la Biología. Creo que es una pregunta válida y para nada trivial. Lo primero que  trato de explicar es que el término computacional no implica necesariamente el uso de computadoras, sino que mas bien computacional implica computo, calculaciones y el uso de técnicas numéricas en el área de la biología. La bioinformática es una disciplina mucho más supeditada a los biológos, de algún modo es menos interdisciplinaria, y si usan ampliamente y sostenidamente la tecnología informática aplicada a contextos biológicos. La Biología Computacional es mucho más interdisciplinaria, o sea posee un profundo conocimiento de matemática y estadistica, programación y aún de la problemática biológica.
La Biología Computacional y  la Bioinformática son básicamente áreas de estudio interdisciplinarias en sus naturalezas, y con una estrecha relación con la Biología, pero hasta haí llega toda similitud. El propósito de este posting es mostrar las diferencias en cuanto a propósito y método de ambas disciplinas, disciplinas que tan a menudo son asumidas como similares, aún por profesionales altamente calificados .  Es importante aclarar  que estas diferencias que voy a citar provienen de mi experiencia vital de estudio y trabajo. He encontrado Biólogos que consideran esencialmente que ambas disciplinas son la misma cosa con diferentes nombres. Supongo que sus experiencias profesionales le hayan hecho arrivar a semejante y errada conclusión. Un elemento que comparten ambas disciplinas científicas, es su papel no protagónico pese a jugar papeles fundamentales en cualquier investigación biológica, los Biólogos tienden a vernos y asumirnos como accesorios extremadamente útiles , profesionales que podemos resolver un amplio rango de problemas, pero no necesariamente en pleno entendimiento de la problemática biológica. Creo que es una apreciación lamentable y que muchos de nosotros hemos sufrido en carne propia. Podemos definir a dichas áreas como sigue:

La biología computacional consiste fundamentalmente en el desarrollo de algoritmos y modelos matemáticos para facilitar el entendimiento de problemas biológicos. La biología computacional es extremadamente multidisciplinaria,  abarca esencialmente fuertes conocimientos de: Matemática,  Química y Bioquímica, Biología Molecular, Programación, Física, Estadísticas entre otras áreas del conocimiento humano.

La Bioinformática es el uso y aplicación de la tecnología de la información y ciencias de la computación al campo de la Biología Molecular. Como dije anteriormente su formación es más estrecha, menos interdisciplinaria, su formación académica básicamente está formada por un fuerte componente de programación en diferentes lenguages, desarrollo y administración de Bases de Datos, conocimientos profundos de Sistemas Operativos como UNIX y Linux , Administración de redes y por supuesto un entendimiento de la problemática biológica. Originalmente la Bioinformática fué usada en la creación y mantenimiento de Bases de Datos para guardar de modo coherente la información biológica proveniente de la llamada Revolución Genómica que originó enormes volumenes de información biológica. Eventualmente su trabajo incorporaría el desarrollo de aplicaciones basadas en internet y el desarrollo de interfases para las databases, donde los biólogos pudieran  recuperar esta información de un modo simple con el uso de la Internet y tambié añadir nueva información .

La Biología Computacional es una disciplina más teórica y mucho más basada en el uso de Matemática y Estadisticas , y creo que entiende en grado mayor los escenarios y procesos biológicos. La Bioinformática es una disciplina mucho más práctica y su propósito es el desarrollo  de soluciones informáticas de diversas clases para biólogos. Ambas disciplinas son indispensables a este punto y hacen posible muchas cosas en la Biología moderna.


Biología molecular de la célula (entrevista a Bruce Alberts)

March 26, 2010

Los seres vivos son o bien complejos e intrincadamente coordinados agregados de células o bien, como era en un principio, células individuales. Cada célula es una sociedad en miniatura. En ella los individuos son moléculas e interaccionan de acuerdo con las leyes de la física y la química, intercambiando ATP, divisa de la energía biológica. Existe una clara división del trabajo y, pese a existir en las más grandes y complicadas de ellas un núcleo –las células eucariotas- no existe tal cosa como un centro o un director. El ADN contiene las instrucciones que guían la actividad celular, pero esta larga cadena de nucleótidos es una molécula inerte. Necesita el desgarrón químico delas proteínas y ARNs que realizan la transcripción y la traducción de su mensaje para fabricar, en los ribosomas, más proteínas.
Desde que en 1953 James Watson y Francis Crick revelaran la estructura del ADN se ha producido lo que podría calificarse como una auténtica revolución científica, que ha permitido comprender mejor –y seguir profundizando en la comprensión de- cómo funcionan los organismos, si, pero también nos enseña lo fundamental sobre cómo pudieron y cómo no pudieron evolucionar…su historia. El análisis de la biología a nivel molecular y celular es imprescindible para ver lo que toda vida tiene en común, así como lo que diferencia –más allá de las apariencias- a unos organismos de otros. Permite, por tanto, establecer de manera fiable las relaciones de parentesco entre todos y cada uno de los seres vivos, a través de sus proteínas y sus ácidos nucleicos.Bruce Alberts es un bioquímico americano que, para cualquiera que haya cursado biología molecular o se haya interesado en profundidad por ella, no necesita presentación. Su libro Biología Molecular de la Célula, escrito en colaboración con otros notables científicos, entre ellos el mismo James Watson, es el libro de referencia en lo que se refiere al estudio de la célula viva.Su trabajo de investigación ha estado centrado fundamentalmente en la replicación del ADN y las proteínas asociadas. Sin embargo su interés por la educación ha ido mucho más allá de su disciplina. Desde la Presidencia del Consejo del SERP institute intenta promover mejoras en la educación científica en particular y en la educación en general que permitan que las futuras generaciones de profesionales y, en fin, de personas, sean más competentes, creativas, tolerantes y juiciosas.

Lea la entrevista completa en castellano y en formato PDF desde mi blog

En una nota personal, en mis años de Graduate School el libro Biología molecular de la célula, era el libro que se usaba en los 2 cursos de Biología Molecular para el  programa de Biología Computacional, no como texto primario pero si como libro de referencia. Excelente texto, por cierto viene con algunos problemas muy dificiles y complejos, pero repito excelente libro de texto. El libro costaba para la época como $ 100 o más y no teniamos otra opción que comprarlo.

Fuente: Desdeelexilio / Biología molecular de la célula (entrevista a Bruce Alberts)


PERL en Bioinformática

December 8, 2009

Un amigo me ha preguntado la razón del uso predominante del lenguaje de programación PERL en el área de la bioinformática. El es fundamentalmente un biólogo dedicado a la preservación de la biodiversidad, pero está familiarizado a este punto con los bioinformáticos y el uso de sus herramientas. En definitiva hay tantos lenguages de programación poderosos y versátiles que él conoce de referencia, el hecho de que PERL es tan especial para la bioinformática, es básicamente su pregunta. Bueno, PERL es tan popular con los bioinformáticos porque es magnífico a la hora de resolver tareas bioinformáticas. Ya sé que esa es la respuesta mas trivial que se puede ofrecer por excelencia a esta pregunta, pero esto no será lo último que hablemos de PERL en este posting. Una de las cosas que hace PERL tan popular para abordar tareas biológicas está precisamente en su origen ecléctico , este lenguage proviene del lenguage de programación C y del Shell de Unix, este origen va a proveer justo la flexiblidad y las herramientas de programación necesarias para resolver problemas de contexto biológico. PERL es básicamente un lenguaje de programación tipo “scripting” que toma elementos de UNIX tales como sed, grep, awk, shell scripting y la dinámica y enfoque del lenguage de programación C. Por muchos años PERL nada tuvo que ver con biología, este lenguaje fué usado fundamentalmente por Administradores de Sistemas Unix para resolver tareas administrativas y posteriormente fue usado para crear CGI “scripts” en aplicaciones web. Solo mucho después PERL se convertiría en la mejor herramienta de programación que la Bioinformática podría contar en su arsenal. Que hace que sea PERL tan especial para la biología computacional? Podría citar algunas razones que hace PERL un magnifico lenguaje de programación. Entre ellas, PERL es portable, al ser un “script”, este “script” va a correr en cualquier plataforma sin cambio o con pequeños cambios. PERL es también flexible, o sea que hay diferentes modos de lograr un mismo propósito y eso ayuda a cualquier programador independientemente de su experiencia. Como lenguaje de programación PERL es relativamente fácil de aprender y eso es algo a apreciar por cualquiera. No creo que ninguna de las razones citadas anteriormente explican el uso predominante de PERL en al ambito biológico, hay solo una particularidad de PERL que solo explica su éxito y uso extendido en la bioinformática.  Esta particularidad es que Perl es un lenguaje orientado y diseñado a la manipulación y presentación de cadenas de caracteres, esta manipulación es simplificada por el importante número de operadores a disposición del usuario que básicamente provienen del Shell de UNIX. El ADN, ARN y demás moléculas biológicas también pueden ser reducidas a cadenas de caracteres en sus componentes fundamentales, caracteres comos A, C, G, T, U que equivalen a elementos constitutivos y  distintivos tales como bases nitrogenadas. Estas secuencias de caracteres que caracterizan a las moléculas les proporcionan su identidad y unicidad. Estamos en presencia de una combinación perfecta, un lenguaje de programación insuperable en la manipulación y presentación de cadenas de caracteres y un paradigma biológico molecular que puede ser reducido también en ultima instancia a simples cadenas de caracteres. Esta es la razón por la cual PERL predomina en el campo de la bioinformática.

Por ejemplo, este simple “script” , convierte una secuencia de ADN contenido en un archivo de entrada a una secuencia de ARN. Es evidente lo simple de este programa para abordar esta tarea relativamente trivial.

# Este script convierte la secuencia de ADN  a secuencia de ARN 

# Mientras ejecuta este script el pregunta por el nombre del archivo de la secuencia de ADN. Si el archivo de  la secuencia no esta disponible en el mismo directorio del script, entre el nombre del archivo conjuntamente con el path: /home/user/sequence/dnafile.txt

print “\n\n\t\#################### DNA 2 RNA #################### \n\n”;
print “Este script convierte tu secuencia de ADN en una secuencia de ARN\n\n”;
print “Entre el nombre del archivo de la secuencia de ADN:= “;
$dnafilename = <STDIN>;
chomp $dnafilename;
unless ( open(DNAFILE, $dnafilename) ) {
    print “No puede abrir archivo \”$dnafilename\”\n\n”;
    goto h;
}
@DNA = <DNAFILE>;
close DNAFILE;
$DNA = join( ”, @DNA);
print “La secuencia original de ADN :=\n\n”;
$DNA =~ s/\s//g;
print “$DNA\n\n”;
$RNA = $DNA;
$RNA =~ s/T/U/g;
$RNA =~ s/t/u/g;
print “Convertiendo de ADN a ARN :=\n\n”;
print “$RNA\n”;
<STDIN>;


Avida y la evolución biológica

May 28, 2009

bannerg11

 
clusterCuando pretendemos estudiar la evolución biológica nos enfrentamos a un obstaculo desalentador, la evolución es extremadamente lenta y por ende es imposible reproducirla en nuestros laboratorios en nuestras cortas vidas. Como estudiar un fenómeno que ha ocurrido en el marco de eras geológicas en nuestros limitados periodos de vida. Por decadas hemos realizados experimentos con organismos de corto periodo de  vida y alto nivel reproductivo , o sea hemos estudiados organismos que proveen cientos de generaciones en un corto periodo de tiempo. También hemos trabajado con microorganismos como bacterias que se reproducen a una velocidad altisima pero estos experimentos toman también tiempo, son complejos en su implementación , en particular la data que buscamos es tremendamente dificultosa de obtener y además es dificil de hacer un buen trabajo estadístico en el ambiente bacterial. Las respuestas que hemos obtenidos en esos estudios son basicamente asociados a la microevolución , pero nada significativo hemos podido obtener en torno al sensitivo tema de la macroevolución. Tal parecería que la evolución quedaria para siempre recluida a las area de la obervación y discusiones teóricas.  La repuesta a estas limitaciones para hacer experimentos en torno a la evolución biológica están en el uso de la simulación digital y en el desarrollo de algoritmos que simulen el proceso evolutivo y su implementación efectiva como softwares. Dado lo complejo del proceso de evolución biológica, el inmenso número de variables envuelto en el proceso, nuestra ignorancia parcial de la interacción de esas variables unas con otras, y otros factores vitales en la evolución que solo conocemos parcialmente su accionar me temo que la obtención de un modelo y algoritmo que reproduzca fielmente a la evolución es imposible por ahora. Pero si creo que en la medida que ganemos entendimiento de este proceso evolutivo, y el software sea enriquecido y corregido en algún error, nuestra simulaciones y algoritmos podrán mejorar  y rendir mejores resultados y predicciones.
El software Avida es una plataforma virtual y de modelación de la evolución biológica. Está basado en el analisis de la autoreplicación de organismos digitales o sea de programas de computación. Este software fue inspirado por el juego digital Tierra. El programa Tierra simula un sistema evolucionario al introducir programas de computadoras que compiten por los recursos de la computadora como ciclos del microprocesador , espacio en el cache, y espacio en memoria. El software Avida establece que cada organismo digital “vive” en su propia región de memoria RAM y es ejecutado por su propio procesador virtual como un proceso independiente. Esencialmente cada organismo digital es independiente uno de otro porque ninguno de estas entidades digitales puede acceder a la memoria de la otra (no para leer  ni para escribir) y solo puede ejecutar codigo que esté definido para su propio espacio de memoria. La diferencias fundamentales entre Avida y Tierra son que en el software Tierra los organismos digitales comparten y compiten por el solo microprocesador de la computadora, aun mas diferente es que los CPUs virtuales de diferentes organismos digitales corren a diferentes velocidades, o sea que diferentes organismos ejecutan diferentes números de instrucciones en el mismo perido de tiempo. La velocidad a la cual corre cada organismo digital en su propio CPU virtual está determinada por una jerarquia de tareas, que les confiere prioridades. En el software Avida los organismos digitales compiten por recursos de la computadora de un modo independiente uno de otro, algo que replica y simula de un modo mas realista y efectivo la evolución biológica. Hay algo que debemos tener presente,  que tanto el ADN como un programa de computación pueden ser reducidos a grupos de instrucciones encaminados a cumplir propositos. El ADN instruye a la celula como producir proteinas y un programa instruye al CPU como procesar información. Estos organismos digitales se hacen replicas de si mismos  a un elevado ritmo  y sufren cambios aleatorios en sus intrucciones similares a las mutaciones en el ADN de especies biológicas. El programa matiene records de todas las generaciones , las variedades de mutantes  y sus proporciones numéricas desde el comienzo de la simulación.

En el verano de 1993, Charles Ofria y C. Titus Brown se unieron a Adami para desarrollar una nueva plataforma que simule la evolución biológica, el resultado seria Avida. Esta plataforma fue diseñada para tener una configuración detallada y versatil junto a una elevada capacidad para registrar todas las variables contempladas en una población de organismos digital. Como expuse anteriormente en el software Tierra los organismos digitales eran ejecutados sequencialmente, el nuevo sistema Avida adoptó un enfoque paralelo donde los organismo digitales competian por  recursos computacionales independiente unos de los otros , algo mucho mas cercano a la dinámica de la evolución. Los estudios realizados hasta ahora han probado ser inconclusivos , parciales pero espero que en la medida que el software sea mejorado, por lo menos seamos capaces de ganar un entendimiento de como una poblacion que crece a la par de su diversidad reacciona frente a presiones selectivas. Por ahora es un buen comienzo, en lo que nos tomamos los proximos siglos en identificar y entender todas las variables, factores, constrains y dinámicas que conforman a la evolución biológica.

web20MSU Digital Evolution Laboratory (Devolab)

Avida no es una simulación de la evolución, es una instancia de esta. Todas las partes esenciales de los proceso Darwinianos estan presente. Estos organismos digitales se replican, mutan, compiten entre ellos por recursos computacionales. El proceso de selección natural está ocurriendo en este contexto. Si esa es la definición central de vida, entonces estos organismos cuentan como ella.  

Robert Pennock

Citation: O’Neill B (2003) Digital Evolution. PLoS Biol 1(1): e18. doi:10.1371/journal.pbio.0000018

 Published: October 13, 2003

Copyright: © 2003 Public Library of Science. This is an open-access article distributed under the terms of the Public Library of Science Open-Access License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Bill 0’Neill is a freelance journalist from London, United Kingdom. E-mail: billoneill@cix.co.uk.

pdfLea o descargue la publicación en formato PDF


GIGO y la importancia de los biocuradores en las bases de datos

May 14, 2009

bannerg11
databases_itemimagelargeDurante estos últimos años la biologia ha generado volumenes inmensos de información, tanto genética como de otra clases. La biologia computacional nace como consecuencia de esa acumulación de data, es imperativo para la biología moderna el analisis e interpretación de toda esa información. Respuestas fundamentales en la biologia han sido obtenidas de el analisis de volumenes de información acumulados por años.

La biología computacional es el uso de algoritmos y técnicas informáticas para abordar problemas de contextos biológicos que reunen volúmenes inmensos de información, el propósito de  esta disciplina es el entendimiento quizás no pleno pero si semiparcial de problemas biológicos. Siempre he notado y explicado a amigos y alumnos que pese a que la biologia computácional usa métodos numéricos no es una ciencia exacta, mas bien maneja unos criterios fundamentalmente empíricos. El más conocido de estos criterios, y que quizás constituya también la operación y algoritmo implementado  mas usado sobre la internet por bioinformáticos es el famoso BLAST. Esta es una operación , basada en un algoritmo de alineamiento de cadenas de caracteres, desde ese punto de vista pudiera parecer algo numérico, algoritmico, exacto, pero cuidado no lo es. La operación BLAST basicamente busca cadenas similares sea de ADN o proteinicas a la que uno posee y que ignoramos su actividad biológica contra  otras proteinas contenidas en una base de dato y que ya han sido caracterizadas en su actividad biológica, es importante notar que los resultados se obtienen de un modo eficiente. Una vez que se encuentran cadenas similares en una base de datos, asumimos que una cadena de caracteres , por ejemplo un gen , una pieza de ADN, codifica por una enzima similar a las ya  contenidas en la base de dato. Aun más se maneja el criterio que proteinas desconocidas en función biológicas pero similares en sequencia a otras cadenas proteicas conocidas anteriormente tienden a jugar roles biológicos idénticos o al menos muy cercanos. Este criterio de trabajo funciona en muchos casos, pero desgraciadamente no trabaja en otros casos de un modo tan simple y puede ser extremadamente confuso.Desgraciadamente eficiencia no es todo,generalmente eficiencia es el subproducto del sacrificio de otros parametros.  BLAST es un método heuristico, que sacrifica la busqueda de máxima exactitud en el alineamiento de cadenas a cambio de velocidad y menor consumo de recursos computacionales, es necesario entender que las bases de datos que contienen proteinas conocidas y caraterizadas estan en la internet y son accedidas por aplicaciones web, escenario que condiciona una politica de economia de recursos debido a un alto volumen de operaciones . La biología computacional abarca varios campos ya establecidos: química, bioquímica, matemáticas, programación, física, estadísticas. Es probablemente la más interdisciplinaria de las ciencias.

La información contenida en las bases de datos en Biología molecular se incrementa de manera casi exponencial,el control de estas base de dato involucran una colaboración cercana entre distintos centros de investigación en el mundo entero. Para mencionar una solamente se calcula que la información contenida en el GenBank se duplica cada año.El trabajo que se desarrolla  para mantener la calidad de la información de estas bases de datos es intensivo y requiere de profesionales dedicados y con una alta preparación profesional. Estos profesionales, guardianes de la calidad de la información contenidas en las bases de datos los llamamos curadores. Hace años atrás la palabra curador la relacionaba solo con museos. Los curadores en los museos son responsables por las colecciones y por las presentación de las exibiciones. Ahora tenemos esta nueva clase de curadores, tenemos los biocuradores que realizan su labor en las bases de datos de contexto biológico. Ellos son la última garantía de que la información contenida en la base de dato reune la mas minima calidad.

Originalmente las bases de datos se inplementaron  como simples repositorios de información con algunos mecanismos elementales de búsqueda, pero con el tiempo han evolucionado a sistemas altamente integrados y complejos  que permiten llevar a cabo operaciones e implementar algoritmos que nos reportan nuevas informaciones y relaciones anteriormente desconocidas. En este punto los biocuradores son nuestra última linea de defensa, en definitiva nuestros resultados bioinformáticos van a ser tan buenos como la información contenida o que se añade a la base de dato. Ellos son nuestros heroes anónimos. Aun recuerdo mi profesor Suchner en la asignatura de base de datos, su famoso GIGO slogan, Garbage in-Garbage out, es necesario aun en los escenarios mas elementales de uso de base de datos el control de la calidad de la data que se incorpora, porque lo que obtengamos después, sea el resultado de la operación mas elemental es directa consecuencia de la calidad de la información contenida en la base de dato. Desgraciadamente muy pocos conocen o reconocen el trabajo incansable y abnegado de estos curadores de biodata. Ellos son los enforzadores de los parametros de calidad y rigurosidad de la información que  es sometida y añadida diariamente a los repositorios biológicos. Gracias a ellos los resultados de nuestras operaciones con bases de datos biológicas  tienen un mayor grado de solidez y confiabilidad. Ellos trabajan desde la anonimidad, jugando un papel protagónico en la ciencia y carecen del glamour holliwodense de algunos académicos que solo hablan @&^&^*^&*   y obtienen jugosos grants y publicaciones .

Incluyo la publicaciones Biocurators: Contributors to the World of Science y The Biocurator: Connecting and Enhancing Scientific Data ambos artículos provenientes de los PLoS de Biología Computacional.

Citation: Bourne PE, McEntyre J (2006) Biocurators: Contributors to the World of Science. PLoS Comput Biol 2(10): e142. doi:10.1371/journal.pcbi.0020142 

pdfLea o descargue la publicación en formato PDF

Citation: Salimi N, Vita R (2006) The Biocurator: Connecting and Enhancing Scientific Data. PLoS Comput Biol 2(10): e125. doi:10.1371/journal.pcbi.0020125

pdf The Biocurator: Connecting and Enhancing Scientific Data


Algoritmo FASTA

April 24, 2009

bannerg14

fasta

El algoritmo FASTA es un método heurístico para comparación de cadenas. Fue desarrollado por Lipman y Pearson en 1985 y luego mejorado en 1988. FASTA compara una cadena de consulta con una cadena de un solo texto. Cuando buscamos en una base de datos entera coincidencias para una consulta dada, comparamos la consulta usando el algoritmo FASTA para cada cadena en la base de datos. Este algoritmo usa cuatro etapas para calcular tres puntajes que caracterizan la similitud de las secuencias. El siguiente es un resumen de estas cuatro etapas:

Etapa 1
Identificar regiones compartidas por las secuencias con la densidad más alta de identidades (ktup=1) o pares de identidades.

pdf201

Descargue el documento completo en formato PDF


Extensiones bioinformáticas para Mozilla Firefox

April 14, 2009

bannerg92

Cuando se trabaja en bioinformática, algunas herramientas web son indispensables. Lo bueno es que hay muchísimas y lo malo es que cada una tiene su propia utilidad y ninguna se puede descartar. Por ello contar con acceso fácil a todas resulta cada vez más necesario. Existen dos herramientas muy potentes que se pueden agregar como extensiones de Mozilla Firefox: Biofox y Biobar.

Biofox (desarrollada por Saleem Mohammed en la Universidad de Nebraska-Lincoln):
Conviene descargar directamente la extensión (esto descarga la última versión). Solo hay que entrar en el siguiente link (siempre desde Firefox) y hacer clic en download:
https://addons.mozilla.org/en-US/firefox/addon/300
Una vez descargada e instalada bioFOX (y reiniciado el navegador), nos encontramos con que el autor ha optado por implementarla como un panel lateral, con lo que la forma de invocarla es yendo al menú Ver->Barra lateral, y activándola. Dado que hay servicios bioinformáticos que devuelven los resultados en forma de un correo electrónico, lo primero que hay que hacer es poner una dirección de correo electrónico en las opciones de configuración de la extensión (menú Options->Preferences) del panel.
Por Walter Elías

Para leer el artículo descargue el documento completo en formato PDF