Es lo mismo la Biología Computacional y la Bioinformática?

April 5, 2010

Muchos me han preguntado a lo largo de estos últimos años si existe alguna diferencia fundamental entre la Biología Computacional y la Bioinformática. Son acaso dos nombres para definir una misma disciplina científica? En definitiva ambas disciplinas  usan términos como informática y computacional y de algún modo ambas palabras implican el uso de computadoras aplicadas a la Biología. Creo que es una pregunta válida y para nada trivial. Lo primero que  trato de explicar es que el término computacional no implica necesariamente el uso de computadoras, sino que mas bien computacional implica computo, calculaciones y el uso de técnicas numéricas en el área de la biología. La bioinformática es una disciplina mucho más supeditada a los biológos, de algún modo es menos interdisciplinaria, y si usan ampliamente y sostenidamente la tecnología informática aplicada a contextos biológicos. La Biología Computacional es mucho más interdisciplinaria, o sea posee un profundo conocimiento de matemática y estadistica, programación y aún de la problemática biológica.
La Biología Computacional y  la Bioinformática son básicamente áreas de estudio interdisciplinarias en sus naturalezas, y con una estrecha relación con la Biología, pero hasta haí llega toda similitud. El propósito de este posting es mostrar las diferencias en cuanto a propósito y método de ambas disciplinas, disciplinas que tan a menudo son asumidas como similares, aún por profesionales altamente calificados .  Es importante aclarar  que estas diferencias que voy a citar provienen de mi experiencia vital de estudio y trabajo. He encontrado Biólogos que consideran esencialmente que ambas disciplinas son la misma cosa con diferentes nombres. Supongo que sus experiencias profesionales le hayan hecho arrivar a semejante y errada conclusión. Un elemento que comparten ambas disciplinas científicas, es su papel no protagónico pese a jugar papeles fundamentales en cualquier investigación biológica, los Biólogos tienden a vernos y asumirnos como accesorios extremadamente útiles , profesionales que podemos resolver un amplio rango de problemas, pero no necesariamente en pleno entendimiento de la problemática biológica. Creo que es una apreciación lamentable y que muchos de nosotros hemos sufrido en carne propia. Podemos definir a dichas áreas como sigue:

La biología computacional consiste fundamentalmente en el desarrollo de algoritmos y modelos matemáticos para facilitar el entendimiento de problemas biológicos. La biología computacional es extremadamente multidisciplinaria,  abarca esencialmente fuertes conocimientos de: Matemática,  Química y Bioquímica, Biología Molecular, Programación, Física, Estadísticas entre otras áreas del conocimiento humano.

La Bioinformática es el uso y aplicación de la tecnología de la información y ciencias de la computación al campo de la Biología Molecular. Como dije anteriormente su formación es más estrecha, menos interdisciplinaria, su formación académica básicamente está formada por un fuerte componente de programación en diferentes lenguages, desarrollo y administración de Bases de Datos, conocimientos profundos de Sistemas Operativos como UNIX y Linux , Administración de redes y por supuesto un entendimiento de la problemática biológica. Originalmente la Bioinformática fué usada en la creación y mantenimiento de Bases de Datos para guardar de modo coherente la información biológica proveniente de la llamada Revolución Genómica que originó enormes volumenes de información biológica. Eventualmente su trabajo incorporaría el desarrollo de aplicaciones basadas en internet y el desarrollo de interfases para las databases, donde los biólogos pudieran  recuperar esta información de un modo simple con el uso de la Internet y tambié añadir nueva información .

La Biología Computacional es una disciplina más teórica y mucho más basada en el uso de Matemática y Estadisticas , y creo que entiende en grado mayor los escenarios y procesos biológicos. La Bioinformática es una disciplina mucho más práctica y su propósito es el desarrollo  de soluciones informáticas de diversas clases para biólogos. Ambas disciplinas son indispensables a este punto y hacen posible muchas cosas en la Biología moderna.

Advertisements

GIGO y la importancia de los biocuradores en las bases de datos

May 14, 2009

bannerg11
databases_itemimagelargeDurante estos últimos años la biologia ha generado volumenes inmensos de información, tanto genética como de otra clases. La biologia computacional nace como consecuencia de esa acumulación de data, es imperativo para la biología moderna el analisis e interpretación de toda esa información. Respuestas fundamentales en la biologia han sido obtenidas de el analisis de volumenes de información acumulados por años.

La biología computacional es el uso de algoritmos y técnicas informáticas para abordar problemas de contextos biológicos que reunen volúmenes inmensos de información, el propósito de  esta disciplina es el entendimiento quizás no pleno pero si semiparcial de problemas biológicos. Siempre he notado y explicado a amigos y alumnos que pese a que la biologia computácional usa métodos numéricos no es una ciencia exacta, mas bien maneja unos criterios fundamentalmente empíricos. El más conocido de estos criterios, y que quizás constituya también la operación y algoritmo implementado  mas usado sobre la internet por bioinformáticos es el famoso BLAST. Esta es una operación , basada en un algoritmo de alineamiento de cadenas de caracteres, desde ese punto de vista pudiera parecer algo numérico, algoritmico, exacto, pero cuidado no lo es. La operación BLAST basicamente busca cadenas similares sea de ADN o proteinicas a la que uno posee y que ignoramos su actividad biológica contra  otras proteinas contenidas en una base de dato y que ya han sido caracterizadas en su actividad biológica, es importante notar que los resultados se obtienen de un modo eficiente. Una vez que se encuentran cadenas similares en una base de datos, asumimos que una cadena de caracteres , por ejemplo un gen , una pieza de ADN, codifica por una enzima similar a las ya  contenidas en la base de dato. Aun más se maneja el criterio que proteinas desconocidas en función biológicas pero similares en sequencia a otras cadenas proteicas conocidas anteriormente tienden a jugar roles biológicos idénticos o al menos muy cercanos. Este criterio de trabajo funciona en muchos casos, pero desgraciadamente no trabaja en otros casos de un modo tan simple y puede ser extremadamente confuso.Desgraciadamente eficiencia no es todo,generalmente eficiencia es el subproducto del sacrificio de otros parametros.  BLAST es un método heuristico, que sacrifica la busqueda de máxima exactitud en el alineamiento de cadenas a cambio de velocidad y menor consumo de recursos computacionales, es necesario entender que las bases de datos que contienen proteinas conocidas y caraterizadas estan en la internet y son accedidas por aplicaciones web, escenario que condiciona una politica de economia de recursos debido a un alto volumen de operaciones . La biología computacional abarca varios campos ya establecidos: química, bioquímica, matemáticas, programación, física, estadísticas. Es probablemente la más interdisciplinaria de las ciencias.

La información contenida en las bases de datos en Biología molecular se incrementa de manera casi exponencial,el control de estas base de dato involucran una colaboración cercana entre distintos centros de investigación en el mundo entero. Para mencionar una solamente se calcula que la información contenida en el GenBank se duplica cada año.El trabajo que se desarrolla  para mantener la calidad de la información de estas bases de datos es intensivo y requiere de profesionales dedicados y con una alta preparación profesional. Estos profesionales, guardianes de la calidad de la información contenidas en las bases de datos los llamamos curadores. Hace años atrás la palabra curador la relacionaba solo con museos. Los curadores en los museos son responsables por las colecciones y por las presentación de las exibiciones. Ahora tenemos esta nueva clase de curadores, tenemos los biocuradores que realizan su labor en las bases de datos de contexto biológico. Ellos son la última garantía de que la información contenida en la base de dato reune la mas minima calidad.

Originalmente las bases de datos se inplementaron  como simples repositorios de información con algunos mecanismos elementales de búsqueda, pero con el tiempo han evolucionado a sistemas altamente integrados y complejos  que permiten llevar a cabo operaciones e implementar algoritmos que nos reportan nuevas informaciones y relaciones anteriormente desconocidas. En este punto los biocuradores son nuestra última linea de defensa, en definitiva nuestros resultados bioinformáticos van a ser tan buenos como la información contenida o que se añade a la base de dato. Ellos son nuestros heroes anónimos. Aun recuerdo mi profesor Suchner en la asignatura de base de datos, su famoso GIGO slogan, Garbage in-Garbage out, es necesario aun en los escenarios mas elementales de uso de base de datos el control de la calidad de la data que se incorpora, porque lo que obtengamos después, sea el resultado de la operación mas elemental es directa consecuencia de la calidad de la información contenida en la base de dato. Desgraciadamente muy pocos conocen o reconocen el trabajo incansable y abnegado de estos curadores de biodata. Ellos son los enforzadores de los parametros de calidad y rigurosidad de la información que  es sometida y añadida diariamente a los repositorios biológicos. Gracias a ellos los resultados de nuestras operaciones con bases de datos biológicas  tienen un mayor grado de solidez y confiabilidad. Ellos trabajan desde la anonimidad, jugando un papel protagónico en la ciencia y carecen del glamour holliwodense de algunos académicos que solo hablan @&^&^*^&*   y obtienen jugosos grants y publicaciones .

Incluyo la publicaciones Biocurators: Contributors to the World of Science y The Biocurator: Connecting and Enhancing Scientific Data ambos artículos provenientes de los PLoS de Biología Computacional.

Citation: Bourne PE, McEntyre J (2006) Biocurators: Contributors to the World of Science. PLoS Comput Biol 2(10): e142. doi:10.1371/journal.pcbi.0020142 

pdfLea o descargue la publicación en formato PDF

Citation: Salimi N, Vita R (2006) The Biocurator: Connecting and Enhancing Scientific Data. PLoS Comput Biol 2(10): e125. doi:10.1371/journal.pcbi.0020125

pdf The Biocurator: Connecting and Enhancing Scientific Data


El virus SIV y el tiempo que ha permanecido activo en las poblaciones de primates antes de su trasmisión a humanos.

May 13, 2009

bannerg10

  AIDS_virus_sized

El virus llamado SIV,  siglas que provienen de su nombre en inglés Simian immunodeficiency virus es un retrovirus  que es encontrado, en varias formas en primates, las cepas específicas que afectan a los humanos son HIV-1 y HIV-2, los virus que conocemos causan el AIDS en el hombre. Existe un concenso en la comunidad científica que el origen del HIV es sin duda relacionado al SIV existente en los primates Africanos.Es una posibilidad que el virus SIV infectó al primer ser humano via relaciones sexuales pero los científicos creen que es más probable que la trasmisión haya ocurrido por vias de contactos entre laceraciones y heridas entre las dos especies. En realidad ha quedado bien establecido que la via mas probable de transmisión del HIV-1 a los humanos está relacionáda a contactos con sangre de chimpacé que son cazados en Africa. Existe un buen entendimiento de la historia evolucionaria del virus SIV y del proceso que dió origen al HIV-1 Y HIV-2. Lo que permanece de algun modo elusivo es por cuanto tiempo el virus SIV ha estado circulando en primates antes de su transmisión a la población humana. En este estudio se ha usado técnicas de relog molecular para estimar el tiempo en que surgieron las variedades de SIV que dieron origen al HIV-1 y HIV-2.

Esta investigación fué financiada por el Departamento de ecología y biología evolucionaría de la Universidad de Arizona y la Fundación Lucile Packard.

 Citation: Wertheim JO, Worobey M (2009) Dating the Age of the SIV Lineages That Gave Rise to HIV-1 and HIV-2. PLoS Comput Biol 5(5): e1000377. doi:10.1371/journal.pcbi.1000377

 Contacte al investigador: wertheim@email.arizona.edu si es necesario, traten de usar su inglés.

pdfLea o descargue la publicación en formato PDF


La dinastía de los reyes Hasburgos en España

May 12, 2009

bannerg7
carlos2

La dinastía de los reyes Hasburgos en España mantuvieron un patrón de matrimonio entre familiares que incluyó matrimonios entre primos primeros, tios y sobrinas y demás tipos de uniones entre familiares muy cercanos genéticamente. En la historia siempre se ha especulado si este patrón de conducta no fué el motivo de la decadencia y posterior extinctión de la dinastía cuando Carlos II , enfermo y mentalmente incapacitado , murió en 1700 sin descendencia . Con este evento la dinastía terminó su protaganismo histórico en España. En este estudio se hace un análisis biológico computacional sobre esta idea comunmente sostenida que los matrimonios entre familiares cercanos dentro de la dinastía es responsable de su desaparición. La publicación está escrita en lengua inglesa y es resultado de una extensa investigación realizada en la Universidad de Santiago de Compostela, este papel fue sometido al PLoS lo que me permite publicarlo libremente en mi blog. Recuerden que soy un ferviente seguidor de los principios del PLoS, no olvido mis tiempos en Graduate School en los que tenia que pagar por obtener publicaciones , en ocasiones de muy cuestionable valor científico.

pdfLea o descargue la publicación en formato PDF


La gripe española y nuestro sistema inmunológico

May 8, 2009

bannerg16

 
Spanish_flu_death_chart

La pandemia de 1918 fue un desastre global, responsable por la muerte de alrededor de 40 millones de personas. Un total el 2,5% de la población mundial falleció y un 15 % sufrió de  este subtipo del virus de la gripe, científicamente denominado H1N1.

Paradójicamente lo que podemos denominar “paciente cero” o primer contaminado  fue registrado en Kansas, el 11 de Marzo de 1918, la enfermedad fue categorizada y llamada popularmente como “Gripe Española” ya que España, al no ser miembro partícipe en la primera Guerra mundial, optó por una política informativa transparente y fue el país que más reportó los casos de este virus. Los otros países involucrados en la guerra temían desmoralizar a sus tropas y  poblaciones repectivas  reportando la verdadera extensión de la pandemia, asi que optaron por minimizar o trivializar la información sobre su verdadera extensión . De este modo, frente a la opinión mundial, España parecía ser el origen de la pandemia. Nada más alejado de la verdad histórica, pero este es el modo en que la historia trabaja. En realidad , tal parece que los primeros casos fueron reportados alrededor de Kansas, Estados Unidos, pero esto tampoco puede ser considerado una certeza histórica.

 La inmensa mayoría de los muertos fueron individuos jóvenes y saludables. Las influenzas convencionales  afecta más severamente a niños ,a viejos y personas debilitadas  debido al hecho de que poseen un sistema inmunológico mucho mas vulnerable. Esta influenza contra todo lo conocido y esperado fue especialmente letal entre jóvenes saludables. Una explicación comunmente aceptada por la comunidad científica de este hecho, es que las personas jóvenes poseen un sistema inmunológico extremedamente reactivo. Se cree que la reacción o respuesta inmunológica a la agressión viral fué tan intensa que pudo ser la responsable de la muerte de muchas personas que estaban supuesta a sobrevivirlo. Basicamente esta situación puede ser descrita en términos simples, un sistema inmunolólogico que esta supuesto a defendernos, reacciona con una respuesta immune tan intensa que no solo ataca al virus sino al mismo sistema que esta supuesto a defender en primer lugar, nuestro cuerpo.

Hoy en día gracias a estudios genéticos altamente controversiales, se puede decir con un alto grado de certeza  que una hypercitoquinemia, o “tormenta de citoquinas” constituyó la razón del altísimo índice de mortalidad del virus. Las citoquinas son proteinas que juegan un papel de proteínas de control. Son los agentes inmunológicos responsables de la comunicación intercelular, funciones de proliferación y diferenciación celular, producción y modulación de la secreción de inmunoglobulinas Estas proteinas  son producidas,fundamentalmente, por los linfocitos y los macrófagos cuando son activados en un proceso viral. Estas proteinas ejercen una función reguladora en las células que las producen. La acción primaria de las citoquinas es la regulación del mecanismo de la inflamación. Hay citocinas pro-inflamatorias y otras anti-inflamatorias. Durante una “tormeta de citoquinas” un mecanismo de  retroalimentación positiva se implementa en el sistema inmunológico, o sea en que la medida que el tiempo y el proceso transcurren , este incremento en la producción de citoquinas se vigoriza y extiende y no mecanismo de inmunoregulación puede romper el ciclo vicioso de producción de citoquinas, el resultado es generalmente  fatal.


Supercomputadoras versus clusters

April 27, 2009

bannerg11
300px-roadrunner_supercomputer_hires

Una Supercomputadora  es una computadora con capacidades de cálculo muy superiores a las comúnmente disponibles. Las supercomputadoras estan caracterizadas por una inmensa capacidad de realizar operaciones computacionales a velocidades no comparables a computadores de naturaleza personales.  Estas capacidades de calculo o procesamiento intensivo  están justificadas en un arreglo de hardware extremadamente caro  especializados en operaciones paralelas, la jerarquía de memoria tiende a ser cuidadosamente diseñada para que el CPU este constantemente trabajando. En los PC regulares la inmensa mayoría del tiempo las operaciones que ocurren son de entrada / salida y no de uso del procesador. Estas computadoras tienden a ser especializadas para ciertos tipos de operaciones, usualmente calculaciones numéricas y tienden  a tener rendimientos inferiores en otras áreas de operación. Los sistemas operativos de este tipo de computadora tienden a ser un énfasis en el uso mas apropiado de los recursos de hardware y en las tareas administrativas que en proveer un interfase grafica de alta calidad. 
Hay disciplinas científicas que son impensables sin la herramienta que significa una supercomputadora tales comos los estudios sobre cambios climáticos , biología computacional, y simulaciones que envuelven gran numeros de variables.
portablecluster2007Las supecomputadoras son extremadamente caras, como consecuencia de esto en muchos ambientes científicos se usan otras alternativas. El uso de clusters de computadoras es una opción viable y relativamente simple para enfrentar tareas que requieren  volumenes intensivos de operaciones computacionales y no se dispone de acceso a una supercomputadora. Simplemente, un cluster es un grupo de múltiples computadoras unidas mediante una red de alta velocidad, de tal forma que este grupo computacional es visto como un único ordenador, más potente que las computadoras personales por separado. El término cluster se aplica a los conjuntos o grupos de computadoras construidos mediante la utilización de componentes de hardware comunes y que se conducen como si fuesen una única computadora.  El uso creciente de clusters surge como resultado de la aparición de varias tendencias actuales que incluyen la disponibilidad de computadoras personales de alto rendimiento a precios muy económicos, el advenimiento de  redes de computadoras con una alta velocidad de transferencia de datos, el desarrollo de software para distribución de calculo de rendimiento intensivo , sistemas operativos altamente efectivos y baratos, así como la creciente necesidad de potencia computacional para aplicaciones que la requieran. Los clusters son usados mas para  propósitos computacionales que para operaciones entrada / salida. Un uso común de clusters es para “balancear carga” en sitios web. Una página web es pedida a un servidor administrador  que decide cual de los servidores idénticos entrega la página a la computadora cliente. Este uso de cluster es muy común y es llamado granja de servidores. Esta configuración permite estabilidad y añade que el tráfico sea manejado mas eficientemente.
bluegenep
Blue Brain es un proyecto del Instituto del Cerebro y la Mente en la École Polytecniche de Lausana que se propone crear una simulación computerizada del cerebro de los mamíferos. El proyecto emplea una supercomputadora Blue Gene.
 
  

IBM anunció la segunda generación de la supercomputadora Blue Gene/P, diseñada para funcionar de manera continua a velocidades superiores al “petaflop”, es decir mil billones de operaciones por segundo. Con un sistema 100 mil veces más potente que el de una PC doméstica, este equipo “puede procesar más operaciones en un segundo que las que se procesarían con la potencia combinada de una pila de computadoras portátiles de más de dos kilómetros de altura”.En un comunicado, el fabricante destacó que Blue Gene/P puede configurarse para alcanzar velocidades superiores a los tres petaflops, “un nivel de rendimiento que muchos consideraban inalcanzable hace sólo unos años”.Explicó que el nuevo superordenador facilita los trabajos de investigación “por ejemplo en el terreno sanitario, al permitir crear modelos de órganos humanos completos para analizar las interacciones con distintos tipos de fármacos”. Lo anterior es posible “utilizando tan sólo una pequeña parte de la potencia de la máquina”, por lo que “los investigadores podrían realizar en una tarde ensayos clínicos simulados en 27 millones de pacientes”.Destacó que el sistema Blue Gene nació de la iniciativa de IBM para desarrollar una plataforma de cálculo científico fiable “los diseñadores superaron dos de las limitaciones clave en la supercomputación avanzada: el consumo energético y la necesidad de espacio.

Blue Gene IBM

clusters_images_cluster13501

 

 clusters_images_cluster16001

 

Sistemas de clusters IBM


Algoritmo FASTA

April 24, 2009

bannerg14

fasta

El algoritmo FASTA es un método heurístico para comparación de cadenas. Fue desarrollado por Lipman y Pearson en 1985 y luego mejorado en 1988. FASTA compara una cadena de consulta con una cadena de un solo texto. Cuando buscamos en una base de datos entera coincidencias para una consulta dada, comparamos la consulta usando el algoritmo FASTA para cada cadena en la base de datos. Este algoritmo usa cuatro etapas para calcular tres puntajes que caracterizan la similitud de las secuencias. El siguiente es un resumen de estas cuatro etapas:

Etapa 1
Identificar regiones compartidas por las secuencias con la densidad más alta de identidades (ktup=1) o pares de identidades.

pdf201

Descargue el documento completo en formato PDF