El origen de GREP en UNIX

October 11, 2009

bannerg15

GREP

En mi posting anterior hice referencia al comando GREP contenido en Linux. Es mi intención en los próximos postings presentar el uso de algo tan simple como el uso del comando GREP en la resolución de problemas bioinformáticos de un amplio rango en un modo simple y eficaz. Creo que el primer paso para lograr este propósito es presentar el comando, su origen , universalidad y simple uso. Originalmente GREP fué uno de los cientos de comando de linea contenido en el shell de los primeros sistemas UNIX. GREP no es más que una utilidad de búsqueda de cadenas de carácteres. El nombre proviene de ” Global  Regular Expression  Print ” ; en términos simples la función del comando GREP es buscar en archivos de textos  una expresión regular o cadena de carácteres dadas.

El comando grep busca un texto en un archivo, con la sintaxis siguiente:

$ grep [texto_a_buscar] [archivo_de_texto]

Con el paso del tiempo este comando llegó a ser uno de los más importantes e influenciales en el universo informático. Esto es obvio cuando implementaciones de este comando fueron incluidos en sistemas no UNIX , inclusive en  DOS. Este comando es implementado en el lenguage de programación PERL como una función built-in , o sea parte misma del lenguaje.  El Windows XP incluye el comando QGREP que permite poderosas y sofisticadas búsquedas en archivos de textos, algo esencialmente similar al GREP. Este comando requiere el Windows 2003 Resource Kit, usted puede obtenerlo en este sitio web de la microsoft. El archivo puede ser instalado en Windows XP, pese a que está originalmente dedicado a la versión del Windows Server 2003. Aunque versiones modernas de GREP incluyen opciones adicionales, la función básica del comando continua siendo esencialmente la misma,  la identificación y extracción de líneas de caracteres que en un buen inglés  ” match  a pattern” en una archivo de texto. Les presento el comando QGREP en función, algo esencialmente similar al GREP:

Primeros creamos el archivo de texto que va a contener las cadenas de caracteres, en forma de lineas, uno por encima de la otra, llamaremos al archivo de texto alumnos.txt, o sea un archivo que contenga una relación de nombres de alumnos que atienden a una clase. Este archivo lo salvamos en el directorio raíz c:\ y el contenido del archivo es el siguiente:

Ruben Antonio
Miguel Ramos
Pedro Candela
Carlos Antonio

Ahora buscaremos por los alumnos con nombre Antonio

C:\> QGREP “Antonio”  alumnos.txt

El resultado no toma mucho esfuerzo preverlo:

Ruben Antonio
Carlos Antonio

Ya sé, esto les puede parecer trivial y de algun modo lo es. GREP es algo tan simple y al mimo tiempo tan poderoso, de momento les invito a pensar que el ADN puede ser reducido en ultima instancia a una enorme cadena de caracteres de 4 letras A, T, C y G. En los próximos postings les presentaré el uso de la función GREP en PERL y como abordar complejos problemas bioinformáticos de una manera simple y exitosa.


Follow

Get every new post delivered to your Inbox.