ADN, CRISPR y como NO piratear películas en una bacteria
Bienvenidos a la tercera y última parte.
En las notas anteriores, expliqué como una imagen es procesada para poder ser almacenada digitalmente en una computadora.
Acá les dejo los enlaces a las notas anteriores. Recomiendo leerlas para poder entender lo que voy a presentar en esta última parte.
En estas notas, me enfoqué principalmente en los principios matemáticos (supongamos) del tratamiento de las imágenes tanto en color como en blanco y negro.
Lo que pasé por alto, fue el tema de los soportes de almacenamiento para toda esa información.
Existen numerosos soportes para almacenar información digital (algunos ya obsoletos): tarjetas perforadas, anillos magnéticos, válvulas de vacío, cintas magnéticas, discos magnéticos (discos dirigidos), discos ópticos (CD, DVD, Bluray), transistores etc.
Nota 1: Notarán que los soportes magnéticos son las estrellas.
Todos estos soportes se basan en el principio de almacenar dos estados para simular los “ceros” y “unos” del sistema binario. En las tarjetas perforadas se analiza “perforación” o “no perforación”; en los discos rígidos se generan pequeños imanes con campos magnéticos en una dirección o en la otra, y así cada uno.
Hay tres propiedades que deben tener los soportes digitales: que sean fáciles de leer y escribir (la principal), que sean estables en el tiempo y que tengan la mayor densidad de información posible, esto es, cantidad de bits por cm² o cm³.
Como algunos ya habrán notado, ninguno de los soportes presentados cuentan con las tres propiedades de manera satisfactoria. Las tarjetas eran muy estables en el tiempo y fáciles de leer y escribir, pero su capacidad de almacenamiento era muy pobre. Por otro lado, los medios magnéticos tienen una gran capacidad de almacenamiento y son de fácil lectura y escritura, pero no son confiables como soporte de información a largo plazo.
El ADN como soporte de información digital
Desde que se descubrió el código genético y se agilizaron los mecanismos de secuenciación, la posibilidad de usar ADN como soporte de información digital ha tentado a numerosos investigadores.
Una molécula de ADN de doble hélice, puede guardarse durante miles de años…
Nota 2: Miles de años, no millones. Lo siento por los amantes de Jurassic Park.
... y posee una densidad de información descomunal.
El núcleo de una célula humana, contiene aproximadamente 2x3200 millones de pares de bases (la célula es diploide) (figura 1). Esto quiere decir, que un chip de ADN del tamaño de un DVD, podría almacenar unos 3,7x1018 pares de bases (3,7 exa pb). Siempre y cuando ese ADN se pudiera empaquetar como en el núcleo de una célula.
Nota 3; El núcleo de una célula tiene más información que un DVD y es 580 millones de veces más pequeña (hice los cálculos). Para mejor, si consideramos que el ADN presenta 4 estados diferentes (cuatro nucleótidos) en lugar de 2, la cosa se pone más interesante.
En este trabajo:
An improved Huffman coding method for archiving text, images, and music characters in DNA. Ailenberg M, Rotstein O. Biotechniques. 2009 Sep;47(3):747-54. https://www.future-science.com/doi/10.2144/000113218
Se propone un código para convertir pares de bases en caracteres (figura 2).
A lo largo de los últimos 30 años, se presentaron muchas propuestas para usar el ADN como soporte.
Algunos se basan en principios in vivo, donde se transforman bacterias con librerías de plásmido
conteniendo las secuencias sintetizadas (Como el trabajo que acabo de presentar), o mediante la síntesis de oligonucleótidos en soportes sólidos (impresión de ADN en chips):
Synthesis of high-quality libraries of long (150mer) oligonucleotides by a novel depurination controlled process. LeProust EM, Peck BJ, Spirin K, McCuen HB, Moore B, Namsaraev E, Caruthers MH. Nucleic Acids Res. 2010 May;38(8):2522-40.
https://academic.oup.com/nar/article/38/8/2522/3112266
En esta nota, no voy a tratar una estrategia in vivo que fue publicada en este artículo: CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria. Shipman SL, Nivala J, Macklis JD, Church GM. Nature. 2017 Jul 20;547(7663):345-349.
https://www.nature.com/articles/nature23017
Nota 4: Muchas gracias a Federico. Quien me pasó este trabajo sabiendo que me iba a gustar. En este artículo, los autores utilizan el sistema CRISPR de una cepa de bacterias E. coli., para incorporar
los datos de una animación (un archivo Gif) en su genoma. Luego utilizan secuenciación masiva para
recuperar esos datos.
CRISPR?, ¿wtf es CRISPR?
CRISPR es el acrónimo en ingles de clustered regularly interspaced short palindromic repeats, (en español repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas).
Básicamente, son locus de ADN que tiene secuencias cortas (24-48pb) repetidas (de 18 a poco más de 100 repeticiones) y están presentes en bacterias y arqueas.
Cada una de esta secuencias palindrómicas cortas repetidas, están espaciadas por un fragmento de ADN de longitud similar, que en la mayoría de los casos, corresponde a fragmentos de ADN de algún virus o plásmido (figura 3).
El locus CRISPR está asociado a una serie de proteínas llamadas Cas (CRISPR associated protein), que son las encargadas de incorporar nuevas secuencias espaciadoras al locus y de utilizar esas secuencias para interceptar y degradar fragmentos de ADN extraños, provenientes principalmente de bacteriófagos que atacan a la bacteria (ver articulo en wikipedia).
https://es.wikipedia.org/wiki/CRISPR#Repetidos_y_espaciadores
De esta manera, CRISPR/Cas funciona como un sistema inmunológico que le permite a la bacteria adquirir resistencia a futuros ataques y transmitir estas características a la futuras generaciones.
El sistema CRISPR funciona en tres etapas (figura 4):
1) Adaptación: La adquisición de los fragmentos de ADN para ser incorporados al locus CRISPR es llevado a cabo por las enzimas Cas1 y Cas2, las cuales reconocen secuencias específicas llamadas PAM (protospacer adjacent motif) en el ADN. No todo el ADN foráneo es reconocido por Cas1 y 2. La ausencia de sitios PAM en la bacteria la protege de ser atacada por sus propias enzimas.
2) Biogénesis de ARNcr: El locus CRISPR es transcripto a una molécula de ARN, la cual es luego fragmentada en pequeños ARNs llamados CRISPR-ARN o ARNcr. Estos ARNcr contiene las secuencias de los ADN que fuera incorporados en la primera etapa.
3) Interferencia: El fragmento de ARNcr es tomado por otras enzimas Cas (como Cas9) para ser utilizado como sonda en el reconocimiento de ADN foráneo. En esta etapa, la cadena de ADN blanco es reconocida y cortada por el complejo ARNcr/Cas9.
![]() |
|
Figura 4: Esquema del funcionamiento del sistema CRISP/Cas. Nat Rev Microbiol. 2013 Oct;11(10):675-87. doi: 10.1038/nrmicro3096. |
En la actualidad, el sistema a CRISPR/Ca9 es utilizado en una gran gama de procesos bio-tecnológicos, que van desde la generación bacterias resistentes a fagos para la industria alimenticia, a la edición de genes en células eucariotas y/o procariotas.
La lista de aplicaciones del sistema CRISPR/Cas9 no ha parado de ampliarse en los últimos 7 u 8 años, con nuevos trabajos publicados cada día.
Nota 5: Solo escriban “CRISPR” en Google y van a ver a que me refiero.
Volvamos a lo nuestro
Tomando en cuenta lo que aprendimos hasta ahora, no nos resultará difícil entender lo que se viene ahora.
El trabajo de Shipman y col. solo utiliza la primera etapa del sistema CRISPR, y se basa (justamente), en la capacidad que tiene la bacteria de incorporar fragmentos de ADN en su genoma mediante las enzimas Cas1 y 2.
Lo primero que hicieron los autores, fue ver que tan eficiente era la incorporación de fragmentos de ADN al genoma de la bacteria y de paso analizar cuales son las mejores combinaciones de bases que optimicen el proceso.
Entonces se dijeron a si mismos...
-Si vamos a hacer esto, vamos a hacerlo bien. Vamos a hacer algo que haga que todos se caigan de culo y de paso les mostramos lo groso que somos.
Dicho esto, sintetizaron una serie de “oligonucleótidos protoespaciadores” con secuencias que en su conjunto codificaban para una imagen (figura 5).
Nota 6: El termino “oligonucleótidos protoespaciador” se refiere a oligonucleótidos que contienen la secuencia espaciadora que se agregará al locus CRISPR. De ahora en adelante voy a usar protoespaciador u oligonucleótido indistintamente.
-Si recuperamos la imagen, es porque todos los protoespaciadores fueron incorporados a la bacteria.
Cada protoespaciador debía cumplir con las siguientes características:
1) Una secuencia PAM para aumentar la eficiencia de la inserción del oligonucleótido al locus CRISPR.
2) Una secuencia llamada Pixet que permite identificar cada oligonucleótido del resto.
3) Una secuencia de nucleótidos que codifique los píxeles de la imagen.
4) Un código para establecer el valor de cada píxel.
Nota 7: Debido a que un protoespaciador no puede contener todos los píxeles de la imagen, se sintetizaron diferentes protoespaciadores (muchos) con todos los píxeles necesarios. Como cada protoespaciador tiene un índice (el pixet), se puede reconstruir la imagen luego de recuperar la secuencia de todos los oligonucleótidos.
La idea era transformar bacterias competentes con todos los protoespaciadores necesarios para codificar una imagen y ver cuantas secuencias podían recuperar al hacer una secuenciación masiva de las bacterias transformadas.
Nota 8: Notarán en la figura 5, que los píxeles de cada protoespaciador no están ordenado de manera continua. Esto es (creo yo), para que no les quede un hueco horrible en la imagen reconstruida en el caso de no poder recuperar la secuencia de algunos protoespaciadores.
Para peor, como mucho, cada bacteria incorpora solo un protoespaciador, así que para recuperar todas las secuencias, se debe secuenciar el alelo CRISPR de toda la población de bacterias.
Luego de muchas pruebas y herrones, los autores lograron encontrar las condiciones optimas para transformar y recuperar una imagen simple de 30x30 píxeles mediante el uso de 100 protoespaciadores, con una información total de 494 bytes (figura 6).
Ahora se viene lo mejor
Luego de poner todo a punto, los autores redoblaron la apuesta:
-Si podemos guardar una imagen, ¿podemos guardar una serie de imágenes? ¿que tal una película?
Nota 9: Los alelos CRISPR son muy limitados. Solo pueden almacenar de 18 a poco más de 100 repeticiones (en algunas bacterias). Por lo tanto cuando uno habla de película, no se refiere precisamente a la versión 4k de “Los Vengadores-Engame”. Se tiene que hacer algo mucho más modesto. Es por esto que, por ahora, recomiendo usar un pendrive.
En este caso, se usaron 5 cuadros (en formato GIF) del galope de una yegua, proveniente del trabajo fotografico “Human and Animal Locomotion” de Eadweard Muybridge (1830-1904).
Cada uno de estos 5 cuadros era de 36x26 píxeles y estaba formado por 104 protoespaciadores. La información total transferida fue de 2,6 klilbytes (figura 7).
Acá es cuando se pone complicado.
Como las bacterias van a incorporar protoespaciadores de todos los cuadros (unos 520 en total). ¿como van a saber los autores a que cuadro corresponde cada protoespaciador?.
Nota 10: Resulta que no les quedo lugar para agregar un indicador de a que cuadro pertenecía cada protoespaciador.
Cada vez que una bacteria incorpora una secuencia espaciadora en el alelo CRISPR, casi siempre lo hace en la posición 5`, o sea, adyacente al promotor (ver figura 3). Por este motivo, los autores transformaron las bacterias secuencialmente con los protoespaciadores de cada cuadro a la vez. Posteriormente, cuando se secuenciaban los alelos CRISPR de las bacterias transformadas, si encontraban más de un protoespaciador, se entendía que el protoespaciador más alejado del promotor era el que se agregó primero (figura 8).
Nota 10: Esta es la parte complicada y no me voy a detener a explicarla (porque tampoco la entiendo del todo). En el trabajo, los autores analizaron los datos mediante algoritmos escritos en python para poder recuperar la maraña de datos y asignar un set de píxeles a un cuadro correspondiente.
El paper tiene mucha información adicional esperando a los más curiosos.
Resultado final
Luego de mil
intentos, este es el resultado final:
![]() |
|
Figura final: Comparación entre la imagen original codificada por los protoespaciadores y la imagen recuperada de la secuenciación de los locus CRISPR luego de transformar las bacterias. |
Consideración final
Es claro para mí, que el objetivo principal de los autores era determinar la condiciones optimas para la incorporación de secuencias de ADN al locus CRISPR. El locus es muy limitado y claramente hay píxeles que no pudieron recuperarse aún después de millones de lecturas.
Habiendo otras estrategias almacenamiento en ADN que son mejores (como el uso de plásmidos), esta no va a quedar entre mis favoritas (por ahora).
De todos modos este trabajo es increíble por donde se lo mire y me encantó la manera elegante que emplearon los autores para llevarlo a cabo.
Muchas gracias










No hay comentarios.:
Publicar un comentario