ADN,
CRISPR y como NO piratear películas en una bacteria
Bienvenidos
a la tercera y última parte.
En
las notas anteriores, expliqué como una imagen es procesada para
poder ser almacenada digitalmente en una computadora.
Acá
les dejo los enlaces a las notas anteriores. Recomiendo leerlas para
poder entender lo que voy a presentar en esta última parte.
Primera parte
Segunda Parte
En
estas notas, me enfoqué principalmente en los principios matemáticos
(supongamos) del tratamiento de las imágenes tanto en color como en
blanco y negro.
Lo
que pasé por alto, fue el tema de los soportes de almacenamiento
para toda esa información.
Existen
numerosos soportes para almacenar información digital (algunos ya
obsoletos): tarjetas perforadas, anillos magnéticos, válvulas de
vacío, cintas magnéticas, discos magnéticos (discos dirigidos),
discos ópticos (CD, DVD, Bluray), transistores etc.
Nota
1: Notarán que los soportes magnéticos son las estrellas.
Todos
estos soportes se basan en el principio de almacenar dos estados
para simular los “ceros” y “unos” del sistema binario. En las
tarjetas perforadas se analiza “perforación” o “no
perforación”; en los discos rígidos se generan pequeños imanes
con campos magnéticos en una dirección o en la otra, y así cada
uno.
Hay
tres propiedades que deben tener los soportes digitales: que sean
fáciles de leer y escribir (la principal), que sean estables en el
tiempo y que tengan la mayor densidad de información posible, esto
es, cantidad de bits por cm² o cm³.
Como
algunos ya habrán notado, ninguno de los soportes presentados
cuentan con las tres propiedades de manera satisfactoria. Las
tarjetas eran muy estables en el tiempo y fáciles de leer y
escribir, pero su capacidad de almacenamiento era muy pobre. Por otro
lado, los medios magnéticos tienen una gran capacidad de
almacenamiento y son de fácil lectura y escritura, pero no son
confiables como soporte de información a largo plazo.
El
ADN como soporte de información digital
Desde
que se descubrió el código genético y se agilizaron los mecanismos
de secuenciación, la posibilidad de usar ADN como soporte de
información digital ha tentado a numerosos investigadores.
Una
molécula de ADN de doble hélice, puede guardarse durante miles de
años…
Nota
2: Miles de años, no millones. Lo siento por los amantes de
Jurassic Park.
...
y posee una densidad de información descomunal.
El
núcleo de una célula humana, contiene aproximadamente 2x3200
millones de pares de bases (la célula es diploide) (figura 1). Esto
quiere decir, que un chip de ADN del tamaño de un DVD, podría
almacenar unos 3,7x1018 pares de bases (3,7 exa pb).
Siempre y cuando ese ADN se pudiera empaquetar como en el núcleo de
una célula.
Nota
3; El núcleo de una célula tiene más información que un DVD y es
580 millones de veces más pequeña (hice los cálculos). Para mejor,
si consideramos que el ADN presenta 4 estados diferentes (cuatro
nucleótidos) en lugar de 2, la cosa se pone más interesante.
 |
Figura
1: Ejemplos de 4 soportes de información. El ADN de una célula
eucariota, puede empaquetarse en volúmenes muy pequeños y portar
una densidad de información que supera a los contenedores actuales.
GB= GigaBytes; Gpb= Giga-pares-de-bases.
|
En
este trabajo:
An improved Huffman coding method for archiving text, images, and music characters in DNA. Ailenberg M, Rotstein O.
Biotechniques. 2009 Sep;47(3):747-54.
https://www.future-science.com/doi/10.2144/000113218
Se
propone un código para convertir pares de bases en caracteres
(figura 2).
 |
Figura
2: A) Codificación de ADN a texto propuesto por los autores. B)
Texto de codificación de la canción infantil “Mary Had a
Little Lamb” a ADN utilizando los principios del panel A. La
fila superior muestra la letra y la fila inferior muestra los codones
de ADN correspondientes.
|
A lo largo de los últimos 30 años, se presentaron muchas propuestas para usar el ADN como soporte.
Algunos se basan en principios in vivo, donde se transforman bacterias con librerías de plásmido
conteniendo las secuencias sintetizadas (Como el trabajo que acabo de presentar), o mediante la síntesis de oligonucleótidos en soportes sólidos (impresión de ADN en chips):
Synthesis of high-quality libraries of long (150mer) oligonucleotides by a novel depurination controlled process.
LeProust EM, Peck BJ, Spirin K, McCuen HB, Moore B, Namsaraev E, Caruthers MH.
Nucleic Acids Res. 2010 May;38(8):2522-40.
https://academic.oup.com/nar/article/38/8/2522/3112266
En esta nota, no voy a tratar una estrategia in vivo que fue publicada en este artículo:
CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria.
Shipman SL, Nivala J, Macklis JD, Church GM. Nature. 2017 Jul 20;547(7663):345-349.
https://www.nature.com/articles/nature23017
Nota 4: Muchas gracias a Federico. Quien me pasó este trabajo sabiendo que me iba a gustar.
En este artículo, los autores utilizan el sistema CRISPR de una cepa de bacterias E. coli., para incorporar
los datos de una animación (un archivo Gif) en su genoma. Luego utilizan secuenciación masiva para
recuperar esos datos.
CRISPR?, ¿wtf es CRISPR?
CRISPR es el
acrónimo en ingles de clustered regularly interspaced short
palindromic repeats, (en español repeticiones palindrómicas cortas
agrupadas y regularmente interespaciadas).
Básicamente, son
locus de ADN que tiene secuencias cortas (24-48pb) repetidas (de 18 a
poco más de 100 repeticiones) y están presentes en bacterias y
arqueas.
Cada una de esta
secuencias palindrómicas cortas repetidas, están espaciadas por un
fragmento de ADN de longitud similar, que en la mayoría de los
casos, corresponde a fragmentos de ADN de algún virus o plásmido
(figura 3).
 |
Figura 3: Esquema generalizado de un locus CRISPR. Tras la
introducción de elementos genéticos extraños de bacteriófagos o
plásmidos, las proteínas Cas obtienen espaciadores de las
secuencias y se incorporan en el locus CRISPR del genoma del huésped.
Journal of Cellular Biotechnology (2015) 95–106. DOI
10.3233/JCB-15009
|
El locus CRISPR está asociado a una serie de proteínas llamadas Cas
(CRISPR associated protein), que son las encargadas de incorporar
nuevas secuencias espaciadoras al locus y de utilizar esas secuencias
para interceptar y degradar fragmentos de ADN extraños, provenientes
principalmente de bacteriófagos que atacan a la bacteria (ver
articulo en wikipedia).
https://es.wikipedia.org/wiki/CRISPR#Repetidos_y_espaciadores
De esta manera,
CRISPR/Cas funciona como un sistema inmunológico que le permite a la
bacteria adquirir resistencia a futuros ataques y transmitir estas
características a la futuras generaciones.
El sistema CRISPR
funciona en tres etapas (figura 4):
1) Adaptación: La
adquisición de los fragmentos de ADN para ser incorporados al locus
CRISPR es llevado a cabo por las enzimas Cas1 y Cas2, las cuales
reconocen secuencias específicas llamadas PAM (protospacer adjacent
motif) en el ADN. No todo el ADN foráneo es reconocido por Cas1 y 2.
La ausencia de sitios PAM en la bacteria la protege de ser atacada
por sus propias enzimas.
2) Biogénesis de
ARNcr: El locus CRISPR es transcripto a una molécula de ARN, la cual
es luego fragmentada en pequeños ARNs llamados CRISPR-ARN o ARNcr.
Estos ARNcr contiene las secuencias de los ADN que fuera incorporados
en la primera etapa.
3) Interferencia: El
fragmento de ARNcr es tomado por otras enzimas Cas (como Cas9) para
ser utilizado como sonda en el reconocimiento de ADN foráneo. En
esta etapa, la cadena de ADN blanco es reconocida y cortada por el
complejo ARNcr/Cas9.
 |
Figura 4: Esquema del funcionamiento del sistema CRISP/Cas. Nat Rev
Microbiol. 2013 Oct;11(10):675-87. doi: 10.1038/nrmicro3096.
|
En la actualidad, el sistema a CRISPR/Ca9 es utilizado en una gran
gama de procesos bio-tecnológicos, que van desde la generación
bacterias resistentes a fagos para la industria alimenticia, a la
edición de genes en células eucariotas y/o procariotas.
La lista de
aplicaciones del sistema CRISPR/Cas9 no ha parado de ampliarse en los
últimos 7 u 8 años, con nuevos trabajos publicados cada día.
Nota 5: Solo
escriban “CRISPR” en Google y van a ver a que me refiero.
Volvamos a lo
nuestro
Tomando en cuenta lo
que aprendimos hasta ahora, no nos resultará difícil entender lo
que se viene ahora.
El trabajo de
Shipman y col. solo utiliza la primera etapa del sistema CRISPR, y se
basa (justamente), en la capacidad que tiene la bacteria de
incorporar fragmentos de ADN en su genoma mediante las enzimas Cas1 y
2.
Lo primero que
hicieron los autores, fue ver que tan eficiente era la incorporación
de fragmentos de ADN al genoma de la bacteria y de paso analizar
cuales son las mejores combinaciones de bases que optimicen el
proceso.
Entonces se dijeron
a si mismos...
-Si vamos a hacer
esto, vamos a hacerlo bien. Vamos a hacer algo que haga que todos se
caigan de culo y de paso les mostramos lo groso que somos.
Dicho esto,
sintetizaron una serie de “oligonucleótidos protoespaciadores”
con secuencias que en su conjunto codificaban para una imagen (figura
5).
Nota 6: El termino
“oligonucleótidos protoespaciador” se refiere a oligonucleótidos
que contienen la secuencia espaciadora que se agregará al locus
CRISPR. De ahora en adelante voy a usar protoespaciador u
oligonucleótido indistintamente.
-Si recuperamos la
imagen, es porque todos los protoespaciadores fueron incorporados a
la bacteria.
Cada protoespaciador
debía cumplir con las siguientes características:
1) Una secuencia PAM
para aumentar la eficiencia de la inserción del oligonucleótido al
locus CRISPR.
2) Una secuencia
llamada Pixet que permite identificar cada oligonucleótido del
resto.
3) Una secuencia de
nucleótidos que codifique los píxeles de la imagen.
4) Un código para
establecer el valor de cada píxel.
 |
Figura 5: Fragmento de una imagen extraída del paper. b) El valor de
cada píxel está codificado por un sistema de tres bases, ejemplo:
TTT=1 y GGG=21. c) representación de un protoespaciador conteniendo
el índice o Pixet y los codones que codifican los píxeles que se
indican en la figura inferior.
|
Nota 7: Debido a que un protoespaciador no puede contener todos los
píxeles de la imagen, se sintetizaron diferentes protoespaciadores
(muchos) con todos los píxeles necesarios. Como cada protoespaciador
tiene un índice (el pixet), se puede reconstruir la imagen luego de
recuperar la secuencia de todos los oligonucleótidos.
La
idea era transformar bacterias competentes con todos los
protoespaciadores necesarios para codificar una imagen y ver cuantas
secuencias podían recuperar al hacer una secuenciación masiva de
las bacterias transformadas.
Nota
8: Notarán en la figura 5, que los píxeles de cada protoespaciador
no están ordenado de manera continua. Esto es (creo yo), para que no
les quede un hueco horrible en la imagen reconstruida en el caso de
no poder recuperar la secuencia de algunos protoespaciadores.
Para
peor, como mucho, cada bacteria incorpora solo un protoespaciador,
así que para recuperar todas las secuencias, se debe secuenciar el
alelo CRISPR de toda la población de bacterias.
Luego
de muchas pruebas y herrones, los autores lograron encontrar las
condiciones optimas para transformar y recuperar una imagen simple de
30x30 píxeles mediante el uso de 100 protoespaciadores, con una
información total de 494 bytes (figura 6).
 |
Figura 6: Fragmento de una imagen extraída del paper. d) Imagen
recuperada luego de 655.360 lecturas (secuencias). e) Porcentaje de
recuperación de protoespaciadores en función del número de
secuencias analizadas. f) Reconstrucción de la imagen en función
del número de secuencias analizadas. g) Lecturas necesarias para
alcanzar el 50%, 60%, 70% y 80% de precisión en un conjunto de
oligonucleótidos dado en función de la cantidad de oligonucleótidos
suministrados. h) imagen recuperada a diferentes tiempos luego de la
transformación con los protoespaciadores.
|
Ahora se viene lo mejor
Luego
de poner todo a punto, los autores redoblaron la apuesta:
-Si
podemos guardar una imagen, ¿podemos guardar una serie de imágenes?
¿que tal una película?
Nota
9: Los alelos CRISPR son muy limitados. Solo pueden almacenar de 18 a
poco más de 100 repeticiones (en algunas bacterias). Por lo tanto
cuando uno habla de película, no se refiere precisamente a la
versión 4k de “Los Vengadores-Engame”. Se tiene que hacer algo
mucho más modesto. Es por esto que, por ahora, recomiendo usar un
pendrive.
En
este caso, se usaron 5 cuadros (en formato GIF) del galope de una
yegua, proveniente del trabajo fotografico “Human and Animal
Locomotion” de Eadweard Muybridge (1830-1904).
Cada
uno de estos 5 cuadros era de 36x26 píxeles y estaba formado por 104
protoespaciadores. La información total transferida fue de 2,6
klilbytes (figura 7).
 |
Figura 7: Fragmento de una imagen extraída del paper. Representación
de un protoespaciador utilizado para codificar los píxeles indicados
en la figura inferior. En esta caso, el Pixet se colocó al final de
la secuencia que codifica los píxeles. En la figura inferior, se ve
la secuencia completa.
|
Acá es cuando se pone complicado.
Como
las bacterias van a incorporar protoespaciadores de todos los cuadros
(unos 520 en total). ¿como van a saber los autores a que cuadro
corresponde cada protoespaciador?.
Nota
10: Resulta que no les quedo lugar para agregar un indicador de a que
cuadro pertenecía cada protoespaciador.
Cada
vez que una bacteria incorpora una secuencia espaciadora en el alelo
CRISPR, casi siempre lo hace en la posición 5`, o sea, adyacente al
promotor (ver figura 3). Por este motivo, los autores transformaron
las bacterias secuencialmente con los protoespaciadores de cada
cuadro a la vez. Posteriormente, cuando se secuenciaban los alelos
CRISPR de las bacterias transformadas, si encontraban más de un
protoespaciador, se entendía que el protoespaciador más alejado del
promotor era el que se agregó primero (figura 8).
 |
Figura 8: Fragmento de una imagen extraída del paper. b) Esquema de
transformación de las bacterias con la información de cada cuadro
seguido de un esquema de un alelo CRISPR que incorporó tres
protoespaciadores (este último lo hice yo). e) Reconstrucción de la
película completa luego de analizar diferente número de secuencias.
Se necesitaron por lo menos 4 millones de lecturas para reconstruir
aceptablemente la secuencia completa.
|
Nota 10: Esta es la parte complicada y no me voy a detener a
explicarla (porque tampoco la entiendo del todo). En el trabajo, los
autores analizaron los datos mediante algoritmos escritos en python
para poder recuperar la maraña de datos y asignar un set de píxeles
a un cuadro correspondiente.
El paper tiene mucha
información adicional esperando a los más curiosos.
Resultado final
Luego de mil
intentos, este es el resultado final:
 |
Figura final: Comparación entre la imagen original codificada por
los protoespaciadores y la imagen recuperada de la secuenciación de
los locus CRISPR luego de transformar las bacterias.
|
Consideración final
Es claro para mí,
que el objetivo principal de los autores era determinar la
condiciones optimas para la incorporación de secuencias de ADN al
locus CRISPR. El locus es muy limitado y claramente hay píxeles que
no pudieron recuperarse aún después de millones de lecturas.
Habiendo otras
estrategias almacenamiento en ADN que son mejores (como el uso de
plásmidos), esta no va a quedar entre mis favoritas (por ahora).
De todos modos este
trabajo es increíble por donde se lo mire y me encantó la manera
elegante que emplearon los autores para llevarlo a cabo.
Muchas gracias