En las areas donde se cruzan la quimica y la informatica, es indispensable contar con un "lenguaje" para manejar estructuras moleculares en una computadora. Uno de los ejemplos mas representativos es la notacion SMILES.
SMILES significa Simplified Molecular Input Line Entry System. Fue propuesto por David Weininger a finales de la decada de 1980 como una notacion para representar la estructura de una molecula en una sola linea de texto. Hoy se usa ampliamente en bases de datos quimicas, quimioinformatica, descubrimiento de farmacos con IA, modelos de generacion molecular y otros campos.
Por ejemplo, el etanol se expresa como CH3CH2OH en formula quimica, pero en SMILES puede escribirse asi.
CCO
Esto significa que carbono, carbono y oxigeno estan conectados en ese orden mediante enlaces sencillos. La fortaleza de SMILES es que es relativamente facil de leer para las personas y facil de procesar para las computadoras. Formatos como MOL o SDF pueden conservar informacion estructural detallada, pero cuando se listan muchas moleculas o se usan como entrada para modelos de aprendizaje automatico, la brevedad de SMILES es una gran ventaja.
1. Sintaxis basica de SMILES
SMILES representa moleculas combinando atomos, enlaces, ramificaciones, estructuras ciclicas y otros elementos. Los simbolos basicos son los siguientes.
| Elemento | Notacion | Ejemplo | Significado |
|---|---|---|---|
| Atomo | Simbolo del elemento | C, O, N |
Carbono, oxigeno, nitrogeno |
| Enlace sencillo | Normalmente se omite | CC |
Enlace sencillo entre carbonos |
| Enlace doble | = |
C=C |
Etileno |
| Enlace triple | # |
C#C |
Acetileno |
| Ramificacion | () |
CC(C)C |
Isobutano |
| Estructura ciclica | Numeros | C1CCCCC1 |
Ciclohexano |
| Atomo aromatico | Minusculas | c1ccccc1 |
Benceno |
Atomos usados con frecuencia en quimica organica, como B, C, N, O, P, S, F, Cl, Br e I, pueden escribirse sin corchetes. En estos atomos, los hidrogenos se completan implicitamente segun las valencias estandar.
Algunos ejemplos son los siguientes.
| Molecula | SMILES | Nota |
|---|---|---|
| Metano | C |
Se agregan implicitamente cuatro hidrogenos al carbono |
| Etano | CC |
Dos carbonos unidos por enlace sencillo |
| Etanol | CCO |
Carbono, carbono y oxigeno conectados en cadena lineal |
| Acido acetico | CC(=O)O |
Contiene un grupo carbonilo y un grupo hidroxi |
En cambio, si se desea indicar explicitamente carga, isotopos, atomos metalicos o valencias no habituales, se usan corchetes.
- Ion sodio:
[Na+] - Ion hierro(II):
[Fe+2] - Ion amonio:
[NH4+]
2. Ramificaciones, anillos y aromaticidad
Las ramificaciones se representan con parentesis. Por ejemplo, el isobutano puede escribirse asi.
CC(C)C
Esto indica que un grupo metilo se ramifica desde un carbono de la cadena principal.
En las estructuras ciclicas, el mismo numero se coloca en dos posiciones para indicar donde se cierra el anillo.
C1CCCCC1
Esto representa ciclohexano. El 1 unido al primer y al ultimo carbono indica que esos dos atomos estan enlazados y forman un anillo.
El benceno puede escribirse en forma de Kekule asi.
C1=CC=CC=C1
Si se quiere expresar explicitamente la aromaticidad, se usa la c minuscula.
c1ccccc1
Sin embargo, la percepcion de aromaticidad no es completamente unica. Programas como RDKit, Open Babel y Daylight pueden diferir en el reconocimiento de aromaticidad y en los resultados de normalizacion. Por eso, al usar SMILES en investigacion o procesamiento de datos, es importante registrar la herramienta y la version empleadas.
3. Representacion de la estereoquimica
SMILES puede representar no solo la conectividad atomica, sino tambien parte de la informacion estereoquimica.
| Informacion estereoquimica | Simbolo | Contenido |
|---|---|---|
| Centro quiral | @, @@ |
Orientacion local de un centro tetraedrico |
| Isomeria geometrica | /, \ |
Disposicion relativa alrededor de un doble enlace |
En los centros quirales se usa @ o @@. Sin embargo, estos simbolos no significan directamente configuracion R o S. Son representaciones estereoquimicas locales basadas en el orden en que aparecen los atomos vecinos en la cadena SMILES; para determinar R/S hay que considerar por separado las reglas de prioridad CIP.
La isomeria geometrica alrededor de dobles enlaces se expresa con / y \.
Cl/C=C/Cl
Cl/C=C\Cl
Estas notaciones distinguen isomeros del 1,2-dicloroetileno. No obstante, / y \ tambien se interpretan dentro del contexto de toda la cadena, por lo que no puede juzgarse su significado solo por el simbolo.
4. Importancia de Canonical SMILES
Un punto importante de SMILES es que una misma molecula puede tener varias formas de escritura.
Por ejemplo, el etanol puede representarse de cualquiera de estas dos maneras.
CCO
OCC
Ambas representan la misma molecula, pero como cadenas son diferentes. Esto causa problemas en busquedas de bases de datos y eliminacion de duplicados.
Para resolverlo se usa Canonical SMILES.
| Elemento | Contenido |
|---|---|
| Objetivo | Facilitar que la misma molecula se trate como la misma cadena |
| Metodo | Asignar rangos a los atomos del grafo molecular y generar un SMILES representativo |
| Ventaja | Util para eliminar duplicados, buscar y organizar datos |
| Precaucion | La salida depende de la implementacion del software |
Canonical SMILES es muy util, pero no es una cadena unica completamente estandarizada a nivel internacional. RDKit, Daylight, Open Babel y otras herramientas pueden producir SMILES normalizados diferentes. Por tanto, en investigacion conviene indicar con que software se hizo la normalizacion.
5. Diferencias con InChI y SELFIES
SMILES no es la unica forma de representar moleculas como cadenas. Entre las alternativas conocidas estan InChI y SELFIES.
| Notacion | Uso principal | Ventajas | Precauciones |
|---|---|---|---|
| SMILES | Descripcion estructural, busqueda, aprendizaje automatico | Corto y relativamente legible | Puede generar cadenas no validas |
| InChI | Identificacion y estandarizacion de compuestos | Muy potente como identificador | Dificil de leer para humanos |
| SELFIES | Generacion molecular, aprendizaje automatico | Facilita generar moleculas validas en principio | Las cadenas tienden a ser mas largas |
InChI (International Chemical Identifier) es un identificador de sustancias quimicas desarrollado bajo el liderazgo de IUPAC. Describe atomos, enlaces, hidrogenos, cargas, estereoquimica, isotopos y otros elementos en capas, por lo que es adecuado para identificar compuestos de forma estandar. En cambio, no es apropiado para una lectura humana intuitiva.
SELFIES (SELF-referencIng Embedded Strings) es una notacion propuesta pensando en el aprendizaje automatico, especialmente en modelos de generacion molecular. Con SMILES, una IA puede generar cadenas sintacticamente erroneas o moleculas quimicamente inadecuadas. SELFIES esta disenado para que, en principio, cualquier cadena SELFIES corresponda a una molecula valida.
6. Aplicaciones en descubrimiento de farmacos con IA y aprendizaje automatico
Como SMILES es una cadena de texto, es facil aplicar a la quimica tecnicas desarrolladas en procesamiento de lenguaje natural. Al entrenar modelos como RNN, VAE y Transformer con grandes cantidades de SMILES, el modelo aprende patrones de "cadenas quimicamente razonables".
Las aplicaciones principales son las siguientes.
| Area de aplicacion | Contenido |
|---|---|
| Generacion molecular | Generar nuevos candidatos moleculares a partir de compuestos existentes |
| Prediccion de propiedades | Predecir solubilidad, permeabilidad de membrana, toxicidad, etc. |
| Prediccion de actividad | Predecir union a proteinas diana y actividad farmacologica |
| Analisis retrosintetico | Predecir rutas de sintesis y precursores a partir de una molecula objetivo |
Para tratar reacciones quimicas se usa Reaction SMILES. El formato basico es el siguiente.
reactants>agents>products
Si no se usa el campo de agentes, se escribe asi.
reactants>>products
En el analisis retrosintetico, a partir del SMILES de una molecula objetivo se predicen los precursores y rutas de reaccion necesarias para sintetizarla. Tambien puede verse como un problema de "traduccion" de la cadena del producto a las cadenas de los reactivos.
7. MolSketch puede generar estructuras automaticamente desde SMILES
En investigacion y desarrollo, SMILES es importante no solo como "cadena para almacenar", sino tambien como formato de entrada para recuperar rapidamente formulas estructurales.
En MolSketch, al introducir un SMILES se genera automaticamente la estructura quimica correspondiente. Si ya tienes un SMILES de un articulo, una base de datos, un documento interno u otra herramienta, puedes usarlo directamente como punto de partida para crear la estructura.
Por ejemplo, es posible el siguiente flujo.
- Copiar un SMILES que ya tienes
- Pegarlo en el campo de entrada de MolSketch
- Generar automaticamente la estructura
- Editarla, guardarla o exportarla segun sea necesario
Asi, MolSketch conecta la "informacion quimica como cadena" con la "estructura quimica como diagrama". En muchos casos es mas eficiente comenzar desde SMILES y ajustar solo las partes necesarias que dibujar todo manualmente desde cero.
Es especialmente util para estos usos.
- Convertir rapidamente en diagrama un compuesto encontrado en un articulo o base de datos
- Modificar ligeramente una molecula existente
- Crear imagenes de formulas estructurales para presentaciones o informes
Comprender SMILES permite usarlo no solo como entrada de texto, sino como puerta de entrada para convertir informacion quimica directamente en estructuras editables.
8. Precauciones al usar SMILES
SMILES es practico, pero no es una solucion universal. Hay que prestar especial atencion a lo siguiente.
- Una misma molecula puede tener varios SMILES.
- Canonical SMILES depende de la implementacion del software.
- La percepcion de aromaticidad varia segun la herramienta.
- Si se omite la estereoquimica, puede no distinguir isomeros.
- Normalmente no incluye coordenadas 3D ni informacion conformacional.
- Los resultados pueden cambiar segun el tratamiento de sales, disolventes, estados de protonacion y tautomeria.
SMILES representa principalmente el grafo molecular y parte de la informacion estereoquimica. Cuando son importantes el modo de union a una proteina, la conformacion tridimensional de la molecula, los efectos del disolvente y otros aspectos 3D, es necesario combinarlo con formatos como SDF, MOL2 o PDB, o con metodos de generacion de estructuras 3D.
Resumen
La notacion SMILES es un lenguaje quimico conciso y potente para representar estructuras moleculares como cadenas de una sola linea. Como puede expresar atomos, enlaces, ramificaciones, anillos, aromaticidad y estereoquimica en cadenas breves, se usa ampliamente en bases de datos quimicas, quimioinformatica, descubrimiento de farmacos con IA, modelos de generacion molecular y otros campos.
Al mismo tiempo, SMILES tiene estas limitaciones.
| Limitacion | Nota |
|---|---|
| Multiples representaciones | La misma molecula puede expresarse con varias cadenas |
| Dependencia de implementacion | Canonical SMILES y la aromaticidad pueden variar segun la herramienta |
| Omision de estereoquimica | Puede no distinguir isomeros |
| Falta de informacion 3D | Normalmente no incluye coordenadas ni conformaciones |
En la quimica moderna basada en datos, SMILES es una interfaz basica para que las computadoras lean y escriban moleculas. Asi como los quimicos dibujan formulas estructurales, la IA aprende moleculas mediante SMILES y explora nuevos compuestos candidatos. Comprender SMILES sera una base cada vez mas importante para investigadores de quimica, ciencias de la vida, ciencia de materiales y descubrimiento de farmacos con IA.
Referencias
- Weininger, D. "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules." Journal of Chemical Information and Computer Sciences, 28(1), 31–36, 1988.
- Weininger, D., Weininger, A., Weininger, J. L. "SMILES. 2. Algorithm for generation of unique SMILES notation." Journal of Chemical Information and Computer Sciences, 29(2), 97–101, 1989.
- Heller, S. R. et al. "InChI, the IUPAC International Chemical Identifier." Journal of Cheminformatics, 7, 23, 2015.
- Krenn, M. et al. "SELFIES: a robust representation of semantically constrained graphs with an example in chemistry." Machine Learning: Science and Technology, 1(4), 045024, 2020.
- Gómez-Bombarelli, R. et al. "Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules." ACS Central Science, 4(2), 268–276, 2018.