Dans les domaines ou la chimie et l'informatique se croisent, un "langage" permettant de manipuler les structures moleculaires sur ordinateur est indispensable. L'un des exemples les plus connus est la notation SMILES.
SMILES signifie Simplified Molecular Input Line Entry System. Cette notation a ete proposee par David Weininger a la fin des annees 1980 pour representer la structure d'une molecule sous forme d'une seule ligne de texte. Elle est aujourd'hui largement utilisee dans les bases de donnees chimiques, la chemo-informatique, la decouverte de medicaments par IA, les modeles de generation moleculaire et d'autres domaines.
Par exemple, l'ethanol s'ecrit CH3CH2OH comme formule chimique, mais en SMILES il peut s'ecrire ainsi.
CCO
Cela signifie que carbone, carbone et oxygene sont relies dans cet ordre par des liaisons simples. La force de SMILES est d'etre relativement lisible pour les humains et facile a traiter pour les ordinateurs. Des formats comme MOL ou SDF peuvent conserver des informations structurelles detaillees, mais pour lister de grandes quantites de molecules ou les fournir a des modeles d'apprentissage automatique, la concision de SMILES constitue un avantage majeur.
1. Syntaxe de base de SMILES
SMILES represente les molecules en combinant atomes, liaisons, ramifications, cycles et autres elements. Les symboles de base sont les suivants.
| Element | Notation | Exemple | Signification |
|---|---|---|---|
| Atome | Symbole chimique | C, O, N |
Carbone, oxygene, azote |
| Liaison simple | Generalement omise | CC |
Liaison simple entre deux carbones |
| Liaison double | = |
C=C |
Ethylene |
| Liaison triple | # |
C#C |
Acetylene |
| Ramification | () |
CC(C)C |
Isobutane |
| Cycle | Chiffres | C1CCCCC1 |
Cyclohexane |
| Atome aromatique | Minuscule | c1ccccc1 |
Benzene |
Les atomes souvent utilises en chimie organique, comme B, C, N, O, P, S, F, Cl, Br et I, peuvent etre ecrits sans crochets. Pour ces atomes, les hydrogenes sont ajoutes implicitement selon les valences standard.
Voici quelques exemples.
| Molecule | SMILES | Remarque |
|---|---|---|
| Methane | C |
Quatre hydrogenes sont implicitement lies au carbone |
| Ethane | CC |
Deux carbones relies par une liaison simple |
| Ethanol | CCO |
Carbone, carbone et oxygene relies en chaine lineaire |
| Acide acetique | CC(=O)O |
Contient un groupe carbonyle et un groupe hydroxy |
En revanche, les crochets sont utilises pour indiquer explicitement une charge, un isotope, un atome metallique ou une valence inhabituelle.
- Ion sodium :
[Na+] - Ion fer(II) :
[Fe+2] - Ion ammonium :
[NH4+]
2. Ramifications, cycles et aromaticite
Les ramifications sont representees par des parentheses. Par exemple, l'isobutane peut s'ecrire ainsi.
CC(C)C
Cela indique qu'un groupe methyle se ramifie a partir d'un carbone de la chaine principale.
Dans les cycles, le meme chiffre est place a deux endroits pour indiquer le point de fermeture du cycle.
C1CCCCC1
Cela represente le cyclohexane. Le 1 attache au premier et au dernier carbone indique que ces deux atomes sont lies pour former un cycle.
Le benzene peut s'ecrire sous forme de Kekule comme suit.
C1=CC=CC=C1
Lorsque l'aromaticite est exprimee explicitement, on utilise le c minuscule.
c1ccccc1
Cependant, la perception de l'aromaticite n'est pas totalement unique. Des logiciels comme RDKit, Open Babel et Daylight peuvent differer dans la reconnaissance de l'aromaticite et les resultats de normalisation. Il est donc important, en recherche ou en traitement de donnees, de noter l'outil et la version utilises.
3. Representation de la stereochimie
SMILES peut representer non seulement la connectivite des atomes, mais aussi une partie de l'information stereochimique.
| Information stereochimique | Symbole | Contenu |
|---|---|---|
| Centre chiral | @, @@ |
Orientation locale d'un centre tetraedrique |
| Isomerie geometrique | /, \ |
Configuration relative autour d'une double liaison |
Pour les centres chiraux, on utilise @ ou @@. Toutefois, ces symboles ne signifient pas directement une configuration R ou S. Ils decrivent une stereochimie locale fondee sur l'ordre d'apparition des atomes voisins dans la chaine SMILES ; pour determiner R/S, il faut appliquer separement les regles de priorite CIP.
L'isomerie geometrique autour des doubles liaisons est representee par / et \.
Cl/C=C/Cl
Cl/C=C\Cl
Ces notations distinguent les isomeres du 1,2-dichloroethylene. Toutefois, / et \ sont interpretes dans le contexte de toute la chaine ; leur signification ne peut donc pas etre determinee par le symbole seul.
4. Importance du Canonical SMILES
Un point important de SMILES est que la meme molecule peut avoir plusieurs ecritures valides.
Par exemple, l'ethanol peut etre represente des deux facons suivantes.
CCO
OCC
Les deux chaines representent la meme molecule, mais elles sont differentes comme texte. Cela pose probleme pour les recherches en base de donnees et la suppression des doublons.
C'est la qu'intervient le Canonical SMILES.
| Element | Contenu |
|---|---|
| Objectif | Faciliter le traitement de la meme molecule comme une meme chaine |
| Methode | Classer les atomes du graphe moleculaire et generer un SMILES representatif |
| Avantage | Utile pour supprimer les doublons, rechercher et organiser les donnees |
| Attention | La sortie depend de l'implementation logicielle |
Le Canonical SMILES est tres utile, mais il ne s'agit pas d'une chaine unique completement standardisee au niveau international. RDKit, Daylight, Open Babel et d'autres outils peuvent produire des SMILES normalises differents. En recherche, il est donc preferable d'indiquer le logiciel utilise pour la normalisation.
5. Differences avec InChI et SELFIES
SMILES n'est pas la seule methode pour representer les molecules sous forme de chaines. Parmi les alternatives connues figurent InChI et SELFIES.
| Notation | Usage principal | Points forts | Points d'attention |
|---|---|---|---|
| SMILES | Description structurelle, recherche, apprentissage automatique | Court et relativement lisible | Des chaines invalides peuvent etre generees |
| InChI | Identification et standardisation des composes | Puissant comme identifiant | Difficile a lire pour les humains |
| SELFIES | Generation moleculaire, apprentissage automatique | Facilite en principe la generation de molecules valides | Les chaines tendent a etre plus longues |
InChI (International Chemical Identifier) est un identifiant de substances chimiques developpe sous l'egide de l'IUPAC. Il decrit atomes, liaisons, hydrogenes, charges, stereochimie, isotopes et autres informations en couches, ce qui le rend adapte a l'identification standard des composes. En revanche, il n'est pas fait pour une lecture humaine intuitive.
SELFIES (SELF-referencIng Embedded Strings) est une notation proposee pour l'apprentissage automatique, en particulier les modeles de generation moleculaire. Avec SMILES, une IA peut generer des chaines syntaxiquement incorrectes ou des molecules chimiquement inappropriees. SELFIES est concu pour que, en principe, toute chaine SELFIES corresponde a une molecule valide.
6. Applications a la decouverte de medicaments par IA et a l'apprentissage automatique
SMILES etant une representation textuelle, les methodes developpees en traitement du langage naturel peuvent etre appliquees a la chimie. En entrainant des modeles comme les RNN, VAE ou Transformers sur de grands ensembles de SMILES, les modeles apprennent les motifs de "chaines chimiquement plausibles".
Les principales applications sont les suivantes.
| Domaine d'application | Contenu |
|---|---|
| Generation moleculaire | Generer de nouveaux candidats moleculaires a partir de composes existants |
| Prediction de proprietes | Predire solubilite, permeabilite membranaire, toxicite, etc. |
| Prediction d'activite | Predire la liaison a des proteines cibles et l'activite pharmacologique |
| Analyse retrosynthetique | Predire des voies de synthese et des precurseurs a partir d'une molecule cible |
Pour traiter les reactions chimiques, on utilise Reaction SMILES. Le format de base est le suivant.
reactants>agents>products
Lorsque le champ des agents n'est pas utilise, on ecrit comme suit.
reactants>>products
En analyse retrosynthetique, on predit les precurseurs et les voies reactionnelles permettant de synthetiser une molecule cible a partir de son SMILES. Cela peut aussi etre considere comme un probleme de "traduction" de la chaine du produit vers les chaines des reactifs.
7. MolSketch peut generer automatiquement des structures a partir de SMILES
En recherche et developpement, SMILES est important non seulement comme "chaine de stockage", mais aussi comme format d'entree pour appeler rapidement une formule structurale.
Dans MolSketch, la saisie d'un SMILES permet de generer automatiquement la structure chimique correspondante. Si vous avez deja un SMILES provenant d'un article, d'une base de donnees, d'un document interne ou d'un autre outil, vous pouvez l'utiliser tel quel comme point de depart pour creer la structure.
Par exemple, le flux suivant est possible.
- Copier un SMILES disponible
- Le coller dans le champ de saisie de MolSketch
- Generer automatiquement la structure
- La modifier, l'enregistrer ou l'exporter si necessaire
Ainsi, MolSketch relie "l'information chimique sous forme de chaine" et "la structure chimique sous forme de dessin". Plutot que de tout dessiner manuellement depuis le debut, il est souvent plus efficace de partir d'un SMILES et de corriger uniquement les parties necessaires.
Cet usage convient particulierement aux situations suivantes.
- Transformer rapidement en schema un compose trouve dans un article ou une base de donnees
- Modifier legerement une molecule existante
- Creer des images de formules structurales pour des presentations ou rapports
Comprendre SMILES permet de l'utiliser non comme une simple entree de texte, mais comme une porte d'entree pour convertir directement l'information chimique en structures editables.
8. Points a noter lors de l'utilisation de SMILES
SMILES est pratique, mais il n'est pas universel. Les points suivants demandent une attention particuliere.
- Plusieurs SMILES peuvent exister pour une meme molecule.
- Le Canonical SMILES depend de l'implementation logicielle.
- La perception de l'aromaticite varie selon les outils.
- Si la stereochimie est omise, les isomeres peuvent ne pas etre distingues.
- Les coordonnees 3D et les informations de conformation ne sont generalement pas incluses.
- Les resultats peuvent changer selon le traitement des sels, solvants, etats de protonation et tautomeres.
SMILES represente principalement le graphe moleculaire et une partie de l'information stereochimique. Lorsque le mode de liaison a une proteine, la conformation tridimensionnelle, les effets de solvant ou d'autres aspects 3D sont importants, il faut l'utiliser avec des formats comme SDF, MOL2 ou PDB, ainsi qu'avec des methodes de generation de structures 3D.
Resume
La notation SMILES est un langage chimique concis et puissant pour representer les structures moleculaires sous forme de chaines d'une seule ligne. Elle peut exprimer atomes, liaisons, ramifications, cycles, aromaticite et stereochimie en chaines courtes, ce qui explique son usage large dans les bases de donnees chimiques, la chemo-informatique, la decouverte de medicaments par IA, les modeles de generation moleculaire et d'autres domaines.
En meme temps, SMILES presente les limites suivantes.
| Limite | Remarque |
|---|---|
| Representations multiples | La meme molecule peut etre exprimee par plusieurs chaines |
| Dependance a l'implementation | Le Canonical SMILES et l'aromaticite peuvent varier selon l'outil |
| Stereochimie omise | Les isomeres peuvent ne pas etre distingues |
| Manque d'information 3D | Les coordonnees et conformations ne sont generalement pas incluses |
Dans la chimie moderne fondee sur les donnees, SMILES est une interface de base qui permet aux ordinateurs de lire et d'ecrire des molecules. De meme que les chimistes dessinent des formules structurales, l'IA apprend les molecules a travers SMILES et explore de nouveaux composes candidats. Comprendre SMILES deviendra une base de plus en plus importante pour les chercheurs en chimie, sciences de la vie, science des materiaux et decouverte de medicaments par IA.
References
- Weininger, D. "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules." Journal of Chemical Information and Computer Sciences, 28(1), 31–36, 1988.
- Weininger, D., Weininger, A., Weininger, J. L. "SMILES. 2. Algorithm for generation of unique SMILES notation." Journal of Chemical Information and Computer Sciences, 29(2), 97–101, 1989.
- Heller, S. R. et al. "InChI, the IUPAC International Chemical Identifier." Journal of Cheminformatics, 7, 23, 2015.
- Krenn, M. et al. "SELFIES: a robust representation of semantically constrained graphs with an example in chemistry." Machine Learning: Science and Technology, 1(4), 045024, 2020.
- Gómez-Bombarelli, R. et al. "Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules." ACS Central Science, 4(2), 268–276, 2018.