Un nouveau module génétique étend l’approche Engram de DeepSeek
DeepSeek a présenté avec Engram une approche d’architecture où un modèle d’IA ne stocke pas une partie de son savoir dans les paramètres du modèle, mais l’externalise vers un ouvrage de référence consultable de manière ciblée.
Du modèle de langage à l’IA génomique
Quelques semaines à peine après la publication d’Engram, des chercheurs en Chine appliquent cette idée au domaine de la génomique. Leur module Gengram apporte une mémoire externe similaire à des modèles dédiés aux séquences ADN.
Le cœur reste un grand modèle génomique. Gengram le complète d’une fine couche de connaissances spécialisées, ce qui permet au modèle principal de se concentrer davantage sur le contexte et l’interprétation.
Pourquoi les modèles génomiques classiques atteignent leurs limites
De nombreux modèles génomiques actuels travaillent au niveau des bases individuelles. Ils voient des suites infinies de A, T, C et G et doivent reconstruire eux-mêmes, à partir de ces signes bruts, des motifs typiques comme les signaux de début de gène ou les sites d’épissage.
C’est précis mais coûteux. Dans des séquences très longues, les modèles perdent facilement la vue d’ensemble et investissent beaucoup de calcul rien que pour reconstruire à chaque fois des motifs connus.
Pour un humain, cela paraît peu naturel. Lors de la lecture d’un mot difficile, le souvenir de blocs connus aide. Sans ce savoir préalable, chaque mot devrait être analysé en permanence de zéro.
Gengram comme dictionnaire biologique
C’est précisément ici que Gengram intervient. Le module construit une table de courts fragments d’ADN, les fameux k-mers. Ils couvrent des combinaisons de une à six bases comme ATG ou CGTA.
Beaucoup de ces fragments sont déjà connus comme motifs fonctionnels, par exemple des sites de liaison pour des facteurs de transcription. Chaque fragment reçoit son propre vecteur en mémoire qui agit comme une entrée dans un dictionnaire biologique.
Lorsqu’un tel motif apparaît dans la séquence, le modèle peut consulter directement l’entrée correspondante. Il n’a plus besoin de reconstruire entièrement la structure à partir des bases individuelles.
Comme l’ADN n’est constitué que de quelques symboles, ce dictionnaire reste compact. Gengram n’ajoute à un modèle de plusieurs milliards de paramètres que vingt millions de paramètres supplémentaires environ.
Activation dynamique plutôt qu’usage permanent
Point décisif : Gengram n’est pas activé en permanence. Un mécanisme de porte (gate) décide, selon le contexte, quand un coup d’œil au dictionnaire est utile.
Dans les régions à forte densité fonctionnelle telles que les exons, promoteurs ou clusters de motifs connus, la consultation s’active plus souvent. Dans les longs segments peu informatifs, le système se fie davantage à sa représentation générale.
Une répartition des tâches s’établit ainsi. Le savoir statique sur les motifs typiques se trouve dans le dictionnaire, tandis que le modèle principal s’occupe de l’interprétation souple et de l’interaction entre ces blocs.
Des progrès mesurables sur les tâches biologiques
Malgré sa petite taille, Gengram apporte des gains nets sur des tâches génomiques centrales. Dans les publications, les indicateurs de qualité progressent sensiblement, par exemple sur la prédiction des sites d’épissage et des marqueurs épigénétiques.
Plus important encore : le rapport entre effort et bénéfice. En comparaison avec d’autres modèles génomiques, un système doté de Gengram atteint une qualité similaire ou meilleure tout en se contentant de bien moins de données d’entraînement et de paramètres activés.
L’efficacité en données et en calcul augmente d’autant. Pour beaucoup de laboratoires, c’est précisément le critère décisif, sans quoi les grands modèles génomiques se heurtent rapidement à des limites pratiques.
Une grande utilité dans différentes architectures
Gengram ne fonctionne pas qu’avec des réseaux denses classiques. Le module peut aussi être intégré dans des architectures Mixture-of-Experts et y agit en outre comme stabilisateur.
En prenant en charge une partie de la reconnaissance locale de motifs via le dictionnaire, les experts sont moins sollicités par du bruit haute fréquence. La charge se répartit plus uniformément et l’entraînement converge plus vite.
Le module devient ainsi une brique générique qui peut s’arrimer à différents types de modèles sans avoir à redessiner l’architecture de base.
Quand le modèle redécouvre implicitement la structure de l’ADN
Une observation issue des expériences attire l’attention. Lors du test de différentes largeurs de fenêtre pour une étape d’agrégation locale, une longueur de vingt-et-une bases donne les meilleurs résultats.
Ce nombre n’est pas un hasard. La double hélice d’ADN-B effectue une rotation toutes les 10,5 bases environ. Deux tours complets correspondent donc à environ vingt-et-une bases. Des positions distantes de 21 bases se retrouvent à des emplacements spatialement similaires de l’hélice.
Le modèle choisit donc une taille de fenêtre qui correspond à la géométrie physique de la molécule alors même qu’aucune information de structure explicite ne lui a été fournie. Il semble dégager par lui-même une partie de la logique spatiale de l’ADN.
Un schéma possible pour une IA scientifique
Au-delà du cas concret, Gengram esquisse une architecture future pour les modèles d’IA scientifique. Plutôt que d’alimenter des réseaux toujours plus grands avec toujours plus de données, un modèle central pourrait être complété par plusieurs petits modules spécialisés.
En génomique, Gengram joue ce rôle. Dans d’autres disciplines, des dictionnaires comparables pour les matériaux, la chimie ou la physique pourraient apparaître, mettant à disposition un savoir expert structuré comme ressource externe.
L’idée de fond reste la même. Le modèle universel se concentre sur les motifs complexes et les inférences, tandis que le savoir de domaine compact est organisé dans des modules complémentaires clairement définis. Gengram montre que cette approche peut fonctionner en pratique et n’est pas qu’un concept théorique d’architecture.

