Nous sommes tous passés par là. La recherche se déroule bien, les résultats arrivent et une idée de la façon dont tout fonctionne ensemble commence à émerger. Puis, on se heurte à un mur : une protéine inconnue se trouve au milieu du modèle.
Le projet s'est déroulé sans problèmes, à l'exception de ce point d'interrogation. Et maintenant, votre superviseur vous demande d'identifier l'inconnu pour résoudre le casse-tête. Vous allez donc sur Google ou PubMed et commencez à chercher des moyens d'identifier des protéines inconnues. La réponse à votre question est claire : vous avez besoin de la spectrométrie de masse.
Mais vous ne savez pas exactement comment ça fonctionne et vous devrez l'expliquer lors de la prochaine réunion de laboratoire.
Ne vous inquiétez pas, nous pouvons vous aider.
Dans ce blog, nous vous expliquerons le processus d'identification des protéines par LC-MS/MS. Vous apprendrez comment préparer votre échantillon, comment fonctionne la machine, comment un programme peut identifier les protéines, et nous partagerons même notre protocole optimisé pour l'identification des protéines en gel. Vous serez sur la voie de l'identification de votre protéine inconnue en un rien de temps.
Fig. 1: Exemple d'un gel coloré au nitrate d'argent provenant d'un échantillon de plasma
Tout dépend de la façon dont vou avez découvert que vous aviez une protéine à identifier. Avez-vous purifié votre protéine d'intérêt et trouvé une autre protéine éluant de la préparation ? Ou bien avez-vous effectué une immunoprécipitation de votre protéine cible et coloré le gel SDS PAGE pour trouver une bande majeure en plus de votre cible ?
Dans tous les cas, vous devrez refaire le protocole avec du matériel propre afin de limiter la contamination de votre échantillon par les kératines.
Ces protéines indésirables sont présentes un peu partout et peuvent vraiment gêner l'identification de votre protéine si elles sont trop concentrées dans votre échantillon.
Puisque nous allons nous concentrer sur l'identification d'une protéine à partir d'un gel, nous vous suggérons de jeter un coup d'œil à notre protocole pour l'identification d'une protéine à partir d'un gel coloré au bleu de Coomassie pour un exemple de l'expérimentation elle-même. Comme indiqué dans notre post sur la préparation des échantillons, vous devez toujours travailler avec des gants, des embouts de pipette filtrés et des tubes Eppendorf à liaison minimale. Cela améliorera considérablement la récupération des peptides et le succès de votre expérience. Quelle que soit la méthode de préparation des échantillons que vous utilisez, vous devez garder à l'esprit qu'en spectrométrie de masse, vous devez toujours travailler dans un environnement propre et avec des outils appropriés.
Comme vous le savez, les protéines sont en fait une chaîne d'acides aminés liés les uns aux autres de manière covalente. Afin d'identifier votre protéine par LC-MS/MS, vous devrez la décomposer en parties plus petites, appelées peptides. Cela se fait généralement par une digestion enzymatique avec des enzymes protéolytiques, comme la trypsine ou la chymotrypsine. Le choix de l'enzyme à utiliser est déterminé par la séquence de votre protéine d'intérêt.
Dans le cas d'une protéine inconnue, on choisit généralement la trypsine en raison de son faible taux d'erreur clivage et de son activité élevée dans des tampons relativement dénaturants. Là encore, le protocole de digestion enzymatique varie en fonction de la matrice dans laquelle se trouve votre protéine. Si elle se trouve dans un tampon dans un état relativement pur (provenant d'une purification HPLC, par exemple), il y a de fortes chances que vous puissiez simplement ajouter l'enzyme et procéder à la digestion. Si votre protéine est dans un gel, la procédure peut être un peu plus complexe. Le résultat final devrait cependant toujours être le même: un mélange de peptides propres que vous pouvez analyser par LC-MS/MS.
Maintenant que vous avez votre mélange de peptides, vous êtes prêt à l'envoyer pour analyse à votre fournisseur de services de spectrométrie de masse préféré. Il existe plusieurs modes d'acquisition différents que vous pouvez utiliser pour identifier les protéines, mais nous allons nous concentrer sur l'acquisition en fonction de l'information (IDA, également appelée acquisition en fonction des données ou DDA) dans ce post. L'IDA utilise la vitesse et la résolution très élevées du spectromètre de masse pour déterminer la masse des peptides présents dans votre échantillon. Voici son fonctionnement :
Le mélange de peptides est chargé sur une colonne chromatographique. Les peptides ayant une composition en acides aminés différente auront des affinités différentes avec la colonne. En appliquant sur la colonne des phases liquides dont la concentration en solvant organique augmente au fil du temps, on peut séparer les peptides les uns des autres. En fonction de leur affinité pour la colonne, les peptides seront progressivement libérés de la colonne par l'augmentation de la concentration organique dans la phase mobile et entreront progressivement dans le spectromètre de masse. La séparation chromatographique permet de concentrer les peptides à un moment donné et facilite leur détection par l'appareil. En moyenne, sur un micro-LC avec un gradient de 60 minutes, il faut environ 45 secondes pour que toutes les copies d'un peptide soient éluées de la colonne.
En spectrométrie de masse, le terme "cycle" représente la somme de toutes les petites tâches effectuées par la machine. Par exemple, en mode IDA, un cycle comprend un «Survey scan» et plusieurs «Product ion scans» (jusqu'à 40 pour les spectromètres de masse à haute résolution). Chacun des composants d'un cycle prend un petit laps de temps pour être réalisé. Par exemple, si un cycle comprend un «Survey scan» de 200 millisecondes et 40 «Product ion scan» de 35 millisecondes chacun, le temps total nécessaire à la machine pour terminer un cycle est d'environ 1,6 seconde (200 ms + (40 x 35 ms) = 1600 ms). Une fois qu'un cycle est terminé, la machine commence un nouveau cycle. Ce processus se poursuit pendant toute la durée de l'analyse. Pendant un gradient de 60 minutes, le spectromètre de masse effectue environ 2118 cycles. Pas étonnant qu'une analyse MS produise autant de données ! Voici la description des deux principaux types de balayage qui sont nécessaires dans une analyse en mode IDA.
Pour identifier les protéines en mode IDA, le MS effectue d'abord un balayage complet du flux d'ions, appelée «Survey scan». Ce balayage enregistre le rapport masse sur charge (m/z) de chaque ion qui entre dans la machine à ce moment-là. Le balayage dure environ 200 millisecondes. À la fin du balayage, la machine sait quels ions étaient présents dans l'échantillon à ce moment-là et elle peut les classer par intensité de signal.
La deuxième partie de la méthode IDA est connue sous le nom de «Product ion scan». Pendant le «Survey scan», la machine a créé une liste des x ions les plus intenses (jusqu'à 40) dans le flux d'ions entrant dans la machine. Le premier «Product ion scan» va isoler le premier ion le plus intense, le fragmenter et enregistrer le rapport m/z de tous ses fragments. Cette opération dure environ 35 millisecondes. Une fois cette opération terminée, la machine effectue un deuxième «Product ion scan». Elle isole donc, fragmente, et enregistre le rapport m/z des fragments du deuxième ion le plus intense... et ainsi de suite jusqu'à ce que le nombre d'ions à analyser dans le cycle soit atteint (jusqu'à 40 dans un cycle). Ensuite, le premier cycle se termine, et le deuxième cycle commence. Un peptide élue de la colonne pendant environ 45 secondes dans un gradient LC de 60 minutes. Sachant qu'un cycle ne dure que 1,6 seconde, cela signifie que nous pourrions potentiellement détecter le même peptide environ 28 fois pendant son élution de la colonne (45 sec/1,6 sec par cycle = 28). Comme la machine n'enregistre que les 40 ions les plus intenses sur plusieurs centaines à la fois, nous pouvons potentiellement manquer beaucoup d'informations. C'est là qu'intervient une fonction d'exclusion utile de la méthode IDA. En effet, nous pouvons demander à la machine de n'enregistrer le même ion que deux fois et de l'exclure pendant un certain nombre de secondes par la suite. Au cours du cycle suivant où cet ion est détecté dans le «survey scan» après avoir été enregistré deux fois, il ne sera pas compté dans les 40 «product ion scans». Au lieu de cela, la machine isolera et fragmentera le 40+1ème ion le plus intense. Ce processus peut se poursuivre indéfiniment, ce qui explique comment la machine peut obtenir une bonne profondeur de séquençage, même si elle est limitée à 40 «product ion scans» par cycle !
Le résultat final de la méthode IDA est une liste d'ions précurseurs (enregistrés pendant le «survey scan») et de leurs fragments associés (enregistrés pendant le «product ion scan»). Les fichiers produits par le MS sont ensuite introduits dans un programme qui effectuera l'identification des protéines en deux étapes*.
*Nous travaillons avec le logiciel ProteinPilot (de Sciex). Vous verrez au point 4 comment cette suite d'algorithmes fonctionne pour l'identification des protéines. Notez qu'il existe d'autres outils qui peuvent effectuer des analyses similaires, avec de légères différences dans les résultats.
Dans ProteinPilot, l'algorithme qui est en charge de l'identification des peptides est nommé Paragon. Pour identifier les peptides, ce programme examine tous les m/z des ions produits pour trouver des fragments peptidiques très courts qui pourraient correspondre à 2-3 acides aminés. Ces petits fragments, appelés taglets, peuvent facilement être identifiés avec certitude car le nombre de modifications post-traductionnelles différentes pouvant être trouvées sur un si petit peptide est limité. Pour déterminer leur séquence, le programme fait correspondre le m/z détecté du taglet au m/z théorique de tous les acides aminés, avec et sans modifications. Si le m/z du taglet se situe dans un petit intervalle de la séquence théorique d'un petit peptide, il est considéré comme identifié et reçoit un bon score. En revanche, si la différence entre le m/z du taglet et une séquence théorique est plus importante, il recevra un score plus faible. Ce processus peut être visualisé sur la partie supérieure de la figure 2 ci-dessous.
Une fois que la séquence d'acides aminés du taglet est déterminée, Paragon la mappe à toutes les protéines de la base de données pour déterminer où cette petite séquence peut être trouvée. Une fois que tous les taglets ont été cartographiés, le programme attribue une température à chaque région du protéome en fonction de la densité de taglets qu'elle contient.
Par exemple, si une région du protéome contient la séquence de plusieurs taglets ou taglets avec des scores très élevés, elle sera identifiée comme chaude par le programme et recevra plus de puissance de recherche (expliqué plus en détail dans la figure 2). À l'inverse, une région qui ne contient qu'un seul ou aucun taglet sera identifiée comme froide. Le raisonnement est le suivant : si plusieurs taglets correspondent à une région spécifique, cela signifie que les peptides qui contiennent le taglet correspondent également à cette région, ce qui la rend plus digne d'une puissance de recherche élevée. L'utilisation de cette stratégie permet à l'algorithme d'effectuer des recherches plus efficaces, puisqu'il consacrera moins d'efforts aux régions froides du protéome, c'est-à-dire celles où l'on s'attend à trouver moins de peptides, qu'aux régions chaudes. Les recherches effectuées avec l'algorithme Paragon sont donc plus rapides qu'avec d'autres algorithmes, tout en conservant la même efficacité. En résumé, la carte de température du protéome qui a été générée à partir de la cartographie du taglet au protéome est utilisée par Paragon pour déterminer la puissance de recherche qui sera attribuée pour compléter la séquence de chaque taglet et trouver le peptide dont il est issu. Une très belle vidéo expliquant l'algorithme Paragon peut être trouvée ici.
Fig2: Exemple d'une recherche avec Paragon.
Les différents taglets identifiés par Paragon sont énumérés en haut de la figure. Plus la ligne rouge sous le taglet est épaisse, plus le score obtenu est élevé. Dans cet exemple, une seule protéine est représentée. Les lignes rouges sous la séquence indiquent le mappage des taglets sur la séquence d'acides aminés de la protéine. Plus une région a de taglets, plus elle est considérée comme "chaude" par Paragon. Une fois ce processus terminé, Paragon attribue une puissance de recherche différente aux régions, en fonction de leur "température" relative. Si une région est "chaude", Paragon effectuera une recherche plus approfondie pour trouver des peptides pour cette région. Par exemple, une région "chaude" sera recherchée pour toutes les modifications post-traductionnelles disponibles connues à ce jour et pour un grand nombre de clivages erronés rares, tandis qu'une région "froide" ne sera recherchée que pour les PTM les plus courantes. Cette figure est tirée de l'article original de Sciex sur Paragon (2007).
En suivant le processus décrit dans cet article, la bande inconnue sur votre gel est maintenant une protéine identifiée. Il est intéressant de noter que le même processus de spectrométrie de masse peut être couplé à d'autres techniques de préparation d'échantillons, telles que l'immunoprécipitation, pour identifier les partenaires d'interaction protéine-protéine ou les modifications post-traductionnelles de votre protéine d'intérêt.
Les captures d'écran ci-dessous illustrent ce à quoi ressemble l'identification d'une protéine dans le logiciel ProteinPilot. Elles soulignent également la complexité d'une telle analyse et la quantité de données qui peuvent être générées avec une seule expérience de spectrométrie de masse !
Fig3: À partir du logiciel ProteinPilot (cliquez sur les images pour les agrandir).
A) Capture d'écran d'une identification de peptide. Le panneau inférieur droit affiche les spectres MS/MS d'un peptide. B) Capture d'écran d'une identification de protéine. Le panneau inférieur montre les peptides qui ont été détectés pendant l'identification peptidique. Les lettres vertes représentent les peptides avec une bonne certitude, tandis que les lettres jaunes et rouges représentent respectivement les peptides avec une certitude moyenne et faible.
La spectrométrie de masse est un outil puissant pour identifier les protéines d'un échantillon. Que ce soit à partir d'un échantillon très complexe ou d'une seule bande de protéines découpée dans un gel de polyacrylamide, la LC-MS/MS est le moyen le plus efficace de faire avancer votre projet de protéomique.
Vous avez d'autres questions sur cet article ou sur la façon dont la spectrométrie de masse peut vous aider dans vos recherches ? Contactez nos experts.