MIT
Novi AI model za razvoj proteinskih lijekova
Istraživači su koristili veliki jezični model kako bi optimizirali genetske sekvence proteina koje proizvodi kvasac, čineći proizvodnju učinkovitijom.
Industrijski kvasci su 'elektrana' u proizvodnji proteina, a koriste se za proizvodnju cjepiva, biofarmaceutika i drugih korisnih spojeva.
U novoj studiji, kemijski inženjeri s američkog tehnološkog instituta MIT, iskoristili su umjetnu inteligenciju kako bi optimizirali razvoj novih procesa proizvodnje proteina, što bi moglo smanjiti ukupne troškove razvoja i proizvodnje tih lijekova.
Koristeći model velikog jezika (LLM), MIT-ov tim analizirao je genetski kod industrijskog kvasca Komagataella phaffii, točnije, kodone koje koristi. Postoji više mogućih kodona ili troslovnih DNK sekvenci koje se mogu koristiti za kodiranje određene aminokiseline, a obrasci korištenja kodona su različiti za svaki organizam.
Novi MIT model naučio je te obrasce za K. phaffii, a zatim ih koristio za predviđanje koji će kodoni najbolje funkcionirati za proizvodnju određenog proteina. To je istraživačima omogućilo da povećaju učinkovitost proizvodnje šest različitih proteina kod kvasca, uključujući ljudski hormon rasta i monoklonsko antitijelo koje se koristi za liječenje raka.
Kako bi stvorili kvasac za industrijsku proizvodnju proteina, istraživači uzimaju gen iz drugog organizma, poput gena inzulina, i modificiraju ga tako da ga mikrob proizvodi u velikim količinama. To zahtijeva pronalaženje optimalnog slijeda DNK za stanice kvasca, njegovu integraciju u genom kvasca, stvaranje povoljnih uvjeta za rast i konačno pročišćavanje konačnog proizvoda.
Za nove biološke lijekove - velike, složene lijekove koje proizvode živi organizmi, ovaj proces razvoja mogao bi činiti 15 do 20 posto ukupnih troškova komercijalizacije lijeka.
U ovoj studiji, istraživači su željeli pokušati optimizirati slijed DNK kodona koji čine gen za protein od interesa. Postoji 20 prirodno prisutnih aminokiselina, ali 64 moguća slijeda kodona, tako da većinu tih aminokiselina može kodirati više od jednog kodona. Svaki kodon odgovara jedinstvenoj molekuli transferne RNK (tRNK) koja prenosi ispravnu aminokiselinu do ribosoma, gdje se aminokiseline nižu u proteine.
Različiti organizmi koriste svaki od ovih kodona različitim brzinama, a dizajneri genski modificiranih proteina često optimiziraju proizvodnju svojih proteina odabirom kodona koji se najčešće javljaju u organizmu domaćinu. Međutim, to ne mora nužno dati najbolje rezultate. Ako se, na primjer, isti kodon uvijek koristi za kodiranje arginina, stanici može ponestati molekula tRNK koje odgovaraju tom kodonu.
Kako bi primijenili nijansiraniji pristup, MIT-ov tim je primijenio vrstu modela velikog jezika poznatog kao koder-dekoder. Umjesto analize teksta, istraživači su ga koristili za analizu DNK sekvenci i učenje odnosa između kodona koji se koriste u određenim genima.
Njihovi podaci za obuku, koji su došli iz javno dostupnog skupa podataka Nacionalnog centra za biotehnološke informacije, sastojali su se od aminokiselinskih sekvenci i odgovarajućih DNK sekvenci za svih otprilike 5000 proteina koje prirodno proizvodi K. phaffii.
Nakon što je model obučen, istraživači su ga zamolili da optimizira kodonske sekvence šest različitih proteina, uključujući ljudski hormon rasta, ljudski serumski albumin i trastuzumab, monoklonsko antitijelo koje se koristi za liječenje raka.
Također su generirali optimizirane sekvence ovih proteina koristeći četiri komercijalno dostupna alata za optimizaciju kodona. Istraživači su umetnuli svaku od ovih sekvenci u stanice K. phaffii i izmjerili koliko je ciljnog proteina svaka sekvenca generirala. Za pet od šest proteina, sekvence iz novog MIT modela djelovale su najbolje, a za šesti su bile druge najbolje.
Istraživači su također testirali ovaj pristup na skupovima podataka različitih organizama, uključujući ljude i krave. Svaki od rezultirajućih modela generirao je različita predviđanja, što sugerira da su potrebni modeli specifični za vrstu kako bi se optimizirali kodoni ciljnih proteina.
Ispitujući unutarnje funkcioniranje modela, istraživači su otkrili kako se čini da je model naučio neke od bioloških principa funkcioniranja genoma, uključujući stvari koje ga istraživači nisu naučili. Na primjer, naučio je da ne uključuje negativne ponavljajuće elemente, DNK sekvence koje mogu inhibirati ekspresiju obližnjih gena.
Model je također naučio kategorizirati aminokiseline na temelju svojstava poput hidrofobnosti i hidrofilnosti.















Učitavam komentare ...