Evo 2 AI மரபணு மாதிரி: உயிரியல் மற்றும் செயற்கை நுண்ணறிவின் புதிய புரட்சி

Evo 2 AI மரபணு மாதிரி எவ்வாறு 9 டிரில்லியன் DNA தரவுகளை கொண்டு செயல்படுகிறது என்பதை அறியுங்கள். முழுமையான தமிழ் ஆராய்ச்சி கட்டுரை. தொடர்ந்து படிக்கவும்!

9 Min Read
Highlights
  • Evo 2 AI மரபணு மாதிரி என்பது 9 டிரில்லியன் DNA ஜோடிகளைக் கொண்டு பயிற்சியளிக்கப்பட்ட ஒரு மாபெரும் உயிரியல் AI மாதிரியாகும்.
  • இது 1 மில்லியன் டோக்கன் கான்டெக்ஸ்ட் விண்டோவை (context window) கொண்டு, ஒற்றை நியூக்ளியோடைடு துல்லியத்துடன் கணிப்புகளை வழங்குகிறது.
  • BRCA1 போன்ற சிக்கலான மரபணுப் பிறழ்வுகளின் பாதிப்புகளை எவ்வித சிறப்புப் பயிற்சியும் இன்றி (zero-shot prediction) கணிக்கக்கூடியது.
  • செயற்கையாக புதிய DNA தொடர்களையும், மைட்டோகாண்ட்ரியல் மரபணுக்களையும் தாமாகவே உருவாக்கும் ஜெனரேட்டிவ் (Generative) திறனை இது கொண்டுள்ளது.
  • உயிரியல் பாதுகாப்பு கருதி, மனிதர்களை தாக்கும் வைரஸ் மரபணுக்கள் இதன் பயிற்சி தரவுகளில் இருந்து திட்டமிட்டு தவிர்க்கப்பட்டுள்ளன.

அறிமுகம்

உலகெங்கிலும் உள்ள அறிவியல் மற்றும் மருத்துவ ஆராய்ச்சிகளில் செயற்கை நுண்ணறிவு (AI) மாபெரும் மாற்றங்களைக் கொண்டு வந்துள்ளது. அந்த வரிசையில், சமீபத்தில் நேச்சர் (Nature) இதழில் வெளியிடப்பட்ட Evo 2 AI மரபணு மாதிரி (Evo 2 AI Genome Model), உயிரியல் உலகில் மிகப்பெரிய அதிர்வலைகளை ஏற்படுத்தியுள்ளது. இது வெறும் ஒரு சாதாரண தரவு பகுப்பாய்வு கருவி அல்ல; பாக்டீரியா முதல் மனிதர்கள் வரை அனைத்து வகையான உயிரினங்களின் மரபணுக்களையும் ஆழமாகப் புரிந்துகொள்ளும் ஒரு பிரம்மாண்டமான அடிப்படை மாதிரி (Foundation Model) ஆகும்.

சுமார் 9 டிரில்லியன் டிஎன்ஏ (DNA) நியூக்ளியோடைடு தரவுகளைக் கொண்டு உருவாக்கப்பட்டுள்ள இந்த Evo 2 AI மரபணு மாதிரி, உயிரியல் கூறுகளின் செயல்பாடுகளை முன்கூட்டியே கணிப்பதிலும், புதிய மரபணு அமைப்புகளை வடிவமைப்பதிலும் தனித்து விளங்குகிறது. இந்த விரிவான கட்டுரையில், Evo 2 எவ்வாறு செயல்படுகிறது, இதன் தொழில்நுட்ப சிறப்பம்சங்கள் என்ன, மற்றும் இது எதிர்கால மருத்துவத் துறையில் எத்தகைய தாக்கத்தை ஏற்படுத்தும் என்பதைப் பற்றி விரிவாக அலசுவோம்.

Evo 2-விற்கான மாதிரி கட்டமைப்பு, பயிற்சி முறை, தரவுத்தொகுப்புகள் மற்றும் மதிப்பீடுகளின் மேலோட்டப் பார்வை.
a, ஈவோ 2 (Evo 2) டிஎன்ஏ (DNA) வரிசையை மாதிரியாக்குகிறது, மேலும் மூலக்கூறுகள் முதல் மரபணுக்கள் வரை அளவிடுவதன் மூலமும், உயிரினங்களின் அனைத்து களங்களையும் உள்ளடக்குவதன் மூலமும் மையக் கோட்பாடு (central dogma) முழுவதும் இதன் பயன்பாடுகளை செயல்படுத்துகிறது.
b, அனைத்து உயிரியல் களங்களிலிருந்தும் பல டிரில்லியன் நியூக்ளியோடைடு வரிசைகளை உள்ளடக்கிய தரவுகளில் ஈவோ 2 பயிற்றுவிக்கப்பட்டது. UMAP (uniform manifold approximation and projection) வரைபடத்தில் உள்ள ஒவ்வொரு புள்ளியும் பயிற்சித் தரவுத்தொகுப்பில் உள்ள ஒரு மரபணுவைக் குறிக்கிறது; இது அந்த மரபணுவின் k-mer அதிர்வெண்களின் அடிப்படையில் உட்பொதிக்கப்பட்டுள்ளது. அராபிடோப்சிஸ் தலியானா (Arabidopsis thaliana), பேசிலஸ் சப்டிலிஸ் (Bacillus subtilis), பாக்டீராய்ட்ஸ் ஃப்ராஜிலிஸ் (Bacteroides fragilis), சினோராப்டிடிஸ் எலிகன்ஸ் (Caenorhabditis elegans), கிளாமிடோமோனாஸ் ரெய்ன்ஹார்டி (Chlamydomonas reinhardtii), டி. மெலனோகாஸ்டர் (D. melanogaster), இ. கோலை (E. coli), காலஸ் காலஸ் (Gallus gallus), கொரில்லா கொரில்லா (Gorilla gorilla), ஹாலோஃபெராக்ஸ் வோல்கானி (Haloferax volcanii), ஹோமோ சேபியன்ஸ் (Homo sapiens), மைக்கோபாக்டீரியம் டியூபர்குலோசிஸ் (Mycobacterium tuberculosis), பான் ட்ரோக்ளோடைட்ஸ் (Pan troglodytes), சூடோமோனாஸ் ஏருகினோசா (Pseudomonas aeruginosa), எஸ். செரிவிசியே (S. cerevisiae) மற்றும் டெட்ராஹைமினா தெர்மோபிலா (Tetrahymena thermophila) ஆகியவை இதில் முன்னிலைப்படுத்தப்பட்டுள்ளன.
c, பரந்த உயிரியல் வடிவங்களைப் படம்பிடிக்க, சூழல் நீளத்தை (context length) 1 மில்லியன் அடிப்படை ஜோடிகள் (base pairs) வரை விரிவுபடுத்தும் அதே வேளையில், மாதிரியின் செயல்திறனை மேம்படுத்த இரண்டு கட்ட பயிற்சி உத்தி பயன்படுத்தப்பட்டது. M. genitalium, Mycoplasma genitalium; TAD, இடவியல் ரீதியாக தொடர்புபடுத்தும் களம் (topologically associating domain).
d, புதிய தரவு பெருக்குதல் (data augmentation) மற்றும் வெயிட்டிங் (weighting) அணுகுமுறைகள், முன்-பயிற்சியின் (pretraining) போது செயல்பாட்டு மரபணு கூறுகளுக்கும், இடை-பயிற்சியின் (midtraining) போது நீண்ட-வரிசை கலவைக்கும் முன்னுரிமை அளிக்கின்றன. GTDB, ஜீனோம் வகைபிரித்தல் தரவுத்தளம் (Genome Taxonomy Database); IMG/VR, ஒருங்கிணைந்த நுண்ணுயிர் மரபணுக்கள்/வைரஸ் தரவுத்தளம் (Integrated Microbial Genomes/Virus database).
e, ஈவோ 2 40B மற்றும் 7B-ஐப் பயிற்றுவிக்கப் பயன்படுத்தப்படும் டோக்கன்களின் எண்ணிக்கை, குறுகிய வரிசை முன்-பயிற்சி மற்றும் நீண்ட சூழல் இடை-பயிற்சி என பிரிக்கப்பட்டுள்ளது.
f, புதிய மல்டி-ஹைப்ரிட் ஸ்ட்ரைப்ட்ஹைனா 2 (StripedHyena 2) கட்டமைப்பின் வரைபடம், குறுகிய வெளிப்படையான (short explicit – SE), நடுத்தர முறைப்படுத்தப்பட்ட (medium regularized – MR) மற்றும் நீண்ட மறைமுகமான (long implicit – LI) ஹைனா ஆபரேட்டர்களின் திறமையான தொகுதி அமைப்பைக் காட்டுகிறது.
g, 1,024 GPU, 40B அளவில் ஸ்ட்ரைப்ட்ஹைனா 2, ஸ்ட்ரைப்ட்ஹைனா 1 மற்றும் டிரான்ஸ்பார்மர்களுக்கு இடையிலான மறு செய்கை நேரத்தின் (iteration time) ஒப்பீடு, மேம்படுத்தப்பட்ட செயல்திறனைக் காட்டுகிறது.
h, மாதிரி அளவு மற்றும் சூழல் நீளத்தை ஒப்பிடும் ஈவோ 2 இடை-பயிற்சியின் சரிபார்ப்பு குழப்பம் (Validation perplexity), அளவிடுதல் மற்றும் அதிகரிக்கும் சூழல் நீளத்தின் நன்மைகளைக் காட்டுகிறது.
i, 1 மில்லியன் வரிசை நீளம் வரையிலான நீண்ட சூழல் மீட்டெடுப்பு திறனை (long context recall ability) மதிப்பிட மாற்றியமைக்கப்பட்ட ‘நீடில்-இன்-ஏ-ஹேஸ்டாக்’ (needle-in-a-haystack) பணி பயன்படுத்தப்பட்டது, மேலும் ஈவோ 2 ஆனது 1 மில்லியன் டோக்கன் சூழலில் பயனுள்ள மீட்டெடுப்பைச் செயல்படுத்துகிறது என்பதைக் காட்டுகிறது.

Evo 2 AI மரபணு மாதிரி என்றால் என்ன?

Evo 2 என்பது DNA, RNA மற்றும் புரதங்களின் செயல்பாடுகளைப் புரிந்துகொள்ள உருவாக்கப்பட்ட அதிநவீன இயந்திர கற்றல் (Machine Learning) மாதிரியாகும். முந்தைய தலைமுறை மாடல்களை விட இது மிகவும் மேம்பட்டது. OpenGenome2 எனப்படும் மாபெரும் தரவுத்தொகுப்பைக் கொண்டு இது பயிற்றுவிக்கப்பட்டுள்ளது.

இதில் பாக்டீரியா (Bacteria), ஆர்க்கியா (Archaea), யூகேரியா (Eukarya) மற்றும் ஃபேஜ் (Phage) ஆகிய அனைத்து வகையான உயிரினங்களின் மரபணுக்களும் அடங்கும். இந்த மாடல் இரண்டு முக்கிய அளவுகளில் வெளியிடப்பட்டுள்ளது:

  • Evo 2 7B: 7 பில்லியன் அளருபுருக்கள் (Parameters) கொண்டது.
  • Evo 2 40B: 40 பில்லியன் அளருபுருக்கள் கொண்டது.

1 மில்லியன் டோக்கன் கான்டெக்ஸ்ட் விண்டோ (Context Window)

பொதுவாக AI மாடல்களில் ‘கான்டெக்ஸ்ட் விண்டோ’ என்பது அது ஒரே நேரத்தில் நினைவில் வைத்து பகுப்பாய்வு செய்யும் தகவல்களின் அளவைக் குறிக்கும். Evo 2 மாடலானது 1 மில்லியன் பேஸ் பேர் (Base pairs) அளவுள்ள தரவுகளை ஒரே நேரத்தில் கையாளும் திறன் கொண்டது. இதன் மூலம், மிக நீண்ட மரபணுத் தொடர்களில் உள்ள நுட்பமான தொடர்புகளை இதனால் எளிதாக அடையாளம் காண முடிகிறது.

Evo 2 தொழில்நுட்பத்தின் பின்னணி: StripedHyena 2

இந்த மாபெரும் AI மாதிரியை இயக்குவதற்கு சாதாரண ட்ரான்ஸ்ஃபார்மர் (Transformer) தொழில்நுட்பம் மட்டும் போதாது. எனவே, ஆராய்ச்சியாளர்கள் StripedHyena 2 எனப்படும் புதிய கட்டமைப்பைப் பயன்படுத்தியுள்ளனர்.

- Advertisement -

இது ‘கான்வல்யூஷனல் மல்டி-ஹைப்ரிட்’ (Convolutional multi-hybrid) தொழில்நுட்பமாகும். நீண்ட DNA வரிசைகளை மிக வேகமாகப் பகுப்பாய்வு செய்ய இது உதவுகிறது. சாதாரண ட்ரான்ஸ்ஃபார்மர்களை விட இது 3 மடங்கு அதிக வேகத்தில் (Throughput) செயல்படுகிறது. இந்த தொழில்நுட்பம் காரணமாகவே, குறைந்த கம்ப்யூட்டிங் செலவில் அதிக துல்லியத்தை Evo 2 வழங்குகிறது.

செயற்கை நுண்ணறிவு மருத்துவத் துறையை எவ்வாறு மாற்றுகிறது என்பதை இங்கே படியுங்கள்.

மரபணுப் பிறழ்வுகளை கணிக்கும் ஆற்றல்

இந்த Evo 2 AI மரபணு மாதிரி-யின் மிக முக்கியமான சிறப்பம்சங்களில் ஒன்று, மரபணுப் பிறழ்வுகளின் (Genetic Mutations) விளைவுகளைக் கணிப்பதாகும். மனித உடலின் DNA-வில் ஏற்படும் சிறு மாற்றங்கள் கூட புற்றுநோய் போன்ற கொடிய நோய்களுக்கு வழிவகுக்கலாம்.

ஜீரோ-ஷாட் (Zero-shot) கணிப்பு முறை

Evo 2 மாடலுக்கு மனித நோய்கள் குறித்தோ அல்லது மருத்துவத் தரவுகள் குறித்தோ எந்தவொரு நேரடிப் பயிற்சியும் அளிக்கப்படவில்லை. இருந்தபோதிலும், இது தனது பொதுவான உயிரியல் அறிவைக் கொண்டு (Zero-shot prediction) எந்த ஒரு DNA மாற்றமும் ஆபத்தானதா (Pathogenic) அல்லது சாதாரணமானதா (Benign) என்பதைத் துல்லியமாகக் கணிக்கிறது.

குறிப்பாக, மார்பகப் புற்றுநோயுடன் தொடர்புடைய BRCA1 மற்றும் BRCA2 மரபணுக்களில் ஏற்படும் மாற்றங்களைக் கணிப்பதில், தற்போது பயன்பாட்டில் உள்ள பல முன்னணி AI மாடல்களை விட Evo 2 சிறப்பாகச் செயல்படுகிறது.

Evo 2 AI மரபணு மாதிரி மூலம் புதிய DNA வடிவமைப்பு

Evo 2 வெறுமனே தகவல்களைப் படிக்கும் கருவி மட்டுமல்ல; இது புதிய மரபணுக்களை வடிவமைக்கும் ‘ஜெனரேட்டிவ் AI’ (Generative AI) ஆகவும் செயல்படுகிறது.

  • மைட்டோகாண்ட்ரியல் மரபணுக்கள் (Mitochondrial Genomes): மனித மைட்டோகாண்ட்ரியாவின் ஒரு சிறு பகுதியைக் கொடுத்தால், மீதமுள்ள முழு 16-kb DNA தொடரையும் Evo 2 சுயமாகப் பிழையின்றி உருவாக்கித் தருகிறது.
  • முழு உயிரணு வடிவமைப்பு: ஈஸ்ட் (Yeast) போன்ற யூகாரியோடிக் (Eukaryotic) உயிரினங்களின் குரோமோசோம்களையும், ப்ரோகாரியோடிக் (Prokaryotic) உயிரினங்களின் மரபணு அமைப்புகளையும் இது வெற்றிகரமாக உருவாக்கியுள்ளது.

க்ரோமாட்டின் வடிவமைப்பு (Chromatin Accessibility)

மருத்துவ ஆராய்ச்சியில், DNA-வின் எந்தப் பகுதி செயல்பட வேண்டும் (Open chromatin) என்பதைக் கட்டுப்படுத்துவது மிகவும் சவாலான விஷயம். Evo 2 மாடலுடன், Enformer மற்றும் Borzoi போன்ற பிற AI கருவிகளை இணைப்பதன் மூலம், ஆராய்ச்சியாளர்கள் விரும்பியபடி செயல்படும் புதிய DNA தொடர்களை வடிவமைக்க முடியும். இதனை எலிகளின் ஸ்டெம் செல்களில் (mESCs) செலுத்தி வெற்றிகரமாகவும் சோதித்துள்ளனர்.

DNA வரிசைமுறை மற்றும் ஜீனோம் டிசைனிங் குறித்த மேலதிக தகவல்களை நேச்சர் இதழில் படிக்கலாம்.

உயிரியல் பாதுகாப்பு மற்றும் நெறிமுறைகள்

எந்தவொரு புதிய உயிரியல் தொழில்நுட்பமும் தவறான கைகளுக்குச் சென்றால் பெரும் ஆபத்தை விளைவிக்கலாம். இதை கருத்தில் கொண்டு, Evo 2 ஆராய்ச்சியாளர்கள் மிகக் கடுமையான பாதுகாப்பு நெறிமுறைகளைப் பின்பற்றியுள்ளனர்.

Evo 2-வின் பயிற்சித் தரவுகளில் இருந்து, மனிதர்களை மற்றும் விலங்குகளைத் தாக்கும் அனைத்து ‘யூகாரியோடிக் வைரஸ்’ (Eukaryotic Viruses) மரபணுக்களும் முன்கூட்டியே நீக்கப்பட்டுவிட்டன. இதனால், இந்த AI-யை பயன்படுத்தி புதிய கொடிய வைரஸ்களை உருவாக்குவது சாத்தியமற்றது என உறுதி செய்யப்பட்டுள்ளது. இது AI நெறிமுறைகளில் (AI Ethics) ஒரு மிகச்சிறந்த முன்னுதாரணமாகும்.

மருத்துவ மற்றும் அறிவியல் துறையில் இதன் தாக்கம்

Evo 2 AI மரபணு மாதிரி மருத்துவ உலகில் பல புதிய கதவுகளைத் திறந்துள்ளது:

  1. துல்லிய மருத்துவம் (Precision Medicine): நோயாளிகளின் மரபணுக்களை பகுப்பாய்வு செய்து, அவர்களுக்கு எந்த மருந்து சிறப்பாகச் செயல்படும் என்பதை முன்கூட்டியே கணிக்க முடியும்.
  2. புதிய மருந்து கண்டுபிடிப்பு: புரதங்கள் மற்றும் RNA-க்களின் செயல்பாடுகளைப் புரிந்துகொள்வதன் மூலம், இதுவரை குணப்படுத்த முடியாத நோய்களுக்கும் புதிய மருந்துகளைக் கண்டறியலாம்.
  3. சுற்றுச்சூழல் உயிரியல்: பிளாஸ்டிக்கை அழிக்கும் பாக்டீரியாக்கள் போன்ற பயனுள்ள புதிய நுண்ணுயிரிகளை செயற்கையாக வடிவமைக்க இது உதவும்.

முடிவுரை

சுருக்கமாகச் சொன்னால், Evo 2 AI மரபணு மாதிரி என்பது உயிரியல் தொழில்நுட்பத்தின் அடுத்த மைல்கல்லாகும். 9 டிரில்லியன் தரவுகள், 1 மில்லியன் டோக்கன் விண்டோ, மற்றும் எவ்வித முன்-பயிற்சியும் இன்றி மரபணுக்களைக் கணிக்கும் ஜீரோ-ஷாட் (Zero-shot) திறன் ஆகியவையே இதன் மாபெரும் வெற்றிக்குக் காரணமாகும். வருங்காலத்தில் நோய்களற்ற சமூகத்தை உருவாக்குவதில் இந்த AI மாடல் ஒரு முக்கியப் பங்காற்றும் என்பதில் எவ்வித சந்தேகமும் இல்லை.

உயிரியல் மற்றும் AI தொழில்நுட்பத்தின் இந்த வியக்கத்தக்க பயணம் குறித்து நீங்கள் என்ன நினைக்கிறீர்கள்? உங்கள் கருத்துக்களை கீழே பகிருங்கள், மேலும் இது போன்ற அறிவியல் கட்டுரைகளுக்கு எங்கள் செய்திமடலில் (Newsletter) இணையுங்கள்!

அடிக்கடி கேட்கப்படும் கேள்விகள் (FAQs)

Evo 2 AI மரபணு மாதிரி என்றால் என்ன?

Evo 2 என்பது 9 டிரில்லியன் DNA தரவுகளைக் கொண்டு பயிற்றுவிக்கப்பட்ட ஒரு மேம்பட்ட செயற்கை நுண்ணறிவு (AI) அடிப்படை மாதிரியாகும். இது பாக்டீரியா முதல் மனிதர்கள் வரையிலான அனைத்து உயிரினங்களின் மரபணு செயல்பாடுகளையும் கணிக்கவும், புதிய DNA-க்களை வடிவமைக்கவும் பயன்படுகிறது.

ஜீரோ-ஷாட் (Zero-shot) கணிப்பு முறை என்றால் என்ன?

ஜீரோ-ஷாட் கணிப்பு என்பது, ஒரு AI மாடலுக்கு குறிப்பிட்ட ஒரு வேலைக்காக (உதாரணமாக: புற்றுநோய் கணிப்பு) சிறப்புப் பயிற்சி அளிக்கப்படாவிட்டாலும், தனது பொதுவான அறிவைக் கொண்டு அந்த வேலையைத் துல்லியமாகச் செய்யும் திறனைக் குறிக்கும். Evo 2 இதில் மிகச் சிறப்பாகச் செயல்படுகிறது.

Evo 2 மாடல் மூலம் புதிய வைரஸ்களை உருவாக்க முடியுமா?

முடியாது. உயிரியல் பாதுகாப்பைக் கருத்தில் கொண்டு, மனிதர்கள் மற்றும் விலங்குகளைத் தாக்கும் வைரஸ்களின் DNA தரவுகள் Evo 2-வின் பயிற்சித் தரவுகளில் இருந்து முழுமையாக நீக்கப்பட்டுள்ளன. எனவே, தீங்கிழைக்கும் வைரஸ்களை இதனால் உருவாக்க முடியாது.

1 மில்லியன் டோக்கன் கான்டெக்ஸ்ட் விண்டோ என்பதன் பயன் என்ன?

இது AI-யின் நினைவக அளவைக் குறிக்கிறது. 1 மில்லியன் டோக்கன் விண்டோ மூலம், Evo 2 மாடலானது மிக நீண்ட மரபணுத் தொடர்களை (சுமார் 1 மில்லியன் DNA எழுத்துக்களை) ஒரே நேரத்தில் வாசித்து, அவற்றுக்கு இடையேயான தொடர்புகளை ஆழமாகப் பகுப்பாய்வு செய்ய முடியும்.

மருத்துவத் துறையில் Evo 2-ன் முக்கிய பங்கு என்ன?

BRCA1 போன்ற சிக்கலான மரபணுப் பிறழ்வுகள் புற்றுநோயை உருவாக்குமா என்பதை முன்கூட்டியே கணிக்க Evo 2 உதவுகிறது. மேலும், நோய்களைக் குணப்படுத்தத் தேவையான புதிய புரதங்கள் மற்றும் மருந்து மூலக்கூறுகளை வடிவமைக்கவும் இது பெரிதும் பயன்படுகிறது.

Share This Article
Leave a Comment