Google Gemma 4 AI மாதிரிகள் எதிர்கால டோக்கன்களை கணிப்பதன் மூலம் மூன்று மடங்கு வேகத்தை அதிகரிக்கின்றன

கூகுள் தனது ஜெம்மா 4 ஓபன் மாடல்களை இந்த வசந்த காலத்தில் வெளியிட்டது, இது உள்ளூர் AIக்கான புதிய அளவிலான ஆற்றல் மற்றும் செயல்திறனை உறுதியளிக்கிறது. ஜெம்மாவுக்கான மல்டி-டோக்கன் ப்ரெடிக்ஷன் (எம்டிபி) எடிட்டர்களை வெளியிடுவதன் மூலம், அதிநவீன AI பற்றிய கூகிளின் புரிதல் ஏற்கனவே இன்னும் வேகமாகப் பெறலாம். இந்த சோதனை மாதிரிகள் எதிர்கால டோக்கன்களை யூகிக்க ஊக டிகோடிங்கின் ஒரு வடிவத்தைப் பயன்படுத்துகின்றன என்று கூகிள் கூறுகிறது, இது மாதிரிகள் தாங்களாகவே டோக்கன்களை எவ்வாறு உருவாக்குகின்றன என்பதை ஒப்பிடும்போது உற்பத்தியை விரைவுபடுத்தும்.

சமீபத்திய ஜெம்மா மாதிரிகள் கூகுளின் AI ஜெமினி எல்லையை இயக்கும் அதே முக்கிய தொழில்நுட்பத்தில் கட்டமைக்கப்பட்டுள்ளன, ஆனால் உள்நாட்டில் இயங்குவதற்கு டியூன் செய்யப்பட்டுள்ளன. ஜெமினியானது கூகுளின் தனிப்பயன் TPU சில்லுகளில் இயங்குவதற்கு உகந்ததாக உள்ளது, இது அதிவேக இடைத்தொடர்புகள் மற்றும் நினைவகத்துடன் பாரிய கிளஸ்டர்களில் வேலை செய்கிறது. ஒரு உயர் ஆற்றல் கொண்ட AI முடுக்கியானது மிகப்பெரிய Gemma 4 மாடலை அதிகபட்ச துல்லியத்துடன் இயக்க முடியும், மேலும் அளவீடு அதை நுகர்வோர் GPU இல் இயக்க அனுமதிக்கும்.

கூகுள் அல்லது வேறு யாரோ கிளவுட் AI அமைப்புடன் தங்கள் எல்லா தரவையும் பகிர்வதை விட பயனர்கள் தங்கள் சொந்த வன்பொருளில் AI உடன் வேலை செய்ய Gemma அனுமதிக்கிறது. கூகிள் ஜெம்மா 4 க்கான உரிமத்தை அப்பாச்சி 2.0 ஆக மாற்றியது, இது முந்தைய பதிப்புகளுக்கு கூகிள் பயன்படுத்திய தனிப்பயன் ஜெம்மா உரிமத்தை விட மிகவும் அனுமதிக்கப்படுகிறது. இருப்பினும், பெரும்பாலான மக்கள் உள்ளூர் AI மாதிரிகளை இயக்க வேண்டிய வன்பொருளில் உள்ளார்ந்த வரம்புகள் உள்ளன. இங்குதான் எம்டிபி வருகிறது.

ஜெம்மா (அல்லது ஜெமினி) போன்ற எல்.எல்.எம்கள் டோக்கன்களை தானாகவே பிற்போக்குத்தனமாக உருவாக்குகின்றன – அதாவது, முந்தைய டோக்கனின் அடிப்படையில் அவை ஒரு நேரத்தில் ஒரு டோக்கனை உருவாக்குகின்றன. ஒவ்வொருவருக்கும் கடைசியாக எவ்வளவு கணக்கீட்டு வேலை தேவைப்படுகிறது, சின்னம் ஒரு வெளியீட்டில் ஒரு நிரப்பு வார்த்தையாக இருந்தாலும் அல்லது சிக்கலான தர்க்க சிக்கலில் உள்ள முக்கிய தகவலாக இருந்தாலும் சரி.

உங்கள் சொந்த AI ஐ இயக்குவதில் உள்ள சிக்கல் என்னவென்றால், நிறுவன வன்பொருளில் பயன்படுத்தப்படும் உயர் அலைவரிசை நினைவகத்துடன் (HBM) ஒப்பிடும்போது கணினி நினைவகம் மிக வேகமாக இருக்காது. இதன் விளைவாக, ஒவ்வொரு டோக்கனுக்கும் அலகுகளைக் கணக்கிடுவதற்கு VRAM இலிருந்து அளவுருக்களை நகர்த்துவதற்கு செயலி அதிக நேரம் செலவிடுகிறது, மேலும் இந்தச் செயல்பாட்டின் போது கணக்கீட்டு சுழற்சிகள் பயன்படுத்தப்படாமல் இருக்கும்.

என்விடியா ஆர்டிஎக்ஸ் ப்ரோ 6000 இல் ஜெம்மா 4 26 பி அதே வெளியீட்டுத் தரம், பாதி காத்திருப்பு நேரம்.

MTP இந்த நேரத்தை கடின மாதிரியை கடந்து, ஒளி எடிட்டருடன் ஊக டோக்கன்களை உருவாக்குகிறது. வரைவு மாதிரிகள் சிறியதாக இருக்கும் போது (ஜெம்மா 4 E2B இல் 74 மில்லியன் அளவுருக்கள் மட்டுமே), அவை ஊக டோக்கன்களின் உருவாக்கத்தை விரைவுபடுத்த பல வழிகளில் மேம்படுத்தப்பட்டுள்ளன. எடுத்துக்காட்டாக, எடிட்டர் முக்கிய-மதிப்பு கேச் (எல்.எல்.எம் இன் செயலில் உள்ள நினைவகம்) ஐப் பகிர்ந்து கொள்கிறது. E2B மற்றும் E4B பிளேயர்கள், டோக்கன்களின் குழுக்களைக் குறைக்க ஒரு சிறிய டிகோடிங் நுட்பத்தையும் பயன்படுத்துகின்றன.