DeepSeek-V4-Flash என்றால் LLM திசை மீண்டும் உற்சாகமாக உள்ளது என்று அர்த்தம்

கோல்டன் கேட் கிளாட் முதல், “ஸ்டீயரிங்” மூலம் நான் ஈர்க்கப்பட்டேன்: பறக்கும்போது மாதிரி செயல்பாடுகளை நேரடியாகக் கையாளுவதன் மூலம் LLM முடிவுகளை நீங்கள் வழிநடத்தலாம் என்ற எண்ணம்.

டீப்சீக் வி4 ஃப்ளாஷ்

ஆண்டிரெஸின் சமீபத்திய ட்வார்ஃப்ஸ்டார் 4 திட்டத்தால் இந்த இடுகையை எழுத நான் தூண்டப்பட்டேன், இது llama.cpp இன் பதிப்பாகும், இது DeepSeek-V4-Flash ஐ மட்டும் இயக்குவதற்கு குறைக்கப்பட்டுள்ளது. இந்த மாதிரியின் சிறப்பு என்ன? இது பல பொறியாளர்கள் காத்திருக்கும் விஷயமாக இருக்கலாம்: குறைந்த பட்சம் எல்லை மாடலின் ஏஜென்ட் குறியீட்டுடன் போட்டியிடுவதற்கு போதுமான உள்ளூர் மாடல்.

திசைமாற்றிக்கு உள்ளூர் மாடல் தேவைப்படுவதால், பல பொறியாளர்கள் முதன்முறையாக அதை முயற்சிப்பது இப்போது நடைமுறையில் உள்ளது. உண்மையில், ஆன்டிரெஸ் ட்வார்ஃப்ஸ்டார் 4 இல் ஒரு முதல் தர குடிமகனாக இயக்கத்தை அறிமுகப்படுத்தியது. இந்த நேரத்தில் இது மிகவும் அடிப்படையானது (அடிப்படையில் நீங்கள் கோரிக்கையின் மூலம் நகலெடுக்கக்கூடிய பொம்மையின் “வெர்போசிட்டி” உதாரணம்), ஆனால் ஆரம்ப வெளியீடு எட்டு நாட்களுக்கு முன்புதான். இந்த திட்டத்தை நான் நெருக்கமாக பின்பற்ற திட்டமிட்டுள்ளேன்.

திசைமாற்றி எவ்வாறு செயல்படுகிறது

வாகனம் ஓட்டுவதற்குப் பின்னால் உள்ள அடிப்படை யோசனை, மாதிரியின் உள் மூளை நிலையில் இருந்து ஒரு கருத்தை (“சுருக்கமாக பதில்” போன்றவை) பிரித்தெடுக்க வேண்டும், பின்னர் அனுமானத்தின் போது தட்டவும் மற்றும் அந்த கருத்தை உருவாக்கும் எண்ணியல் செயல்பாடுகளைத் தூண்டவும்.

நீங்கள் இதைச் செய்யக்கூடிய ஒரு வழி, உங்கள் மாடலுக்கு ஒரே மாதிரியான நூறு ப்ராம்ப்ட்களை இருமுறை ஊட்டுவது, ஒருமுறை சாதாரண ப்ராம்ட்கள் மற்றும் ஒருமுறை “சுருக்கமாகப் பதில்” என்ற சொற்கள் சேர்க்கப்படும். பின்னர் மாதிரி செயல்படுத்தல்களுக்கு இடையிலான வேறுபாட்டை அளவிடவும்^{ஒவ்வொரு ப்ராம்ட் ஜோடிக்கும் (ஒரு ஆக்டிவேஷன் மேட்ரிக்ஸை மற்றொன்றிலிருந்து கழிப்பதன் மூலம்). இதுவே “திசை திசையன்”. கோட்பாட்டில், எந்தத் தூண்டுதலுக்கும் இதை அதே செயல்படுத்தல் லேயரில் சேர்க்கலாம் மற்றும் அதே விளைவைப் பெறலாம் (சுருக்கமான பதிலளிக்கக்கூடிய டெம்ப்ளேட்டின்).}

உங்கள் மாதிரியின் செயல்பாடுகளிலிருந்து “பண்புகளை” பிரித்தெடுக்க இரண்டாவது மாதிரியைப் பயிற்றுவிப்பதே நீங்கள் இதைச் செய்யக்கூடிய மற்றொரு, அதிநவீன வழி: ஒன்றாக நடப்பது போல் தோன்றும் நடத்தை முறைகள். நீங்கள் இந்த அம்சங்களை தனிப்பட்ட கருத்துகளுக்கு மீண்டும் வரைபடமாக்க முயற்சி செய்யலாம் மற்றும் அதே வழியில் அவற்றை மேம்படுத்தலாம். இது அதிகமாகவோ அல்லது குறைவாகவோ ஆந்த்ரோபிக் ஸ்பேர்ஸ் ஆட்டோஎன்கோடர்களுடன் செய்கிறது^{. இது அப்பாவி அணுகுமுறையின் அதே கொள்கையாகும், ஆனால் ஆழமான வடிவங்களைப் பிடிக்க உங்களை அனுமதிக்கிறது (நேரம், கணக்கீடு மற்றும் நிபுணத்துவம் ஆகியவற்றில் மிகவும் விலை உயர்ந்தது).}

ஏன் திசை சுவாரசியமானது

திசை ஒரு ஏமாற்று குறியீடு போல் தெரிகிறது. மாடலை அதன் பயிற்சித் தரவுகளில் விநியோகத்தின் “ஸ்மார்ட்” முடிவை நோக்கித் தள்ள முயற்சிக்கும் பயிற்சித் தொகுப்பை கவனமாகக் கூட்டுவதற்குப் பதிலாக, மாடலின் மூளையில் உள்ள “ஸ்மார்ட்” டயலைக் கண்டுபிடித்து அதை முழுவதுமாக மாற்றுவது ஏன்?

மாடல்கள் பேசும் விதத்தை சரிசெய்வதற்கு இது மிகவும் நேர்த்தியான வழியாகவும் தெரிகிறது. உடனடியாகப் போராடுவதற்குப் பதிலாக (“SHOULD” போன்ற தகுதிகளைச் சேர்ப்பது அல்லது அகற்றுவது), “சுருக்கம்/சொற்கள்” அல்லது “விழிப்புணர்வு/வேகம்” போன்ற ஸ்லைடர்களைக் கொண்ட ஒரு கட்டுப்பாட்டுப் பலகத்தை வைத்து அவற்றை நேரடியாக நகர்த்த முடியவில்லையா?

இறுதியாக, அது தான் குளிர். கோல்டன் கேட் கிளாட் தெரியாமல் ஒவ்வொரு வாக்கியத்தையும் கோல்டன் கேட் பாலத்திற்கு இழுப்பதைப் பார்ப்பது ஆலிவர் சாக்ஸின் நரம்பியல் நிகழ்வுகளைப் போலவே கண்கவர் மற்றும் அமைதியற்றது. உங்கள் சொந்த மனமும் இதே வழியில் சரிசெய்யப்பட்டால் என்ன செய்வது? அது இன்னும் நீயாக இருக்குமா?

திசை ஏன் பயன்படுத்தப்படவில்லை

நாம் ஏன் அதிகமாக ஓட்டக்கூடாது? சாட்ஜிபிடி மற்றும் கிளாட் கோட் ஏன் ஏற்கனவே டாஷ்போர்டைக் கொண்டிருக்கவில்லை, அங்கு மாடலின் மூளையை நீங்கள் நிகழ்நேரத்தில் சரிசெய்யலாம்? துரதிர்ஷ்டவசமாக AI ஆராய்ச்சியில் திசைவழி என்பது ஒரு “நடுத்தர வர்க்க” யோசனையாக இருப்பது ஒரு காரணம்.

அவை பெரிய செயற்கை நுண்ணறிவு ஆய்வகங்களுக்கு கீழே உள்ளன, அவை மோசமான மூளை அறுவை சிகிச்சையின் நடுவில் அனுமானம் செய்யாமல் நேரடியாக தங்கள் மாதிரிகளை கையாள முடியும். ஆந்த்ரோபிக் இந்த விஷயங்களில் வேலை செய்கிறது, ஆனால் பெரும்பாலும் ஒரு விளக்கம் மற்றும் பாதுகாப்பு கண்ணோட்டத்தில் (எனக்குத் தெரிந்தவரை). ஒரு மாதிரி ஒரு குறிப்பிட்ட வழியில் நடந்து கொள்ள வேண்டும் என்று அவர்கள் விரும்பினால், அவர்கள் திசையில் குழப்பமடைய மாட்டார்கள், அவர்கள் மாதிரியைப் பயிற்றுவிப்பார்கள்.

உங்களையும் என்னையும் போன்ற வழக்கமான AI பயனர்களுக்கு ஸ்டீயரிங் அணுகக்கூடியது^{ஏபிஐ மூலம் எல்எல்எம்களைப் பயன்படுத்துகிறது, எனவே மாடலை இயக்குவதற்குத் தேவையான மாதிரி எடைகள் அல்லது செயல்படுத்தல்களுக்கான அணுகல் இல்லை. எடுத்துக்காட்டாக, GPT-5.5 க்கான திசை திசையன்களை OpenAI மட்டுமே அடையாளம் காண அல்லது வெளிப்படுத்த முடியும். ஓப்பன் வெயிட் மாடல்களுக்கு இதைச் செய்யலாம், ஆனால் சமீப காலம் வரை (அதைப் பற்றி மேலும்) அதைச் செய்யத் தகுந்த மாதிரிகள் போதுமானதாக இல்லை.}

கூடுதலாக, ஸ்டீயரிங் மிகவும் அடிப்படை பயன்பாடுகள் மாடலைக் கேட்பதன் மூலம் சமாளிக்கப்படுகின்றன. மாடலின் மூளையை நேரடியாகக் கையாள முடியும் என்பது மிகவும் சுவாரஸ்யமாகத் தெரிகிறது. ஆனால் மூளை நேரடியாக வேறு எதைக் கையாளுகிறது என்று உங்களுக்குத் தெரியுமா? உடனடி டோக்கன்கள். ஸ்டீயரிங் செயல்பாடுகளில் நீங்கள் மிகச் சிறந்த கட்டுப்பாட்டை செலுத்தலாம், ஆனால் நீங்கள் ஏற்கனவே உடற்பயிற்சி செய்யலாம் மிகவும் உங்கள் வரியில் மொழியை மாற்றுவதன் மூலம் சிறந்த கட்டுப்பாடு. வேறு வார்த்தைகளில் கூறுவதானால், உங்களால் முடிந்தவரை மிகவும் சொற்பொழிவாக இருக்க ஒரு மாதிரியை ஓட்டுவதில் சிக்கலுக்குச் செல்வதில் அதிக அர்த்தமில்லை. என்று கேட்கிறார்.

எதிர்பாராததை நிர்வகித்தல்

உரிமைகோர முடியாத ஒரு கருத்தை நாம் அடையாளம் காண முடிந்தால், திசை மிகவும் பயனுள்ளதாக இருக்கும். ஆனால் “உளவுத்துறை”? உங்களால் நுண்ணறிவைக் கோர முடியும் – அதனால்தான் 40களின் ப்ராம்ட் எப்போதும் “நீங்கள் ஒரு நிபுணன்” என்று தொடங்கும் – ஆனால் தற்போதைய தலைமுறை மாதிரிகள் அதைத் தங்கள் ஆளுமையில் கொண்டிருக்கின்றன, எனவே ப்ராம்ட் எதுவும் செய்யாது. ஒருவேளை இதற்கான திசை இன்னும் வேலை செய்யுமா?

இறுதியில், இது ஒரு அனுபவபூர்வமான கேள்வி, ஆனால் நாம் ஒரு “ஸ்மார்ட்” ஸ்டீயரிங் வெக்டரைக் கண்டுபிடிக்க முடியுமா என்று நான் சந்தேகிக்கிறேன். வேறு வார்த்தைகளில் கூறுவதானால், “அறிவுத்திறன்” போன்ற கடினமான ஒரு கருத்தை உருவாக்கும் திசை திசையன் முழு மாதிரி எடையுடன் கிட்டத்தட்ட ஒருங்கிணைந்ததாக இருக்கலாம், மேலும் அதன் அடையாளம் “ஒரு அறிவார்ந்த மாதிரியைப் பயிற்றுவிப்பதில்” சிக்கலைக் குறைக்கிறது.

ஒரு அதிநவீன போதுமான ஸ்டீயரிங் அணுகுமுறை தற்போதைய மாடலை மாற்றுகிறது. நான் GPT-2 ஐ எடுத்துக் கொண்டால், ஒவ்வொரு அடுக்கிலும் அதே கட்டமைப்பைக் கொண்ட மிகவும் சக்திவாய்ந்த மாதிரியிலிருந்து செயல்படுத்தல்களுடன் செயல்படுத்தல்களை மாற்றினால், நான் மிகச் சிறந்த முடிவைப் பெறுவேன். ஆனால் அந்த நேரத்தில் நீங்கள் GPT-2 ஐ சிறந்ததாக மாற்றவில்லை, நீங்கள் வலுவான மாதிரியுடன் பேசுகிறீர்கள். புத்திசாலித்தனம் திசையில் உள்ளது, முறை அல்ல. இதைப் பற்றி மேலும் அறிய, எனது இடுகையைப் பார்க்கவும் AI இன் வியாக்கியானம், மனதின் தத்துவம் போன்ற பிரச்சனைகளைக் கொண்டுள்ளது.

தரவு சுருக்கமாக திசை

ஒரு டன் டோக்கன்களை வெளிப்படுத்தும் ஒரு கருத்தை எப்படியாவது இயக்கினால் திசை பயனுள்ளதாக இருக்கும். திசையானது, மாதிரியின் சூழல் சாளரத்தின் பெரும்பகுதியைச் சேமிக்கும். உள்ளுணர்வாக, மாதிரியின் செயல்பாட்டு நினைவகத்திலிருந்து அதன் இயல்புநிலை நினைவகத்திற்கு ஒரு கருத்தை மாற்றுவதற்கான ஒரு வழியாக இதை நாம் நினைக்கலாம்.

எடுத்துக்காட்டாக, “குறிப்பிட்ட குறியீட்டுத் தளங்களின் அறிவு” என்ற கருத்தை நாம் அடையாளம் காண முடிந்தால் என்ன செய்வது? GPT-5.5 வேகம்-எனது கோட்பேஸைப் படிக்கும் போது, அது பெறும் அறிவு சில செயல்களில் புதைக்கப்பட வேண்டும், இல்லையா? ஒருவேளை நாம் அதை மிகப் பெரிய திசை வெக்டருக்கு இழுக்கலாம்.

அது வேலை செய்ய முடியுமா என்று நான் ஆச்சரியப்படுவேன். “அறிவுத்திறனை” பிரித்தெடுப்பது போன்ற அதே சிக்கலை நாமும் சந்திக்க நேரிடும் என்று நினைக்கிறேன்: “எனது கோட்பேஸை அறிவது” என்ற கருத்து ஒரு முழுமையான மாதிரி சரிசெய்தல் தேவைப்படும் அளவுக்கு அதிநவீனமானது.^{. ஆனால் குறைந்தபட்சம் அது சாத்தியமாகத் தெரிகிறது.}

முடிவுரை

நான் இயக்கத்தால் ஈர்க்கப்பட்டேன், ஆனால் நான் அதைப் பற்றி குறிப்பாக நம்பிக்கையுடன் இல்லை. பெரும்பாலான ஆதாயங்களை கோரிக்கைகள் மூலம் மிகவும் திறம்பட மறுஉருவாக்கம் செய்ய முடியும் என்று நான் நம்புகிறேன், மேலும் உண்மையில் லட்சிய திசைமாற்றி இலக்குகளை பயிற்சி அல்லது மாதிரியை நன்றாகச் சரிசெய்வதன் மூலம் மிகவும் திறம்பட இனப்பெருக்கம் செய்ய முடியும்.

இருப்பினும், திறந்த மூல சமூகம் இன்னும் அந்த திசையில் செயல்படவில்லை, அது இப்போது மாறத் தொடங்கலாம். அவை தவறாக இருந்தால் மற்றும் நடைமுறை பயன்பாடுகள் இருந்தால், அடுத்த ஆறு மாதங்களுக்குள் கண்டுபிடிக்க வேண்டும்.

DwarfStar 4 போன்ற ஒவ்வொரு மாடலுக்குமான தனிப்பயன் கருவிகள் மேம்படுத்தப்பட்ட அம்சங்களின் “நூலகம்” உட்பட முடிவடைகிறதா என்பதைப் பார்ப்பது சுவாரஸ்யமாக இருக்கும். பிரபலமான ஓப்பன் வெயிட் மாடல் வெளியிடப்படும் போது, சமூகம் எப்பொழுதும் பேக் மற்றும் ஸ்கேல்டு பில்ட்களின் தொகுப்பை வெளியிட விரைகிறது. மாதிரியிலிருந்து பூஸ்ட் செயல்பாடுகளைப் பிரித்தெடுப்பதற்கான அவசரத்தையும் நாம் பார்க்க முடியுமா?

இதனுடன் குறிச்சொற்களைப் பகிரும் இதேபோன்ற இடுகையின் முன்னோட்டம் இதோ.