. முதலில், நான் எனது சீன குறியீட்டு உதவியாளருடன் வேலை செய்கிறேன். இருப்பினும், எனது எழுத்துகள் பெரும்பாலும் கலக்கப்படுகின்றன: பல பொறியியல் சொற்கள் ஆங்கிலத்தில் எனக்கு மிகவும் பரிச்சயமானவை (குறிப்பாக பைதான், ஜிட் போன்றவற்றில் நாம் பயன்படுத்தும் சொற்கள்), மேலும் சிலவற்றை இயற்கையாக சீன மொழியில் மொழிபெயர்ப்பது கடினம்.
நேற்று, எனது குறியீட்டு உதவியாளரிடம் சீன மொழியில் கேட்டேன்: “run.py有早停吗?我的恒源云上跑,电影息交报股”, அதாவது, “Run.py ஆரம்ப நிறுத்தத்தை செயல்படுத்துகிறதா? வழக்கம் போல், அசல் குறியீட்டை ஆங்கிலத்தில் டெக்னிக்கல் முறையில் டைப் செய்தேன். பின்வருவனவற்றுடன்:

அனைத்து தொழில்நுட்ப டோக்கன்களும் ஆங்கிலத்தில் இருந்தன (run.py, config.py, train_unified), விளக்க அமைப்பு கொரிய மொழிக்கு மாற்றப்பட்டது. இது ஒரு தனித்துவமான வழக்கு அல்ல. இது அவ்வப்போது நிகழ்ந்தது: நான் சீன மற்றும் ஆங்கில பொறியியல் சொற்களைக் கலந்தால், கொரிய மொழி எப்போதும் வந்தது.

இது என்னைக் கேட்க வழிவகுத்தது: இது மொழிப் பிரச்சினையா அல்லது உட்பொதிக்கும் இடத்தில் ஆழமானதா?
அனுமானம்
உட்பொதித்தல் இடைவெளிகள் முதன்மையாக மொழிகளின் தன்மையால் கட்டமைக்கப்படவில்லை. மொழி மாதிரிகளுடன் பயிற்சி பெற்ற பிறகு, அவை கல்வி எழுத்து, உரையாடல் உரை, மற்றும் குறியீட்டு உதவியாளர்கள், பொறியியல்/குறியீடு போன்ற பணிப் பதிவேடுகளாக ஒழுங்கமைக்கப்படுகின்றன. சீன மொழி, உலகின் மிகப்பெரிய மக்கள்தொகையால் பேசப்பட்டாலும், பொறியியல் பதிவேடுக்கான இயற்கையான ஊடகம் அல்ல மற்றும் தொழில்நுட்ப அமைப்புகளில் வரையறுக்கப்பட்ட பிரதிநிதித்துவத்தைக் கொண்டுள்ளது.
இத்தகைய சூழலில், பொறியியலின் டோக்கன்கள் வந்தவுடன், உட்பொதிக்கும் இடத்தில் உரை “சீனமாக” செயல்படுவதை நிறுத்தலாம். திருத்தம் / கிளை / உறுதி / PR / வேறுபாடு தோன்றும். அதற்கு பதிலாக, அது ஒரு பொறியியல் ஈர்ப்பு துறையில் செல்லலாம்.
இந்த கருதுகோளுக்கு அனுபவ ஆதாரங்களை வழங்க சில சோதனைகளை நடத்துவோம்.
நாவின் கட்டுப்படுத்தப்பட்ட சறுக்கல்
பின்வரும் கட்டுப்படுத்தப்பட்ட வாக்கியங்களை நாங்கள் உருவாக்குகிறோம், அதில் ஆங்கில வார்த்தைகள் படிப்படியாக சீன வார்த்தைகளை எடுத்துக் கொள்கின்றன:
நிலை 0: தயவுசெய்து இந்தக் கிளையைச் சரிபார்க்கவும்
நிலை 1: மதிப்பாய்வு
படி 2: கிளையை மதிப்பாய்வு செய்யவும்
படி 3: இந்த கிளை இழுப்பு கோரிக்கையை மதிப்பாய்வு செய்யவும்
படி 4: இந்த கிளையை இழுக்க கோரிக்கை கமிட் குறியீட்டை மதிப்பாய்வு செய்யவும்
வாக்கிய உட்பொதிப்புகளுக்கு இடையே உள்ள கொசைன் ஒற்றுமையைப் பயன்படுத்தி இப்போது ஒற்றுமையைக் கணக்கிடுகிறோம். கொரிய மற்றும் ஆங்கில “கிளஸ்டர்களை” ஒவ்வொரு மொழியிலும் ஒரு சிறிய பிரதிநிதித்துவ பொறியியல் தொடர்பான வாக்கியங்களின் சராசரி உட்பொதிப்பாக வரையறுக்கிறோம். ஆங்கிலம் மற்றும் கொரிய ஒற்றுமை மதிப்பெண்களுக்கு இடையிலான வேறுபாட்டைக் குறிக்க Δ (EN – KO) ஐப் பயன்படுத்துகிறோம், அதாவது Δ = ஒற்றுமை (ஆங்கிலம்) – ஒற்றுமை (கொரியன்).
| மேடை | கொரிய தோற்றம் | ஆங்கில ஒற்றுமை | Δ (EN – KO) |
|---|---|---|---|
| 0 | 0.4783 | 0.5141 | 0.0358 |
| 1 | 0.5235 | 0.5728 | 0.0492 |
| 2 | 0.5474 | 0.6140 | 0.0665 |
| 3 | 0.5616 | 0.7314 | 0.1698 |
| 4 | 0.5427 | 0.7398 | 0.1972 |
ஒரு சுவாரஸ்யமான நிகழ்வை நாங்கள் கவனித்தோம்: கொரிய ஒற்றுமை முதலில் அதிகரிக்கிறது மற்றும் பின்னர் ஆங்கில ஒற்றுமையால் முந்தியது. மேலும், ஆங்கில ஒற்றுமையின் அதிகரிப்பு நேரியல் அல்லாதது, இது படிப்படியான சறுக்கலைக் காட்டிலும் ஒரு கட்ட மாற்றம் போன்ற நடத்தையைக் குறிக்கிறது.
PCA ஐப் பயன்படுத்தி உட்பொதிவுகளை இரு பரிமாணங்களில் திட்டமிடும்போது, ஆரம்ப நிலைகளில் ஒரு மென்மையான பாதையை நாம் கவனிக்கிறோம், அதைத் தொடர்ந்து நிலை 2 மற்றும் நிலை 3 க்கு இடையே கூர்மையான திசைத் தாவல் மற்றும் அடுத்தடுத்த நிலைப்படுத்தல். இந்த முறை உட்பொதிப்புகள் விண்வெளியில் நேர்கோட்டில் நகராது என்பதைக் குறிக்கிறது; மாறாக, அவை ஈர்ப்புப் படுகைகளுக்கு இடையே மாறுவது போல் தோன்றும்.

நிஜ உலகில் மாதிரி நடத்தை
நான் ஆரம்பத்தில் குறிப்பிட்ட வாக்கியத்தை மீண்டும் கவனியுங்கள். நான் கேட்டேன்:
A. “run.py有早停吗?我们恒源云上跑,电影没有时间”, அதாவது “Run.py ஆரம்பகால பணிநிறுத்தத்தை செயல்படுத்துகிறதா? நான் பகிரப்பட்ட GPU சேவையில் திட்டத்தை இயக்கிக் கொண்டிருந்தேன், அதை முன்கூட்டியே நிறுத்தவில்லை.”
B. “원이다 사랑이다. 가이: run.py 연이 조기 연이가 하이트. config.py config.py에에 கொரிய மொழியில் பயன்படுத்தவும்).
மீண்டும் சீன மொழியில் மொழிபெயர்க்கப்பட்டுள்ளது, எங்களிடம் உள்ளது:
C. “我手机了电影。 முடிவு:run.py உண்மையில் இல்லை早停。config.py里有 USE_EARLY_STOPPING = உண்மை.”
வாக்கிய உட்பொதிப்புகளுக்கு இடையே உள்ள கொசைன் ஒற்றுமையைப் பயன்படுத்தி A, B மற்றும் C ஆகியவற்றின் ஒற்றுமைகளைக் கணக்கிடுகிறோம். ஒப்பிட்டுப் பார்க்க, நாங்கள் மூன்று குறிப்புக் கிளஸ்டர்களை வரையறுக்கிறோம்: சீனக் கிளஸ்டர் என்பது இயற்கையான சீன மொழியில் பொது வாக்கியங்களின் சராசரி உட்பொதிப்பாகவும், ஆங்கிலம் மற்றும் கொரிய மொழிகளில் தொடர்புடைய கிளஸ்டர்களாகவும்.
| உரை | சிம் கொரிய | சிம் ஆங்கிலம் | சீன சிம் |
|---|---|---|---|
| ஏ. (சீன வரியில்) | 0.2003 | 0.2688 | 0.3134 |
| பி. (கொரிய பதில்) | 0.2745 | 0.2983 | 0.1641 |
| சி. (சீன மொழியில் மொழிபெயர்க்கப்பட்டது) | 0.1634 | 0.3106 | 0.2798 |
நீங்கள் பார்க்க முடியும் என, கொரிய பதிலை மீண்டும் சீன மொழிக்கு மொழிபெயர்ப்பது உட்பொதிவை மீண்டும் சீனப் பகுதிக்கு அனுப்பாது. மாறாக, அது ஆங்கிலக் கிளஸ்டர்களுக்கு இன்னும் நெருக்கமாக வருகிறது.
இது அறிவுறுத்துகிறது: மொழிபெயர்ப்பு மொழி வடிவத்தை மீட்டெடுக்கலாம், ஆனால் இருப்பிடத்தை இணைக்க முடியாது.
முடிவுரை
இரண்டு சோதனைகளும் ஒரே முடிவைத் தருகின்றன: உட்பொதித்தல் இடம் மொழி எல்லைகளால் ஒழுங்கமைக்கப்படவில்லை. மாறாக, பொறியியல் ஆங்கிலம் ஆதிக்கம் செலுத்தும் பணி வகைகளைச் சுற்றி கட்டமைக்கப்படுவதற்கான வாய்ப்புகள் அதிகம்.
இந்த பகுதியில் ஒரு வாக்கியம் நுழையும் போது, மொழி வடிவம் மாறலாம், ஆனால் உட்பொதித்தல் அமைப்பு பொறியியல் குளத்தில் இருக்கும், நீங்கள் கொரிய மொழி பேசுபவராக இல்லாவிட்டாலும் கொரிய மொழியில் பதிலளிப்பது போன்ற விசித்திரமான நடத்தைகளுக்கு வழிவகுக்கும்.









Leave a Reply