வீடு தடுப்பு நரம்பியல் நெட்வொர்க் மொழிபெயர்ப்பாளர் வேகமாக நெருக்கமாக மிகவும் துல்லியமானது. நரம்பியல் நெட்வொர்க் Yandex.Browser இல் மொழிபெயர்ப்புகளை மிகவும் சரியானதாக்கும்

நரம்பியல் நெட்வொர்க் மொழிபெயர்ப்பாளர் வேகமாக நெருக்கமாக மிகவும் துல்லியமானது. நரம்பியல் நெட்வொர்க் Yandex.Browser இல் மொழிபெயர்ப்புகளை மிகவும் சரியானதாக்கும்

தேடுபொறிகளால் குறியிடப்பட்ட வலைத்தளங்களின் அரை பில்லியனுக்கும் அதிகமான பிரதிகள் உள்ளன மொத்தம்பல்லாயிரக்கணக்கான மடங்கு அதிகமான வலைப்பக்கங்கள் உள்ளன. ரஷ்ய மொழி உள்ளடக்கம் முழு இணையத்தில் 6% ஆகும்.

தேவையான உரையை எவ்வாறு விரைவாக மொழிபெயர்ப்பது மற்றும் ஆசிரியரின் நோக்கம் பாதுகாக்கப்படும் வகையில். புள்ளிவிவர உள்ளடக்க மொழிபெயர்ப்பு தொகுதிகளின் பழைய முறைகள் மிகவும் சந்தேகத்திற்குரிய வகையில் செயல்படுகின்றன, ஏனெனில்... வார்த்தைகளின் சரிவு, பதட்டம் போன்றவற்றை துல்லியமாக தீர்மானிக்க இயலாது. வார்த்தைகளின் தன்மையும் அவற்றுக்கிடையேயான தொடர்புகளும் சிக்கலானவை, அதனால்தான் முடிவு சில நேரங்களில் மிகவும் இயற்கைக்கு மாறானது.

இப்போது யாண்டெக்ஸ் தானியங்கி இயந்திர மொழிபெயர்ப்பைப் பயன்படுத்துகிறது, இதன் விளைவாக வரும் உரையின் தரத்தை மேம்படுத்தும். புதிய உள்ளமைக்கப்பட்ட மொழிபெயர்ப்புடன் உலாவியின் சமீபத்திய அதிகாரப்பூர்வ பதிப்பைப் பதிவிறக்கலாம்.

சொற்றொடர்கள் மற்றும் வார்த்தைகளின் கலப்பின மொழிபெயர்ப்பு

Yandex உலாவி மட்டுமே ஒரு பக்கத்தை முழுவதுமாக மொழிபெயர்க்க முடியும், அத்துடன் சொற்கள் மற்றும் சொற்றொடர்களை தனித்தனியாக மொழிபெயர்க்க முடியும். அதிகமாகவோ அல்லது குறைவாகவோ சொந்தமாக வைத்திருக்கும் பயனர்களுக்கு இந்த செயல்பாடு மிகவும் பயனுள்ளதாக இருக்கும் அந்நிய மொழி, ஆனால் சில சமயங்களில் மொழிபெயர்ப்புச் சிக்கல்களை எதிர்கொள்கிறது.

சொல் மொழிபெயர்ப்பு பொறிமுறையில் கட்டமைக்கப்பட்ட நரம்பியல் நெட்வொர்க் எப்போதும் ஒதுக்கப்பட்ட பணிகளைச் சமாளிக்கவில்லை, ஏனெனில் அரிய சொற்களை உரையில் உட்பொதித்து வாசிக்கும்படி செய்வது மிகவும் கடினமாக இருந்தது. இப்போது பழைய தொழில்நுட்பங்கள் மற்றும் புதியவற்றைப் பயன்படுத்தி பயன்பாட்டில் ஒரு கலப்பின முறை கட்டமைக்கப்பட்டுள்ளது.

வழிமுறை இதுதான்: நிரல் தேர்ந்தெடுக்கப்பட்ட வாக்கியங்கள் அல்லது சொற்களை ஏற்றுக்கொள்கிறது, பின்னர் அவற்றை நரம்பியல் நெட்வொர்க் தொகுதிகள் மற்றும் புள்ளிவிவர மொழிபெயர்ப்பாளர் இரண்டிற்கும் வழங்குகிறது, மேலும் உள்ளமைக்கப்பட்ட அல்காரிதம் எந்த முடிவு சிறந்தது என்பதைத் தீர்மானித்து பின்னர் அதை பயனருக்கு வழங்குகிறது.

நரம்பியல் நெட்வொர்க் மொழிபெயர்ப்பாளர்

வெளிநாட்டு உள்ளடக்கம் மிகவும் குறிப்பிட்ட முறையில் வடிவமைக்கப்பட்டுள்ளது:

  • தலைப்புகளில் உள்ள வார்த்தைகளின் முதல் எழுத்துக்கள் பெரிய எழுத்துக்களில் எழுதப்பட்டுள்ளன;
  • வாக்கியங்கள் எளிமைப்படுத்தப்பட்ட இலக்கணத்துடன் கட்டமைக்கப்பட்டுள்ளன, சில சொற்கள் தவிர்க்கப்பட்டுள்ளன.

வலைத்தளங்களில் உள்ள வழிசெலுத்தல் மெனுக்கள் அவற்றின் இருப்பிடத்தை கணக்கில் எடுத்துக்கொண்டு பகுப்பாய்வு செய்யப்படுகின்றன, எடுத்துக்காட்டாக, பின் என்ற சொல், சரியாக மொழிபெயர்க்கப்பட்ட பின் (திரும்பச் செல்) மற்றும் பின்னோக்கி அல்ல.

மேலே குறிப்பிடப்பட்ட அனைத்து அம்சங்களையும் கணக்கில் எடுத்துக் கொள்ள, டெவலப்பர்கள் கூடுதலாக ஒரு நரம்பியல் நெட்வொர்க்கைப் பயிற்றுவித்தனர், இது ஏற்கனவே ஒரு பெரிய அளவிலான உரைத் தரவைப் பயன்படுத்துகிறது. இப்போது மொழிபெயர்ப்பின் தரம் உள்ளடக்கத்தின் இருப்பிடம் மற்றும் அதன் வடிவமைப்பால் பாதிக்கப்படுகிறது.

பயன்படுத்தப்பட்ட மொழிபெயர்ப்பின் முடிவுகள்

மொழிபெயர்ப்பின் தரத்தை BLEU* அல்காரிதம் மூலம் அளவிட முடியும், இது இயந்திர மொழிபெயர்ப்பு மற்றும் தொழில்முறை மொழிபெயர்ப்பு ஆகியவற்றை ஒப்பிடுகிறது. தர அளவுகோல் 0 முதல் 100% வரை.

சிறந்த நரம்பியல் மொழிபெயர்ப்பு, அதிக சதவீதம். இந்த வழிமுறையின்படி, யாண்டெக்ஸ் உலாவி 1.7 மடங்கு சிறப்பாக மொழிபெயர்க்கத் தொடங்கியது.



நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தி இயந்திர மொழிபெயர்ப்பு முதலில் இருந்து நீண்ட தூரம் வந்துவிட்டது அறிவியல் ஆராய்ச்சிகூகுள் மொழியாக்கம் சேவையை ஆழ்ந்த கற்றலுக்கு முழுமையாக மாற்றுவதாக கூகுள் அறிவிக்கும் வரை இந்த தலைப்பில்.

அறியப்பட்டபடி, நரம்பியல் மொழிபெயர்ப்பாளர் இருதரப்பு தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகளின் (இருதரப்பு மறுதொடக்க நரம்பியல் நெட்வொர்க்குகள்) பொறிமுறையை அடிப்படையாகக் கொண்டது, இது மேட்ரிக்ஸ் கணக்கீடுகளில் கட்டமைக்கப்பட்டுள்ளது, இது புள்ளிவிவர இயந்திர மொழிபெயர்ப்பாளர்களைக் காட்டிலும் மிகவும் சிக்கலான நிகழ்தகவு மாதிரிகளை உருவாக்க அனுமதிக்கிறது. இருப்பினும், நரம்பியல் மொழிபெயர்ப்பு, புள்ளிவிவர மொழிபெயர்ப்பு போன்றது, பயிற்சிக்கு இரண்டு மொழிகளில் இணையான நூல்கள் தேவை என்று எப்போதும் நம்பப்படுகிறது. ஒரு நரம்பியல் வலையமைப்பு இந்த கார்பஸ்கள் மீது பயிற்சியளிக்கப்படுகிறது, மனித மொழிபெயர்ப்பை ஒரு குறிப்பாக எடுத்துக்கொள்கிறது.

அது இப்போது மாறியது போல், நரம்பியல் நெட்வொர்க்குகள் ஒரு இணையான நூல்கள் இல்லாமல் கூட மொழிபெயர்ப்பிற்கான ஒரு புதிய மொழியை மாஸ்டர் செய்ய முடியும்! இந்த தலைப்பில் இரண்டு கட்டுரைகள் முன்அச்சு இணையதளமான arXiv.org இல் வெளியிடப்பட்டுள்ளன.

"நீங்கள் ஒரு நபருக்கு பல சீன புத்தகங்களையும் பல அரபு புத்தகங்களையும் கொடுக்கிறீர்கள் என்று கற்பனை செய்து பாருங்கள் - அவை எதுவும் ஒரே மாதிரியானவை அல்ல - மேலும் இந்த நபர் சீனத்திலிருந்து அரபுக்கு மொழிபெயர்க்க கற்றுக்கொள்கிறார். இது சாத்தியமற்றதாகத் தெரிகிறது, இல்லையா? ஆனால், கம்ப்யூட்டரால் இதைச் செய்ய முடியும் என்பதை நாங்கள் நிரூபித்துள்ளோம்,” என்கிறார் ஸ்பெயினின் சான் செபாஸ்டியனில் உள்ள பாஸ்க் நாடு பல்கலைக்கழகத்தின் கணினி விஞ்ஞானி மைக்கேல் ஆர்டெக்ஸ்.

பெரும்பாலான இயந்திர மொழிபெயர்ப்பு நரம்பியல் நெட்வொர்க்குகள் "ஒரு ஆசிரியருடன்" பயிற்சியளிக்கப்படுகின்றன, இது ஒரு நபரால் மொழிபெயர்க்கப்பட்ட நூல்களின் இணையான கார்பஸ் ஆகும். கற்றல் செயல்பாட்டின் போது, ​​தோராயமாகச் சொன்னால், நரம்பியல் நெட்வொர்க் ஒரு அனுமானத்தை உருவாக்குகிறது, தரநிலையுடன் சரிபார்த்து, அதன் அமைப்புகளில் தேவையான மாற்றங்களைச் செய்கிறது, பின்னர் மேலும் கற்றுக்கொள்கிறது. பிரச்சனை என்னவென்றால், சில மொழிகளுக்கு உலகில் அதிக எண்ணிக்கையிலான இணையான நூல்கள் இல்லை, எனவே அவை பாரம்பரிய இயந்திர மொழிபெயர்ப்பு நரம்பியல் நெட்வொர்க்குகளுக்கு அணுக முடியாதவை.


கூகுள் நியூரல் மெஷின் டிரான்ஸ்லேஷன் (ஜிஎன்எம்டி) நரம்பியல் நெட்வொர்க்கின் "உலகளாவிய மொழி". இடது விளக்கப்படத்தில் வெவ்வேறு நிறங்கள்ஒவ்வொரு வார்த்தையின் அர்த்தங்களின் கொத்துகள் கீழே வலதுபுறத்தில் காட்டப்பட்டுள்ளன - வெவ்வேறு மனித மொழிகளில் இருந்து பெறப்பட்ட வார்த்தையின் அர்த்தங்கள்: ஆங்கிலம், கொரியன் மற்றும் ஜப்பானியம்

ஒவ்வொரு மொழிக்கும் ஒரு பெரிய "அட்லஸ்" தொகுத்த பிறகு, கணினி அத்தகைய ஒரு அட்லஸை மற்றொன்றில் மிகைப்படுத்த முயற்சிக்கிறது - அது உங்களிடம் உள்ளது, உங்களிடம் ஒருவித இணையான உரை கார்போரா தயாராக உள்ளது!

முன்மொழியப்பட்ட இரண்டு மேற்பார்வை செய்யப்படாத கற்றல் கட்டமைப்புகளின் வடிவமைப்புகளை ஒப்பிடலாம்.


முன்மொழியப்பட்ட அமைப்பின் கட்டிடக்கலை. L1 இல் உள்ள ஒவ்வொரு வாக்கியத்திற்கும், கணினி இரண்டு படிகளை மாற்ற கற்றுக்கொள்கிறது: 1) சத்தத்தை அடக்குதல்(denoising), இது ஒரு பொதுவான குறியாக்கியுடன் ஒரு வாக்கியத்தின் சத்தமில்லாத பதிப்பை குறியாக்கம் செய்து அதை L1 குறிவிலக்கி மூலம் மறுகட்டமைப்பதற்கான நிகழ்தகவை மேம்படுத்துகிறது; 2) தலைகீழ் மொழிபெயர்ப்பு(பின்-மொழிபெயர்ப்பு) ஒரு வாக்கியத்தை அவுட்புட் பயன்முறையில் மொழிபெயர்க்கும்போது (அதாவது, ஒரு பொதுவான குறியாக்கி மூலம் குறியிடப்பட்டு, L2 டிகோடரால் குறியிடப்படும்), பின்னர் இந்த மொழிபெயர்க்கப்பட்ட வாக்கியத்தை ஒரு பொதுவான குறியாக்கி மூலம் குறியாக்கம் செய்து அசல் வாக்கியத்தை மறுகட்டமைப்பதற்கான நிகழ்தகவு L1 குறிவிலக்கி உகந்ததாக உள்ளது. விளக்கம்: Michela Artetxe மற்றும் பலர்.


அமைப்பின் முன்மொழியப்பட்ட கட்டிடக்கலை மற்றும் பயிற்சி நோக்கங்கள் (இரண்டாவது அறிவியல் வேலையிலிருந்து). கட்டிடக்கலை என்பது வாக்கியத்தின் வாக்கிய மொழிபெயர்ப்பு மாதிரியாகும், இதில் குறியாக்கி மற்றும் குறிவிலக்கி இரண்டும் இரண்டு மொழிகளில் இயங்கும், இது உள்ளீட்டு மொழி ஐடியைப் பொறுத்து, தேடல் அட்டவணைகளை மாற்றுகிறது. மேல் (தானியங்கு-குறியாக்கம்): ஒவ்வொரு டொமைனிலும் டெனோயிசிங் செய்ய மாதிரி பயிற்சியளிக்கப்பட்டுள்ளது. கீழே (மொழிபெயர்ப்பு): முன்பு போலவே, முந்தைய மறு செய்கையில் (நீல செவ்வகம்) மாதிரியால் உருவாக்கப்பட்ட மொழிபெயர்ப்பை உள்ளீடாகப் பயன்படுத்தி மற்றொரு மொழியிலிருந்து குறியாக்கம் செய்கிறோம். பச்சை நீள்வட்டங்கள் இழப்பு செயல்பாட்டின் விதிமுறைகளைக் குறிக்கின்றன. விளக்கம்: Guillaume Lampla மற்றும் பலர்.

இரண்டும் அறிவியல் படைப்புகள்சிறிய வேறுபாடுகளுடன் குறிப்பிடத்தக்க ஒத்த முறையைப் பயன்படுத்தவும். ஆனால் இரண்டு சந்தர்ப்பங்களிலும் மொழிபெயர்ப்பு சில இடைநிலை "மொழி" அல்லது, ஒரு இடைநிலை பரிமாணம் அல்லது இடைவெளி மூலம் மேற்கொள்ளப்படுகிறது. இதுவரை, மேற்பார்வை செய்யப்படாத நரம்பியல் நெட்வொர்க்குகள் மிக உயர்ந்த மொழிபெயர்ப்புத் தரத்தைக் காட்டவில்லை, ஆனால் ஆசிரியர்கள் ஒரு சிறிய உதவியைப் பயன்படுத்தினால் அதை எளிதாக மேம்படுத்தலாம் என்று ஆசிரியர்கள் கூறுகிறார்கள், அவர்கள் சோதனையின் தூய்மைக்காக இதைச் செய்யவில்லை. .

படைப்புகள் வழங்கப்படுகின்றன சர்வதேச மாநாடுகற்றல் பிரதிநிதித்துவங்கள் 2018 (கற்றல் பிரதிநிதித்துவம் பற்றிய சர்வதேச மாநாடு). அறிவியல் பத்திரிக்கையில் இதுவரை கட்டுரைகள் எதுவும் வெளியிடப்படவில்லை.

நவீன இணையத்தில் 630 மில்லியனுக்கும் அதிகமான தளங்கள் உள்ளன, ஆனால் அவற்றில் 6% மட்டுமே ரஷ்ய மொழி உள்ளடக்கத்தைக் கொண்டுள்ளது. நெட்வொர்க் பயனர்களிடையே அறிவைப் பரப்புவதில் மொழித் தடையே முக்கிய பிரச்சனையாகும், மேலும் இது வெளிநாட்டு மொழிகளைக் கற்பிப்பதன் மூலம் மட்டுமல்ல, உலாவியில் தானியங்கி இயந்திர மொழிபெயர்ப்பைப் பயன்படுத்துவதன் மூலமும் தீர்க்கப்பட வேண்டும் என்று நாங்கள் நம்புகிறோம்.

யாண்டெக்ஸ் உலாவி மொழிபெயர்ப்பாளரில் இரண்டு முக்கியமான தொழில்நுட்ப மாற்றங்களைப் பற்றி இன்று ஹப்ர் வாசகர்களிடம் கூறுவோம். முதலில், தனிப்படுத்தப்பட்ட சொற்கள் மற்றும் சொற்றொடர்களின் மொழிபெயர்ப்பு இப்போது ஒரு கலப்பின மாதிரியைப் பயன்படுத்துகிறது, மேலும் இந்த அணுகுமுறை நரம்பியல் நெட்வொர்க்குகளை மட்டும் பயன்படுத்துவதில் இருந்து எவ்வாறு வேறுபடுகிறது என்பதை நாங்கள் உங்களுக்கு நினைவூட்டுவோம். இரண்டாவதாக, மொழிபெயர்ப்பாளரின் நரம்பியல் நெட்வொர்க்குகள் இப்போது வலைப்பக்கங்களின் கட்டமைப்பை கணக்கில் எடுத்துக்கொள்கின்றன, அதன் அம்சங்களை நாங்கள் வெட்டுவதற்கு கீழே பேசுவோம்.

வார்த்தைகள் மற்றும் சொற்றொடர்களின் கலப்பின மொழிபெயர்ப்பாளர்

முதல் இயந்திர மொழிபெயர்ப்பு அமைப்புகள் அடிப்படையாக கொண்டவை அகராதிகள் மற்றும் விதிகள்(அடிப்படையில் கையால் எழுதப்பட்ட வழக்கமான எழுத்துக்கள்), இது மொழிபெயர்ப்பின் தரத்தை தீர்மானித்தது. பெருகிய முறையில் விரிவான கையேடு விதிகளை உருவாக்க தொழில்முறை மொழியியலாளர்கள் பல ஆண்டுகளாக உழைத்துள்ளனர். இந்த வேலை மிகவும் நேரத்தை எடுத்துக்கொள்வதால், மிகவும் பிரபலமான ஜோடி மொழிகளில் மட்டுமே தீவிர கவனம் செலுத்தப்பட்டது, ஆனால் இவற்றில் கூட இயந்திரங்கள் மோசமான வேலையைச் செய்தன. வாழும் மொழி மிகவும் ஒரு சிக்கலான அமைப்பு, இது விதிகளை சரியாகக் கடைப்பிடிக்காது. இரண்டு மொழிகளுக்கிடையேயான கடிதப் பரிமாற்ற விதிகளை விவரிப்பது இன்னும் கடினம்.

ஒரு இயந்திரம் மாறிவரும் நிலைமைகளுக்குத் தொடர்ந்து மாற்றியமைப்பதற்கான ஒரே வழி, அதிக எண்ணிக்கையிலான இணையான நூல்களிலிருந்து (அர்த்தத்தில் ஒரே மாதிரியான, ஆனால் எழுதப்பட்ட) சுயாதீனமாகக் கற்றுக்கொள்வதுதான். வெவ்வேறு மொழிகள்) இது இயந்திர மொழிபெயர்ப்புக்கான புள்ளிவிவர அணுகுமுறை. கணினி இணையான உரைகளை ஒப்பிட்டு சுயாதீனமாக வடிவங்களை அடையாளம் காட்டுகிறது.

யு புள்ளியியல் மொழிபெயர்ப்பாளர்நன்மைகள் மற்றும் தீமைகள் இரண்டும் உள்ளன. ஒருபுறம், அவர் அரிதான மற்றும் சிக்கலான சொற்கள் மற்றும் சொற்றொடர்களை நன்றாக நினைவில் கொள்கிறார். அவை இணையான உரைகளில் காணப்பட்டால், மொழிபெயர்ப்பாளர் அவற்றை நினைவில் வைத்துக் கொள்வார் மற்றும் தொடர்ந்து சரியாக மொழிபெயர்ப்பார். மறுபுறம், ஒரு மொழிபெயர்ப்பின் முடிவு ஒரு முழுமையான புதிர் போல இருக்கலாம்: ஒட்டுமொத்த படம் தெளிவாகத் தெரிகிறது, ஆனால் நீங்கள் உற்று நோக்கினால், அது தனித்தனி துண்டுகளால் ஆனது என்பதை நீங்கள் காணலாம். காரணம், மொழிபெயர்ப்பாளர் தனிப்பட்ட சொற்களை அடையாளங்காட்டிகளாகக் குறிப்பிடுகிறார், அவை அவற்றுக்கிடையேயான உறவை எந்த வகையிலும் பிரதிபலிக்கவில்லை. மக்கள் மொழியை அனுபவிக்கும் விதத்துடன் இது முரண்படுகிறது, அங்கு சொற்கள் எவ்வாறு பயன்படுத்தப்படுகின்றன, அவை எவ்வாறு தொடர்பு கொள்கின்றன மற்றும் பிற சொற்களிலிருந்து வேறுபடுகின்றன.

இந்த சிக்கலை தீர்க்க உதவுகிறது நரம்பியல் வலையமைப்புகள். நரம்பியல் இயந்திர மொழிபெயர்ப்பில் பயன்படுத்தப்படும் வார்த்தை உட்பொதித்தல், பொதுவாக ஒவ்வொரு வார்த்தையையும் பல நூறு எண்கள் நீளமுள்ள திசையன்களுடன் தொடர்புபடுத்துகிறது. புள்ளியியல் அணுகுமுறையிலிருந்து எளிய அடையாளங்காட்டிகளைப் போலல்லாமல், திசையன்கள் ஒரு நரம்பியல் வலையமைப்பைப் பயிற்றுவிக்கும் போது உருவாகின்றன மற்றும் சொற்களுக்கு இடையிலான உறவுகளை கணக்கில் எடுத்துக்கொள்கின்றன. எடுத்துக்காட்டாக, "தேநீர்" மற்றும் "காபி" ஆகியவை பெரும்பாலும் ஒரே மாதிரியான சூழல்களில் தோன்றுவதால், இந்த இரண்டு வார்த்தைகளும் "கசிவு" என்ற புதிய வார்த்தையின் சூழலில் சாத்தியமாக இருக்க வேண்டும் என்பதை மாடல் அங்கீகரிக்கலாம். பயிற்சி தரவு.

எவ்வாறாயினும், வெக்டார் பிரதிநிதித்துவங்களைக் கற்கும் செயல்முறையானது, எடுத்துக்காட்டுகளை மனப்பாடம் செய்வதைக் காட்டிலும், புள்ளியியல் ரீதியாக மிகவும் தேவைப்படுகிறது. கூடுதலாக, அந்த அரிய உள்ளீட்டு வார்த்தைகளை என்ன செய்வது என்பது தெளிவாகத் தெரியவில்லை, அவை நெட்வொர்க்கிற்கு ஏற்றுக்கொள்ளக்கூடிய வெக்டார் பிரதிநிதித்துவத்தை உருவாக்க போதுமான அளவு அடிக்கடி நிகழவில்லை. இந்த சூழ்நிலையில், இரண்டு முறைகளையும் இணைப்பது தர்க்கரீதியானது.

கடந்த ஆண்டு முதல், Yandex.Translator பயன்படுத்தப்படுகிறது கலப்பின மாதிரி. மொழிபெயர்ப்பாளர் பயனரிடமிருந்து ஒரு உரையைப் பெறும்போது, ​​​​அவர் அதை மொழிபெயர்ப்புக்கான இரண்டு அமைப்புகளுக்கும் கொடுக்கிறார் - நரம்பியல் நெட்வொர்க் மற்றும் புள்ளிவிவர மொழிபெயர்ப்பாளர். கற்றல் முறையை அடிப்படையாகக் கொண்ட ஒரு அல்காரிதம், எந்த மொழிபெயர்ப்பு சிறந்தது என்பதை மதிப்பிடுகிறது. மதிப்பீட்டை வழங்கும்போது, ​​டஜன் கணக்கான காரணிகள் கணக்கில் எடுத்துக்கொள்ளப்படுகின்றன - வாக்கியத்தின் நீளம் (குறுகிய சொற்றொடர்கள் புள்ளிவிவர மாதிரியால் சிறப்பாக மொழிபெயர்க்கப்படுகின்றன) தொடரியல் வரை. சிறந்ததாக அங்கீகரிக்கப்பட்ட மொழிபெயர்ப்பு பயனருக்குக் காட்டப்படும்.

இது இப்போது Yandex.Browser இல் பயன்படுத்தப்படும் கலப்பின மாதிரியாகும், பயனர் மொழிபெயர்ப்பிற்காக பக்கத்தில் குறிப்பிட்ட சொற்களையும் சொற்றொடர்களையும் தேர்ந்தெடுக்கும்போது.

இந்த முறை பொதுவாக வெளிநாட்டு மொழியைப் பேசுபவர்களுக்கு மிகவும் வசதியானது மற்றும் தெரியாத சொற்களை மட்டுமே மொழிபெயர்க்க விரும்புகிறது. ஆனால், எடுத்துக்காட்டாக, வழக்கமான ஆங்கிலத்திற்குப் பதிலாக நீங்கள் சீனத்தைக் கண்டால், பக்கம் பக்கமாக மொழிபெயர்ப்பாளர் இல்லாமல் செய்வது கடினமாக இருக்கும். மொழிபெயர்க்கப்பட்ட உரையின் அளவுகளில் மட்டுமே வித்தியாசம் இருப்பதாகத் தோன்றுகிறது, ஆனால் எல்லாம் அவ்வளவு எளிதல்ல.

வலைப்பக்கங்களின் நரம்பியல் நெட்வொர்க் மொழிபெயர்ப்பாளர்

ஜார்ஜ்டவுன் சோதனையின் காலத்திலிருந்து கிட்டத்தட்ட இன்று வரை, அனைத்து இயந்திர மொழிபெயர்ப்பு அமைப்புகளும் ஒவ்வொரு வாக்கியத்தையும் மொழிபெயர்க்க பயிற்சி பெற்றுள்ளன. மூல உரைதனித்தனியாக. வலைப்பக்கம் என்பது வெறும் வாக்கியங்களின் தொகுப்பாக இல்லாமல், அடிப்படையில் வேறுபட்ட கூறுகளைக் கொண்ட கட்டமைக்கப்பட்ட உரையாகும். பெரும்பாலான பக்கங்களின் அடிப்படை கூறுகளைப் பார்ப்போம்.

தலைப்பு. பொதுவாக பிரகாசமான மற்றும் பெரிய உரை, பக்கத்தை உள்ளிடும்போது உடனடியாகப் பார்க்கிறோம். தலைப்பு பெரும்பாலும் செய்திகளின் சாராம்சத்தைக் கொண்டிருக்கும், எனவே அதை சரியாக மொழிபெயர்ப்பது முக்கியம். ஆனால் இதைச் செய்வது கடினம், ஏனென்றால் தலைப்பில் போதுமான உரை இல்லை மற்றும் சூழலைப் புரிந்து கொள்ளாமல் நீங்கள் தவறு செய்யலாம். ஆங்கிலத்தைப் பொறுத்தவரை, இது இன்னும் சிக்கலானது, ஏனெனில் ஆங்கில மொழித் தலைப்புகள் பெரும்பாலும் வழக்கத்திற்கு மாறான இலக்கணம், முடிவிலிகள் அல்லது விடுபட்ட வினைச்சொற்களைக் கொண்ட சொற்றொடர்களைக் கொண்டிருக்கும். உதாரணத்திற்கு, கேம் ஆஃப் த்ரோன்ஸ் முன்னுரை அறிவிக்கப்பட்டது.

வழிசெலுத்தல். தளத்தில் செல்ல எங்களுக்கு உதவும் வார்த்தைகள் மற்றும் சொற்றொடர்கள். உதாரணத்திற்கு, வீடு, மீண்டும்மற்றும் என் கணக்கு"வீடு", "பின்" மற்றும் "எனது கணக்கு" என மொழிபெயர்ப்பது மதிப்புக்குரியது அல்ல, அவை தள மெனுவில் அமைந்திருந்தால், வெளியீட்டின் உரையில் இல்லை.

முக்கிய உரை. எல்லாமே அதனுடன் எளிமையானது; இது நாம் புத்தகங்களில் காணக்கூடிய சாதாரண நூல்கள் மற்றும் வாக்கியங்களிலிருந்து சிறிது வேறுபடுகிறது. ஆனால் இங்கே கூட, மொழிபெயர்ப்பு நிலைத்தன்மையை உறுதிப்படுத்துவது முக்கியம், அதாவது, ஒரே வலைப்பக்கத்தில் அதே விதிமுறைகள் மற்றும் கருத்துக்கள் ஒரே மாதிரியாக மொழிபெயர்க்கப்பட்டுள்ளன.

வலைப்பக்கங்களின் உயர்தர மொழிபெயர்ப்புக்கு, நரம்பியல் நெட்வொர்க் அல்லது கலப்பின மாதிரியைப் பயன்படுத்துவது போதாது - பக்கங்களின் கட்டமைப்பையும் கணக்கில் எடுத்துக்கொள்வது அவசியம். இதைச் செய்ய, நாங்கள் பல தொழில்நுட்ப சிக்கல்களைச் சமாளிக்க வேண்டியிருந்தது.

உரை பிரிவுகளின் வகைப்பாடு. இதைச் செய்ய, நாங்கள் மீண்டும் CatBoost மற்றும் காரணிகளை உரையின் அடிப்படையிலும், ஆவணங்களின் HTML மார்க்அப்பின் அடிப்படையிலும் பயன்படுத்துகிறோம் (டேக், உரை அளவு, ஒரு உரை அலகுக்கான இணைப்புகளின் எண்ணிக்கை, ...). காரணிகள் மிகவும் பன்முகத்தன்மை கொண்டவை, அதனால்தான் CatBoost (கிரேடியண்ட் பூஸ்டிங் அடிப்படையில்) சிறந்த முடிவுகளைக் காட்டுகிறது (வகைப்படுத்தல் துல்லியம் 95% க்கு மேல்). ஆனால் பிரிவுகளை வகைப்படுத்துவது மட்டும் போதாது.

வளைந்த தரவு. பாரம்பரியமாக, Yandex.Translator அல்காரிதம்கள் இணையத்திலிருந்து வரும் உரைகளில் பயிற்சியளிக்கப்படுகின்றன. ஒரு வலைப்பக்க மொழிபெயர்ப்பாளருக்கு பயிற்சியளிப்பதற்கு இது ஒரு சிறந்த தீர்வாக இருக்கும் என்று தோன்றுகிறது (வேறுவிதமாகக் கூறினால், பிணையம் நாம் அதைப் பயன்படுத்தப் போகும் நூல்களின் அதே இயல்புடைய நூல்களிலிருந்து கற்றுக்கொள்கிறது). ஆனால் வெவ்வேறு பிரிவுகளை ஒருவருக்கொருவர் பிரிக்க கற்றுக்கொண்டவுடன், நாங்கள் கண்டுபிடித்தோம் சுவாரஸ்யமான அம்சம். சராசரியாக, இணையதளங்களில், தலைப்புகள் மற்றும் வழிசெலுத்தல் கணக்கில் 7.5% மட்டுமே உள்ளடக்கம் அனைத்து உரைகளிலும் தோராயமாக 85% ஆகும். தலைப்புகள் மற்றும் வழிசெலுத்தல் கூறுகள் மற்ற உரைகளிலிருந்து பாணி மற்றும் இலக்கணத்தில் குறிப்பிடத்தக்க வகையில் வேறுபட்டவை என்பதையும் நினைவில் கொள்ளுங்கள். இந்த இரண்டு காரணிகளும் சேர்ந்து தரவு வளைவின் சிக்கலுக்கு வழிவகுக்கும். இந்த பிரிவுகளின் அம்சங்களை வெறுமனே புறக்கணிப்பது ஒரு நரம்பியல் நெட்வொர்க்கிற்கு மிகவும் லாபகரமானது, இது பயிற்சி தொகுப்பில் மிகவும் மோசமாக குறிப்பிடப்படுகிறது. முக்கிய உரையை மட்டும் நன்றாக மொழிபெயர்க்க நெட்வொர்க் கற்றுக்கொள்கிறது, அதனால்தான் தலைப்புகள் மற்றும் வழிசெலுத்தலின் மொழிபெயர்ப்பின் தரம் பாதிக்கப்படுகிறது. இந்த விரும்பத்தகாத விளைவை சமன் செய்ய, நாங்கள் இரண்டு விஷயங்களைச் செய்தோம்: ஒவ்வொரு ஜோடி இணையான வாக்கியங்களுக்கும் ஒன்றை நாங்கள் ஒதுக்கினோம். மூன்று வகைகள்பிரிவுகள் (உள்ளடக்கம், தலைப்பு அல்லது வழிசெலுத்தல்) மற்றும் பயிற்சி கார்பஸில் கடைசி இரண்டின் செறிவை செயற்கையாக 33% ஆக அதிகரித்தது, ஏனெனில் அவை கற்றல் நரம்பியல் நெட்வொர்க்கிற்கு ஒத்த எடுத்துக்காட்டுகளைக் காட்டத் தொடங்கின.

பல பணி கற்றல். நாம் இப்போது வலைப்பக்கங்களில் உள்ள உரையை மூன்று பிரிவுகளாகப் பிரிக்கலாம் என்பதால், மூன்று தனித்தனி மாதிரிகளைப் பயிற்றுவிப்பது இயல்பான யோசனையாகத் தோன்றலாம், அவை ஒவ்வொன்றும் வெவ்வேறு வகையான உரையின் மொழிபெயர்ப்பைக் கையாளும் - தலைப்புகள், வழிசெலுத்தல் அல்லது உள்ளடக்கம். இது உண்மையில் நன்றாக வேலை செய்கிறது, ஆனால் அனைத்து வகையான உரைகளையும் ஒரே நேரத்தில் மொழிபெயர்க்க ஒரு நரம்பியல் நெட்வொர்க்கைப் பயிற்றுவிக்கும் திட்டம் இன்னும் சிறப்பாகச் செயல்படுகிறது. புரிந்து கொள்வதற்கான திறவுகோல் mutli-task learning (MTL) யோசனையில் உள்ளது: பல இயந்திர கற்றல் பணிகளுக்கு இடையே உள் தொடர்பு இருந்தால், இந்த பணிகளை ஒரே நேரத்தில் தீர்க்க கற்றுக் கொள்ளும் ஒரு மாதிரி ஒவ்வொரு பணியையும் சிறப்பாக தீர்க்க கற்றுக்கொள்ள முடியும். ஒரு குறுகிய சிறப்பு மாதிரியை விட!

நன்றாக மெருகேற்றுவது. எங்களிடம் ஏற்கனவே ஒரு நல்ல இயந்திர மொழிபெயர்ப்பு உள்ளது, எனவே புதிதாக Yandex.Browser க்கு ஒரு புதிய மொழிபெயர்ப்பாளரைப் பயிற்றுவிப்பது விவேகமற்றது. சாதாரண நூல்களை மொழிபெயர்ப்பதற்கான அடிப்படை அமைப்பை எடுத்து வலைப்பக்கங்களுடன் பணிபுரிய அதை பயிற்றுவிப்பது மிகவும் அர்த்தமுள்ளதாக இருக்கிறது. நரம்பியல் நெட்வொர்க்குகளின் சூழலில், இது பெரும்பாலும் ஃபைன்-ட்யூனிங் என்று அழைக்கப்படுகிறது. ஆனால் நீங்கள் இந்த சிக்கலை நேரடியாக அணுகினால், அதாவது. முடிக்கப்பட்ட மாதிரியிலிருந்து மதிப்புகளுடன் நரம்பியல் நெட்வொர்க்கின் எடையைத் தொடங்கவும், புதிய தரவைப் படிக்கத் தொடங்கவும், பின்னர் டொமைன் மாற்றத்தின் விளைவை நீங்கள் சந்திக்கலாம்: பயிற்சி முன்னேறும்போது, ​​இணையப் பக்கங்களின் (இன்-டொமைனில்) மொழிபெயர்ப்பின் தரம் அதிகரிக்கும், ஆனால் வழக்கமான ( டொமைனுக்கு வெளியே) ) நூல்களின் மொழிபெயர்ப்பின் தரம் குறையும். இந்த விரும்பத்தகாத அம்சத்திலிருந்து விடுபட, கூடுதல் பயிற்சியின் போது நரம்பியல் நெட்வொர்க்கில் கூடுதல் கட்டுப்பாட்டை விதிக்கிறோம், ஆரம்ப நிலையுடன் ஒப்பிடும்போது எடையை அதிகமாக மாற்றுவதைத் தடைசெய்கிறோம்.

கணித ரீதியாக, இது இழப்பு செயல்பாட்டிற்கு ஒரு சொல்லைச் சேர்ப்பதன் மூலம் வெளிப்படுத்தப்படுகிறது, இது அசல் மற்றும் கூடுதலாக பயிற்சி பெற்ற நெட்வொர்க்குகளால் வழங்கப்பட்ட அடுத்த வார்த்தையை உருவாக்கும் நிகழ்தகவு விநியோகங்களுக்கு இடையேயான Kullback-Leibler தூரம் (KL-வேறுபாடு) ஆகும். விளக்கப்படத்தில் காணக்கூடியது போல, இணையப் பக்கங்களின் மொழிபெயர்ப்பின் தரம் அதிகரிப்பது சாதாரண உரையின் மொழிபெயர்ப்பின் சீரழிவுக்கு வழிவகுக்காது என்பதற்கு இது வழிவகுக்கிறது.

வழிசெலுத்தலில் இருந்து அதிர்வெண் சொற்றொடர்களை மெருகூட்டுகிறது. ஒரு புதிய மொழிபெயர்ப்பாளரில் பணிபுரியும் போது, ​​வலைப்பக்கங்களின் பல்வேறு பிரிவுகளின் உரைகளின் புள்ளிவிவரங்களை நாங்கள் சேகரித்தோம் மற்றும் சுவாரஸ்யமான ஒன்றைக் கண்டோம். வழிசெலுத்தல் கூறுகளைக் குறிக்கும் உரைகள் மிகவும் தரப்படுத்தப்பட்டவை, எனவே அவை பெரும்பாலும் ஒரே மாதிரியான சொற்றொடர்களைக் கொண்டிருக்கும். இது மிகவும் சக்திவாய்ந்த விளைவு, இணையத்தில் காணப்படும் அனைத்து வழிசெலுத்தல் சொற்றொடர்களில் பாதிக்கும் மேற்பட்டவை வெறும் 2 ஆயிரம் மட்டுமே உள்ளன.

நிச்சயமாக, நாங்கள் இதைப் பயன்படுத்திக் கொண்டு, அவற்றின் தரம் குறித்து முற்றிலும் உறுதியாக இருப்பதற்காக, எங்கள் மொழிபெயர்ப்பாளர்களுக்குச் சரிபார்ப்பதற்காக பல ஆயிரம் பொதுவான சொற்றொடர்களையும் அவற்றின் மொழிபெயர்ப்புகளையும் வழங்கினோம்.

வெளிப்புற சீரமைப்புகள். உலாவியில் இணையப் பக்க மொழிபெயர்ப்பாளருக்கு இன்னும் ஒரு முக்கியமான தேவை இருந்தது - அது மார்க்அப்பை சிதைக்கக்கூடாது. HTML குறிச்சொற்கள் வெளியே அல்லது வாக்கிய எல்லைகளில் வைக்கப்படும் போது, ​​எந்த பிரச்சனையும் எழாது. ஆனால் வாக்கியத்தின் உள்ளே இருந்தால், எடுத்துக்காட்டாக, இரண்டு அடிக்கோடிடப்பட்டதுசொற்கள், பின்னர் மொழிபெயர்ப்பில் நாம் பார்க்க விரும்புகிறோம் “இரண்டு அடிக்கோடிடப்பட்டதுசொற்கள்". அந்த. பரிமாற்றத்தின் விளைவாக, இரண்டு நிபந்தனைகள் பூர்த்தி செய்யப்பட வேண்டும்:

  1. மொழிபெயர்ப்பில் அடிக்கோடிடப்பட்ட துண்டு, மூல உரையில் உள்ள அடிக்கோடிட்ட துண்டுடன் சரியாக ஒத்திருக்க வேண்டும்.
  2. அடிக்கோடிட்ட துண்டின் எல்லையில் மொழிபெயர்ப்பின் நிலைத்தன்மையை மீறக்கூடாது.
இந்த நடத்தையை அடைய, நாங்கள் முதலில் உரையை வழக்கம் போல் மொழிபெயர்ப்போம், பின்னர் மூலத்தின் துண்டுகள் மற்றும் மொழிபெயர்க்கப்பட்ட உரைகளுக்கு இடையே உள்ள பொருத்தங்களைத் தீர்மானிக்க, புள்ளியியல் வார்த்தைக்கு வார்த்தை சீரமைப்பு மாதிரிகளைப் பயன்படுத்துவோம். எது சரியாக வலியுறுத்தப்பட வேண்டும் என்பதைப் புரிந்துகொள்ள இது உதவுகிறது ( சாய்வு எழுத்துக்களில், ஹைப்பர்லிங்காக வடிவமைக்கப்பட்டது, ...).

குறுக்குவெட்டு பார்வையாளர். நாங்கள் பயிற்றுவித்த சக்திவாய்ந்த நரம்பியல் நெட்வொர்க் மொழிபெயர்ப்பு மாதிரிகளுக்கு, முந்தைய தலைமுறை புள்ளிவிவர மாதிரிகளை விட, எங்கள் சேவையகங்களில் (CPU மற்றும் GPU இரண்டும்) கணிசமான அளவு கணினி வளங்கள் தேவைப்படுகின்றன. அதே நேரத்தில், பயனர்கள் எப்போதும் பக்கங்களை இறுதிவரை படிப்பதில்லை, எனவே வலைப்பக்கங்களின் அனைத்து உரைகளையும் மேகக்கணிக்கு அனுப்புவது தேவையற்றதாகத் தெரிகிறது. சேவையக வளங்கள் மற்றும் பயனர் போக்குவரத்தைச் சேமிக்க, மொழிபெயர்ப்பாளரைப் பயன்படுத்தக் கற்றுக் கொடுத்தோம்

அல்லது அளவு தரமாக உருவாகுமா?

RIF+KIB 2017 மாநாட்டில் ஆற்றிய உரையை அடிப்படையாகக் கொண்ட கட்டுரை.

நரம்பியல் இயந்திர மொழிபெயர்ப்பு: இப்போது மட்டும் ஏன்?

நரம்பியல் நெட்வொர்க்குகள் நீண்ட காலமாகப் பேசப்பட்டு வருகின்றன, மேலும் செயற்கை நுண்ணறிவின் உன்னதமான சிக்கல்களில் ஒன்று - இயந்திர மொழிபெயர்ப்பு - இந்த தொழில்நுட்பத்தின் அடிப்படையில் தீர்க்கப்பட வேண்டும் என்று வெறுமனே கெஞ்சுகிறது.

இருப்பினும், பொதுவாக நரம்பியல் நெட்வொர்க்குகள் மற்றும் குறிப்பாக நரம்பியல் இயந்திர மொழிபெயர்ப்பு பற்றிய வினவல்களுக்கான தேடல்களில் பிரபலத்தின் இயக்கவியல் இங்கே:

நரம்பியல் இயந்திர மொழிபெயர்ப்பு பற்றி சமீப காலம் வரை ரேடாரில் எதுவும் இல்லை என்பது தெளிவாகத் தெரிகிறது - மேலும் 2016 ஆம் ஆண்டின் இறுதியில், கூகிள், மைக்ரோசாப்ட் மற்றும் சிஸ்ட்ரான் உள்ளிட்ட நரம்பியல் நெட்வொர்க்குகளின் அடிப்படையில் பல நிறுவனங்கள் தங்கள் புதிய தொழில்நுட்பங்கள் மற்றும் இயந்திர மொழிபெயர்ப்பு அமைப்புகளை நிரூபித்துள்ளன. அவை கிட்டத்தட்ட ஒரே நேரத்தில், பல வாரங்கள் அல்லது நாட்கள் இடைவெளியில் தோன்றின. அது ஏன்?

இந்த கேள்விக்கு பதிலளிக்க, நரம்பியல் நெட்வொர்க்குகளின் அடிப்படையிலான இயந்திர மொழிபெயர்ப்பு என்ன என்பதைப் புரிந்துகொள்வது அவசியம் மற்றும் இயந்திர மொழிபெயர்ப்புக்கு இன்று பயன்படுத்தப்படும் கிளாசிக்கல் புள்ளிவிவர அமைப்புகள் அல்லது பகுப்பாய்வு அமைப்புகளிலிருந்து அதன் முக்கிய வேறுபாடு என்ன.

நரம்பியல் மொழிபெயர்ப்பாளர் இருதரப்பு தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகளின் (இருதரப்பு மறுதொடக்க நரம்பியல் நெட்வொர்க்குகள்) ஒரு பொறிமுறையை அடிப்படையாகக் கொண்டது, இது மேட்ரிக்ஸ் கணக்கீடுகளில் கட்டமைக்கப்பட்டுள்ளது, இது புள்ளிவிவர இயந்திர மொழிபெயர்ப்பாளர்களை விட கணிசமாக சிக்கலான நிகழ்தகவு மாதிரிகளை உருவாக்க உங்களை அனுமதிக்கிறது.


புள்ளியியல் மொழிபெயர்ப்பைப் போலவே, நரம்பியல் மொழிபெயர்ப்பிற்கும் பயிற்சிக்கான இணையான கார்பஸ்கள் தேவைப்படுகின்றன, இது தானியங்கு மொழிபெயர்ப்பை "மனிதன்" என்ற குறிப்புடன் ஒப்பிடுவதை சாத்தியமாக்குகிறது, கற்றல் செயல்பாட்டில் மட்டுமே இது தனிப்பட்ட சொற்றொடர்கள் மற்றும் சொல் சேர்க்கைகளுடன் அல்ல, ஆனால் முழு வாக்கியங்களுடனும் செயல்படுகிறது. முக்கிய பிரச்சனை என்னவென்றால், அத்தகைய அமைப்பைப் பயிற்றுவிப்பதற்கு கணிசமாக அதிக கணினி சக்தி தேவைப்படுகிறது.

செயல்முறையை விரைவுபடுத்த, டெவலப்பர்கள் NVIDIA இலிருந்து GPUகளைப் பயன்படுத்துகின்றனர், அத்துடன் Google இன் டென்சர் ப்ராசசிங் யூனிட் (TPU), தனியுரிம சில்லுகள், குறிப்பாக இயந்திர கற்றல் தொழில்நுட்பங்களுக்குத் தழுவி. கிராபிக்ஸ் சில்லுகள் ஆரம்பத்தில் மேட்ரிக்ஸ் கணக்கீட்டு அல்காரிதம்களுக்கு உகந்ததாக இருக்கும், எனவே செயல்திறன் ஆதாயம் CPU உடன் ஒப்பிடும்போது 7-15 மடங்கு ஆகும்.

அப்படியிருந்தும், ஒரு நரம்பியல் மாதிரியைப் பயிற்றுவிப்பதற்கு 1 முதல் 3 வாரங்கள் ஆகும், அதே சமயம் அதே அளவுள்ள புள்ளிவிவர மாதிரியானது பயிற்சி பெற 1 முதல் 3 நாட்கள் ஆகும், மேலும் அளவு அதிகரிக்கும் போது இந்த வேறுபாடு அதிகரிக்கிறது.

இருப்பினும், இயந்திர மொழிபெயர்ப்பு பணியின் பின்னணியில் நரம்பியல் நெட்வொர்க்குகளின் வளர்ச்சியைத் தடுக்கும் தொழில்நுட்ப சிக்கல்கள் மட்டுமல்ல. இறுதியில், மொழி மாதிரிகளை முன்னதாகவே பயிற்றுவிக்க முடிந்தது, மெதுவாக இருந்தாலும், அடிப்படை தடைகள் எதுவும் இல்லை.

நரம்பியல் நெட்வொர்க்குகளுக்கான ஃபேஷன் ஒரு பாத்திரத்தை வகித்தது. பலர் உள்நாட்டில் வளர்ந்து வருகின்றனர், ஆனால் அவர்கள் அதை அறிவிக்க அவசரப்படவில்லை, ஒருவேளை, நரம்பியல் நெட்வொர்க்குகள் என்ற சொற்றொடரிலிருந்து சமூகம் எதிர்பார்க்கும் தரத்தின் அதிகரிப்பு அவர்கள் பெறமாட்டார்கள் என்று பயந்து. பல நரம்பியல் மொழிபெயர்ப்பாளர்கள் ஒன்றன் பின் ஒன்றாக அறிவிக்கப்பட்டனர் என்ற உண்மையை இது விளக்கலாம்.

மொழிபெயர்ப்பு தரம்: யாருடைய BLEU ஸ்கோர் தடிமனாக உள்ளது?

மொழிபெயர்ப்பு தரத்தின் அதிகரிப்பு திரட்டப்பட்ட எதிர்பார்ப்புகளுக்கும், மொழிபெயர்ப்புக்கான நரம்பியல் நெட்வொர்க்குகளின் மேம்பாடு மற்றும் ஆதரவுடன் வரும் செலவுகளின் அதிகரிப்புக்கும் ஒத்துப்போகிறதா என்பதைப் புரிந்துகொள்ள முயற்சிப்போம்.
கிளாசிக்கல் புள்ளியியல் அணுகுமுறையுடன் (அல்லது சொற்றொடர் அடிப்படையிலான இயந்திர மொழிபெயர்ப்பு, பிபிஎம்டி என்றும் அழைக்கப்படுகிறது) ஒப்பிடும்போது, ​​மொழி ஜோடியைப் பொறுத்து, நரம்பியல் இயந்திர மொழிபெயர்ப்பு 58% முதல் 87% வரை ஒப்பீட்டு மேம்பாட்டை அளிக்கிறது என்பதை Google தனது ஆராய்ச்சியில் நிரூபிக்கிறது.


SYSTRAN ஒரு ஆய்வை நடத்துகிறது, இதில் மொழிபெயர்ப்பின் தரம் பல வழங்கப்பட்ட விருப்பங்களிலிருந்து தேர்ந்தெடுக்கப்பட்டது பல்வேறு அமைப்புகள், அத்துடன் "மனித" மொழிபெயர்ப்பு. மேலும் அவர் தனது நரம்பியல் மொழிபெயர்ப்பு 46% வழக்குகளில் மனித மொழிபெயர்ப்பை விட விரும்புவதாகக் கூறுகிறார்.

மொழிபெயர்ப்பு தரம்: திருப்புமுனை உண்டா?

கூகிள் 60% அல்லது அதற்கும் அதிகமான முன்னேற்றம் என்று கூறினாலும், இந்த எண்ணிக்கையில் ஒரு சிறிய கேட்ச் உள்ளது. நிறுவனத்தின் பிரதிநிதிகள் "உறவினர் மேம்பாடு" பற்றி பேசுகிறார்கள், அதாவது, உன்னதமான புள்ளிவிவர மொழிபெயர்ப்பாளருடன் தொடர்புடைய மனித மொழிபெயர்ப்பின் தரத்திற்கான நரம்பியல் அணுகுமுறையுடன் அவர்கள் எவ்வளவு நெருக்கமாக நிர்வகிக்கிறார்கள்.


"Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation" என்ற கட்டுரையில் கூகுள் வழங்கிய முடிவுகளை ஆய்வு செய்யும் தொழில்துறை வல்லுநர்கள், வழங்கப்பட்ட முடிவுகளைப் பற்றி மிகவும் சந்தேகம் கொண்டுள்ளனர் மற்றும் உண்மையில் BLEU மதிப்பெண் 10% மட்டுமே மேம்படுத்தப்பட்டுள்ளது என்றும், மேலும் குறிப்பிடத்தக்க முன்னேற்றம் துல்லியமாக எப்போது கவனிக்கப்படுகிறது எளிய சோதனைகள்விக்கிபீடியாவிலிருந்து, நெட்வொர்க் பயிற்சி செயல்பாட்டில் பெரும்பாலும் பயன்படுத்தப்பட்டது.

PROMT இன் உள்ளே, எங்கள் கணினியின் பல்வேறு உரைகளில் உள்ள மொழிபெயர்ப்புகளை போட்டியாளர்களுடன் நாங்கள் தொடர்ந்து ஒப்பிட்டுப் பார்க்கிறோம், எனவே உற்பத்தியாளர்கள் கூறுவது போல் நரம்பியல் மொழிபெயர்ப்பு உண்மையில் முந்தைய தலைமுறையை விட உயர்ந்ததா என்பதைச் சரிபார்க்கும் எடுத்துக்காட்டுகள் எங்களிடம் உள்ளன.

அசல் உரை (EN): கவலை யாருக்கும் எந்த நன்மையும் செய்யவில்லை.
Google Translation PBMT: கவலைப்படாமல் யாருக்கும் எந்த நன்மையையும் செய்யவில்லை.
கூகுள் மொழிபெயர்ப்பு NMT: கவலை யாருக்கும் உதவவில்லை.

மூலம், Translate.Ru இல் அதே சொற்றொடரின் மொழிபெயர்ப்பு: "கவலை யாருக்கும் எந்த நன்மையையும் கொண்டு வரவில்லை," நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தாமல் அது இருந்ததையும் அப்படியே இருப்பதையும் நீங்கள் பார்க்கலாம்.

மைக்ரோசாப்ட் டிரான்ஸ்லேட்டரும் இந்த விஷயத்தில் பின்தங்கியிருக்கவில்லை. கூகுள் நிறுவனத்தின் சக ஊழியர்களைப் போலல்லாமல், தரத்தில் வளர்ச்சியைப் பற்றிய அறிக்கைகள் ஆதாரமற்றவை அல்ல என்பதை உறுதிப்படுத்த, நரம்பியல் மற்றும் முன்-நரம்பியல் ஆகிய இரண்டு முடிவுகளை நீங்கள் மொழிபெயர்த்து ஒப்பிட்டுப் பார்க்கக்கூடிய ஒரு வலைத்தளத்தையும் அவர்கள் உருவாக்கியுள்ளனர்.


இந்த எடுத்துக்காட்டில், முன்னேற்றம் இருப்பதைக் காண்கிறோம், அது உண்மையில் கவனிக்கத்தக்கது. முதல் பார்வையில், இயந்திர மொழிபெயர்ப்பு மனித மொழிபெயர்ப்புடன் ஏறக்குறைய பிடித்துவிட்டது என்ற டெவலப்பர்களின் கூற்று உண்மையாகத் தெரிகிறது. ஆனால் இது உண்மையில் அப்படியா, வணிகத்திற்கான தொழில்நுட்பத்தின் நடைமுறை பயன்பாட்டின் அடிப்படையில் இது என்ன அர்த்தம்?

IN பொது வழக்குநரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தி மொழிபெயர்ப்பது புள்ளிவிவர மொழிபெயர்ப்பை விட சிறந்தது, மேலும் இந்த தொழில்நுட்பம் வளர்ச்சிக்கான மகத்தான ஆற்றலைக் கொண்டுள்ளது. ஆனால் சிக்கலை நாம் கவனமாகப் பார்த்தால், எல்லாவற்றிலும் முன்னேற்றம் இல்லை என்பதையும், பணியைப் பொருட்படுத்தாமல் எல்லா பணிகளையும் நரம்பியல் நெட்வொர்க்குகளுக்குப் பயன்படுத்த முடியாது என்பதையும் நாம் காணலாம்.

இயந்திர மொழிபெயர்ப்பு: சவால்கள் என்ன?

தானியங்கி மொழிபெயர்ப்பாளரிடமிருந்து அதன் இருப்பின் முழு வரலாறும் - இது ஏற்கனவே 60 ஆண்டுகளுக்கும் மேலாகும்! - அறிவியல் புனைகதை படங்களில் இருந்து ஒரு இயந்திரமாக கற்பனை செய்து, அவர்கள் ஒருவித மாயாஜாலத்தை எதிர்பார்த்தனர், அது எந்தப் பேச்சையும் உடனடியாக வேற்றுகிரகவாசிகளின் விசில் மற்றும் பின்புறமாக மாற்றும்.

உண்மையில், பணிகள் வெவ்வேறு நிலைகளில் வருகின்றன, அவற்றில் ஒன்று "உலகளாவிய" அல்லது பேசுவதற்கு, அன்றாட பணிகளுக்கான "அன்றாட" மொழிபெயர்ப்பையும் புரிந்துகொள்வதையும் எளிதாக்குகிறது. ஆன்லைன் மொழிபெயர்ப்பு சேவைகள் மற்றும் பல மொபைல் தயாரிப்புகள் இந்த மட்டத்தில் பணிகளைச் சிறப்பாகச் சமாளிக்கின்றன.

அத்தகைய பணிகள் அடங்கும்:

பல்வேறு நோக்கங்களுக்காக சொற்கள் மற்றும் குறுகிய நூல்களின் விரைவான மொழிபெயர்ப்பு;
மன்றங்களில் தகவல் பரிமாற்றத்தின் போது தானியங்கி மொழிபெயர்ப்பு சமூக வலைப்பின்னல்களில், தூதர்கள்;
செய்திகள், விக்கிபீடியா கட்டுரைகளைப் படிக்கும்போது தானியங்கி மொழிபெயர்ப்பு;
பயண மொழிபெயர்ப்பாளர் (மொபைல்).

நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தி மொழிபெயர்ப்பின் தரத்தை அதிகரிப்பதற்கான எடுத்துக்காட்டுகள் அனைத்தும் இந்த பணிகளுடன் தொடர்புடையவை.

இருப்பினும், இயந்திர மொழிபெயர்ப்பு தொடர்பான வணிக இலக்குகள் மற்றும் நோக்கங்கள் என்று வரும்போது, ​​விஷயங்கள் கொஞ்சம் வித்தியாசமாக இருக்கும். எடுத்துக்காட்டாக, கார்ப்பரேட் இயந்திர மொழிபெயர்ப்பு அமைப்புகளுக்கான சில தேவைகள் இங்கே:

மொழிபெயர்ப்பு வணிக கடிதவாடிக்கையாளர்கள், பங்குதாரர்கள், முதலீட்டாளர்கள், வெளிநாட்டு ஊழியர்களுடன்;
வலைத்தளங்கள், ஆன்லைன் கடைகள், தயாரிப்பு விளக்கங்கள், வழிமுறைகளின் உள்ளூர்மயமாக்கல்;
பயனர் உள்ளடக்கத்தின் மொழிபெயர்ப்பு (விமர்சனங்கள், மன்றங்கள், வலைப்பதிவுகள்);
வணிக செயல்முறைகள் மற்றும் மென்பொருள் தயாரிப்புகள் மற்றும் சேவைகளில் மொழிபெயர்ப்பை ஒருங்கிணைக்கும் திறன்;
சொற்களஞ்சியம், இரகசியத்தன்மை மற்றும் பாதுகாப்பு ஆகியவற்றுடன் இணக்கமாக மொழிபெயர்ப்பின் துல்லியம்.

நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தி ஏதேனும் மொழிபெயர்ப்பு வணிகச் சிக்கல்களைத் தீர்க்க முடியுமா மற்றும் எப்படி சரியாகத் தீர்க்க முடியும் என்பதை எடுத்துக்காட்டுகளைப் பயன்படுத்தி, புரிந்துகொள்ள முயற்சிப்போம்.

வழக்கு: அமேடியஸ்

அமேடியஸ் உலகின் மிகப்பெரிய உலகளாவிய விமான டிக்கெட் விநியோக அமைப்புகளில் ஒன்றாகும். ஒருபுறம், ஏர் கேரியர்கள் அதனுடன் இணைக்கப்பட்டுள்ளன, மறுபுறம், மாற்றங்கள் குறித்த அனைத்து தகவல்களையும் உண்மையான நேரத்தில் பெற்று தங்கள் வாடிக்கையாளர்களுக்கு தெரிவிக்க வேண்டிய ஏஜென்சிகள்.

வெவ்வேறு மூலங்களிலிருந்து முன்பதிவு அமைப்பில் தானாக உருவாக்கப்படும் கட்டணங்களை (கட்டண விதிகள்) பயன்படுத்துவதற்கான நிபந்தனைகளை உள்ளூர்மயமாக்குவதே பணி. இந்த விதிகள் எப்போதும் உருவாக்கப்படுகின்றன ஆங்கில மொழி. கையேடு மொழிபெயர்ப்பு இங்கே நடைமுறையில் சாத்தியமற்றது, நிறைய தகவல்கள் இருப்பதால், அது அடிக்கடி மாறுகிறது. ஒரு விமான டிக்கெட் முகவர் தங்கள் வாடிக்கையாளர்களுக்கு உடனடியாகவும் திறமையாகவும் ஆலோசனை வழங்குவதற்காக ரஷ்ய மொழியில் கட்டண விதிகளைப் படிக்க விரும்புகிறார்.

வழக்கமான விதிமுறைகள் மற்றும் சுருக்கங்களை கணக்கில் எடுத்துக்கொண்டு, கட்டண விதிகளின் அர்த்தத்தை வெளிப்படுத்தும் தெளிவான மொழிபெயர்ப்பு தேவைப்படுகிறது. அமேடியஸ் முன்பதிவு அமைப்பில் நேரடியாக ஒருங்கிணைக்கப்படுவதற்கு தானியங்கி மொழிபெயர்ப்பு தேவைப்படுகிறது.

→ திட்டத்தின் பணி மற்றும் செயல்படுத்தல் ஆவணத்தில் விரிவாக விவரிக்கப்பட்டுள்ளது.

அமேடியஸ் ஃபேர் ரூல்ஸ் டிரான்ஸ்லேட்டரில் ஒருங்கிணைக்கப்பட்ட PROMT Cloud API மூலம் செய்யப்பட்ட மொழிபெயர்ப்பையும், Google வழங்கும் “நரம்பியல்” மொழிபெயர்ப்பையும் ஒப்பிட முயற்சிப்போம்.

அசல்: சுற்றுப் பயணத்திற்கான உடனடி கொள்முதல் கட்டணங்கள்

ப்ரோம்ட் (பகுப்பாய்வு அணுகுமுறை): ஒரு சுற்று விமானத்தின் உடனடி கொள்முதல் விலைகள்

ஜிஎன்எம்டி: சுற்று கொள்முதல்

நரம்பியல் மொழிபெயர்ப்பாளரால் இங்கே சமாளிக்க முடியாது என்பது வெளிப்படையானது, மேலும் சிறிது தூரம் ஏன் என்பது தெளிவாகிவிடும்.

வழக்கு: டிரிப் அட்வைசர்

டிரிப் அட்வைசர் உலகின் மிகப்பெரிய பயணச் சேவைகளில் ஒன்றாகும், இது அறிமுகம் தேவையில்லை. தி டெலிகிராப் வெளியிட்ட ஒரு கட்டுரையின்படி, ஒவ்வொரு நாளும் வெவ்வேறு மொழிகளில் பல்வேறு சுற்றுலா தளங்களின் 165,600 புதிய மதிப்புரைகள் தளத்தில் தோன்றும்.

இந்த மதிப்பாய்வின் அர்த்தத்தைப் புரிந்துகொள்ள போதுமான மொழிபெயர்ப்பு தரத்துடன் சுற்றுலா மதிப்புரைகளை ஆங்கிலத்திலிருந்து ரஷ்ய மொழியில் மொழிபெயர்ப்பதே பணி. முக்கிய சிரமம்: பயனர் உருவாக்கிய உள்ளடக்கத்தின் பொதுவான அம்சங்கள் (பிழைகள், எழுத்துப்பிழைகள், விடுபட்ட சொற்கள் கொண்ட உரைகள்).

டிரிப் அட்வைசர் இணையதளத்தில் வெளியிடுவதற்கு முன், மொழிபெயர்ப்பின் தரத்தை தானாக மதிப்பிடுவதும் பணியின் ஒரு பகுதியாகும். மொழிபெயர்க்கப்பட்ட அனைத்து உள்ளடக்கத்தையும் கைமுறையாக மதிப்பிடுவது சாத்தியமில்லை என்பதால், உயர்தர மொழியாக்கம் செய்யப்பட்ட மதிப்புரைகளை மட்டுமே TripAdvisor வெளியிடுவதை உறுதிசெய்ய, இயந்திர மொழிபெயர்ப்பு தீர்வு தன்னியக்க நம்பிக்கை மதிப்பெண்ணை வழங்க வேண்டும்.

தீர்வுக்காக, PROMT DeepHybrid தொழில்நுட்பம் பயன்படுத்தப்பட்டது, இது மொழிபெயர்ப்பு முடிவுகளின் புள்ளிவிவர பிந்தைய எடிட்டிங் உட்பட இறுதி வாசகருக்கு புரிந்துகொள்ளக்கூடிய உயர் தரமான மொழிபெயர்ப்பைப் பெறுவதை சாத்தியமாக்குகிறது.

எடுத்துக்காட்டுகளைப் பார்ப்போம்:

அசல்: நாங்கள் நேற்றிரவு அங்கு ஆர்வத்துடன் சாப்பிட்டோம், அது ஒரு அருமையான உணவு. சேவை அதிக தாங்காமல் கவனத்துடன் இருந்தது.

PROMT (கலப்பின மொழிபெயர்ப்பு): நேற்றிரவு நாங்கள் அங்கு ஆர்வத்துடன் சாப்பிட்டோம், அது ஒரு அற்புதமான உணவு. பணியாட்கள் பொறுக்காமல் கவனத்துடன் இருந்தனர்.

ஜிஎன்எம்டி: நேற்றிரவு நாங்கள் அங்கு ஆர்வத்துடன் சாப்பிட்டோம், அது ஒரு அற்புதமான உணவு. சேவையை மிகைப்படுத்தாமல் கவனத்துடன் இருந்தது.

இங்கே எல்லாம் முந்தைய உதாரணத்தைப் போல தரத்தின் அடிப்படையில் மனச்சோர்வடையவில்லை. பொதுவாக, அதன் அளவுருக்களின் அடிப்படையில், இந்த சிக்கலை நரம்பியல் நெட்வொர்க்குகளைப் பயன்படுத்தி தீர்க்க முடியும், மேலும் இது மொழிபெயர்ப்பின் தரத்தை மேலும் மேம்படுத்தலாம்.

வணிகத்திற்காக NMT ஐப் பயன்படுத்துவதில் உள்ள சவால்கள்

முன்னர் குறிப்பிட்டபடி, "உலகளாவிய" மொழிபெயர்ப்பாளர் எப்போதும் ஏற்றுக்கொள்ளக்கூடிய தரத்தை வழங்குவதில்லை மற்றும் குறிப்பிட்ட சொற்களை ஆதரிக்க முடியாது. நரம்பியல் நெட்வொர்க்குகளை உங்கள் செயல்முறைகளில் மொழிபெயர்ப்பதற்கு ஒருங்கிணைத்து பயன்படுத்த, நீங்கள் அடிப்படைத் தேவைகளைப் பூர்த்தி செய்ய வேண்டும்:

ஒரு நரம்பியல் வலையமைப்பைப் பயிற்றுவிப்பதற்கு போதுமான அளவு இணையான நூல்கள் இருப்பது. பெரும்பாலும் வாடிக்கையாளரிடம் அவற்றில் சில உள்ளன அல்லது இந்த தலைப்பில் எந்த உரைகளும் இயற்கையில் இல்லை. அவை வகைப்படுத்தப்படலாம் அல்லது தானியங்கு செயலாக்கத்திற்கு மிகவும் பொருத்தமானதாக இல்லாத நிலையில் இருக்கலாம்.

ஒரு மாதிரியை உருவாக்க, உங்களுக்கு குறைந்தபட்சம் 100 மில்லியன் டோக்கன்கள் (சொல் பயன்பாடுகள்) உள்ள தரவுத்தளம் தேவை, மேலும் அதிகமாகவோ அல்லது குறைவாகவோ ஏற்றுக்கொள்ளக்கூடிய தரத்தின் மொழிபெயர்ப்பைப் பெற - 500 மில்லியன் டோக்கன்கள். ஒவ்வொரு நிறுவனத்திற்கும் அத்தகைய அளவு பொருட்கள் இல்லை.

பெறப்பட்ட முடிவின் தரத்தை தானாக மதிப்பிடுவதற்கான ஒரு பொறிமுறை அல்லது வழிமுறைகளின் கிடைக்கும் தன்மை.

போதுமான கணினி ஆற்றல்.
"உலகளாவிய" நரம்பியல் மொழிபெயர்ப்பாளர் பெரும்பாலும் தரத்தில் பொருத்தமானவர் அல்ல, மேலும் ஏற்றுக்கொள்ளக்கூடிய தரம் மற்றும் வேலையின் வேகத்தை வழங்கும் திறன் கொண்ட உங்கள் சொந்த நரம்பியல் நெட்வொர்க்கை வரிசைப்படுத்த, ஒரு "சிறிய மேகம்" தேவை.

தனியுரிமையை என்ன செய்வது என்பது தெளிவாகத் தெரியவில்லை.
பாதுகாப்பு காரணங்களுக்காக ஒவ்வொரு வாடிக்கையாளரும் தங்கள் உள்ளடக்கத்தை மேகக்கணிக்கு மொழிபெயர்ப்பதற்குத் தயாராக இல்லை, மேலும் NMT என்பது கிளவுட் முதல் கதையாகும்.

முடிவுரை

பொதுவாக, நரம்பியல் தானியங்கி மொழிபெயர்ப்பு "முழுமையான" புள்ளியியல் அணுகுமுறையை விட உயர் தரமான முடிவுகளை உருவாக்குகிறது;
"உலகளாவிய மொழிபெயர்ப்பின்" சிக்கலைத் தீர்ப்பதற்கு நரம்பியல் நெட்வொர்க் மூலம் தானியங்கி மொழிபெயர்ப்பு மிகவும் பொருத்தமானது;
எம்டிக்கான அணுகுமுறைகள் எதுவும் எந்த மொழிபெயர்ப்புச் சிக்கலையும் தீர்ப்பதற்கான சிறந்த உலகளாவிய கருவியாக இல்லை;
வணிக மொழிபெயர்ப்பு சிக்கல்களைத் தீர்க்க, சிறப்புத் தீர்வுகள் மட்டுமே அனைத்துத் தேவைகளுக்கும் இணங்க உத்தரவாதம் அளிக்கும்.

உங்கள் மொழிபெயர்ப்பு பணிகளுக்கு, இதற்கு மிகவும் பொருத்தமான மொழிபெயர்ப்பாளரை நீங்கள் பயன்படுத்த வேண்டும் என்ற முற்றிலும் வெளிப்படையான மற்றும் தர்க்கரீதியான முடிவுக்கு நாங்கள் வருகிறோம். உள்ளே நியூரல் நெட்வொர்க் இருக்கிறதா இல்லையா என்பது முக்கியமல்ல. பணியைப் புரிந்துகொள்வது மிகவும் முக்கியமானது.

குறிச்சொற்கள்: குறிச்சொற்களைச் சேர்க்கவும்

09.14.2017, வியாழன், 14:19, மாஸ்கோ நேரம் , உரை: வலேரியா ஷ்மிரோவா

Yandex.Translator சேவையில், புள்ளிவிவர மொழிபெயர்ப்புக்கு கூடுதலாக, நரம்பியல் வலையமைப்பிலிருந்து மொழிபெயர்ப்பதற்கான விருப்பம் உள்ளது. அதன் நன்மை என்னவென்றால், இது முழு வாக்கியங்களுடனும் வேலை செய்கிறது, சிறந்த சூழலை எடுத்துக்கொள்வது மற்றும் நிலையான, இயல்பான உரையை உருவாக்குகிறது. இருப்பினும், ஒரு நரம்பியல் நெட்வொர்க் எதையாவது புரிந்து கொள்ளாதபோது, ​​​​அது கற்பனை செய்யத் தொடங்குகிறது.

நரம்பியல் வலையமைப்பைத் தொடங்குதல்

Yandex.Translator சேவையானது மொழிபெயர்ப்பின் தரத்தை மேம்படுத்த உதவும் நரம்பியல் வலையமைப்பை அறிமுகப்படுத்தியுள்ளது. முன்னர், ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு மொழிபெயர்ப்பது ஒரு புள்ளியியல் பொறிமுறையைப் பயன்படுத்தி மேற்கொள்ளப்பட்டது. இப்போது செயல்முறை கலப்பினமாக இருக்கும்: புள்ளிவிவர மாதிரி மற்றும் நரம்பியல் நெட்வொர்க் இரண்டும் மொழிபெயர்ப்பின் சொந்த பதிப்பை வழங்கும். இதற்குப் பிறகு, இயந்திர கற்றலை அடிப்படையாகக் கொண்ட CatBoost அல்காரிதம், பெறப்பட்ட சிறந்த முடிவைத் தேர்ந்தெடுக்கும்.

இதுவரை, நரம்பியல் நெட்வொர்க் ஆங்கிலத்திலிருந்து ரஷ்ய மொழியில் மொழிபெயர்ப்பை மட்டுமே செய்கிறது மற்றும் சேவையின் இணைய பதிப்பில் மட்டுமே. நிறுவனத்தின் கருத்துப்படி, Yandex.Translator இல் ஆங்கிலம்-ரஷ்ய மொழிபெயர்ப்பிற்கான கோரிக்கைகள் அனைத்து கோரிக்கைகளிலும் 80% ஆகும். வரும் மாதங்களில், டெவலப்பர்கள் மற்ற பகுதிகளில் ஹைப்ரிட் மாடலை அறிமுகப்படுத்த உள்ளனர். வெவ்வேறு வழிமுறைகளிலிருந்து மொழிபெயர்ப்புகளை ஒப்பிட்டுப் பார்க்க பயனரை அனுமதிக்க, ஒரு சிறப்பு சுவிட்ச் வழங்கப்படுகிறது.

புள்ளிவிவர மொழிபெயர்ப்பாளரிடமிருந்து வேறுபாடுகள்

நரம்பியல் நெட்வொர்க்கின் செயல்பாட்டுக் கொள்கையானது புள்ளிவிவர மொழிபெயர்ப்பு மாதிரியிலிருந்து வேறுபடுகிறது. வார்த்தைக்கு வார்த்தை, வெளிப்பாட்டின் மூலம் உரையை மொழிபெயர்ப்பதற்குப் பதிலாக, முழு வாக்கியங்களையும் பகுதிகளாகப் பிரிக்காமல் வேலை செய்கிறது. இதற்கு நன்றி, மொழிபெயர்ப்பு சூழலை கணக்கில் எடுத்துக்கொள்கிறது மற்றும் அர்த்தத்தை சிறப்பாக வெளிப்படுத்துகிறது. கூடுதலாக, மொழிபெயர்க்கப்பட்ட வாக்கியம் நிலையானது, இயற்கையானது, படிக்க மற்றும் புரிந்துகொள்ள எளிதானது. டெவலப்பர்களின் கூற்றுப்படி, இது ஒரு மனித மொழிபெயர்ப்பாளரின் வேலை என்று தவறாக நினைக்கலாம்.

நியூரல் நெட்வொர்க் மொழிபெயர்ப்பு மனித மொழிபெயர்ப்பை ஒத்திருக்கிறது

நரம்பியல் வலையமைப்பின் தனித்தன்மைகள் எதையாவது புரிந்து கொள்ளாதபோது "கற்பனை" செய்யும் போக்கு அடங்கும். இந்த வழியில் அவள் சரியான மொழிபெயர்ப்பை யூகிக்க முயற்சிக்கிறாள்.

ஒரு புள்ளியியல் மொழிபெயர்ப்பாளருக்கு அதன் நன்மைகள் உள்ளன: அவர் அரிதான சொற்கள் மற்றும் வெளிப்பாடுகளை மிகவும் வெற்றிகரமாக மொழிபெயர்க்கிறார் - குறைவான பொதுவான பெயர்கள், இடப்பெயர்கள், முதலியன. கூடுதலாக, ஒரு வாக்கியத்தின் பொருள் தெளிவாக இல்லை என்றால் அவர் கற்பனை செய்வதில்லை. டெவலப்பர்களின் கூற்றுப்படி, புள்ளிவிவர மாதிரி குறுகிய சொற்றொடர்களுடன் சிறப்பாக சமாளிக்கிறது.

பிற வழிமுறைகள்

Yandex.Translator ஒரு சிறப்பு பொறிமுறையைக் கொண்டுள்ளது, இது ஒரு நரம்பியல் நெட்வொர்க்கின் மொழிபெயர்ப்பைச் செம்மைப்படுத்துகிறது, ஒரு புள்ளிவிவர மொழிபெயர்ப்பாளரின் மொழிபெயர்ப்பைப் போலவே, வார்த்தைகளின் பொருந்தாத சேர்க்கைகள் மற்றும் எழுத்துப் பிழைகளை சரிசெய்கிறது. இதற்கு நன்றி, பயனர் "அப்பா சென்றார்" அல்லது " போன்ற சேர்க்கைகளைப் பார்க்க மாட்டார் கடுமையான வலி", டெவலப்பர்கள் உறுதியளிக்கிறார்கள். மொழி மாதிரியுடன் மொழிபெயர்ப்பை ஒப்பிடுவதன் மூலம் இந்த விளைவு அடையப்படுகிறது - கணினியால் திரட்டப்பட்ட மொழி பற்றிய அனைத்து அறிவும்.

கடினமான சந்தர்ப்பங்களில், நரம்பியல் நெட்வொர்க் கற்பனை செய்ய முனைகிறது

ஒரு மொழி மாதிரியானது ஒரு மொழியில் உள்ள சொற்கள் மற்றும் வெளிப்பாடுகளின் பட்டியலையும், அவற்றின் பயன்பாட்டின் அதிர்வெண் பற்றிய தரவையும் கொண்டுள்ளது. இது Yandex.Translator க்கு வெளியே பயன்பாட்டைக் கண்டறிந்துள்ளது. எடுத்துக்காட்டாக, Yandex.Keyboard ஐப் பயன்படுத்தும் போது, ​​பயனர் எந்த வார்த்தையைத் தட்டச்சு செய்ய விரும்புகிறார் என்பதை யூகித்து, அவருக்கு ஆயத்த விருப்பங்களை வழங்குகிறார். எடுத்துக்காட்டாக, “ஹலோ, எப்படி” என்பதைத் தொடர்ந்து “செய்வது” அல்லது “நீங்கள்” என்ற மாறுபாடுகள் இருக்கக்கூடும் என்பதை மொழி மாதிரி புரிந்துகொள்கிறது.

"Yandex.Translator" என்றால் என்ன

"Yandex.Translator என்பது 2011 இல் பணியைத் தொடங்கிய யாண்டெக்ஸ் நிறுவனத்திலிருந்து ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு உரைகளை மொழிபெயர்ப்பதற்கான ஒரு சேவையாகும். ஆரம்பத்தில், இது ரஷ்ய, உக்ரேனிய மற்றும் ஆங்கிலத்தில் மட்டுமே வேலை செய்தது.

சேவையின் போது, ​​மொழிகளின் எண்ணிக்கை 94 மொழிகளாக அதிகரித்துள்ளது. அவற்றில் பின்னல் அல்லது பாபியமென்டோ போன்ற கவர்ச்சியானவைகளும் உள்ளன. எந்த இரண்டு மொழிகளுக்கும் இடையில் மொழிபெயர்ப்பு செய்யலாம்.

2016 இல், J. R. R. Tolkien இன் புத்தகங்களில் குட்டிச்சாத்தான்கள் பயன்படுத்தும் கற்பனையான மற்றும் செயற்கையாக உருவாக்கப்பட்ட மொழியை Yandex.Translator சேர்த்தது.



தளத்தில் புதியது

>

மிகவும் பிரபலமான