տուն Կանխարգելում Նյարդային ցանցի թարգմանիչն ավելի արագ է մոտենում, ավելի ճշգրիտ: Նեյրոնային ցանցը Yandex.Browser-ում թարգմանություններն ավելի ճիշտ կդարձնի

Նյարդային ցանցի թարգմանիչն ավելի արագ է մոտենում, ավելի ճշգրիտ: Նեյրոնային ցանցը Yandex.Browser-ում թարգմանություններն ավելի ճիշտ կդարձնի

Գոյություն ունեն որոնողական համակարգերի կողմից ինդեքսավորված կայքերի ավելի քան կես միլիարդ օրինակ և ընդհանուրկան տասնյակ հազարավոր անգամ ավելի շատ վեբ էջեր: Ռուսալեզու բովանդակությունը զբաղեցնում է ամբողջ ինտերնետի 6%-ը։

Ինչպես արագ և այնպես թարգմանել ցանկալի տեքստը, որ պահպանվի հեղինակի կողմից նախատեսված իմաստը: Վիճակագրական բովանդակության թարգմանության մոդուլների հին մեթոդները շատ կասկածելի են աշխատում, քանի որ... Անհնար է ճշգրիտ որոշել բառերի անկումը, լարվածությունը և այլն: Բառերի բնույթն ու նրանց միջև կապերը բարդ են, ինչի պատճառով էլ արդյունքը երբեմն շատ անբնական էր թվում։

Այժմ Yandex-ը օգտագործում է ավտոմատ մեքենայական թարգմանություն, որը կբարելավի ստացված տեքստի որակը։ Դուք կարող եք ներբեռնել բրաուզերի վերջին պաշտոնական տարբերակը՝ նոր ներկառուցված թարգմանությամբ:

Բառերի և արտահայտությունների հիբրիդային թարգմանություն

Yandex բրաուզերը միակն է, որը կարող է թարգմանել էջը որպես ամբողջություն, ինչպես նաև առանձին բառեր և արտահայտություններ: Ֆունկցիան շատ օգտակար կլինի այն օգտատերերի համար, ովքեր քիչ թե շատ սեփականատեր են օտար լեզու, բայց երբեմն բախվում է թարգմանչական դժվարությունների։

Բառի թարգմանության մեխանիզմի մեջ ներկառուցված նեյրոնային ցանցը միշտ չէ, որ հաղթահարում է հանձնարարված առաջադրանքները, քանի որ Չափազանց դժվար էր հազվագյուտ բառեր ներդնել տեքստի մեջ և այն ընթեռնելի դարձնել: Այժմ հավելվածում ներդրվել է հիբրիդային մեթոդ՝ օգտագործելով հին և նոր տեխնոլոգիաները։

Մեխանիզմը հետևյալն է. ծրագիրն ընդունում է ընտրված նախադասությունները կամ բառերը, այնուհետև դրանք տալիս է և՛ նեյրոնային ցանցի մոդուլներին, և՛ վիճակագրական թարգմանչին, և ներկառուցված ալգորիթմը որոշում է, թե որ արդյունքն է ավելի լավ, և այն տալիս է օգտագործողին։

Նյարդային ցանցի թարգմանիչ

Արտասահմանյան բովանդակությունը ձևաչափված է շատ կոնկրետ ձևով.

  • վերնագրերում բառերի առաջին տառերը գրվում են մեծատառով.
  • նախադասությունները կառուցվում են պարզեցված քերականությամբ, որոշ բառեր բաց են թողնվում։

Կայքերի նավիգացիոն ընտրացանկերը վերլուծվում են՝ հաշվի առնելով դրանց գտնվելու վայրը, օրինակ՝ Վերադառնալ բառը, ճիշտ թարգմանված հետ (վերադառնալ), և ոչ թե հետ:

Վերոնշյալ բոլոր հատկանիշները հաշվի առնելու համար մշակողները լրացուցիչ մարզել են նեյրոնային ցանց, որն արդեն օգտագործում է տեքստային տվյալների հսկայական զանգված։ Այժմ թարգմանության որակի վրա ազդում է բովանդակության գտնվելու վայրը և դրա ձևավորումը:

Կիրառված թարգմանության արդյունքները

Թարգմանության որակը կարելի է չափել BLEU* ալգորիթմով, որը համեմատում է մեքենայական թարգմանությունը և պրոֆեսիոնալ թարգմանությունը: Որակի սանդղակ 0-ից 100%:

Որքան լավ է նյարդային թարգմանությունը, այնքան բարձր է տոկոսը: Այս ալգորիթմի համաձայն՝ Yandex բրաուզերը սկսել է թարգմանել 1,7 անգամ ավելի լավ։



Նյարդային ցանցերի միջոցով մեքենայական թարգմանությունը երկար ճանապարհ է անցել առաջինից ի վեր գիտական ​​հետազոտությունայս թեմայով, քանի դեռ Google-ը չի հայտարարել Google Translate ծառայության ամբողջական փոխանցման մասին խորը ուսուցման:

Ինչպես հայտնի է, նեյրոնային թարգմանիչը հիմնված է երկկողմանի կրկնվող նեյրոնային ցանցերի մեխանիզմի վրա (Երկուղղորդական կրկնվող նեյրոնային ցանցեր), որը կառուցված է մատրիցային հաշվարկների վրա, ինչը թույլ է տալիս կառուցել զգալիորեն ավելի բարդ հավանականական մոդելներ, քան վիճակագրական մեքենա թարգմանիչները: Այնուամենայնիվ, միշտ համարվել է, որ նյարդային թարգմանությունը, ինչպես վիճակագրական թարգմանությունը, վերապատրաստման համար պահանջում է երկու լեզուներով տեքստերի զուգահեռ կորպուսներ: Այս կորպուսների վրա վարժեցվում է նեյրոնային ցանց՝ որպես հղում վերցնելով մարդկային թարգմանությունը:

Ինչպես պարզվեց, նեյրոնային ցանցերն ի վիճակի են յուրացնել թարգմանության նոր լեզու նույնիսկ առանց տեքստերի զուգահեռ կորպուսի: Այս թեմայով երկու աշխատություն հրապարակվել է preprint կայքում arXiv.org:

«Պատկերացրեք, որ դուք մարդուն տալիս եք շատ չինարեն գրքեր և շատ արաբերեն գրքեր, որոնցից ոչ մեկը նույնը չէ, և այս մարդը սովորում է թարգմանել չինարենից արաբերեն: Թվում է, թե դա անհնար է, այնպես չէ՞: Բայց մենք ցույց տվեցինք, որ համակարգիչը կարող է դա անել», - ասում է Իսպանիայի Սան Սեբաստիանի Բասկերի Երկրի համալսարանի համակարգչային գիտնական Միկել Արտետկեն:

Մեքենայական թարգմանության նեյրոնային ցանցերի մեծ մասը վերապատրաստվում է «ուսուցչի հետ», որը մարդու կողմից թարգմանված տեքստերի զուգահեռ կորպուս է: Ուսուցման գործընթացում, կոպիտ ասած, նեյրոնային ցանցը ենթադրություն է անում, ստուգում է ստանդարտով և անհրաժեշտ ճշգրտումներ է կատարում իր համակարգերում, այնուհետև սովորում է հետագա: Խնդիրն այն է, որ որոշ լեզուների համար աշխարհում մեծ թվով զուգահեռ տեքստեր չկան, ուստի դրանք անհասանելի են ավանդական մեքենայական թարգմանության նեյրոնային ցանցերի համար:


Google Neural Machine Translation (GNMT) նեյրոնային ցանցի «համընդհանուր լեզուն»: Ձախ նկարազարդման վրա տարբեր գույներՑուցադրված են յուրաքանչյուր բառի իմաստների կլաստերներ, ներքևի աջ մասում` դրա համար ստացված բառի իմաստները մարդկային տարբեր լեզուներից՝ անգլերեն, կորեերեն և ճապոներեն:

Յուրաքանչյուր լեզվի համար կազմելով հսկա «ատլաս», համակարգը այնուհետև փորձում է նման ատլասը դնել մյուսի վրա, և ահա, դուք ունեք մի տեսակ զուգահեռ տեքստային կորպուսներ պատրաստ:

Առաջարկվող երկու չվերահսկվող ուսուցման ճարտարապետության նախագծերը կարելի է համեմատել:


Առաջարկվող համակարգի ճարտարապետությունը. L1-ի յուրաքանչյուր նախադասության համար համակարգը սովորում է փոխարինել երկու քայլ՝ 1) աղմուկի ճնշում(denoising), որը օպտիմալացնում է նախադասության աղմկոտ տարբերակը ընդհանուր կոդավորիչով կոդավորելու և այն L1 ապակոդավորիչով վերակառուցելու հավանականությունը. 2) հակադարձ թարգմանություն(հետադարձ թարգմանություն), երբ նախադասությունը թարգմանվում է ելքային ռեժիմով (այսինքն՝ կոդավորված է ընդհանուր կոդավորիչով և վերծանվում է L2 ապակոդավորիչով), և այնուհետև այս թարգմանված նախադասությունը ընդհանուր կոդավորիչով կոդավորելու և սկզբնական նախադասությունը վերակառուցելու հավանականությունը L1 ապակոդավորիչը օպտիմիզացված է: Նկարազարդում. Միքելա Արտետքսեն և այլք:


Համակարգի առաջարկվող ճարտարապետության և վերապատրաստման նպատակները (երկրորդ գիտական ​​աշխատանքից): Ճարտարապետությունը նախադասություն առ նախադասություն թարգմանության մոդել է, որտեղ և՛ կոդավորիչը, և՛ ապակոդավորիչը գործում են երկու լեզուներով՝ կախված մուտքային լեզվի ID-ից, որը փոխում է որոնման աղյուսակները: Վերև (ավտո-կոդավորում). Ներքև (թարգմանություն). ինչպես նախկինում, գումարած, մենք կոդավորում ենք մեկ այլ լեզվից՝ որպես մուտքագրում օգտագործելով նախորդ կրկնության մոդելի կողմից արտադրված թարգմանությունը (կապույտ ուղղանկյուն): Կանաչ էլիպսները ցույց են տալիս տերմիններ կորստի ֆունկցիայի մեջ: Նկարազարդում. Գիյոմ Լամպլա և այլք:

Երկուսն էլ գիտական ​​աշխատություններօգտագործել նկատելիորեն համանման մեթոդոլոգիա՝ չնչին տարբերություններով: Բայց երկու դեպքում էլ թարգմանությունն իրականացվում է ինչ-որ միջանկյալ «լեզվի» ​​կամ, ավելի լավ ասած, միջանկյալ հարթության կամ տարածության միջոցով։ Առայժմ չվերահսկվող նեյրոնային ցանցերը թարգմանության շատ բարձր որակ չեն ցույց տալիս, բայց հեղինակներն ասում են, որ այն հեշտությամբ կարելի է բարելավել, եթե օգտագործեք ուսուցչի մի փոքր օգնություն, նրանք պարզապես դա չեն արել՝ հանուն փորձի մաքրության։ .

համար ներկայացված աշխատանքները Միջազգային համաժողովուսուցման ներկայացուցչությունների մասին 2018 (International Conference on Learning Representations). Հոդվածներից ոչ մեկը դեռ չի հրապարակվել գիտական ​​մամուլում։

Ժամանակակից ինտերնետում կա ավելի քան 630 միլիոն կայք, սակայն դրանց միայն 6%-ն է պարունակում ռուսալեզու բովանդակություն։ Լեզվական խոչընդոտը ցանցի օգտատերերի միջև գիտելիքների տարածման հիմնական խնդիրն է, և մենք կարծում ենք, որ այն պետք է լուծվի ոչ միայն օտար լեզուների ուսուցմամբ, այլ նաև բրաուզերում ավտոմատ մեքենա թարգմանության միջոցով:

Այսօր մենք Habr-ի ընթերցողներին կպատմենք Yandex Browser թարգմանչի երկու կարևոր տեխնոլոգիական փոփոխությունների մասին։ Նախ, ընդգծված բառերի և արտահայտությունների թարգմանությունն այժմ օգտագործում է հիբրիդային մոդել, և մենք ձեզ կհիշեցնենք, թե ինչպես է այս մոտեցումը տարբերվում զուտ նեյրոնային ցանցերի օգտագործումից: Երկրորդ, թարգմանչի նեյրոնային ցանցերն այժմ հաշվի են առնում վեբ էջերի կառուցվածքը, որոնց առանձնահատկությունների մասին մենք կխոսենք նաև կտրվածքի տակ:

Բառերի և արտահայտությունների հիբրիդ թարգմանիչ

Առաջին մեքենայական թարգմանության համակարգերը հիմնված էին բառարաններ և կանոններ(ըստ էության՝ ձեռքով գրված կանոնավոր նիշեր), որոնք որոշեցին թարգմանության որակը։ Պրոֆեսիոնալ լեզվաբանները տարիներ շարունակ աշխատել են ձեռքի ավելի մանրամասն կանոններ մշակելու ուղղությամբ: Այս աշխատանքն այնքան ժամանակատար էր, որ լուրջ ուշադրություն դարձվեց միայն ամենատարածված լեզուների զույգերին, բայց նույնիսկ դրանց շրջանակներում մեքենաները վատ աշխատանք էին կատարում: Կենդանի լեզուն շատ է բարդ համակարգ, որը լավ չի ենթարկվում կանոններին։ Նույնիսկ ավելի դժվար է նկարագրել երկու լեզուների համապատասխանության կանոնները։

Մեքենայի համար փոփոխվող պայմաններին անընդհատ հարմարվելու միակ միջոցը մեծ թվով զուգահեռ տեքստերից անկախ սովորելն է (իմաստով նույնական, բայց գրված տարբեր լեզուներով) Սա մեքենայական թարգմանության վիճակագրական մոտեցումն է: Համակարգիչը համեմատում է զուգահեռ տեքստերը և ինքնուրույն բացահայտում օրինաչափությունները:

U վիճակագրական թարգմանիչկան և՛ առավելություններ, և՛ թերություններ: Մի կողմից նա լավ է հիշում հազվագյուտ ու բարդ բառերն ու արտահայտությունները։ Եթե ​​դրանք գտնվել են զուգահեռ տեքստերում, թարգմանիչը կհիշի դրանք և կշարունակի ճիշտ թարգմանել։ Մյուս կողմից, թարգմանության արդյունքը կարող է նմանվել ավարտված գլուխկոտրուկի. ընդհանուր պատկերը պարզ է թվում, բայց եթե ուշադիր նայես, կարող ես տեսնել, որ այն կազմված է առանձին կտորներից։ Պատճառն այն է, որ թարգմանիչը որպես նույնացուցիչ ներկայացնում է առանձին բառեր, որոնք ոչ մի կերպ չեն արտացոլում դրանց փոխհարաբերությունները։ Սա անհամապատասխան է մարդկանց լեզվի ընկալման ձևին, որտեղ բառերը սահմանվում են այն բանով, թե ինչպես են դրանք օգտագործվում, ինչպես են դրանք առնչվում և ինչպես են տարբերվում այլ բառերից:

Օգնում է լուծել այս խնդիրը նեյրոնային ցանցեր. Բառի ներդրումը, որն օգտագործվում է նյարդային մեքենա թարգմանության մեջ, սովորաբար յուրաքանչյուր բառ կապում է մի քանի հարյուր թվերի երկարությամբ վեկտորի հետ: Վեկտորները, ի տարբերություն վիճակագրական մոտեցման պարզ նույնացուցիչների, ձևավորվում են նեյրոնային ցանց վարելիս և հաշվի են առնում բառերի միջև փոխհարաբերությունները: Օրինակ, մոդելը կարող է գիտակցել, որ քանի որ «թեյը» և «սուրճը» հաճախ հայտնվում են նմանատիպ համատեքստում, այս երկու բառերը պետք է հնարավոր լինեն «թափել» նոր բառի համատեքստում, որը, ասենք, դրանցից միայն մեկն է հայտնվել. վերապատրաստման տվյալները.

Այնուամենայնիվ, վեկտորային ներկայացումների ուսուցման գործընթացը վիճակագրորեն ավելի պահանջկոտ է, քան օրինակների անգիր անելը: Բացի այդ, պարզ չէ, թե ինչ անել այդ հազվագյուտ մուտքային բառերի հետ, որոնք այնքան հաճախ չեն առաջացել, որպեսզի ցանցը կառուցի նրանց համար ընդունելի վեկտորային ներկայացում: Այս իրավիճակում տրամաբանական է համատեղել երկու մեթոդները։

Անցյալ տարվանից օգտվում է Yandex.Translator-ը հիբրիդային մոդել. Երբ Թարգմանիչը օգտատերից տեքստ է ստանում, այն թարգմանության համար տալիս է երկու համակարգերին՝ նեյրոնային ցանցին և վիճակագրական թարգմանչին: Ալգորիթմը, որը հիմնված է ուսուցման մեթոդի վրա, այնուհետև գնահատում է, թե որ թարգմանությունն է ավելի լավ: Վարկանիշ նշանակելիս հաշվի են առնվում տասնյակ գործոններ՝ նախադասության երկարությունից (կարճ արտահայտություններն ավելի լավ է թարգմանել վիճակագրական մոդելը) մինչև շարահյուսություն։ Լավագույնը ճանաչված թարգմանությունը ցուցադրվում է օգտագործողին:

Դա հիբրիդային մոդելն է, որն այժմ օգտագործվում է Yandex.Browser-ում, երբ օգտատերը էջի վրա ընտրում է կոնկրետ բառեր և արտահայտություններ թարգմանության համար։

Այս ռեժիմը հատկապես հարմար է նրանց համար, ովքեր հիմնականում տիրապետում են օտար լեզվին և ցանկանում են թարգմանել միայն անհայտ բառեր: Բայց եթե, օրինակ, սովորական անգլերենի փոխարեն հանդիպեք չինարեն, ապա դժվար կլինի անել առանց էջ առ էջ թարգմանչի։ Թվում է, թե տարբերությունը միայն թարգմանված տեքստի ծավալի մեջ է, բայց ամեն ինչ այդքան էլ պարզ չէ։

Վեբ էջերի նեյրոնային ցանցի թարգմանիչ

Ջորջթաունի փորձի ժամանակներից մինչև մեր օրերը մեքենայական թարգմանության բոլոր համակարգերը վերապատրաստվել են յուրաքանչյուր նախադասություն թարգմանելու համար սկզբնաղբյուր տեքստառանձին-առանձին։ Մինչդեռ վեբ էջը պարզապես նախադասությունների ամբողջություն չէ, այլ կառուցվածքային տեքստ, որը պարունակում է սկզբունքորեն տարբեր տարրեր: Եկեք նայենք էջերի մեծ մասի հիմնական տարրերին:

Վերնագիր. Սովորաբար վառ ու մեծ տեքստ, որը մենք անմիջապես տեսնում ենք էջ մտնելիս։ Վերնագիրը հաճախ պարունակում է լուրի էությունը, ուստի կարևոր է այն ճիշտ թարգմանել։ Բայց դա դժվար է անել, քանի որ վերնագրում բավականաչափ տեքստ չկա և առանց համատեքստը հասկանալու կարող ես սխալվել։ Անգլերենի դեպքում դա նույնիսկ ավելի բարդ է, քանի որ անգլալեզու վերնագրերը հաճախ պարունակում են անսովոր քերականությամբ, ինֆինիտիվներով կամ նույնիսկ բացակայող բայերով արտահայտություններ: Օրինակ, Հայտնի է դարձել Game of Thrones-ի պրիքվելը.

Նավիգացիա. Բառեր և արտահայտություններ, որոնք օգնում են մեզ կողմնորոշվել կայքում: Օրինակ, տուն, ԵտԵվ Իմ հաշիվըԴժվար թե արժե թարգմանել «Տուն», «Վերադառնալ» և «Իմ հաշիվը», եթե դրանք գտնվում են կայքի ընտրացանկում և ոչ թե հրապարակման տեքստում:

Հիմնական տեքստ. Դրա հետ ամեն ինչ ավելի պարզ է, այն քիչ է տարբերվում սովորական տեքստերից և նախադասություններից, որոնք մենք կարող ենք գտնել գրքերում: Բայց նույնիսկ այստեղ կարևոր է ապահովել թարգմանության հետևողականությունը, այսինքն՝ ապահովել, որ նույն ինտերնետային էջի ներսում նույն տերմիններն ու հասկացությունները թարգմանվեն նույն ձևով:

Վեբ էջերի որակյալ թարգմանության համար բավական չէ օգտագործել նեյրոնային ցանց կամ հիբրիդային մոդել, անհրաժեշտ է նաև հաշվի առնել էջերի կառուցվածքը։ Եվ դա անելու համար մենք պետք է առնչվեինք բազմաթիվ տեխնոլոգիական դժվարությունների:

Տեքստի հատվածների դասակարգում. Դա անելու համար մենք կրկին օգտագործում ենք CatBoost-ը և գործոնները, որոնք հիմնված են ինչպես տեքստի, այնպես էլ փաստաթղթերի HTML նշումների վրա (պիտակ, տեքստի չափ, հղումների քանակը մեկ տեքստի միավորի համար, ...): Գործոնները բավականին տարասեռ են, այդ իսկ պատճառով CatBoost-ը (հիմնված գրադիենտ խթանման վրա) ցույց է տալիս լավագույն արդյունքները (դասակարգման ճշգրտությունը 95%-ից բարձր): Բայց միայն հատվածների դասակարգումը բավարար չէ։

Շեղված տվյալներ. Ավանդաբար, Yandex.Translator ալգորիթմները վերապատրաստվում են ինտերնետից տեքստերի վրա: Թվում է, թե սա իդեալական լուծում է վեբ էջի թարգմանիչ պատրաստելու համար (այլ կերպ ասած, ցանցը սովորում է նույն բնույթի տեքստերից, որոնց վրա մենք պատրաստվում ենք օգտագործել այն): Բայց երբ մենք սովորեցինք առանձնացնել տարբեր հատվածները միմյանցից, մենք հայտնաբերեցինք հետաքրքիր առանձնահատկություն. Միջին հաշվով, կայքերում բովանդակությունը զբաղեցնում է ամբողջ տեքստի մոտավորապես 85%-ը, իսկ վերնագրերը և նավիգացիան կազմում են ընդամենը 7,5%: Հիշեք նաև, որ վերնագրերը և նավիգացիոն տարրերն իրենք ոճով և քերականությամբ նկատելիորեն տարբերվում են մնացած տեքստից: Այս երկու գործոնները միասին հանգեցնում են տվյալների շեղման խնդրին: Նյարդային ցանցի համար ավելի ձեռնտու է պարզապես անտեսել այս հատվածների առանձնահատկությունները, որոնք շատ վատ են ներկայացված ուսումնական հավաքածուում: Ցանցը սովորում է լավ թարգմանել միայն հիմնական տեքստը, ինչի պատճառով տուժում է վերնագրերի թարգմանության և նավիգացիայի որակը։ Այս տհաճ ազդեցությունը հարթելու համար մենք արեցինք երկու բան. զուգահեռ նախադասությունների յուրաքանչյուր զույգին նշանակեցինք նախադասություններից մեկը. երեք տեսակիհատվածներ (բովանդակություն, վերնագիր կամ նավարկություն) և արհեստականորեն ավելացրեցին վերջին երկուսի կոնցենտրացիան ուսումնական կորպուսում մինչև 33%՝ պայմանավորված այն հանգամանքով, որ նրանք սկսեցին ավելի հաճախ ցույց տալ նմանատիպ օրինակներ ուսումնական նեյրոնային ցանցին:

Բազմաֆունկցիոնալ ուսուցում. Քանի որ այժմ մենք կարող ենք վեբ էջերի տեքստը բաժանել երեք դասի հատվածների, կարող է թվալ, որ բնական գաղափար է պատրաստել երեք առանձին մոդելներ, որոնցից յուրաքանչյուրը կզբաղվի տարբեր տեսակի տեքստի թարգմանությամբ՝ վերնագրեր, նավիգացիա կամ բովանդակություն: Սա իսկապես լավ է աշխատում, բայց սխեման ավելի լավ է աշխատում, երբ մենք վարժեցնում ենք մեկ նեյրոնային ցանց՝ թարգմանելու բոլոր տեսակի տեքստերը միանգամից: Հասկանալու բանալին կայանում է mutli-task ուսուցման (MTL) գաղափարի մեջ. եթե կա ներքին կապ մեքենայական ուսուցման մի քանի առաջադրանքների միջև, ապա մոդելը, որը սովորում է միաժամանակ լուծել այդ խնդիրները, կարող է սովորել ավելի լավ լուծել առաջադրանքներից յուրաքանչյուրը: քան նեղ մասնագիտացված մոդելը:

Նուրբ կարգավորում. Մենք արդեն ունեինք բավականին լավ մեքենայական թարգմանություն, ուստի անխոհեմ կլիներ Yandex.Browser-ի համար նոր թարգմանիչ պատրաստել զրոյից: Ավելի տրամաբանական է վերցնել սովորական տեքստերի թարգմանության հիմնական համակարգ և վարժեցնել այն վեբ էջերի հետ աշխատելու համար: Նյարդային ցանցերի համատեքստում դա հաճախ կոչվում է ճշգրտում: Բայց եթե դուք մոտենաք այս խնդրին դեմ առ դեմ, այսինքն. Պարզապես նախաստորագրեք նեյրոնային ցանցի կշիռները ավարտված մոդելի արժեքներով և սկսեք սովորել նոր տվյալների վրա, այնուհետև կարող եք հանդիպել տիրույթի տեղաշարժի ազդեցությանը. կբարձրանա, բայց կանոնավոր (տիրույթից դուրս) տեքստերի թարգմանության որակը կնվազի։ Այս տհաճ հատկանիշից ազատվելու համար լրացուցիչ պարապմունքների ժամանակ մենք լրացուցիչ սահմանափակում ենք դնում նեյրոնային ցանցի վրա՝ արգելելով նրան չափից շատ փոխել կշիռները սկզբնական վիճակի համեմատ։

Մաթեմատիկորեն դա արտահայտվում է կորստի ֆունկցիային տերմին ավելացնելով, որը Կուլբեք-Լեյբլերի հեռավորությունն է (KL-դիվերգենցիա) հաջորդ բառի առաջացման հավանականության բաշխումների միջև, որը թողարկվել է սկզբնական և լրացուցիչ պատրաստված ցանցերի կողմից: Ինչպես երևում է նկարազարդումից, դա հանգեցնում է նրան, որ վեբ էջերի թարգմանության որակի բարձրացումն այլևս չի հանգեցնում սովորական տեքստի թարգմանության դեգրադացիայի։

Նավարկությունից հաճախականության արտահայտությունների փայլեցում. Նոր թարգմանչի վրա աշխատելիս մենք վիճակագրություն հավաքեցինք վեբ էջերի տարբեր հատվածների տեքստերի վերաբերյալ և տեսանք հետաքրքիր բան։ Նավիգացիոն տարրերին վերաբերող տեքստերը բավականին բարձր ստանդարտացված են, ուստի դրանք հաճախ բաղկացած են նույն ձևանմուշ արտահայտություններից: Սա այնքան հզոր էֆեկտ է, որ ինտերնետում հայտնաբերված նավիգացիոն արտահայտությունների կեսից ավելին բաժին է ընկնում ամենահաճախ հանդիպողներից ընդամենը 2 հազարին:

Մենք, իհարկե, օգտվեցինք դրանից և մի քանի հազար ամենատարածված արտահայտություններն ու դրանց թարգմանությունները տվեցինք մեր թարգմանիչներին ստուգման, որպեսզի լիովին վստահ լինենք դրանց որակի վրա:

Արտաքին հավասարեցումներ. Բրաուզերում վեբ էջի թարգմանչի համար ևս մեկ կարևոր պահանջ կար՝ այն չպետք է խեղաթյուրի նշագրումը: Երբ HTML պիտակները տեղադրվում են նախադասության սահմաններից դուրս կամ դրսում, խնդիրներ չեն առաջանում: Բայց եթե նախադասության ներսում կա, օրինակ. երկու ընդգծել էբառերը, ապա թարգմանության մեջ ուզում ենք տեսնել «երկու ընդգծել էբառեր»: Նրանք. Փոխանցման արդյունքում պետք է կատարվի երկու պայման.

  1. Թարգմանության մեջ ընդգծված հատվածը պետք է ճիշտ համապատասխանի սկզբնաղբյուր տեքստի ընդգծված հատվածին։
  2. Ընդգծված հատվածի սահմաններում թարգմանության հետևողականությունը չպետք է խախտվի։
Այս վարքագծին հասնելու համար մենք նախ թարգմանում ենք տեքստը, ինչպես միշտ, այնուհետև օգտագործում ենք բառ առ բառ հավասարեցման վիճակագրական մոդելներ՝ սկզբնաղբյուրի հատվածների և թարգմանված տեքստերի միջև համապատասխանությունը որոշելու համար: Սա օգնում է հասկանալ, թե կոնկրետ ինչն է պետք ընդգծել (շեղատառով, ձևաչափված որպես հիպերհղում, ...):

Խաչմերուկի դիտորդ. Նյարդային ցանցերի թարգմանության հզոր մոդելները, որոնք մենք պատրաստել ենք, պահանջում են զգալիորեն ավելի շատ հաշվողական ռեսուրսներ մեր սերվերների վրա (ինչպես CPU, այնպես էլ GPU), քան վիճակագրական մոդելների նախորդ սերունդները: Միևնույն ժամանակ, օգտատերերը միշտ չէ, որ կարդում են էջերը մինչև վերջ, ուստի վեբ էջերի ամբողջ տեքստն ամպ ուղարկելն ավելորդ է թվում։ Սերվերի ռեսուրսները և օգտատերերի տրաֆիկը խնայելու համար մենք Translator-ին սովորեցրել ենք օգտագործել

թե՞ քանակությունը վերածվում է որակի:

Հոդված՝ հիմնված RIF+KIB 2017 կոնֆերանսի ելույթի վրա։

Նյարդային մեքենայի թարգմանություն. ինչու միայն հիմա:

Նյարդային ցանցերի մասին խոսվել է երկար ժամանակ, և թվում է, թե արհեստական ​​ինտելեկտի դասական խնդիրներից մեկը՝ մեքենայական թարգմանությունը, պարզապես խնդրում է լուծել այս տեխնոլոգիայի հիման վրա։

Այնուամենայնիվ, ահա ընդհանուր առմամբ նեյրոնային ցանցերի և մասնավորապես նեյրոնային մեքենաների թարգմանության վերաբերյալ հարցումների ժողովրդականության դինամիկան.

Ակնհայտ է, որ մինչև վերջերս ռադարներում ոչինչ չկար նյարդային մեքենայական թարգմանության մասին, և 2016-ի վերջին մի քանի ընկերություններ ցուցադրեցին իրենց նոր տեխնոլոգիաները և մեքենայական թարգմանության համակարգերը՝ հիմնված նեյրոնային ցանցերի վրա, այդ թվում՝ Google-ը, Microsoft-ը և SYSTRAN-ը: Նրանք հայտնվել են գրեթե միաժամանակ՝ մի քանի շաբաթվա կամ նույնիսկ օրերի տարբերությամբ։ Ինչո՞ւ է այդպես։

Այս հարցին պատասխանելու համար անհրաժեշտ է հասկանալ, թե ինչ է նեյրոնային ցանցերի վրա հիմնված մեքենայական թարգմանությունը և որն է դրա հիմնական տարբերությունը դասական վիճակագրական համակարգերից կամ վերլուծական համակարգերից, որոնք այսօր օգտագործվում են մեքենայական թարգմանության համար:

Նյարդային թարգմանիչը հիմնված է երկկողմանի կրկնվող նեյրոնային ցանցերի մեխանիզմի վրա (Երկկողմանի կրկնվող նեյրոնային ցանցեր), որը կառուցված է մատրիցային հաշվարկների վրա, ինչը թույլ է տալիս կառուցել զգալիորեն ավելի բարդ հավանականական մոդելներ, քան վիճակագրական մեքենաների թարգմանիչները:


Ինչպես վիճակագրական թարգմանությունը, այնպես էլ նեյրոնային թարգմանությունը ուսուցման համար պահանջում է զուգահեռ կորպուսներ, որոնք հնարավորություն են տալիս համեմատել ավտոմատ թարգմանությունը «մարդկային» հղման հետ, միայն ուսումնական գործընթացում այն ​​գործում է ոչ թե առանձին արտահայտություններով և բառակապակցություններով, այլ ամբողջ նախադասություններով: Հիմնական խնդիրն այն է, որ նման համակարգի ուսուցումը զգալիորեն ավելի մեծ հաշվողական հզորություն է պահանջում:

Գործընթացը արագացնելու համար մշակողները օգտագործում են NVIDIA-ի GPU-ները, ինչպես նաև Google-ի Tensor Processing Unit-ը (TPU), հատուկ չիպեր, որոնք հարմարեցված են հատուկ մեքենայական ուսուցման տեխնոլոգիաների համար: Գրաֆիկական չիպերն ի սկզբանե օպտիմիզացված են մատրիցային հաշվարկի ալգորիթմների համար, և, հետևաբար, կատարողականի բարձրացումը 7-15 անգամ է` համեմատած պրոցեսորի հետ:

Այնուամենայնիվ, մեկ նեյրոնային մոդելի ուսուցումը տևում է 1-ից 3 շաբաթ, մինչդեռ մոտավորապես նույն չափի վիճակագրական մոդելը վարժեցնելու համար տևում է 1-ից 3 օր, և այս տարբերությունը մեծանում է չափի մեծացման հետ:

Այնուամենայնիվ, ոչ միայն տեխնոլոգիական խնդիրներն էին խանգարում նեյրոնային ցանցերի զարգացմանը մեքենայական թարգմանության առաջադրանքի համատեքստում: Ի վերջո, հնարավոր եղավ ավելի վաղ, թեկուզ ավելի դանդաղ, լեզվի մոդելներ պատրաստել, բայց հիմնարար խոչընդոտներ չկային։

Նյարդային ցանցերի նորաձևությունը նույնպես իր դերն ունեցավ։ Շատերը ներքին զարգանում էին, բայց չէին շտապում այդ մասին հայտարարել՝ վախենալով, որ, թերևս, չեն ստանա որակի այն բարձրացումը, որն ակնկալում է հասարակությունը Նեյրոնային ցանցեր արտահայտությունից։ Սա կարող է բացատրել այն փաստը, որ մեկը մյուսի հետևից հայտարարվել են մի քանի նյարդային թարգմանիչներ։

Թարգմանության որակ. ո՞ւմ միավորն է ավելի հաստ:

Փորձենք հասկանալ, թե արդյոք թարգմանության որակի բարձրացումը համապատասխանում է կուտակված ակնկալիքներին և ծախսերի ավելացմանը, որոնք ուղեկցում են թարգմանության համար նեյրոնային ցանցերի զարգացմանն ու աջակցությանը։
Google-ն իր հետազոտության մեջ ցույց է տալիս, որ նյարդային մեքենայական թարգմանությունը տալիս է հարաբերական բարելավում 58%-ից մինչև 87%, կախված լեզվական զույգից՝ համեմատած դասական վիճակագրական մոտեցման հետ (կամ արտահայտությունների վրա հիմնված մեքենայական թարգմանության, ինչպես նաև կոչվում է PBMT):


SYSTRAN-ը ուսումնասիրություն է անցկացնում, որտեղ թարգմանության որակը գնահատվում է՝ ընտրելով ներկայացված մի քանի տարբերակներից տարբեր համակարգեր, ինչպես նաև «մարդկային» թարգմանությունը։ Եվ նա նշում է, որ իր նեյրոնային թարգմանությունը 46% դեպքերում գերադասվում է մարդկային թարգմանությունից։

Թարգմանության որակ. կա՞ բեկում:

Թեև Google-ը պնդում է, որ բարելավվել է 60% կամ ավելի, այս ցուցանիշը մի փոքր գրավում է: Ընկերության ներկայացուցիչները խոսում են «Հարաբերական բարելավման» մասին, այսինքն, թե որքանով են մոտեցել մարդկային թարգմանության որակի նյարդային մոտեցմանը դասական վիճակագրական թարգմանչի հետ համեմատած:


Ոլորտի փորձագետները, որոնք վերլուծում են Google-ի կողմից ներկայացված արդյունքները «Google's Neural Machine Translation System. Bridging the Gap between Human and Machine Translation» հոդվածում բավական թերահավատորեն են վերաբերվում ներկայացված արդյունքներին և ասում են, որ իրականում BLEU-ի միավորը բարելավվել է ընդամենը 10%-ով, և զգալի առաջընթաց նկատելի է հենց այն ժամանակ, երբ պարզ թեստերՎիքիպեդիայից, որոնք ամենայն հավանականությամբ օգտագործվել են ցանցի ուսուցման գործընթացում։

PROMT-ի ներսում մենք պարբերաբար համեմատում ենք մեր համակարգերի տարբեր տեքստերի թարգմանությունները մրցակիցների հետ, և հետևաբար մենք միշտ ունենք օրինակներ, որոնց վրա կարող ենք ստուգել, ​​թե արդյոք նեյրոնային թարգմանությունն իրոք նույնքան գերազանցում է նախորդ սերնդին, որքան պնդում են արտադրողները:

Բնօրինակ տեքստ (EN). Անհանգստանալը երբեք որևէ մեկին օգուտ չի տվել:
Google Translation PBMT. Առանց անհանգստանալու ոչ մեկին լավ բան չարեցի:
Google Translation NMT. ​​Անհանգստությունը երբեք ոչ մեկին չի օգնել:

Ի դեպ, նույն արտահայտության թարգմանությունը Translate.Ru-ում. «Անհանգստությունը երբեք որևէ մեկին որևէ օգուտ չի բերել», դուք կարող եք տեսնել, որ այն եղել և մնում է նույնը առանց նեյրոնային ցանցերի օգտագործման:

Այս հարցում հետ չի մնում նաև Microsoft Translator-ը։ Ի տարբերություն Google-ի իրենց գործընկերների, նրանք նույնիսկ ստեղծել են մի կայք, որտեղ կարող եք թարգմանել և համեմատել երկու արդյունք՝ նյարդային և նախնական նյարդային, որպեսզի համոզվեք, որ որակի աճի մասին հայտարարություններն անհիմն չեն:


Այս օրինակում մենք տեսնում ենք, որ առաջընթաց կա, և դա իսկապես նկատելի է։ Առաջին հայացքից թվում է, որ մշակողների հայտարարությունն այն մասին, որ մեքենայական թարգմանությունը գրեթե համընկել է մարդկային թարգմանության հետ, ճիշտ է: Բայց արդյո՞ք դա իսկապես այդպես է, և ի՞նչ է դա նշանակում բիզնեսի համար տեխնոլոգիաների գործնական կիրառման առումով:

IN ընդհանուր դեպքՆեյրոնային ցանցերի միջոցով թարգմանությունը գերազանցում է վիճակագրական թարգմանությանը, և այս տեխնոլոգիան զարգացման հսկայական ներուժ ունի: Բայց եթե ուշադիր նայենք հարցին, կարող ենք տեսնել, որ առաջընթացը ամեն ինչում չէ, և ոչ բոլոր առաջադրանքները կարող են կիրառվել նեյրոնային ցանցերի վրա՝ առանց հաշվի առնելու բուն առաջադրանքը:

Մեքենայական թարգմանություն. որո՞նք են մարտահրավերները:

Ավտոմատ թարգմանիչից նրա գոյության ողջ պատմությունը, և սա արդեն ավելի քան 60 տարի է: – նրանք սպասում էին ինչ-որ կախարդության՝ պատկերացնելով այն որպես գիտաֆանտաստիկ ֆիլմերի մեքենա, որն ակնթարթորեն փոխակերպում է ցանկացած խոսք այլմոլորակայինի սուլոցի և ետ:

Իրականում առաջադրանքները գալիս են տարբեր մակարդակների, որոնցից մեկը ներառում է «ունիվերսալ» կամ, այսպես ասած, «ամենօրյա» թարգմանություն առօրյա առաջադրանքների և հասկանալու հեշտության համար: Առցանց թարգմանչական ծառայությունները և բջջային սարքերից շատերը լավ են կարողանում հաղթահարել այս մակարդակի առաջադրանքները:

Նման առաջադրանքները ներառում են.

Բառերի և կարճ տեքստերի արագ թարգմանություն տարբեր նպատակների համար;
ավտոմատ թարգմանություն ֆորումներում հաղորդակցության ընթացքում, ներս սոցիալական ցանցերում, սուրհանդակներ;
ավտոմատ թարգմանություն նորություններ, Վիքիպեդիայի հոդվածներ կարդալիս;
ճանապարհորդական թարգմանիչ (բջջային):

Նեյրոնային ցանցերի միջոցով թարգմանության որակի բարձրացման բոլոր այն օրինակները, որոնք մենք քննարկեցինք վերևում, վերաբերում են հենց այս խնդիրներին:

Այնուամենայնիվ, երբ խոսքը վերաբերում է մեքենայական թարգմանության բիզնես նպատակներին և խնդիրներին, ամեն ինչ մի փոքր այլ է: Ահա, օրինակ, կորպորատիվ մեքենայական թարգմանության համակարգերի պահանջներից մի քանիսը.

Թարգմանություն գործարար նամակագրությունհաճախորդների, գործընկերների, ներդրողների, օտարերկրյա աշխատակիցների հետ;
կայքերի, առցանց խանութների, ապրանքների նկարագրությունների, հրահանգների տեղայնացում;
օգտագործողի բովանդակության թարգմանություն (ակնարկներ, ֆորումներ, բլոգեր);
թարգմանությունը բիզնես գործընթացների և ծրագրային արտադրանքների և ծառայությունների մեջ ինտեգրելու ունակություն.
թարգմանության ճշգրտությունը տերմինաբանության, գաղտնիության և անվտանգությանը համապատասխան:

Փորձենք օրինակներով հասկանալ, թե արդյոք թարգմանչական բիզնեսի հետ կապված որևէ խնդիր հնարավո՞ր է լուծել նեյրոնային ցանցերի միջոցով և ինչպես ճիշտ:

Պատյան՝ Ամադեուս

Amadeus-ը ավիատոմսերի բաշխման աշխարհի խոշորագույն համակարգերից մեկն է: Մի կողմից դրա հետ կապված են ավիափոխադրողները, մյուս կողմից՝ գործակալությունները, որոնք պետք է իրական ժամանակում ստանան փոփոխությունների մասին ողջ տեղեկատվությունը և այն փոխանցեն իրենց հաճախորդներին։

Խնդիրն է տեղայնացնել սակագների կիրառման պայմանները (Ուղեվարձի կանոններ), որոնք ավտոմատ կերպով ստեղծվում են ամրագրման համակարգում տարբեր աղբյուրներից։ Այս կանոնները միշտ ձևավորվում են Անգլերեն Լեզու. Ձեռքով թարգմանությունն այստեղ գործնականում անհնար է, քանի որ տեղեկատվությունը շատ է և հաճախ փոխվում է։ Ավիատոմսերի գործակալը ցանկանում է կարդալ Ուղեվարձի կանոնները ռուսերեն՝ իրենց հաճախորդներին արագ և գրագետ խորհուրդ տալու համար:

Պահանջվում է հստակ թարգմանություն, որը կհաղորդի սակագնային կանոնների իմաստը՝ հաշվի առնելով բնորոշ տերմիններն ու հապավումները: Եվ դա պահանջում է ավտոմատ թարգմանություն՝ անմիջապես Ամադեուս ամրագրման համակարգում ինտեգրվելու համար:

→ Ծրագրի առաջադրանքը և իրականացումը մանրամասն նկարագրված են փաստաթղթում։

Փորձենք համեմատել Amadeus Fare Rules Translator-ում ինտեգրված PROMT Cloud API-ի միջոցով կատարված թարգմանությունը և Google-ի «նյարդային» թարգմանությունը:

Օրիգինալ՝ ԵՐԿԿՈՒ ՈՒՂՂՎԱԾ ԱԿՏԻՎ ԳՆՈՒՄՆԵՐԻ ԳՈՐԾԵՐ

PROMT (Վերլուծական մոտեցում).

GNMT՝ Կլոր գնումներ

Ակնհայտ է, որ նյարդային թարգմանիչն այստեղ չի կարող գլուխ հանել, և մի փոքր ավելի պարզ կդառնա, թե ինչու։

Դեպք՝ TripAdvisor

TripAdvisor-ը աշխարհի խոշորագույն տուրիստական ​​ծառայություններից մեկն է, որը ներածման կարիք չունի: Ըստ The Telegraph-ի հրապարակած հոդվածի, ամեն օր կայքում հայտնվում է 165,600 նոր ակնարկ տարբեր զբոսաշրջային վայրերի տարբեր լեզուներով:

Խնդիրն է թարգմանել զբոսաշրջային ակնարկները անգլերենից ռուսերեն՝ թարգմանության որակով, որը բավարար է այս ակնարկի իմաստը հասկանալու համար: Հիմնական դժվարությունը. օգտագործողի կողմից ստեղծված բովանդակության բնորոշ առանձնահատկություններ (սխալներով տեքստեր, տառասխալներ, բացակայող բառեր):

Առաջադրանքի մի մասն էր նաև թարգմանության որակի ավտոմատ գնահատումը մինչ TripAdvisor-ի կայքում հրապարակելը: Քանի որ ամբողջ թարգմանված բովանդակության ձեռքով գնահատումը հնարավոր չէ, մեքենայական թարգմանության լուծումը պետք է ապահովի ավտոմատ վստահության միավոր՝ ապահովելու համար, որ TripAdvisor-ը հրապարակում է միայն բարձրորակ թարգմանված ակնարկներ:

Լուծման համար օգտագործվել է PROMT DeepHybrid տեխնոլոգիան, որը հնարավորություն է տալիս ստանալ ավելի որակյալ թարգմանություն, որը հասկանալի է վերջնական ընթերցողին, այդ թվում՝ թարգմանության արդյունքների վիճակագրական հետխմբագրման միջոցով:

Դիտարկենք օրինակներ.

Բնօրինակ. Մենք անցյալ գիշեր այնտեղ կերանք քմահաճույքով, և դա հաճելի կերակուր էր: Ծառայությունը ուշադիր էր՝ առանց չափազանցության։

ՊՐՈՄՏ (հիբրիդ թարգմանություն). Մենք անցած գիշեր այնտեղ ճաշեցինք քմահաճույքով, և դա հիանալի կերակուր էր: Անձնակազմը ուշադիր էր՝ առանց ճնշող լինելու։

GNMT. Մենք անցած գիշեր այնտեղ կերանք քմահաճույքով, և դա հիանալի կերակուր էր: Ծառայությունը ուշադիր է եղել՝ առանց ճնշող լինելու։

Այստեղ որակական առումով ամեն ինչ այնքան ճնշող չէ, որքան նախորդ օրինակում։ Իսկ ընդհանուր առմամբ, իր պարամետրերով այս խնդիրը հնարավոր է լուծել նեյրոնային ցանցերի միջոցով, և դա կարող է էլ ավելի բարելավել թարգմանության որակը։

Բիզնեսի համար NMT-ի օգտագործման մարտահրավերները

Ինչպես նշվեց ավելի վաղ, «ունիվերսալ» թարգմանիչը միշտ չէ, որ ապահովում է ընդունելի որակ և չի կարող աջակցել կոնկրետ տերմինաբանությանը: Նյարդային ցանցերը ձեր գործընթացներում թարգմանելու համար ինտեգրելու և օգտագործելու համար դուք պետք է բավարարեք հիմնական պահանջները.

Զուգահեռ տեքստերի բավարար ծավալների առկայությունը նեյրոնային ցանցը վարժեցնելու համար: Հաճախ հաճախորդը պարզապես դրանցից քիչ է ունենում կամ բնության մեջ այս թեմայով տեքստեր չկան: Դրանք կարող են դասակարգվել կամ գտնվում են ոչ այնքան հարմար վիճակում ավտոմատ մշակման համար:

Մոդել ստեղծելու համար անհրաժեշտ է տվյալների բազա, որը պարունակում է առնվազն 100 միլիոն նշան (բառերի օգտագործում), իսկ քիչ թե շատ ընդունելի որակի թարգմանություն ստանալու համար՝ 500 միլիոն նշան։ Ոչ բոլոր ընկերություններն ունեն նյութերի նման ծավալ։

Ստացված արդյունքի որակի ավտոմատ գնահատման մեխանիզմի կամ ալգորիթմների առկայություն։

Բավարար հաշվողական հզորություն:
«Ունիվերսալ» նյարդային թարգմանիչն ամենից հաճախ որակով հարմար չէ, և ձեր սեփական մասնավոր նեյրոնային ցանցը տեղակայելու համար, որը կարող է ապահովել աշխատանքի ընդունելի որակ և արագություն, անհրաժեշտ է «փոքր ամպ»:

Պարզ չէ, թե ինչ անել գաղտնիության հետ:
Ամեն հաճախորդ չէ, որ պատրաստ է իր բովանդակությունը թարգմանության համար տալ ամպին անվտանգության նկատառումներից ելնելով, և NMT-ը ամպային առաջին պատմությունն է:

եզրակացություններ

Ընդհանուր առմամբ, նյարդային ավտոմատ թարգմանությունն ավելի բարձր որակի արդյունքներ է տալիս, քան «զուտ» վիճակագրական մոտեցումը.
Նյարդային ցանցի միջոցով ավտոմատ թարգմանությունը ավելի հարմար է «համընդհանուր թարգմանության» խնդիրը լուծելու համար.
ՄՏ-ի մոտեցումներից ոչ մեկն ինքնին իդեալական ունիվերսալ գործիք չէ թարգմանչական որևէ խնդրի լուծման համար.
Բիզնես թարգմանության խնդիրները լուծելու համար միայն մասնագիտացված լուծումները կարող են երաշխավորել բոլոր պահանջների համապատասխանությունը:

Մենք գալիս ենք միանգամայն ակնհայտ և տրամաբանական որոշմանը, որ ձեր թարգմանչական առաջադրանքների համար դուք պետք է օգտագործեք այն թարգմանիչը, որն առավել հարմար է դրա համար: Կապ չունի՝ ներսում նեյրոնային ցանց կա, թե ոչ։ Առաջադրանքն ինքնին հասկանալն ավելի կարևոր է:

Պիտակներ. Ավելացնել պիտակներ

09.14.2017, հինգշաբթի, 14:19, Մոսկվայի ժամանակով , Տեքստը՝ Վալերիա Շմիրովա

Yandex.Translator ծառայությունում, բացի վիճակագրական թարգմանությունից, հասանելի է դարձել նեյրոնային ցանցից թարգմանության տարբերակը։ Դրա առավելությունն այն է, որ այն աշխատում է ամբողջ նախադասությունների հետ, ավելի լավ է հաշվի առնում համատեքստը և արտադրում է հետևողական, բնական տեքստ: Այնուամենայնիվ, երբ նեյրոնային ցանցը ինչ-որ բան չի հասկանում, այն սկսում է երևակայել:

Նյարդային ցանցի գործարկում

Yandex.Translator ծառայությունը գործարկել է նեյրոնային ցանց, որը կօգնի բարելավել թարգմանության որակը։ Նախկինում մի լեզվից մյուսը թարգմանությունն իրականացվում էր վիճակագրական մեխանիզմի կիրառմամբ։ Այժմ գործընթացը հիբրիդային կլինի. և՛ վիճակագրական մոդելը, և՛ նեյրոնային ցանցը կառաջարկեն թարգմանության իրենց տարբերակը: Դրանից հետո CatBoost ալգորիթմը, որը հիմնված է մեքենայական ուսուցման վրա, կընտրի ստացված լավագույն արդյունքը։

Առայժմ նեյրոնային ցանցը թարգմանություն է կատարում միայն անգլերենից ռուսերեն և միայն ծառայության վեբ տարբերակում։ Ընկերության տվյալներով՝ Yandex.Translator-ում անգլերեն-ռուսերեն թարգմանության հարցումները կազմում են բոլոր հարցումների 80%-ը։ Առաջիկա ամիսներին մշակողները մտադիր են հիբրիդային մոդելը ներկայացնել այլ ոլորտներում։ Օգտագործողին տարբեր մեխանիզմներից թարգմանությունները համեմատելու հնարավորություն տալու համար տրամադրվում է հատուկ անջատիչ:

Տարբերությունները վիճակագրական թարգմանիչից

Նեյրոնային ցանցի գործառնական սկզբունքը տարբերվում է վիճակագրական թարգմանության մոդելից։ Տեքստը բառ առ բառ, արտահայտություն առ արտահայտություն թարգմանելու փոխարեն, այն աշխատում է ամբողջ նախադասություններով՝ առանց դրանք մասերի բաժանելու: Սրա շնորհիվ թարգմանությունը հաշվի է առնում համատեքստը և ավելի լավ է փոխանցում իմաստը։ Բացի այդ, թարգմանված նախադասությունը հետևողական է, բնական, հեշտ ընթեռնելի և հասկանալի: Ըստ մշակողների՝ այն կարելի է շփոթել մարդկային թարգմանչի աշխատանքի հետ։

Նյարդային ցանցի թարգմանությունը նման է մարդու թարգմանությանը

Նյարդային ցանցի առանձնահատկությունները ներառում են «ֆանտազիզացնելու» միտումը, երբ այն ինչ-որ բան չի հասկանում: Այս կերպ նա փորձում է գուշակել ճիշտ թարգմանությունը։

Վիճակագրական թարգմանիչն ունի իր առավելությունները. նա ավելի հաջող է թարգմանում հազվագյուտ բառերն ու արտահայտությունները՝ ավելի քիչ տարածված անուններ, տեղանուններ և այլն։ Բացի այդ, նա չի երևակայում, եթե նախադասության իմաստը պարզ չէ։ Ըստ մշակողների՝ վիճակագրական մոդելն ավելի լավ է հաղթահարում կարճ արտահայտությունները։

Այլ մեխանիզմներ

Yandex.Translator-ն ունի հատուկ մեխանիզմ, որը կատարելագործում է նեյրոնային ցանցի թարգմանությունը, ինչպես վիճակագրական թարգմանչի թարգմանությունը՝ ուղղելով բառերի անհամապատասխան համակցությունները և ուղղագրական սխալները: Դրա շնորհիվ օգտվողը չի տեսնի այնպիսի համակցություններ, ինչպիսիք են «հայրիկը գնաց» կամ « ուժեղ ցավ», - վստահեցնում են մշակողները։ Այս էֆեկտը ձեռք է բերվում թարգմանությունը լեզվի մոդելի հետ համեմատելով՝ համակարգի կողմից կուտակված լեզվի մասին ողջ գիտելիքները:

Դժվար դեպքերում նեյրոնային ցանցը հակված է ֆանտազիզացման

Լեզվի մոդելը պարունակում է լեզվի բառերի և արտահայտությունների ցանկ, ինչպես նաև տվյալներ դրանց օգտագործման հաճախականության վերաբերյալ: Այն գտել է կիրառություն Yandex.Translator-ից դուրս: Օրինակ, Yandex.Keyboard-ն օգտագործելիս հենց նա է կռահում, թե ինչ բառ է օգտատերը ցանկանում մուտքագրել հաջորդը և առաջարկում նրան պատրաստի տարբերակներ։ Օրինակ, լեզվի մոդելը հասկանում է, որ «բարև, ինչպես»-ին հավանաբար կհետևեն «անելու» կամ «դու»-ի տարբերակները:

Ինչ է «Yandex.Translator»-ը

«Yandex.Translator-ը Yandex ընկերության տեքստերը մի լեզվից մյուսը թարգմանելու ծառայություն է, որը սկսել է աշխատել 2011 թվականին: Սկզբում այն ​​աշխատում էր միայն ռուսերեն, ուկրաիներեն և անգլերեն լեզուներով:

Ծառայության գոյության ընթացքում լեզուների թիվն ավելացել է մինչև 94 լեզու։ Դրանց թվում կան նաև էկզոտիկները, ինչպիսիք են հյուսը կամ պապիամենտոն։ Թարգմանությունը կարող է իրականացվել ցանկացած երկու լեզուների միջև:

2016 թվականին Yandex.Translator-ը J. R. R. Tolkien-ի գրքերում ավելացրել է գեղարվեստական ​​և արհեստականորեն ստեղծված լեզու, որն օգտագործում են էլֆերը:



Նորություն կայքում

>

Ամենահայտնի