Uy Oldini olish Neyron tarmoq tarjimoni tezroq yaqinroq aniqroq. Neyron tarmoq Yandex.Browser-da tarjimalarni yanada to'g'ri qiladi

Neyron tarmoq tarjimoni tezroq yaqinroq aniqroq. Neyron tarmoq Yandex.Browser-da tarjimalarni yanada to'g'ri qiladi

Qidiruv tizimlari tomonidan indekslangan veb-saytlarning yarim milliarddan ortiq nusxalari mavjud va jami o'n minglab marta ko'proq veb-sahifalar mavjud. Rus tilidagi kontent butun internetning 6 foizini egallaydi.

Istalgan matnni qanday qilib tez va shunday tarjima qilish kerakki, muallif tomonidan ko'zda tutilgan ma'no saqlanib qoladi. Statistik kontentni tarjima qilish modullarining eski usullari juda shubhali ishlaydi, chunki... So'zlarning mayli, zamon va hokazolarni aniq aniqlash mumkin emas. So'zlarning tabiati va ular orasidagi bog'lanishlar murakkab, shuning uchun natija ba'zan juda g'ayritabiiy ko'rinardi.

Endi Yandex avtomatik mashina tarjimasidan foydalanadi, bu esa olingan matnning sifatini yaxshilaydi. Brauzerning so'nggi rasmiy versiyasini yangi o'rnatilgan tarjima bilan yuklab olishingiz mumkin.

Iboralar va so'zlarning gibrid tarjimasi

Yandex brauzeri butun sahifani, shuningdek, so'z va iboralarni alohida-alohida tarjima qila oladigan yagona brauzerdir. Funktsiya ko'proq yoki kamroq egalik qiladigan foydalanuvchilar uchun juda foydali bo'ladi xorijiy til, lekin ba'zan tarjima qiyinchiliklariga duch keladi.

So'zni tarjima qilish mexanizmiga o'rnatilgan neyron tarmoq har doim ham belgilangan vazifalarni bajara olmadi, chunki Matnga noyob so‘zlarni kiritish va uni o‘qishga qulay qilish nihoyatda qiyin edi. Endi eski va yangi texnologiyalardan foydalangan holda ilovaga gibrid usul o'rnatildi.

Mexanizm quyidagicha: dastur tanlangan jumlalarni yoki so'zlarni qabul qiladi, keyin ularni ikkala neyron tarmoq modullariga va statistik tarjimonga beradi va o'rnatilgan algoritm qaysi natija yaxshiroq ekanligini aniqlaydi va keyin uni foydalanuvchiga beradi.

Neyron tarmoq tarjimon

Xorijiy tarkib juda o'ziga xos tarzda formatlanadi:

  • sarlavhalardagi so'zlarning birinchi harflari bosh harflar bilan yoziladi;
  • jumlalar soddalashtirilgan grammatika bilan tuzilgan, ba'zi so'zlar tushirilgan.

Veb-saytlardagi navigatsiya menyulari ularning joylashuvini hisobga olgan holda tahlil qilinadi, masalan, Orqaga so'zi, to'g'ri tarjima qilingan orqaga (orqaga qaytish) va orqaga emas.

Yuqorida sanab o'tilgan barcha xususiyatlarni hisobga olish uchun ishlab chiquvchilar qo'shimcha ravishda matnli ma'lumotlarning katta qatoridan foydalanadigan neyron tarmoqni o'rgatishdi. Endi tarjima sifatiga tarkibning joylashuvi va uning dizayni ta'sir qiladi.

Amaldagi tarjima natijalari

Tarjima sifatini mashina tarjimasi va professional tarjimani taqqoslaydigan BLEU* algoritmi orqali o‘lchash mumkin. Sifat shkalasi 0 dan 100% gacha.

Neyron tarjimasi qanchalik yaxshi bo'lsa, foiz shunchalik yuqori bo'ladi. Ushbu algoritmga ko'ra, Yandex brauzeri 1,7 marta yaxshi tarjima qila boshladi.



Neyron tarmoqlardan foydalangan holda mashina tarjimasi birinchisidan beri uzoq yo'lni bosib o'tdi ilmiy tadqiqot Google Google Translate xizmatini chuqur o'rganishga to'liq o'tkazishni e'lon qilgunga qadar ushbu mavzuda.

Ma'lumki, neyron tarjimoni matritsali hisob-kitoblar asosida qurilgan ikki tomonlama takrorlanuvchi neyron tarmoqlari (Bidirectional Recurrent Neural Networks) mexanizmiga asoslanadi, bu esa statistik mashina tarjimonlariga qaraganda ancha murakkab ehtimollik modellarini qurish imkonini beradi. Biroq, har doim neyron tarjima, statistik tarjima kabi, o'qitish uchun ikki tildagi matnlarning parallel korpusini talab qiladi, deb ishonilgan. Ushbu korpuslarda neyron tarmoq o'qitiladi, bunda inson tarjimasi ma'lumotnoma sifatida olinadi.

Ma'lum bo'lishicha, neyron tarmoqlar matnlarning parallel korpusisiz ham tarjima uchun yangi tilni o'zlashtirishga qodir! Ushbu mavzu bo'yicha ikkita maqola arXiv.org preprint veb-saytida nashr etilgan.

“Tasavvur qiling-a, siz bir odamga ko'plab xitoy kitoblari va ko'plab arab kitoblarini berasiz - ularning hech biri bir xil emas - va bu odam xitoy tilidan arab tiliga tarjima qilishni o'rganadi. Bu imkonsiz ko'rinadi, to'g'rimi? Lekin biz kompyuter buni qila olishini ko‘rsatdik”, - deydi Ispaniyaning San-Sebastyan shahridagi Basklar davlati universitetining kompyuter olimi Mikel Artetxe.

Mashina tarjimasining aksariyat neyron tarmoqlari "o'qituvchi bilan" o'qitiladi, bu odam tomonidan tarjima qilingan matnlarning parallel korpusidir. Ta'lim jarayonida, qo'pol qilib aytganda, neyron tarmoq taxmin qiladi, standart bilan tekshiradi va o'z tizimlariga kerakli tuzatishlar kiritadi, keyin esa o'rganadi. Muammo shundaki, ba'zi tillar uchun dunyoda juda ko'p parallel matnlar mavjud emas, shuning uchun ular an'anaviy mashina tarjimasi neyron tarmoqlari uchun mavjud emas.


Google Neural Machine Translation (GNMT) neyron tarmog'ining "universal tili". Chapdagi rasmda turli ranglar Har bir so'zning ma'nolari klasterlari ko'rsatilgan, pastki o'ngda - turli xil inson tillaridan olingan so'zning ma'nolari: ingliz, koreys va yapon.

Har bir til uchun ulkan "atlas" tuzgandan so'ng, tizim bitta atlasni boshqasiga qo'shishga harakat qiladi - va sizda u qandaydir parallel matn korpusi tayyor!

Taklif etilgan ikkita nazoratsiz ta'lim arxitekturasining dizaynlarini solishtirish mumkin.


Taklif etilayotgan tizimning arxitekturasi. L1 dagi har bir jumla uchun tizim ikki bosqichni almashtirishni o'rganadi: 1) shovqinni bostirish(denoising), bu umumiy kodlovchi bilan jumlaning shovqinli versiyasini kodlash va uni L1 dekoder bilan qayta qurish ehtimolini optimallashtiradi; 2) teskari tarjima(Orqaga-tarjima) jumla chiqish rejimida tarjima qilinganda (ya'ni, umumiy kodlovchi tomonidan kodlangan va L2 dekoder tomonidan dekodlangan) va keyin ushbu tarjima qilingan jumlani umumiy kodlovchi bilan kodlash va asl jumlani qayta qurish ehtimoli. L1 dekoderi optimallashtirilgan. Tasvir: Michela Artetxe va boshqalar.


Tizimning tavsiya etilgan arxitekturasi va o'quv maqsadlari (ikkinchi ilmiy ishdan). Arxitektura jumlama-jumla tarjima modeli bo'lib, bu erda kodlovchi ham, dekoder ham ikki tilda ishlaydi, kirish tili identifikatoriga qarab, qidiruv jadvallarini almashtiradi. Yuqori (avtomatik kodlash): Model har bir domenda denoisingni amalga oshirishga o'rgatilgan. Pastki (tarjima): avvalgidek, biz oldingi iteratsiyada (ko'k to'rtburchak) model tomonidan yaratilgan tarjimadan kirish sifatida foydalanib, boshqa tildan kodlaymiz. Yashil ellipslar yo'qotish funktsiyasidagi shartlarni bildiradi. Tasvir: Guillaume Lampla va boshqalar.

Ikkalasi ham ilmiy ishlar kichik farqlar bilan sezilarli darajada o'xshash metodologiyadan foydalaning. Ammo ikkala holatda ham tarjima qandaydir oraliq “til” yoki yaxshiroq aytganda, oraliq oʻlchov yoki makon orqali amalga oshiriladi. Hozircha nazoratsiz neyron tarmoqlar juda yuqori tarjima sifatini ko‘rsatmaydi, biroq mualliflarning ta’kidlashicha, agar siz o‘qituvchining ozgina yordamidan foydalansangiz, uni osonlik bilan yaxshilash mumkin, ular buni tajribaning tozaligi uchun qilmagan. .

Taqdim etilgan ishlar Xalqaro konferensiya ta'lim vakolatxonalari bo'yicha 2018 (O'quv vakilliklari bo'yicha xalqaro konferentsiya). Maqolalarning birortasi hali ilmiy matbuotda chop etilmagan.

Zamonaviy Internetda 630 milliondan ortiq saytlar mavjud, ammo ularning atigi 6 foizi rus tilidagi kontentni o'z ichiga oladi. Til to‘sig‘i tarmoq foydalanuvchilari o‘rtasida bilimlarni tarqatishning asosiy muammosi bo‘lib, uni nafaqat chet tillarini o‘rgatish, balki brauzerda avtomatik mashina tarjimasini qo‘llash orqali ham hal qilish kerak, deb hisoblaymiz.

Bugun biz Habr o'quvchilariga Yandex brauzeri tarjimonidagi ikkita muhim texnologik o'zgarishlar haqida gapirib beramiz. Birinchidan, ta'kidlangan so'z va iboralarni tarjima qilishda endi gibrid model qo'llaniladi va biz sizga bu yondashuv sof neyron tarmoqlardan qanday farq qilishini eslatib o'tamiz. Ikkinchidan, tarjimonning neyron tarmoqlari endi veb-sahifalarning tuzilishini hisobga oladi, ularning xususiyatlari haqida biz quyida gaplashamiz.

So'z va iboralarning gibrid tarjimoni

Birinchi mashina tarjima tizimlari asos qilib olingan lug'atlar va qoidalar(aslida qo'lda yozilgan oddiy belgilar), bu tarjima sifatini belgilab berdi. Professional tilshunoslar ko'p yillar davomida batafsilroq qo'l qoidalarini ishlab chiqish uchun ishladilar. Bu ish shunchalik ko'p vaqt talab qildiki, faqat eng mashhur tillar juftligiga jiddiy e'tibor qaratildi, ammo bu mashinalar ichida ham yomon ish qildi. Tirik til juda murakkab tizim, bu qoidalarga yaxshi rioya qilmaydi. Ikki til o‘rtasidagi yozishma qoidalarini ta’riflash yanada qiyinroq.

Mashinaning o'zgaruvchan sharoitlarga doimo moslashishining yagona yo'li - bu ko'p sonli parallel matnlardan (ma'nosi bir xil, lekin yozma ravishda yozilgan) mustaqil ravishda o'rganishdir. turli tillar). Bu mashina tarjimasiga statistik yondashuv. Kompyuter parallel matnlarni taqqoslaydi va naqshlarni mustaqil ravishda aniqlaydi.

U statistik tarjimon afzalliklari ham, kamchiliklari ham bor. Bir tomondan, u noyob va murakkab so'z va iboralarni yaxshi eslaydi. Agar ular parallel matnlarda topilgan bo'lsa, tarjimon ularni eslab qoladi va to'g'ri tarjima qilishni davom ettiradi. Boshqa tomondan, tarjimaning natijasi tugallangan boshqotirmaga o'xshab ketishi mumkin: umumiy rasm aniq ko'rinadi, lekin diqqat bilan qarasangiz, u alohida qismlardan iborat ekanligini ko'rishingiz mumkin. Sababi, tarjimon alohida so'zlarni aniqlovchi sifatida ifodalaydi, ular o'rtasidagi munosabatni hech qanday tarzda aks ettirmaydi. Bu odamlarning tilni boshdan kechirish uslubiga mos kelmaydi, bu erda so'zlar qanday qo'llanilishi, ular boshqa so'zlar bilan qanday bog'liqligi va ulardan farq qilishi bilan belgilanadi.

Bu muammoni hal qilishga yordam beradi neyron tarmoqlari. Neyron mashina tarjimasida qo'llaniladigan so'zlarni joylashtirish odatda har bir so'zni uzunligi bir necha yuz sonli vektor bilan bog'laydi. Vektorlar, statistik yondashuvdagi oddiy identifikatorlardan farqli o'laroq, neyron tarmoqni o'rgatishda shakllanadi va so'zlar orasidagi munosabatlarni hisobga oladi. Misol uchun, model "choy" va "qahva" ko'pincha o'xshash kontekstlarda paydo bo'lganligi sababli, bu so'zlarning ikkalasi ham yangi "to'kish" so'zi kontekstida mumkin bo'lishi kerakligini tan olishi mumkin, deylik, ulardan faqat bittasi paydo bo'lgan. ta'lim ma'lumotlari.

Biroq, vektor tasvirlarini o'rganish jarayoni misollarni eslab qolishdan ko'ra ko'proq statistik talabga ega. Bundan tashqari, tarmoq uchun maqbul vektor tasvirini yaratish uchun tez-tez uchramaydigan noyob kirish so'zlari bilan nima qilish kerakligi aniq emas. Bunday vaziyatda ikkala usulni birlashtirish mantiqan to'g'ri keladi.

O'tgan yildan beri Yandex.Translator foydalanmoqda gibrid model. Tarjimon foydalanuvchidan matnni olganda, uni tarjima qilish uchun ikkala tizimga - neyron tarmoqqa va statistik tarjimonga beradi. O'rganish usuliga asoslangan algoritm qaysi tarjima yaxshiroq ekanligini baholaydi. Reytingni belgilashda o'nlab omillar hisobga olinadi - jumla uzunligidan (qisqa iboralar statistik model tomonidan yaxshiroq tarjima qilingan) sintaksisgacha. Eng yaxshi deb topilgan tarjima foydalanuvchiga ko'rsatiladi.

Bu gibrid model bo'lib, endi Yandex.Browser-da foydalanuvchi tarjima qilish uchun sahifadagi ma'lum so'z va iboralarni tanlaganida qo'llaniladi.

Ushbu rejim, ayniqsa, chet tilida so'zlashadigan va faqat noma'lum so'zlarni tarjima qilishni xohlaydiganlar uchun qulaydir. Ammo, masalan, odatdagi ingliz tili o'rniga xitoy tiliga duch kelsangiz, sahifama-sahifa tarjimonisiz buni qilish qiyin bo'ladi. Farqi faqat tarjima qilingan matn hajmida bo'lib tuyulishi mumkin, ammo hamma narsa unchalik oddiy emas.

Veb-sahifalarning neyron tarmoqlari tarjimoni

Jorjtaun tajribasidan deyarli hozirgi kungacha barcha mashina tarjima tizimlari har bir jumlani tarjima qilishga o'rgatilgan. manba matn alohida. Veb-sahifa shunchaki jumlalar to'plami emas, balki tubdan boshqa elementlarni o'z ichiga olgan tuzilgan matndir. Ko'pgina sahifalarning asosiy elementlarini ko'rib chiqaylik.

Sarlavha. Odatda sahifaga kirishda biz darhol ko'radigan yorqin va katta matn. Sarlavha ko'pincha yangiliklarning mohiyatini o'z ichiga oladi, shuning uchun uni to'g'ri tarjima qilish muhimdir. Ammo buni qilish qiyin, chunki sarlavhada matn etarli emas va kontekstni tushunmasdan xato qilishingiz mumkin. Ingliz tiliga kelsak, bu yanada murakkabroq, chunki ingliz tilidagi sarlavhalarda ko'pincha noan'anaviy grammatika, infinitivlar yoki hatto etishmayotgan fe'llar bo'lgan iboralar mavjud. Masalan, "Taxtlar o'yini" prekveli e'lon qilindi.

Navigatsiya. Saytda harakat qilishimizga yordam beradigan so'zlar va iboralar. Masalan, Uy, Orqaga Va Mening hisobim Agar ular nashr matnida emas, balki sayt menyusida joylashgan bo'lsa, "Uy", "Orqaga" va "Mening hisobim" deb tarjima qilish qiyin.

Asosiy matn. U bilan hamma narsa sodda, u oddiy matnlar va biz kitoblarda topadigan jumlalardan deyarli farq qilmaydi. Lekin bu erda ham tarjima izchilligini ta'minlash, ya'ni bir veb-sahifa ichida bir xil atama va tushunchalar bir xil tarzda tarjima qilinishini ta'minlash muhimdir.

Veb-sahifalarni yuqori sifatli tarjima qilish uchun neyron tarmoq yoki gibrid modeldan foydalanishning o'zi etarli emas - sahifalarning tuzilishini ham hisobga olish kerak. Va buning uchun biz ko'plab texnologik qiyinchiliklarni engishimiz kerak edi.

Matn segmentlarining tasnifi. Buning uchun biz yana CatBoost va omillarni matnning o'ziga ham, hujjatlarning HTML belgilariga (teg, matn hajmi, matn birligidagi havolalar soni, ...) asoslangan holda ishlatamiz. Omillar juda xilma-xildir, shuning uchun CatBoost (gradientni oshirishga asoslangan) eng yaxshi natijalarni ko'rsatadi (tasniflash aniqligi 95% dan yuqori). Ammo segmentlarni tasniflashning o'zi etarli emas.

Buzilgan ma'lumotlar. An'anaga ko'ra, Yandex.Translator algoritmlari Internetdagi matnlar bo'yicha o'qitiladi. Bu veb-sahifa tarjimonini tayyorlash uchun ideal echim bo'lib tuyuladi (boshqacha qilib aytganda, tarmoq biz foydalanmoqchi bo'lgan matnlar bilan bir xil tabiatdagi matnlardan o'rganadi). Ammo biz turli segmentlarni bir-biridan ajratishni o'rganganimizdan so'ng, biz kashf qildik qiziqarli xususiyat. O'rtacha, veb-saytlarda kontent barcha matnning taxminan 85% ni egallaydi, sarlavhalar va navigatsiya atigi 7,5% ni tashkil qiladi. Shuni ham yodda tutingki, sarlavhalar va navigatsiya elementlarining o'zlari uslub va grammatik jihatdan matnning qolgan qismidan sezilarli darajada farq qiladi. Ushbu ikki omil birgalikda ma'lumotlarning chayqalishi muammosiga olib keladi. Neyron tarmoq uchun o'quv majmuasida juda kam ifodalangan ushbu segmentlarning xususiyatlarini shunchaki e'tiborsiz qoldirish foydaliroqdir. Tarmoq faqat asosiy matnni yaxshi tarjima qilishni o'rganadi, shuning uchun sarlavhalar va navigatsiyani tarjima qilish sifati yomonlashadi. Ushbu noxush ta'sirni yo'q qilish uchun biz ikkita narsani qildik: har bir juft parallel jumlaga biz ikkitadan birini tayinladik. uch tur segmentlar (tarkib, sarlavha yoki navigatsiya) va sun'iy ravishda o'quv neyron tarmog'iga o'xshash misollarni ko'rsata boshlaganligi sababli o'quv korpusidagi oxirgi ikkitasining konsentratsiyasini 33% ga oshirdi.

Ko'p vazifalarni o'rganish. Endi biz veb-sahifalardagi matnni segmentlarning uchta sinfiga bo'lishimiz mumkin bo'lganligi sababli, uchta alohida modelni o'rgatish tabiiy g'oya bo'lib tuyulishi mumkin, ularning har biri boshqa turdagi matnlarni - sarlavhalar, navigatsiya yoki kontentni tarjima qilish bilan shug'ullanadi. Bu haqiqatan ham yaxshi ishlaydi, lekin sxema yanada yaxshi ishlaydi, unda biz bir vaqtning o'zida barcha turdagi matnlarni tarjima qilish uchun bitta neyron tarmoqni o'rgatamiz. Tushunishning kaliti ko'p vazifalarni o'rganish (MTL) g'oyasida yotadi: agar bir nechta mashinani o'rganish vazifalari o'rtasida ichki bog'liqlik mavjud bo'lsa, u holda bu vazifalarni bir vaqtning o'zida hal qilishni o'rganadigan model har bir vazifani yaxshiroq hal qilishni o'rganishi mumkin. tor ixtisoslashgan modelga qaraganda!

Puxta sozlash. Bizda allaqachon juda yaxshi mashina tarjimasi bor edi, shuning uchun Yandex.Brauzer uchun yangi tarjimonni noldan o'rgatish oqilona bo'lmaydi. Oddiy matnlarni tarjima qilish uchun asosiy tizimni olish va uni veb-sahifalar bilan ishlashga o'rgatish mantiqiyroq. Neyron tarmoqlar kontekstida bu ko'pincha nozik sozlash deb ataladi. Ammo agar siz bu muammoga boshdan yondashsangiz, ya'ni. Neyron tarmog'ining og'irliklarini tugallangan modeldagi qiymatlar bilan ishga tushiring va yangi ma'lumotlar bo'yicha o'rganishni boshlang, shunda siz domenni almashtirish effektiga duch kelishingiz mumkin: treningning borishi bilan veb-sahifalarni (domen ichidagi) tarjima qilish sifati oshadi. oshadi, lekin oddiy (domendan tashqari) matnlarni tarjima qilish sifati pasayadi. Ushbu noxush xususiyatdan xalos bo'lish uchun qo'shimcha mashg'ulotlar paytida biz neyron tarmoqqa qo'shimcha cheklov qo'yamiz, uni dastlabki holatga nisbatan og'irliklarni juda ko'p o'zgartirishni taqiqlaymiz.

Matematik jihatdan, bu yo'qotish funktsiyasiga atama qo'shish orqali ifodalanadi, bu asl va qo'shimcha o'qitilgan tarmoqlar tomonidan chiqarilgan keyingi so'zni yaratish ehtimoli taqsimotlari orasidagi Kullback-Leibler masofasi (KL-divergensiya). Rasmda ko'rinib turibdiki, bu veb-sahifalarni tarjima qilish sifatining oshishi oddiy matn tarjimasining yomonlashishiga olib kelmasligiga olib keladi.

Navigatsiyadan jilolangan chastotali iboralar. Yangi tarjimon ustida ishlayotganimizda, biz veb-sahifalarning turli segmentlari matnlari bo'yicha statistik ma'lumotlarni to'pladik va qiziqarli narsalarni ko'rdik. Navigatsiya elementlari bilan bog'liq matnlar juda standartlashtirilgan, shuning uchun ular ko'pincha bir xil shablonli iboralardan iborat. Bu shunchalik kuchli ta'sirki, Internetda topilgan barcha navigatsiya iboralarining yarmidan ko'pi eng tez-tez uchraydigan atigi 2 mingtasiga to'g'ri keladi.

Biz, albatta, bundan unumli foydalandik va ularning sifatiga mutlaq ishonch hosil qilish uchun bir necha ming eng keng tarqalgan iboralar va ularning tarjimalarini tekshirish uchun tarjimonlarimizga berdik.

Tashqi moslamalar. Brauzerda veb-sahifa tarjimoniga yana bir muhim talab bor edi - bu belgini buzmasligi kerak. HTML teglari jumlalar chegarasidan tashqarida yoki ustiga qo'yilsa, hech qanday muammo yuzaga kelmaydi. Ammo agar jumla ichida, masalan, ikki tagiga chizilgan so'zlar, keyin tarjimada biz ko'rishni istaymiz “ikki tagiga chizilgan so'zlar". Bular. O'tkazish natijasida ikkita shart bajarilishi kerak:

  1. Tarjimadagi tagiga chizilgan fragment manba matnidagi tagiga chizilgan fragmentga aynan mos kelishi kerak.
  2. Tarjimaning tagiga chizilgan fragment chegaralaridagi izchilligi buzilmasligi kerak.
Ushbu xatti-harakatga erishish uchun biz avval matnni odatdagidek tarjima qilamiz, so'ngra manba fragmentlari va tarjima qilingan matnlar o'rtasidagi moslikni aniqlash uchun statistik so'zma-so'z moslashtirish modellaridan foydalanamiz. Bu aniq nimani ta'kidlash kerakligini tushunishga yordam beradi (kursivda, giperhavola sifatida formatlangan, ...).

Kesishma kuzatuvchisi. Biz o'rgatgan kuchli neyron tarmoq tarjima modellari oldingi avlod statistik modellariga qaraganda serverlarimizda (ham CPU, ham GPU) sezilarli darajada ko'proq hisoblash resurslarini talab qiladi. Shu bilan birga, foydalanuvchilar har doim ham sahifalarni oxirigacha o'qimaydilar, shuning uchun veb-sahifalarning barcha matnlarini bulutga yuborish keraksiz ko'rinadi. Server resurslari va foydalanuvchi trafigini tejash uchun biz Translator-dan foydalanishni o'rgatganmiz

yoki miqdor sifatga aylanadimi?

RIF+KIB 2017 konferensiyasidagi nutqiga asoslangan maqola.

Neyron mashina tarjimasi: nega faqat hozir?

Neyron tarmoqlar haqida uzoq vaqtdan beri gaplashib kelinmoqda va sun'iy intellektning klassik muammolaridan biri - mashina tarjimasi shunchaki ushbu texnologiya asosida hal qilinishini talab qilayotganga o'xshaydi.

Shunga qaramay, bu erda umumiy neyron tarmoqlari va xususan neyron mashina tarjimasi haqidagi so'rovlarni qidirishda mashhurlik dinamikasi:

Ko'rinib turibdiki, yaqin vaqtgacha radarda neyron mashina tarjimasi haqida hech narsa yo'q edi - va 2016 yil oxirida bir nechta kompaniyalar o'zlarining yangi texnologiyalari va neyron tarmoqlarga asoslangan mashina tarjimasi tizimlarini namoyish etdilar, jumladan Google, Microsoft va SYSTRAN. Ular deyarli bir vaqtning o'zida, bir necha hafta yoki hatto kunlar farqida paydo bo'ldi. Nega bunday?

Bu savolga javob berish uchun neyron tarmoqlarga asoslangan mashina tarjimasi nima ekanligini va uning klassik statistik tizimlardan yoki bugungi kunda mashina tarjimasi uchun ishlatiladigan analitik tizimlardan asosiy farqi nimada ekanligini tushunish kerak.

Neyron tarjimoni matritsali hisob-kitoblar asosida qurilgan ikki tomonlama takrorlanuvchi neyron tarmoqlari (Bidirectional Recurrent Neural Networks) mexanizmiga asoslanadi, bu esa statistik mashina tarjimonlariga qaraganda ancha murakkab ehtimollik modellarini yaratish imkonini beradi.


Statistik tarjima singari, asabiy tarjima ham o'qitish uchun parallel korpuslarni talab qiladi, bu avtomatik tarjimani "odam" ma'lumotnomasi bilan taqqoslash imkonini beradi; faqat o'quv jarayonida u alohida iboralar va so'z birikmalari bilan emas, balki butun jumlalar bilan ishlaydi. Asosiy muammo shundaki, bunday tizimni o'qitish sezilarli darajada ko'proq hisoblash quvvatini talab qiladi.

Jarayonni tezlashtirish uchun ishlab chiquvchilar NVIDIA GPU’laridan, shuningdek, Google’ning Tensor Processing Unit (TPU) dan, maxsus mashinani o‘rganish texnologiyalari uchun moslashtirilgan xususiy chiplardan foydalanadilar. Grafik chiplar dastlab matritsalarni hisoblash algoritmlari uchun optimallashtirilgan va shuning uchun unumdorlik ortishi protsessorga nisbatan 7-15 marta.

Shunga qaramay, bitta neyron modelni o'rgatish 1 dan 3 haftagacha davom etadi, taxminan bir xil o'lchamdagi statistik modelni o'rgatish uchun esa 1 dan 3 kungacha vaqt ketadi va bu farq hajmi kattalashgan sari ortadi.

Biroq, mashina tarjimasi vazifasi kontekstida neyron tarmoqlarning rivojlanishiga nafaqat texnologik muammolar to'sqinlik qildi. Oxir-oqibat, til modellarini sekinroq bo'lsa-da, avvalroq o'rgatish mumkin edi, ammo hech qanday fundamental to'siqlar yo'q edi.

Neyron tarmoqlar modasi ham rol o'ynadi. Ko'p odamlar ichkarida rivojlanayotgan edilar, lekin ular buni e'lon qilishga shoshilmadilar, ehtimol ular Neyron tarmoqlari iborasidan jamiyat kutayotgan sifat o'sishini olmasliklaridan qo'rqishdi. Bu bir nechta neyron tarjimonlarning birin-ketin e'lon qilinganligini tushuntirishi mumkin.

Tarjima sifati: kimning BLEU balli qalinroq?

Keling, tarjima sifatining o'sishi yig'ilgan umidlarga va tarjima uchun neyron tarmoqlarni rivojlantirish va qo'llab-quvvatlash bilan birga keladigan xarajatlarning oshishiga mos keladimi yoki yo'qligini tushunishga harakat qilaylik.
Google o'z tadqiqotida shuni ko'rsatadiki, neyron mashina tarjimasi klassik statistik yondashuvga (yoki iboraga asoslangan mashina tarjimasi, PBMT, deb ham ataladi) nisbatan til juftligiga qarab nisbiy yaxshilanishni 58% dan 87% gacha beradi.


SYSTRAN tadqiqot olib boradi, unda tarjima sifati bir nechta taqdim etilgan variantlardan tanlab baholanadi turli tizimlar, shuningdek, "inson" tarjimasi. Va uning ta'kidlashicha, uning neyron tarjimasi 46% hollarda inson tarjimasidan afzalroqdir.

Tarjima sifati: yutuq bormi?

Google 60% yoki undan ko'proq yaxshilanishni da'vo qilsa ham, bu ko'rsatkichda biroz ushlangan. Kompaniya vakillari "Nisbatan yaxshilanish", ya'ni klassik statistik tarjimonda bo'lgan narsaga nisbatan Inson tarjimasi sifatiga neyron yondashuv bilan qanchalik yaqin bo'lganliklari haqida gapirishadi.


Google tomonidan "Google'ning neyron mashina tarjimasi tizimi: inson va mashina tarjimasi o'rtasidagi tafovutni bartaraf etish" maqolasida taqdim etilgan natijalarni tahlil qiladigan soha mutaxassislari taqdim etilgan natijalarga juda shubha bilan qarashadi va aslida BLEU balli atigi 10% ga yaxshilanganini aytishadi va sezilarli taraqqiyot aynan qachon seziladi oddiy testlar Vikipediyadan, ular tarmoqni o'qitish jarayonida ishlatilgan.

PROMT ichida biz muntazam ravishda tizimlarimizning turli matnlari bo'yicha tarjimalarni raqobatchilar bilan taqqoslaymiz va shuning uchun bizda har doim misollar mavjud bo'lib, ular orqali neyron tarjima haqiqatan ham ishlab chiqaruvchilar ta'kidlaganidek, avvalgi avloddan ustun ekanligini tekshirishimiz mumkin.

Asl matn (UZ): Xavotir hech kimga yaxshilik keltirmagan.
Google Translation PBMT: Xavotirsiz hech kimga yaxshilik qilmadi.
Google Translation NMT: Xavotir hech qachon hech kimga yordam bermagan.

Aytgancha, Translate.Ru saytida xuddi shu iboraning tarjimasi: "Xavotir hech qachon hech kimga foyda keltirmagan", siz neyron tarmoqlardan foydalanmasdan ham shunday bo'lganini va shunday bo'lib qolganini ko'rishingiz mumkin.

Microsoft Translator ham bu borada ortda qolmagan. Google'dagi hamkasblaridan farqli o'laroq, ular hatto ikkita natijani tarjima qilish va solishtirish mumkin bo'lgan veb-sayt yaratdilar: neyron va pre-neyro, sifat o'sishi haqidagi bayonotlar asossiz emasligiga ishonch hosil qilish uchun.


Bu misolda biz taraqqiyot borligini ko'ramiz va bu haqiqatan ham sezilarli. Bir qarashda, ishlab chiquvchilarning mashina tarjimasi inson tarjimasi bilan deyarli yetib olgani haqidagi bayonoti haqiqatga o'xshaydi. Ammo bu haqiqatan ham shundaymi va bu texnologiyani biznes uchun amaliy qo'llash nuqtai nazaridan nimani anglatadi?

IN umumiy holat Neyron tarmoqlardan foydalangan holda tarjima statistik tarjimadan ustundir va bu texnologiya rivojlanish uchun ulkan salohiyatga ega. Ammo masalani diqqat bilan ko'rib chiqsak, taraqqiyot hamma narsada emasligini va barcha vazifalarni neyron tarmoqlarga vazifaning o'zi bilan bog'liq holda qo'llash mumkin emasligini ko'rishimiz mumkin.

Mashina tarjimasi: qanday qiyinchiliklar bor?

Avtomatik tarjimondan uning butun mavjudligi tarixi - va bu allaqachon 60 yildan ortiq! - ular har qanday nutqni bir zumda begona hushtak va orqaga aylantiradigan ilmiy-fantastik filmlardagi mashina sifatida tasavvur qilib, qandaydir sehrni kutishgan.

Darhaqiqat, vazifalar turli darajalarda bo'ladi, ulardan biri kundalik vazifalar uchun "universal" yoki, aytganda, "kundalik" tarjimani va tushunish qulayligini o'z ichiga oladi. Onlayn tarjima xizmatlari va ko'plab mobil mahsulotlar ushbu darajadagi vazifalarni yaxshi bajara oladi.

Bunday vazifalarga quyidagilar kiradi:

Turli maqsadlar uchun so'zlar va qisqa matnlarni tezkor tarjima qilish;
forumlarda muloqot paytida avtomatik tarjima, in ijtimoiy tarmoqlarda, xabarchilar;
yangiliklar, Vikipediya maqolalarini o'qishda avtomatik tarjima;
sayohat tarjimoni (mobil).

Biz yuqorida muhokama qilgan neyron tarmoqlar yordamida tarjima sifatini oshirishga oid barcha misollar aynan shu vazifalarga tegishli.

Biroq, mashina tarjimasi bilan bog'liq biznes maqsadlari va vazifalari haqida gap ketganda, narsalar biroz boshqacha. Bu erda, masalan, korporativ mashina tarjimasi tizimlariga qo'yiladigan ba'zi talablar:

Tarjima ish yozishmalar mijozlar, hamkorlar, investorlar, xorijiy xodimlar bilan;
veb-saytlarni, onlayn-do'konlarni mahalliylashtirish, mahsulot tavsiflari, ko'rsatmalar;
foydalanuvchi tarkibini tarjima qilish (sharhlar, forumlar, bloglar);
tarjimani biznes jarayonlari va dasturiy mahsulotlar va xizmatlarga integratsiyalash qobiliyati;
terminologiyaga, maxfiylik va xavfsizlikka rioya qilgan holda tarjimaning aniqligi.

Keling, misollar yordamida, tarjima biznesidagi har qanday muammolarni neyron tarmoqlar yordamida hal qilish mumkinmi yoki yo'qligini tushunishga harakat qilaylik.

Vaziyat: Amadeus

Amadeus dunyodagi eng yirik global aviachiptalarni tarqatish tizimlaridan biridir. Bir tomondan, aviatashuvchilar unga bog'langan bo'lsa, boshqa tomondan, real vaqt rejimida o'zgarishlar haqida barcha ma'lumotlarni olishlari va o'z mijozlariga etkazishlari kerak bo'lgan agentliklar.

Vazifa turli manbalardan bronlash tizimida avtomatik tarzda shakllantiriladigan tariflarni qo'llash shartlarini (yo'l haqi qoidalari) mahalliylashtirishdan iborat. Ushbu qoidalar har doim shakllanadi Ingliz tili. Bu erda qo'lda tarjima qilish deyarli mumkin emas, chunki ma'lumotlar juda ko'p va u tez-tez o'zgarib turadi. Aviachipta agenti o'z mijozlariga tez va malakali maslahat berish uchun Yo'l haqi qoidalarini rus tilida o'qishni xohlaydi.

Oddiy atamalar va qisqartmalarni hisobga olgan holda tarif qoidalarining ma'nosini etkazadigan aniq tarjima talab qilinadi. Va u avtomatik tarjimani to'g'ridan-to'g'ri Amadeus bron qilish tizimiga qo'shishni talab qiladi.

→ Loyihaning vazifasi va amalga oshirilishi hujjatda batafsil tavsiflangan.

Amadeus Fare Rules Translator-ga integratsiyalashgan PROMT Cloud API orqali qilingan tarjimani va Google-dan “neyron” tarjimasini solishtirishga harakat qilaylik.

Asl: AYRIB SAYORI DAXIL XARITLAR

PROMT (Analitik yondoshuv): AYVON PARISINI DAXIL XARID OLISH UCHUN TARXALAR

GNMT: DAVLAMA XARIDLAR

Neyron tarjimoni bu erda bardosh bera olmasligi aniq va biroz keyinroq nima uchun aniq bo'ladi.

Vaziyat: TripAdvisor

TripAdvisor dunyodagi eng yirik sayyohlik xizmatlaridan biri bo‘lib, hech qanday tanishtirishni talab qilmaydi. The Telegraph nashrida e'lon qilingan maqolaga ko'ra, har kuni saytda turli tillarda turli sayyohlik joylariga oid 165 600 ta yangi sharhlar paydo bo'ladi.

Vazifa turistik sharhlarni ingliz tilidan rus tiliga ushbu sharhning ma'nosini tushunish uchun etarli bo'lgan tarjima sifati bilan tarjima qilishdir. Asosiy qiyinchilik: foydalanuvchi tomonidan yaratilgan kontentning odatiy xususiyatlari (xatolar, matn terish xatolari, etishmayotgan so'zlar).

Shuningdek, vazifaning bir qismi TripAdvisor veb-saytida chop etilishidan oldin tarjima sifatini avtomatik ravishda baholash edi. Barcha tarjima qilingan kontentni qoʻlda baholash mumkin emasligi sababli, mashina tarjimasi yechimi TripAdvisor faqat yuqori sifatli tarjima qilingan sharhlarni nashr etishini taʼminlash uchun avtomatik ishonch ballini taqdim etishi kerak.

Yechim uchun PROMT DeepHybrid texnologiyasidan foydalanildi, bu oxirgi o'quvchiga tushunarli bo'lgan yuqori sifatli tarjimani, shu jumladan tarjima natijalarini statistik post-tahrirlash orqali olish imkonini beradi.

Keling, misollarni ko'rib chiqaylik:

Asl: Kecha biz u erda injiqlik bilan ovqatlandik va bu yoqimli taom edi. Xizmat haddan tashqari e'tiborli edi.

PROMT (Gibrid tarjimasi): Kecha biz u erda injiqlik bilan ovqatlandik va bu ajoyib taom edi. Xodimlar haddan tashqari ehtiyotkorlik bilan munosabatda bo'lishdi.

GNMT: Kecha biz u yerda injiqlik bilan ovqatlandik va bu ajoyib taom edi. Xizmat haddan tashqari ehtiyotkorlik bilan edi.

Bu erda hamma narsa avvalgi misoldagi kabi sifat jihatidan tushkunlikka tushmaydi. Va umuman olganda, uning parametrlari bo'yicha bu muammoni neyron tarmoqlar yordamida hal qilish mumkin va bu tarjima sifatini yanada yaxshilashi mumkin.

Biznes uchun NMT dan foydalanish muammolari

Yuqorida aytib o'tilganidek, "universal" tarjimon har doim ham maqbul sifatni ta'minlay olmaydi va muayyan atamalarni qo'llab-quvvatlamaydi. Tarjima uchun neyron tarmoqlarni jarayonlaringizga integratsiya qilish va ulardan foydalanish uchun siz asosiy talablarga javob berishingiz kerak:

Neyron tarmog'ini o'rgatish uchun etarli hajmdagi parallel matnlarning mavjudligi. Ko'pincha mijozda ulardan bir nechtasi bor yoki tabiatda ushbu mavzu bo'yicha matnlar mavjud emas. Ular tasniflangan yoki avtomatik ishlov berish uchun juda mos bo'lmagan holatda bo'lishi mumkin.

Modelni yaratish uchun sizga kamida 100 million token (so'zdan foydalanish) va ko'proq yoki kamroq maqbul sifatli tarjimani olish uchun - 500 million tokenni o'z ichiga olgan ma'lumotlar bazasi kerak. Har bir kompaniyada bunday hajmdagi materiallar mavjud emas.

Olingan natija sifatini avtomatik baholash mexanizmi yoki algoritmlarining mavjudligi.

Etarli hisoblash quvvati.
"Universal" neyron tarjimon ko'pincha sifat jihatidan mos kelmaydi va ishning maqbul sifati va tezligini ta'minlaydigan shaxsiy neyron tarmog'ingizni joylashtirish uchun "kichik bulut" talab qilinadi.

Maxfiylik bilan nima qilish kerakligi aniq emas.
Har bir mijoz xavfsizlik nuqtai nazaridan bulutga tarjima qilish uchun o'z mazmunini berishga tayyor emas va NMT bulutli birinchi voqeadir.

xulosalar

Umuman olganda, neyron avtomatik tarjimasi "sof" statistik yondashuvga qaraganda yuqori sifatli natijalar beradi;
Neyron tarmog'i orqali avtomatik tarjima "universal tarjima" muammosini hal qilish uchun ko'proq mos keladi;
MTga yondashuvlarning hech biri o'z-o'zidan tarjima muammosini hal qilish uchun ideal universal vosita emas;
Biznes tarjimasi bilan bog'liq muammolarni hal qilish uchun faqat ixtisoslashtirilgan echimlar barcha talablarga muvofiqligini kafolatlaydi.

Biz o'zingizning tarjima vazifalaringiz uchun eng mos keladigan tarjimondan foydalanishingiz kerakligi haqida mutlaqo aniq va mantiqiy qarorga keldik. Ichkarida neyron tarmoq bormi yoki yo'qligi muhim emas. Vazifaning o'zini tushunish muhimroqdir.

Teglar: teglar qo'shish

14.09.2017, payshanba, 14:19, Moskva vaqti , Matn: Valeriya Shmirova

Yandex.Translator xizmatida statistik tarjimaga qo'shimcha ravishda neyron tarmoqdan tarjima qilish imkoniyati mavjud bo'ldi. Uning afzalligi shundaki, u butun jumlalar bilan ishlaydi, kontekstni yaxshiroq hisobga oladi va izchil, tabiiy matn yaratadi. Biroq, neyron tarmoq biror narsani tushunmasa, u xayol qilishni boshlaydi.

Neyron tarmoqni ishga tushirish

Yandex.Translator xizmati tarjima sifatini yaxshilashga yordam beradigan neyrotarmoqni ishga tushirdi. Ilgari bir tildan boshqa tilga tarjima qilish statistik mexanizm yordamida amalga oshirilar edi. Endi jarayon gibrid bo'ladi: statistik model ham, neyron tarmoq ham tarjimaning o'z versiyasini taklif qiladi. Shundan so'ng, mashinani o'rganishga asoslangan CatBoost algoritmi olingan eng yaxshi natijani tanlaydi.

Hozircha neyron tarmoq faqat ingliz tilidan rus tiliga va faqat xizmatning veb-versiyasida tarjimani amalga oshiradi. Kompaniya ma'lumotlariga ko'ra, Yandex.Translator'da inglizcha-ruscha tarjima so'rovlari barcha so'rovlarning 80 foizini tashkil qiladi. Yaqin oylarda ishlab chiquvchilar gibrid modelni boshqa sohalarda ham joriy etish niyatida. Foydalanuvchiga turli mexanizmlardan tarjimalarni solishtirish imkonini berish uchun maxsus kalit taqdim etiladi.

Statistik tarjimondan farqlari

Neyron tarmoqning ishlash printsipi statistik tarjima modelidan farq qiladi. Matnni so'zma-so'z, ifodani ifodalash o'rniga, butun jumlalarni qismlarga ajratmasdan ishlaydi. Buning yordamida tarjima kontekstni hisobga oladi va ma'noni yaxshiroq etkazib beradi. Bundan tashqari, tarjima qilingan jumla izchil, tabiiy, o'qish va tushunish oson. Ishlab chiquvchilarning fikriga ko'ra, uni inson tarjimonining ishi bilan adashish mumkin.

Neyron tarmoq tarjimasi inson tarjimasiga o'xshaydi

Neyron tarmog'ining o'ziga xos xususiyatlari, biror narsani tushunmaganda "xayol qilish" tendentsiyasini o'z ichiga oladi. Shu tarzda u to'g'ri tarjimani taxmin qilishga harakat qiladi.

Statistik tarjimonning afzalliklari bor: u kam uchraydigan so'z va iboralarni - kamroq tarqalgan nomlarni, toponimlarni va hokazolarni muvaffaqiyatliroq tarjima qiladi. Bundan tashqari, u gapning ma'nosi aniq bo'lmasa, xayolparast ham qilmaydi. Ishlab chiquvchilarning fikriga ko'ra, statistik model qisqa iboralar bilan yaxshiroq ishlaydi.

Boshqa mexanizmlar

Yandex.Translator-da neyron tarmog'ining tarjimasini, xuddi statistik tarjimon tarjimasi kabi, so'zlarning nomuvofiq birikmalarini va imlo xatolarini tuzatuvchi maxsus mexanizm mavjud. Buning yordamida foydalanuvchi "dad ketdi" yoki " kabi kombinatsiyalarni ko'rmaydi. qattiq og'riq", deb ishontirmoqda ishlab chiquvchilar. Bunday ta'sirga tarjimani til modeli bilan solishtirish orqali erishiladi - tizim tomonidan to'plangan til haqidagi barcha bilimlar.

Qiyin holatlarda neyron tarmoq fantaziya qilishga intiladi

Til modeli tildagi so'zlar va iboralar ro'yxatini, shuningdek ulardan foydalanish chastotasi haqidagi ma'lumotlarni o'z ichiga oladi. U Yandex.Translator-dan tashqari ilovani topdi. Masalan, Yandex.Keyboard-dan foydalanganda, u foydalanuvchi keyingi qaysi so'zni yozmoqchi ekanligini taxmin qiladi va unga tayyor variantlarni taklif qiladi. Masalan, til modeli "salom, qanday" so'zidan keyin "qiladi" yoki "siz" variantlari kelishi mumkinligini tushunadi.

"Yandex.Translator" nima

“Yandex.Translator – 2011 yilda ish boshlagan Yandex kompaniyasining matnlarni bir tildan boshqa tilga tarjima qilish xizmati. Dastlab u faqat rus, ukrain va ingliz tillarida ishlagan.

Xizmat mavjud bo'lgan davrda tillar soni 94 tagacha ko'paydi. Ular orasida ekzotiklar ham bor, masalan, braid yoki papiamento. Tarjima har qanday ikki til o'rtasida amalga oshirilishi mumkin.

2016-yilda Yandex.Translator J. R. R. Tolkienning kitoblarida elflar ishlatadigan xayoliy va sun'iy ravishda yaratilgan tilni qo'shdi.



Saytda yangi

>

Eng mashhur