Domov Prevence Překladač neuronových sítí rychlejší blíž a přesnější. Neuronová síť zajistí správnější překlady v prohlížeči Yandex

Překladač neuronových sítí rychlejší blíž a přesnější. Neuronová síť zajistí správnější překlady v prohlížeči Yandex

Existuje více než půl miliardy kopií webových stránek indexovaných vyhledávači a celkový webových stránek je desetitisíckrát více. Obsah v ruštině zabírá 6 % celého internetu.

Jak přeložit požadovaný text rychle a tak, aby byl zachován autorem zamýšlený význam. Staré metody modulů statistického překladu obsahu fungují velmi pochybně, protože... Je nemožné přesně určit deklinaci slov, čas atd. Povaha slov a vazby mezi nimi jsou složité, a proto výsledek někdy působil velmi nepřirozeně.

Nyní Yandex používá automatický strojový překlad, který zlepší kvalitu výsledného textu. Můžete si stáhnout nejnovější oficiální verzi prohlížeče s novým vestavěným překladem.

Hybridní překlad frází a slov

Prohlížeč Yandex je jediný, který dokáže přeložit stránku jako celek i jednotlivě slova a fráze. Funkce bude velmi užitečná pro ty uživatele, kteří více či méně vlastní cizí jazyk, ale někdy čelí potížím s překladem.

Neuronová síť zabudovaná do mechanismu překladu slov si ne vždy poradila se zadanými úkoly, protože Bylo nesmírně obtížné vložit vzácná slova do textu a učinit jej čitelným. Nyní byla do aplikace zabudována hybridní metoda využívající staré i nové technologie.

Mechanismus je tento: program akceptuje vybrané věty nebo slova, pak je předá modulům neuronové sítě a statistickému překladači a vestavěný algoritmus určí, který výsledek je lepší, a pak jej předá uživateli.

Překladač neuronových sítí

Cizí obsah je formátován velmi specifickým způsobem:

  • první písmena slov v nadpisech jsou psána velkými písmeny;
  • věty jsou konstruovány se zjednodušenou gramatikou, některá slova jsou vynechána.

Navigační nabídky na webových stránkách jsou analyzovány s ohledem na jejich umístění, například slovo Zpět, správně přeložené zpět (jít zpět), a ne zpět.

Aby byly zohledněny všechny výše uvedené funkce, vývojáři navíc vytrénovali neuronovou síť, která již využívá obrovské množství textových dat. Nyní je kvalita překladu ovlivněna umístěním obsahu a jeho designem.

Výsledky aplikovaného překladu

Kvalitu překladu lze měřit pomocí algoritmu BLEU*, který porovnává strojový překlad a odborný překlad. Stupnice kvality od 0 do 100 %.

Čím lepší neurální translace, tím vyšší procento. Podle tohoto algoritmu začal prohlížeč Yandex překládat 1,7krát lépe.



Strojový překlad pomocí neuronových sítí ušel od prvního kusu cesty vědecký výzkum na toto téma, dokud Google neoznámil kompletní převedení služby Google Translate do hlubokého učení.

Jak známo, neuronový překladač je založen na mechanismu obousměrných rekurentních neuronových sítí (Bidirectional Recurrent Neural Networks), postavených na maticových výpočtech, což umožňuje konstrukci podstatně složitějších pravděpodobnostních modelů než statistické strojové překladače. Vždy se však věřilo, že neurální překlad, stejně jako statistický překlad, vyžaduje pro trénink paralelní korpusy textů ve dvou jazycích. Na těchto korpusech je trénována neuronová síť, která bere jako referenci lidský překlad.

Jak se nyní ukázalo, neuronové sítě jsou schopny zvládnout nový jazyk pro překlad i bez paralelního korpusu textů! Na předtiskovém webu arXiv.org byly zveřejněny dva články na toto téma.

„Představte si, že dáte člověku mnoho čínských knih a mnoho arabských knih – žádná z nich není stejná – a tento člověk se naučí překládat z čínštiny do arabštiny. Zdá se to nemožné, že? Ale ukázali jsme, že to počítač dokáže,“ říká Mikel Artetxe, počítačový vědec z Baskicko-univerzity ve španělském San Sebastianu.

Většina neuronových sítí pro strojový překlad je školena „s učitelem“, což je paralelní korpus textů přeložených osobou. Během procesu učení, zhruba řečeno, neuronová síť vytváří předpoklad, kontroluje se standardem a provádí nezbytné úpravy svých systémů a poté se učí dále. Problém je v tom, že pro některé jazyky není na světě velké množství paralelních textů, takže jsou pro tradiční neuronové sítě pro strojový překlad nedostupné.


„Univerzální jazyk“ neuronové sítě Google Neural Machine Translation (GNMT). Na obrázku vlevo rozdílné barvy Vpravo dole jsou zobrazeny shluky významů každého slova - významy slova získané z různých lidských jazyků: angličtina, korejština a japonština

Po sestavení obřího „atlasu“ pro každý jazyk se systém pokusí jeden takový atlas překrýt druhým – a tady to máte, máte připravené nějaké paralelní textové korpusy!

Lze porovnat návrhy dvou navrhovaných architektur učení bez dozoru.


Architektura navrhovaného systému. Pro každou větu v L1 se systém naučí střídat dva kroky: 1) potlačení ruchu(odšumování), které optimalizuje pravděpodobnost zakódování zašuměné verze věty pomocí společného kodéru a její rekonstrukce pomocí dekodéru L1; 2) zpětný překlad(zpětný překlad), když je věta přeložena ve výstupním režimu (tj. zakódována společným kodérem a dekódována dekodérem L2), a pak pravděpodobnost zakódování této přeložené věty společným kodérem a rekonstrukcí původní věty L1 dekodér je optimalizován. Ilustrace: Michela Artetxe a kol.


Navrhovaná architektura a tréninkové cíle systému (z druhé vědecké práce). Architektura je model překladu věta po větě, kde kodér i dekodér fungují ve dvou jazycích v závislosti na ID vstupního jazyka, které prohodí vyhledávací tabulky. Nahoře (automatické kódování): Model je trénován k provádění odstranění šumu v každé doméně. Dole (překlad): jako dříve, navíc kódujeme z jiného jazyka pomocí překladu vytvořeného modelem v předchozí iteraci (modrý obdélník). Zelené elipsy označují členy ve ztrátové funkci. Ilustrace: Guillaume Lampla et al.

Oba vědeckých prací používat výrazně podobnou metodiku s drobnými rozdíly. Ale v obou případech se překlad provádí prostřednictvím nějakého mezilehlého „jazyka“ nebo, lépe řečeno, mezidimenze nebo prostoru. Neuronové sítě bez dozoru zatím nevykazují příliš vysokou kvalitu překladu, ale autoři říkají, že to lze snadno zlepšit, pokud použijete malou pomoc od učitele, jen to neudělali kvůli čistotě experimentu .

Prezentovaná díla pro Mezinárodní konference o reprezentacích učení 2018 (International Conference on Learning Representations). Žádný z článků dosud nebyl publikován ve vědeckém tisku.

Na moderním internetu existuje více než 630 milionů stránek, ale pouze 6 % z nich obsahuje obsah v ruském jazyce. Jazyková bariéra je hlavním problémem šíření znalostí mezi uživateli sítě a domníváme se, že je potřeba ji řešit nejen výukou cizích jazyků, ale také pomocí automatického strojového překladu v prohlížeči.

Dnes čtenářům Habr povíme o dvou důležitých technologických změnách v překladači prohlížeče Yandex. Za prvé, překlad zvýrazněných slov a frází nyní používá hybridní model a my vám připomeneme, v čem se tento přístup liší od použití čistě neuronových sítí. Za druhé, neuronové sítě překladatele nyní berou v úvahu strukturu webových stránek, o jejichž vlastnostech si také povíme pod řezem.

Hybridní překladač slov a frází

První systémy strojového překladu byly založeny na slovníky a pravidla(v podstatě ručně psané regulární znaky), které určovaly kvalitu překladu. Profesionální lingvisté léta pracovali na vývoji stále podrobnějších manuálních pravidel. Tato práce byla tak časově náročná, že vážná pozornost byla věnována pouze nejoblíbenějším dvojicím jazyků, ale i v nich stroje odvedly špatnou práci. Živý jazyk je velmi komplexní systém, která nedodržuje pravidla dobře. Ještě obtížnější je popsat pravidla korespondence mezi dvěma jazyky.

Jediný způsob, jak se stroj neustále přizpůsobovat měnícím se podmínkám, je učit se nezávisle z velkého množství paralelních textů (významově identických, ale psaných v různé jazyky). Toto je statistický přístup ke strojovému překladu. Počítač porovnává paralelní texty a nezávisle identifikuje vzory.

U statistický překladač existují výhody i nevýhody. Na jednu stranu si dobře pamatuje vzácná a složitá slova a fráze. Pokud byly nalezeny v paralelních textech, překladatel si je zapamatuje a bude dále správně překládat. Na druhou stranu může být výsledek překladu jako dokončená skládačka: celkový obrázek se zdá jasný, ale když se podíváte pozorně, můžete vidět, že se skládá ze samostatných částí. Důvodem je, že překladač představuje jednotlivá slova jako identifikátory, které v žádném případě nevyjadřují vztah mezi nimi. To je v rozporu se způsobem, jakým lidé prožívají jazyk, kde jsou slova definována tím, jak se používají, jak souvisí s jinými slovy a jak se od nich liší.

Pomáhá vyřešit tento problém neuronové sítě. Vkládání slov, používané v neuronovém strojovém překladu, obvykle spojuje každé slovo s vektorem o délce několika stovek čísel. Vektory se na rozdíl od jednoduchých identifikátorů ze statistického přístupu tvoří při trénování neuronové sítě a berou v úvahu vztahy mezi slovy. Model by například mohl rozpoznat, že jelikož se „čaj“ a „káva“ často objevují v podobných kontextech, obě tato slova by měla být možná v kontextu nového slova „rozlití“, které se, řekněme, objevilo pouze jedno z nich. tréninková data.

Proces učení vektorových reprezentací je však jednoznačně statisticky náročnější než memorování příkladů nazpaměť. Navíc není jasné, co dělat s těmi vzácnými vstupními slovy, která se nevyskytovala dostatečně často, aby pro ně síť vytvořila přijatelnou vektorovou reprezentaci. V této situaci je logické obě metody kombinovat.

Od loňského roku používá Yandex.Translator hybridní model. Když Překladatel obdrží od uživatele text, předá jej k překladu oběma systémům – neuronové síti a statistickému překladači. Algoritmus založený na metodě učení pak vyhodnotí, který překlad je lepší. Při přidělování hodnocení se berou v úvahu desítky faktorů – od délky věty (krátké fráze se lépe překládají statistickým modelem) až po syntaxi. Překlad uznaný jako nejlepší se zobrazí uživateli.

Je to hybridní model, který se nyní používá v Yandex.Browser, kdy uživatel vybírá konkrétní slova a fráze na stránce pro překlad.

Tento režim je vhodný zejména pro ty, kteří obecně mluví cizím jazykem a chtěli by překládat pouze neznámá slova. Pokud ale například místo obvyklé angličtiny narazíte na čínštinu, pak se bez překladače stránky po stránce jen těžko obejdete. Zdálo by se, že rozdíl je pouze v objemu přeloženého textu, ale ne vše je tak jednoduché.

Neuronový síťový překladač webových stránek

Od dob experimentu v Georgetownu až téměř do dnešních dnů byly všechny systémy strojového překladu trénovány tak, aby překládaly každou větu zdrojový text odděleně. Zatímco webová stránka není jen soubor vět, ale strukturovaný text, který obsahuje zásadně odlišné prvky. Podívejme se na základní prvky většiny stránek.

Nadpis. Obvykle jasný a velký text, který vidíme hned při vstupu na stránku. Titulek často obsahuje podstatu zprávy, proto je důležité jej správně přeložit. To je ale obtížné, protože v nadpisu je málo textu a bez pochopení kontextu můžete udělat chybu. V případě angličtiny je to ještě složitější, protože anglicky psané názvy často obsahují fráze s nekonvenční gramatikou, infinitivy nebo dokonce chybějící slovesa. Například, Ohlášen prequel Game of Thrones.

Navigace. Slova a fráze, které nám pomáhají při navigaci na webu. Například, Domov, Zadní A Můj účet Sotva stojí za to překládat jako „Domů“, „Zpět“ a „Můj účet“, pokud se nacházejí v nabídce webu a ne v textu publikace.

Hlavní text. Všechno je s ní jednodušší, jen málo se liší od běžných textů a vět, které najdeme v knihách. Ale i zde je důležité zajistit konzistenci překladů, tedy zajistit, aby na stejné webové stránce byly stejné termíny a pojmy překládány stejným způsobem.

Pro kvalitní překlad webových stránek nestačí použít neuronovou síť nebo hybridní model – je třeba vzít v úvahu i strukturu stránek. A k tomu jsme se museli vypořádat s mnoha technologickými obtížemi.

Klasifikace textových segmentů. K tomu opět využíváme CatBoost a faktory založené jak na textu samotném, tak na HTML značení dokumentů (tag, velikost textu, počet odkazů na textovou jednotku, ...). Faktory jsou značně heterogenní, a proto CatBoost (založený na zesílení gradientu) vykazuje nejlepší výsledky (přesnost klasifikace nad 95 %). Samotná klasifikace segmentů však nestačí.

Zkreslená data. Algoritmy Yandex.Translator jsou tradičně trénovány na textech z internetu. Zdálo by se, že je to ideální řešení pro školení překladače webových stránek (jinými slovy, síť se učí z textů stejného charakteru jako texty, na kterých ji budeme používat). Ale jakmile jsme se naučili oddělovat různé segmenty od sebe, zjistili jsme zajímavá vlastnost. V průměru zabírá obsah na webových stránkách přibližně 85 % veškerého textu, nadpisy a navigace tvoří pouze 7,5 %. Pamatujte také, že samotné nadpisy a navigační prvky se výrazně liší ve stylu a gramatice od zbytku textu. Tyto dva faktory společně vedou k problému zkreslení dat. Pro neuronovou síť je výhodnější jednoduše ignorovat vlastnosti těchto segmentů, které jsou v trénovací sadě zastoupeny velmi špatně. Síť se naučí dobře překládat pouze hlavní text, a proto trpí kvalita překladu nadpisů a navigace. Abychom tento nepříjemný efekt vyrovnali, udělali jsme dvě věci: ke každé dvojici paralelních vět jsme přiřadili jednu z vět tři typy segmenty (obsah, nadpis nebo navigace) a uměle zvýšily koncentraci posledních dvou v tréninkovém korpusu na 33 % z důvodu, že začaly častěji ukazovat podobné příklady jako učící se neuronová síť.

Víceúkolové učení. Protože nyní můžeme rozdělit text na webových stránkách do tří tříd segmentů, mohlo by se zdát jako přirozený nápad trénovat tři samostatné modely, z nichž každý by zvládl překlad jiného typu textu – nadpisů, navigace nebo obsahu. To opravdu funguje dobře, ale ještě lépe funguje schéma, ve kterém trénujeme jednu neuronovou síť pro překlad všech typů textů najednou. Klíč k pochopení spočívá v myšlence učení více úkolů (MTL): pokud existuje vnitřní spojení mezi několika úkoly strojového učení, pak model, který se naučí řešit tyto úkoly současně, se může naučit řešit každý z úkolů lépe. než úzce specializovaný model!

Doladění. Už jsme měli docela dobrý strojový překlad, takže by nebylo moudré školit nového překladatele pro Yandex.Browser od začátku. Logičtější je vzít si základní systém pro překlad běžných textů a natrénovat ho na práci s webovými stránkami. V kontextu neuronových sítí se tomu často říká jemné doladění. Pokud se ale k tomuto problému postavíte čelem, tzn. Jednoduše inicializujte váhy neuronové sítě s hodnotami z hotového modelu a začněte se učit na nových datech, pak se můžete setkat s efektem posunu domény: jak bude trénink pokračovat, kvalita překladu webových stránek (v doméně) se bude zvýší, ale kvalita překladu běžných (mimo doménových) textů klesne. Abychom se této nepříjemné vlastnosti zbavili, při dodatečném tréninku uvalíme na neuronovou síť další omezení a zakážeme jí příliš měnit váhy oproti výchozímu stavu.

Matematicky je to vyjádřeno přidáním členu ke ztrátové funkci, což je Kullback-Leiblerova vzdálenost (KL-divergence) mezi pravděpodobnostními rozděleními generování dalšího slova, vydanými původními a dodatečně trénovanými sítěmi. Jak je vidět na ilustraci, vede to k tomu, že zvyšování kvality překladu webových stránek již nevede k degradaci překladu běžného textu.

Leštění frekvenčních frází z navigace. Při práci na novém překladači jsme sbírali statistiky textů různých segmentů webových stránek a viděli něco zajímavého. Texty, které se týkají navigačních prvků, jsou poměrně vysoce standardizované, takže se často skládají ze stejných vzorových frází. To je tak silný efekt, že více než polovinu všech navigačních frází nalezených na internetu tvoří pouhé 2 tisíce těch nejčastějších.

My jsme toho samozřejmě využili a několik tisíc nejběžnějších frází a jejich překladů dali k ověření našim překladatelům, abychom si byli naprosto jisti jejich kvalitou.

Vnější vyrovnání. Na překladač webových stránek v prohlížeči byl ještě jeden důležitý požadavek – neměl by zkreslovat označení. Když jsou HTML tagy umístěny mimo nebo na hranice vět, nevznikají žádné problémy. Ale pokud je uvnitř věty např. dva podtrženo slova, pak v překladu chceme vidět „dva podtrženo slova“. Tito. V důsledku převodu musí být splněny dvě podmínky:

  1. Podtržený fragment v překladu musí přesně odpovídat podtrženému fragmentu ve zdrojovém textu.
  2. Konzistence překladu na hranicích podtrženého fragmentu by neměla být narušena.
Abychom dosáhli tohoto chování, nejprve přeložíme text jako obvykle a poté použijeme statistické modely zarovnání slov po slovech k určení shody mezi fragmenty zdrojového a přeloženého textu. To pomáhá pochopit, co přesně je třeba zdůraznit (kurzívou, ve formátu hypertextového odkazu, ...).

Pozorovatel křižovatky. Výkonné modely překladu neuronových sítí, které jsme trénovali, vyžadují podstatně více výpočetních zdrojů na našich serverech (jak CPU, tak GPU) než předchozí generace statistických modelů. Uživatelé zároveň ne vždy dočtou stránky až do konce, takže odesílání veškerého textu webových stránek do cloudu se zdá zbytečné. Abychom ušetřili zdroje serveru a uživatelský provoz, naučili jsme používat Překladač

aneb Rozvíjí se kvantita v kvalitu?

Článek vycházející z projevu na konferenci RIF+KIB 2017.

Neural Machine Translation: proč až nyní?

O neuronových sítích se mluví už dlouho a zdálo by se, že jeden z klasických problémů umělé inteligence – strojový překlad – si na základě této technologie prostě žádá řešení.

Nicméně zde je dynamika popularity ve vyhledávání dotazů o neuronových sítích obecně a o neuronovém strojovém překladu konkrétně:

Je jasně vidět, že donedávna nebylo o neuronovém strojovém překladu nic na radaru – a na konci roku 2016 předvedlo své nové technologie a systémy strojového překladu založené na neuronových sítích několik společností, včetně Google, Microsoft a SYSTRAN. Objevily se téměř současně, několik týdnů nebo dokonce dní od sebe. proč tomu tak je?

Pro zodpovězení této otázky je nutné pochopit, co je strojový překlad založený na neuronových sítích a jaký je jeho klíčový rozdíl od klasických statistických systémů nebo analytických systémů, které se dnes pro strojový překlad používají.

Neuronový překladač je založen na mechanismu obousměrných rekurentních neuronových sítí (Bidirectional Recurrent Neural Networks), postavených na maticových výpočtech, což umožňuje sestavit podstatně složitější pravděpodobnostní modely než statistické strojové překladače.


Stejně jako statistický překlad i neurální překlad vyžaduje pro trénování paralelní korpusy, které umožňují porovnat automatický překlad s referenčním „lidským“, pouze v procesu učení nepracuje s jednotlivými frázemi a slovními spojeními, ale s celými větami. Hlavním problémem je, že trénování takového systému vyžaduje podstatně větší výpočetní výkon.

K urychlení procesu vývojáři používají GPU od společnosti NVIDIA a také Tensor Processing Unit (TPU) společnosti Google, proprietární čipy přizpůsobené speciálně pro technologie strojového učení. Grafické čipy jsou zpočátku optimalizovány pro algoritmy výpočtu matice, a proto je nárůst výkonu 7-15krát vyšší než u CPU.

I tak trvá trénování jednoho neurálního modelu 1 až 3 týdny, zatímco statistickému modelu zhruba stejné velikosti trvá trénování 1 až 3 dny a tento rozdíl se zvětšuje s rostoucí velikostí.

Nebyly to však pouze technologické problémy, které bránily rozvoji neuronových sítí v kontextu úlohy strojového překladu. Jazykové modely se nakonec podařilo trénovat dříve, i když pomaleji, ale zásadní překážky nebyly.

Svou roli sehrála i móda neuronových sítí. Mnoho lidí se interně vyvíjelo, ale nespěchali to oznámit, možná se obávali, že se nedočkají zvýšení kvality, kterou společnost očekává od slovního spojení Neuronové sítě. To může vysvětlit skutečnost, že několik neuronových překladatelů bylo oznámeno jeden po druhém.

Kvalita překladu: čí skóre BLEU je silnější?

Pokusme se pochopit, zda zvýšení kvality překladu odpovídá nashromážděným očekáváním a nárůstu nákladů, které doprovázejí vývoj a podporu neuronových sítí pro překlad.
Google ve svém výzkumu prokazuje, že neurální strojový překlad poskytuje relativní zlepšení od 58 % do 87 %, v závislosti na jazykovém páru, ve srovnání s klasickým statistickým přístupem (nebo Phrase Based Machine Translation, PBMT, jak se také nazývá).


SYSTRAN provádí studii, ve které se kvalita překladu posuzuje výběrem z několika předložených možností různé systémy, stejně jako „lidský“ překlad. A uvádí, že jeho neurální překlad je preferován ve 46 % případů před lidským překladem.

Kvalita překladu: existuje nějaký průlom?

I když Google uvádí zlepšení o 60 % nebo více, toto číslo má malý háček. Zástupci společnosti hovoří o „Relative Improvement“, tedy o tom, jak blízko zvládli neurální přístup ke kvalitě Human Translation ve vztahu k tomu, co bylo v klasickém statistickém překladači.


Odborníci z oboru analyzující výsledky prezentované společností Google v článku „Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation“ jsou k prezentovaným výsledkům dosti skeptičtí a říkají, že ve skutečnosti se skóre BLEU zlepšilo pouze o 10 % a výrazný pokrok je patrný právě tehdy jednoduché testy z Wikipedie, které byly s největší pravděpodobností použity v procesu tréninku sítě.

Uvnitř PROMT pravidelně porovnáváme překlady různých textů našich systémů s konkurencí, a proto máme vždy po ruce příklady, na kterých si můžeme ověřit, zda je neuronový překlad skutečně tak lepší než předchozí generace, jak tvrdí výrobci.

Původní text (EN): Obavy nikdy nikomu neprospěly.
Překlad Google PBMT: Bez obav jsem nikomu neudělal nic dobrého.
Google Translation NMT: Starost nikdy nikomu nepomohla.

Mimochodem, překlad stejné fráze na Translate.Ru: „Starost nikdy nikomu nepřinesla žádný užitek,“ můžete vidět, že to bylo a zůstává stejné bez použití neuronových sítí.

Microsoft Translator v této věci také nezůstává pozadu. Na rozdíl od svých kolegů z Googlu dokonce vytvořili web, kde si můžete přeložit a porovnat dva výsledky: neurální a pre-neurální, abyste měli jistotu, že prohlášení o růstu kvality nejsou nepodložená.


Na tomto příkladu vidíme, že došlo k pokroku a je opravdu patrný. Na první pohled se zdá, že tvrzení vývojářů, že strojový překlad téměř dohnal lidský překlad, je pravdivé. Ale je tomu skutečně tak a co to znamená z hlediska praktické aplikace technologií pro podnikání?

V obecný případ Překlad pomocí neuronových sítí je lepší než statistický překlad a tato technologie má obrovský potenciál rozvoje. Ale když se na problém podíváme pozorně, vidíme, že pokrok není ve všem a ne všechny úkoly lze aplikovat na neuronové sítě bez ohledu na úkol samotný.

Strojový překlad: jaké jsou výzvy?

Od automatického překladače celá historie jeho existence - a to je již více než 60 let! – očekávali nějakou magii, představovali si ji jako stroj ze sci-fi filmů, který okamžitě přemění jakoukoli řeč na mimozemskou píšťalku a zpět.

Ve skutečnosti úkoly přicházejí na různých úrovních, z nichž jedna zahrnuje „univerzální“ nebo, abych tak řekl, „každodenní“ překlad pro každodenní úkoly a snadné porozumění. Online překladatelské služby a mnoho mobilních produktů dobře zvládají úkoly na této úrovni.

Mezi takové úkoly patří:

Rychlý překlad slov a krátkých textů pro různé účely;
automatický překlad během komunikace na fórech, in v sociálních sítích, poslové;
automatický překlad při čtení zpráv, článků na Wikipedii;
cestovní překladač (mobilní).

Všechny ty příklady zvyšování kvality překladu pomocí neuronových sítí, o kterých jsme hovořili výše, se týkají právě těchto úloh.

Nicméně, pokud jde o obchodní cíle a cíle týkající se strojového překladu, věci jsou trochu jiné. Zde jsou například některé požadavky na podnikové systémy strojového překladu:

Překlad obchodní korespondence s klienty, partnery, investory, zahraničními zaměstnanci;
lokalizace webových stránek, internetových obchodů, popisů produktů, návodů;
překlad uživatelského obsahu (recenze, fóra, blogy);
schopnost integrovat překlad do obchodních procesů a softwarových produktů a služeb;
přesnost překladu v souladu s terminologií, důvěrnost a bezpečnost.

Pokusme se na příkladech pochopit, zda lze nějaké obchodní problémy s překlady vyřešit pomocí neuronových sítí a jak přesně.

Případ: Amadeus

Amadeus je jedním z největších globálních systémů distribuce letenek na světě. Na jedné straně jsou na něj napojeni letečtí dopravci, na druhé agentury, které musí veškeré informace o změnách přijímat v reálném čase a zprostředkovat je svým klientům.

Úkolem je lokalizovat podmínky pro uplatnění tarifů (Tarifní řád), které jsou automaticky generovány v rezervačním systému z různých zdrojů. Tato pravidla se tvoří vždy na anglický jazyk. Ruční překlad je zde prakticky nemožný, vzhledem k tomu, že informací je hodně a často se mění. Agent letenek by si rád přečetl Tarifní pravidla v ruštině, aby mohl rychle a kvalifikovaně poradit svým klientům.

Je vyžadován jasný překlad, který vyjadřuje význam tarifních pravidel s přihlédnutím k typickým termínům a zkratkám. A vyžaduje, aby byl automatický překlad integrován přímo do rezervačního systému Amadeus.

→ Úkol a realizace projektu jsou podrobně popsány v dokumentu.

Zkusme porovnat překlad vytvořený prostřednictvím PROMT Cloud API integrovaného do Amadeus Fare Rules Translator a „neurální“ překlad od Google.

Originál: OKAMŽITÉ NÁKUPNÍ CENY ZPRACOVÁNÍ

PROMT (Analytický přístup): CENY ZA OKAMŽITÝ NÁKUP ZKRATNÍHO LETU

GNMT: KULATÉ NÁKUPY

Je zřejmé, že zde si neuronový překladač neporadí a o kousek dále se ukáže proč.

Případ: TripAdvisor

TripAdvisor je jednou z největších světových cestovních služeb, kterou není třeba představovat. Podle článku zveřejněného The Telegraph se na webu každý den objeví 165 600 nových recenzí různých turistických míst v různých jazycích.

Úkolem je přeložit turistické recenze z angličtiny do ruštiny v kvalitě překladu dostatečné k pochopení významu této recenze. Hlavní problém: typické rysy obsahu vytvářeného uživateli (texty s chybami, překlepy, chybějící slova).

Součástí úkolu bylo také automatické posouzení kvality překladu před zveřejněním na webu TripAdvisor. Protože ruční posouzení veškerého přeloženého obsahu není možné, musí řešení strojového překladu poskytovat automatické skóre spolehlivosti, aby bylo zajištěno, že TripAdvisor bude publikovat pouze vysoce kvalitní přeložené recenze.

Pro řešení byla použita technologie PROMT DeepHybrid, která umožňuje získat kvalitnější překlad srozumitelný pro koncového čtenáře, a to i prostřednictvím statistické posteditace výsledků překladu.

Podívejme se na příklady:

Originál: Jedli jsme tam včera večer z rozmaru a bylo to krásné jídlo. Služba byla pozorná, aniž by byla přehnaná.

PROMT (hybridní překlad): Jedli jsme tam včera večer z rozmaru a bylo to skvělé jídlo. Zaměstnanci byli pozorní, aniž by byli arogantní.

GNMT: Jedli jsme tam včera večer z rozmaru a bylo to skvělé jídlo. Služba byla pozorná, aniž by byla arogantní.

Zde vše není z hlediska kvality tak depresivní jako v předchozím příkladu. A vůbec, z hlediska jeho parametrů je tento problém potenciálně řešitelný pomocí neuronových sítí a to může kvalitu překladu ještě zlepšit.

Výzvy používání NMT pro podnikání

Jak již bylo zmíněno dříve, „univerzální“ překladač neposkytuje vždy přijatelnou kvalitu a nemůže podporovat specifickou terminologii. Chcete-li integrovat a používat neuronové sítě pro překlad do vašich procesů, musíte splnit základní požadavky:

Přítomnost dostatečného množství paralelních textů, aby bylo možné trénovat neuronovou síť. Často jich má zákazník jen málo nebo žádné texty na toto téma v přírodě neexistují. Mohou být klasifikované nebo ve stavu, který není příliš vhodný pro automatické zpracování.

K vytvoření modelu potřebujete databázi, která obsahuje alespoň 100 milionů tokenů (použití slov), a pro získání překladu více či méně přijatelné kvality - 500 milionů tokenů. Ne každá firma má takový objem materiálů.

Dostupnost mechanismu nebo algoritmů pro automatické hodnocení kvality získaného výsledku.

Dostatečný výpočetní výkon.
„Univerzální“ neuronový překladač většinou nevyhovuje svou kvalitou a pro nasazení vlastní privátní neuronové sítě schopné poskytovat přijatelnou kvalitu a rychlost práce je potřeba „malý cloud“.

Není jasné, co dělat se soukromím.
Ne každý zákazník je z bezpečnostních důvodů připraven dát svůj obsah k překladu do cloudu a NMT je příběh na prvním místě v cloudu.

závěry

Obecně platí, že neurální automatický překlad poskytuje výsledky vyšší kvality než „čistě“ statistický přístup;
Automatický překlad prostřednictvím neuronové sítě je vhodnější pro řešení problému „univerzálního překladu“;
Žádný z přístupů k MT sám o sobě není ideálním univerzálním nástrojem pro řešení jakéhokoli překladatelského problému;
Při řešení problémů s obchodním překladem mohou pouze specializovaná řešení zaručit shodu se všemi požadavky.

Dospěli jsme k naprosto zřejmému a logickému rozhodnutí, že pro své překladatelské úkoly musíte použít překladač, který je k tomu nejvhodnější. Nezáleží na tom, zda je uvnitř neuronová síť nebo ne. Porozumění samotnému úkolu je důležitější.

Štítky: Přidat štítky

14.09.2017, čt, 14:19, moskevského času , Text: Valeria Shmyrová

Ve službě Yandex.Translator se kromě statistického překladu zpřístupnila i možnost překladu z neuronové sítě. Jeho výhodou je, že pracuje s celými větami, lépe zohledňuje kontext a vytváří konzistentní, přirozený text. Když však neuronová síť něčemu nerozumí, začne fantazírovat.

Spuštění neuronové sítě

Služba Yandex.Translator spustila neuronovou síť, která pomůže zlepšit kvalitu překladu. Dříve byl překlad z jednoho jazyka do druhého prováděn pomocí statistického mechanismu. Nyní bude proces hybridní: statistický model i neuronová síť nabídnou svou vlastní verzi překladu. Poté algoritmus CatBoost, který je založen na strojovém učení, vybere nejlepší získaný výsledek.

Neuronová síť zatím provádí pouze překlady z angličtiny do ruštiny a pouze ve webové verzi služby. Podle společnosti tvoří v Yandex.Translator požadavky na anglicko-ruský překlad 80 % všech požadavků. V následujících měsících hodlají vývojáři hybridní model představit i v dalších oblastech. Aby uživatel mohl porovnávat překlady z různých mechanismů, je k dispozici speciální přepínač.

Rozdíly od statistického překladače

Princip fungování neuronové sítě se liší od modelu statistického překladu. Místo překládání textu slovo po slovu, výraz po výrazu, pracuje s celými větami, aniž by je rozděloval na části. Díky tomu překlad zohledňuje kontext a lépe vyjadřuje význam. Přeložená věta je navíc konzistentní, přirozená, dobře čitelná a srozumitelná. Podle vývojářů jej lze zaměnit za práci lidského překladatele.

Překlad neuronové sítě se podobá lidskému překladu

Mezi zvláštnosti neuronové sítě patří tendence „fantazírovat“, když něčemu nerozumí. Tímto způsobem se snaží uhodnout správný překlad.

Statistický překladač má své výhody: úspěšněji překládá vzácná slova a výrazy - méně obvyklá jména, toponyma atd. Navíc nefantazíruje, pokud není jasný význam věty. Statistický model si podle vývojářů lépe poradí s krátkými frázemi.

Jiné mechanismy

Yandex.Translator má speciální mechanismus, který zpřesňuje překlad neuronové sítě, stejně jako překlad statistického překladače, opravuje neshodné kombinace slov a pravopisné chyby. Díky tomu uživatel neuvidí kombinace jako „táta šel“ nebo „ silná bolest“, ujišťují vývojáři. Tohoto efektu je dosaženo porovnáním překladu s jazykovým modelem – veškerými znalostmi o jazyce nashromážděnými systémem.

V obtížných případech má neuronová síť tendenci fantazírovat

Jazykový model obsahuje seznam slov a výrazů v jazyce a také údaje o frekvenci jejich používání. Našel uplatnění mimo Yandex.Translator. Například při používání Yandex.Keyboard je to ona, kdo uhodne, jaké slovo chce uživatel napsat dále, a nabídne mu hotové možnosti. Jazykový model například chápe, že „ahoj, jak“ bude pravděpodobně následovat varianty „děláte“ nebo „vy“.

Co je „Yandex.Translator“

„Yandex.Translator je služba pro překlady textů z jednoho jazyka do druhého od společnosti Yandex, která začala fungovat v roce 2011. Zpočátku fungovala pouze s ruštinou, ukrajinštinou a angličtinou.

Za dobu existence služby se počet jazyků zvýšil na 94 jazyků. Jsou mezi nimi i exotické, jako je cop nebo papiamento. Překlad lze provést mezi libovolnými dvěma jazyky.

V roce 2016 přidal Yandex.Translator fiktivní a uměle vytvořený jazyk používaný elfy v knihách J. R. R. Tolkiena.



Novinka na webu

>

Nejoblíbenější