Ev Önleme Sinir ağı tercümanı daha hızlı, daha yakın, daha doğru. Sinir ağı, Yandex.Browser'daki çevirileri daha doğru hale getirecek

Önleme

Sinir ağı tercümanı daha hızlı, daha yakın, daha doğru. Sinir ağı, Yandex.Browser'daki çevirileri daha doğru hale getirecek

Arama motorları tarafından indekslenen yarım milyardan fazla web sitesi kopyası vardır ve Toplam onbinlerce kat daha fazla web sayfası var. Rusça içerik tüm internetin %6'sını kaplıyor.

Gerekli metnin hızlı ve yazarın kastettiği anlamı koruyacak şekilde nasıl çevrileceği. İstatistiksel içerik çeviri modüllerinin eski yöntemleri çok kuşkulu bir şekilde çalışmaktadır, çünkü... Kelimelerin eğimini, gerginliği vb. Doğru bir şekilde belirlemek imkansızdır. Kelimelerin doğası ve aralarındaki bağlantılar karmaşıktır, bu nedenle sonuç bazen çok doğal görünmemektedir.

Artık Yandex, ortaya çıkan metnin kalitesini artıracak otomatik makine çevirisini kullanıyor. Tarayıcının en son resmi sürümünü yeni bir yerleşik çeviriyle indirebilirsiniz.

İfadelerin ve kelimelerin hibrit çevirisi

Yandex tarayıcısı, bir sayfayı bütün olarak çevirebildiği gibi kelimeleri ve cümleleri de tek tek çevirebilen tek tarayıcıdır. Bu işlev, az çok sahip olan kullanıcılar için çok yararlı olacaktır. yabancı Dil ancak bazen çeviri güçlükleriyle karşı karşıya kalır.

Kelime çeviri mekanizmasına yerleştirilmiş sinir ağı, verilen görevlerle her zaman başa çıkamadı çünkü Nadir kelimeleri metne yerleştirip okunabilir hale getirmek son derece zordu. Artık uygulamaya eski teknolojiler ve yeni teknolojiler kullanılarak hibrit bir yöntem yerleştirildi.

Mekanizma şu şekildedir: Program seçilen cümleleri veya kelimeleri kabul eder, ardından bunları hem sinir ağı modüllerine hem de istatistiksel tercümana verir ve yerleşik algoritma hangi sonucun daha iyi olduğunu belirleyip kullanıcıya verir.

Sinir ağı çevirmeni

Yabancı içerik çok özel bir şekilde biçimlendirilmiştir:

başlıklardaki kelimelerin ilk harfleri büyük yazılır;
cümleler basitleştirilmiş dilbilgisi ile oluşturulmuştur, bazı kelimeler çıkarılmıştır.

Web sitelerindeki gezinme menüleri, konumları dikkate alınarak analiz edilir; örneğin Geri kelimesi, doğru şekilde geri çevrilmiş (geri dön) ve geri değil.

Yukarıda belirtilen tüm özellikleri hesaba katmak için geliştiriciler ayrıca, halihazırda çok sayıda metin verisi kullanan bir sinir ağını da eğitti. Artık çevirinin kalitesi içeriğin konumundan ve tasarımından etkileniyor.

Uygulanan çevirinin sonuçları

Çevirinin kalitesi, makine çevirisi ile profesyonel çeviriyi karşılaştıran BLEU* algoritmasıyla ölçülebilir. %0'dan %100'e kadar kalite ölçeği.

Nöral çeviri ne kadar iyi olursa yüzde de o kadar yüksek olur. Bu algoritmaya göre Yandex tarayıcısı 1,7 kat daha iyi çeviri yapmaya başladı.

Sinir ağlarını kullanan makine çevirisi, ilkinden bu yana çok yol kat etti bilimsel araştırma Google, Google Çeviri hizmetinin tamamen derin öğrenmeye aktarıldığını duyurana kadar bu konu üzerinde durduk.

Bilindiği gibi sinir çeviricisi, matris hesaplamaları üzerine kurulu, istatistiksel makine çeviricilerine göre önemli ölçüde daha karmaşık olasılıksal modellerin oluşturulmasına olanak tanıyan çift yönlü tekrarlayan sinir ağları (Çift Yönlü Tekrarlayan Sinir Ağları) mekanizmasına dayanmaktadır. Bununla birlikte, istatistiksel çeviri gibi sinirsel çevirinin de eğitim için iki dildeki paralel metin derlemelerini gerektirdiğine her zaman inanılmıştır. İnsan çevirisini referans alarak bu derlemler üzerinde bir sinir ağı eğitilir.

Artık ortaya çıktığı gibi, sinir ağları, paralel bir metin külliyatı olmadan bile çeviri için yeni bir dile hakim olma kapasitesine sahip! Bu konuyla ilgili iki makale ön baskı web sitesi arXiv.org'da yayınlandı.

“Bir kişiye pek çok Çince kitap ve pek çok Arapça kitap verdiğinizi - hiçbiri aynı değil - ve bu kişinin Çince'den Arapça'ya tercüme yapmayı öğrendiğini hayal edin. İmkansız görünüyor, değil mi? Ancak bir bilgisayarın bunu yapabileceğini gösterdik” diyor San Sebastian, İspanya'daki Bask Ülkesi Üniversitesi'nden bilgisayar bilimcisi Mikel Artetxe.

Çoğu makine çevirisi sinir ağı, bir kişi tarafından çevrilen metinlerin paralel bir bütünü olan "bir öğretmenle" eğitilir. Öğrenme sürecinde, kabaca söylemek gerekirse, sinir ağı bir varsayımda bulunur, standardı kontrol eder, sistemlerinde gerekli ayarlamaları yapar ve daha sonra öğrenir. Sorun şu ki, bazı diller için dünyada çok sayıda paralel metin bulunmuyor, dolayısıyla bunlara geleneksel makine çevirisi sinir ağları tarafından erişilemiyor.

Google Neural Machine Translation (GNMT) sinir ağının “evrensel dili”. Soldaki resimde farklı renkler Her kelimenin anlam kümeleri sağ altta gösterilir - kelimenin farklı insan dillerinden elde edilen anlamları: İngilizce, Korece ve Japonca

Her dil için dev bir "atlas" derledikten sonra sistem, bu tür atlasları diğerinin üzerine yerleştirmeye çalışır - işte işte karşınızda, bir çeşit paralel metin derleminiz hazır!

Önerilen iki denetimsiz öğrenme mimarisinin tasarımları karşılaştırılabilir.

Önerilen sistemin mimarisi. L1'deki her cümle için sistem iki adımı değiştirmeyi öğrenir: 1) gürültü azaltma(gürültü giderme), bir cümlenin gürültülü versiyonunun ortak bir kodlayıcıyla kodlanması ve L1 kod çözücüyle yeniden yapılandırılması olasılığını optimize eder; 2) ters çeviri(geri çeviri) bir cümle çıktı modunda çevrildiğinde (yani, ortak bir kodlayıcı tarafından kodlanır ve bir L2 kod çözücü tarafından kodu çözülür) ve daha sonra çevrilen bu cümleyi ortak bir kodlayıcıyla kodlama ve orijinal cümleyi ortak bir kodlayıcıyla yeniden oluşturma olasılığı L1 kod çözücü optimize edildi. İllüstrasyon: Michela Artetxe ve ark.

Sistemin önerilen mimarisi ve eğitim hedefleri (ikinci bilimsel çalışmadan). Mimari, arama tablolarını değiştiren giriş dili kimliğine bağlı olarak hem kodlayıcının hem de kod çözücünün iki dilde çalıştığı, cümle cümle bir çeviri modelidir. Üst (otomatik kodlama): Model, her alanda gürültü giderme işlemini gerçekleştirecek şekilde eğitilir. Alt (çeviri): daha önce olduğu gibi, ayrıca önceki yinelemede model tarafından üretilen çeviriyi girdi olarak kullanarak başka bir dilden kodluyoruz (mavi dikdörtgen). Yeşil elipsler kayıp fonksiyonundaki terimleri gösterir. İllüstrasyon: Guillaume Lampla ve ark.

İkisi birden bilimsel çalışmalar küçük farklılıklarla oldukça benzer bir metodoloji kullanın. Ancak her iki durumda da çeviri, bir ara “dil”, daha doğrusu bir ara boyut ya da mekan aracılığıyla gerçekleştirilir. Şu ana kadar denetimsiz sinir ağları çok yüksek çeviri kalitesi göstermiyor ancak yazarlar, bir öğretmenden biraz yardım alırsanız kolayca geliştirilebileceğini söylüyorlar, bunu sadece deneyin saflığı uğruna yapmadıklarını söylüyorlar .

Sunulan çalışmalar Uluslararası konferansöğrenme temsilleri üzerine 2018 (Uluslararası Öğrenme Temsilleri Konferansı). Makalelerin hiçbiri henüz bilimsel basında yayınlanmadı.

Modern internette 630 milyondan fazla site var, ancak bunların yalnızca %6'sı Rusça içerik içeriyor. Dil engeli, ağ kullanıcıları arasında bilginin yayılmasındaki temel sorundur ve bunun yalnızca yabancı dil öğretilerek değil, aynı zamanda tarayıcıda otomatik makine çevirisi kullanılarak da çözülmesi gerektiğine inanıyoruz.

Bugün Habr okuyucularına Yandex Tarayıcı tercümanındaki iki önemli teknolojik değişiklikten bahsedeceğiz. Öncelikle, vurgulanan kelimelerin ve cümlelerin çevirisi artık hibrit bir model kullanıyor ve bu yaklaşımın salt sinir ağları kullanmaktan ne kadar farklı olduğunu size hatırlatacağız. İkinci olarak, çevirmenin sinir ağları artık özelliklerine aşağıda da değineceğimiz web sayfalarının yapısını dikkate alıyor.

Kelimelerin ve cümlelerin hibrit tercümanı

İlk makine çeviri sistemleri şunlara dayanıyordu: sözlükler ve kurallar(esasen elle yazılmış normal karakterler), çevirinin kalitesini belirleyen. Profesyonel dilbilimciler, giderek daha ayrıntılı hale gelen manuel kurallar geliştirmek için yıllardır çalışıyorlar. Bu iş o kadar zaman alıyordu ki yalnızca en popüler dil çiftlerine ciddi bir ilgi gösterildi, ancak makineler bunların içinde bile kötü bir iş çıkardı. Yaşam dili çok karmaşık bir sistem kurallara pek uymayan bir durum. İki dil arasındaki yazışma kurallarını anlatmak ise daha da zordur.

Bir makinenin değişen koşullara sürekli uyum sağlamasının tek yolu, çok sayıda paralel metinden (anlam bakımından aynı ancak farklı dillerde yazılmış) bağımsız olarak öğrenmektir. farklı diller). Bu, makine çevirisine istatistiksel yaklaşımdır. Bilgisayar paralel metinleri karşılaştırır ve kalıpları bağımsız olarak tanımlar.

sen istatistiksel çevirmen hem avantajları hem de dezavantajları var. Bir yandan nadir ve karmaşık kelimeleri ve cümleleri iyi hatırlıyor. Paralel metinlerde bulunursa çevirmen bunları hatırlayacak ve doğru tercüme etmeye devam edecektir. Öte yandan, bir çevirinin sonucu tamamlanmış bir bulmaca gibi olabilir: Genel resim net görünüyor, ancak yakından bakarsanız ayrı parçalardan oluştuğunu görebilirsiniz. Bunun nedeni, çevirmenin, hiçbir şekilde aralarındaki ilişkiyi yansıtmayan, tek tek kelimeleri tanımlayıcı olarak temsil etmesidir. Bu, kelimelerin nasıl kullanıldığına, diğer kelimelerle nasıl ilişki kurduğuna ve onlardan nasıl farklılaştığına göre tanımlandığı, insanların dili deneyimleme biçimiyle tutarsızdır.

Bu sorunun çözülmesine yardımcı olur nöral ağlar. Nöral makine çevirisinde kullanılan kelime gömme, tipik olarak her kelimeyi birkaç yüz sayıdan oluşan bir vektörle ilişkilendirir. İstatistiksel yaklaşımdaki basit tanımlayıcılardan farklı olarak vektörler, bir sinir ağı eğitilirken oluşturulur ve kelimeler arasındaki ilişkiler dikkate alınır. Örneğin, model "çay" ve "kahve" kelimelerinin sıklıkla benzer bağlamlarda geçmesi nedeniyle, bu kelimelerin her ikisinin de yeni "dökülme" kelimesi bağlamında mümkün olması gerektiğini fark edebilir; bu kelimeden sadece bir tanesi, örneğin, eğitim verileri.

Bununla birlikte, vektör temsillerini öğrenme süreci, örneklerin ezberlenmesinden istatistiksel olarak açıkça daha zordur. Ayrıca, ağın kendileri için kabul edilebilir bir vektör temsili oluşturmasına yetecek kadar sık geçmeyen bu nadir giriş sözcükleriyle ne yapılacağı da açık değildir. Bu durumda her iki yöntemi birleştirmek mantıklıdır.

Geçen yıldan bu yana Yandex.Çeviri kullanılıyor hibrit modeli. Çevirmen bir kullanıcıdan bir metin aldığında, bunu çeviri için her iki sisteme (sinir ağına ve istatistiksel çevirmene) verir. Bir öğrenme yöntemini temel alan bir algoritma, hangi çevirinin daha iyi olduğunu değerlendirir. Bir derecelendirme atarken cümle uzunluğundan (kısa ifadeler istatistiksel model tarafından daha iyi çevrilir) söz dizimine kadar düzinelerce faktör dikkate alınır. En iyi olarak kabul edilen çeviri kullanıcıya gösterilir.

Kullanıcının çeviri için sayfadaki belirli kelimeleri ve cümleleri seçmesi durumunda artık Yandex.Browser'da kullanılan hibrit modeldir.

Bu mod özellikle genel olarak yabancı dil konuşan ve yalnızca bilinmeyen kelimeleri çevirmek isteyenler için uygundur. Ancak, örneğin, her zamanki İngilizce yerine Çince ile karşılaşırsanız, sayfa sayfa çevirmen olmadan bunu yapmak zor olacaktır. Görünüşe göre fark yalnızca çevrilen metnin hacmindedir, ancak her şey o kadar basit değildir.

Web sayfalarının sinir ağı çevirmeni

Georgetown deneyinin yapıldığı zamandan neredeyse günümüze kadar, tüm makine çeviri sistemleri her cümleyi çevirecek şekilde eğitildi. kaynak metin ayrı ayrı. Bir web sayfası yalnızca bir dizi cümle değil, temelde farklı öğeler içeren yapılandırılmış bir metindir. Çoğu sayfanın temel öğelerine bakalım.

Başlık. Genellikle sayfaya girer girmez hemen gördüğümüz parlak ve büyük metinler. Manşet çoğu zaman haberin özünü içerir, dolayısıyla doğru tercüme edilmesi önemlidir. Ancak bunu yapmak zordur çünkü başlıkta yeterli metin yoktur ve bağlamı anlamadan hata yapabilirsiniz. İngilizce söz konusu olduğunda durum daha da karmaşıktır çünkü İngilizce başlıklar genellikle alışılmadık dilbilgisi, mastarlar ve hatta eksik fiiller içeren ifadeler içerir. Örneğin, Game of Thrones'un ön bölümü duyuruldu.

Navigasyon. Sitede gezinmemize yardımcı olan kelimeler ve ifadeler. Örneğin, Ev, Geri Ve Hesabım Yayın metninde değil de site menüsünde yer alıyorlarsa, "Ana Sayfa", "Geri" ve "Hesabım" olarak çevrilmeye pek değmez.

Ana yazı. Onunla her şey daha basit; kitaplarda bulabileceğimiz sıradan metinlerden ve cümlelerden çok az farklı. Ancak burada bile çeviri tutarlılığının sağlanması yani aynı web sayfası içerisinde aynı terim ve kavramların aynı şekilde çevrilmesini sağlamak önemlidir.

Web sayfalarının yüksek kaliteli çevirisi için sinir ağı veya hibrit model kullanmak yeterli değildir; sayfaların yapısını da dikkate almak gerekir. Bunu yapabilmek için de birçok teknolojik zorlukla uğraşmak zorunda kaldık.

Metin bölümlerinin sınıflandırılması. Bunu yapmak için yine CatBoost'u ve hem metnin kendisine hem de belgelerin HTML işaretlemesine (etiket, metin boyutu, metin birimi başına bağlantı sayısı, ...) dayalı faktörleri kullanıyoruz. Faktörler oldukça heterojendir, bu nedenle CatBoost (gradyan artırmaya dayalı) en iyi sonuçları gösterir (%95'in üzerinde sınıflandırma doğruluğu). Ancak segmentleri tek başına sınıflandırmak yeterli değildir.

Çarpık veriler. Geleneksel olarak Yandex.Çeviri algoritmaları İnternet'teki metinler üzerinde eğitilir. Bunun bir web sayfası çevirmeni yetiştirmek için ideal bir çözüm olduğu görülmektedir (başka bir deyişle ağ, onu kullanacağımız metinlerle aynı nitelikteki metinlerden öğrenir). Ancak farklı bölümleri birbirinden ayırmayı öğrendikten sonra şunu keşfettik: ilginç özellik. Ortalama olarak, web sitelerinde içerik tüm metnin yaklaşık %85'ini kaplıyor; başlıklar ve gezinme ise yalnızca %7,5'ini oluşturuyor. Ayrıca başlıkların ve gezinme öğelerinin stil ve dilbilgisi açısından metnin geri kalanından belirgin şekilde farklı olduğunu unutmayın. Bu iki faktör birlikte veri çarpıklığı sorununa yol açmaktadır. Bir sinir ağının, eğitim setinde çok az temsil edilen bu segmentlerin özelliklerini basitçe göz ardı etmesi daha kârlıdır. Ağ yalnızca ana metni iyi bir şekilde çevirmeyi öğrenir, bu nedenle başlıkların ve gezinmenin çevirisinin kalitesi düşer. Bu nahoş etkiyi ortadan kaldırmak için iki şey yaptık: her bir paralel cümle çiftine şu ifadelerden birini verdik: üç tip segmentler (içerik, başlık veya gezinme) ve öğrenen sinir ağına benzer örnekleri daha sık göstermeye başladıkları için eğitim derlemindeki son ikisinin konsantrasyonunu yapay olarak %33'e çıkardı.

Çok görevli öğrenme. Artık web sayfalarındaki metni üç segment sınıfına ayırabildiğimiz için, her biri farklı türde bir metnin (başlıklar, gezinme veya içerik) çevirisini gerçekleştirecek üç ayrı model yetiştirmek doğal bir fikir gibi görünebilir. Bu gerçekten iyi çalışıyor, ancak tüm metin türlerini aynı anda çevirmek için bir sinir ağını eğittiğimiz şema daha da iyi çalışıyor. Anlamanın anahtarı, çok görevli öğrenme (MTL) fikrinde yatmaktadır: birkaç makine öğrenimi görevi arasında dahili bir bağlantı varsa, bu görevleri aynı anda çözmeyi öğrenen bir model, görevlerin her birini daha iyi çözmeyi öğrenebilir. dar anlamda uzmanlaşmış bir modelden daha!

İnce ayar. Zaten oldukça iyi bir makine çevirimiz vardı, bu nedenle Yandex.Browser için sıfırdan yeni bir çevirmen yetiştirmek akıllıca olmaz. Sıradan metinleri çevirmek için temel bir sistem alıp onu web sayfalarıyla çalışacak şekilde eğitmek daha mantıklıdır. Sinir ağları bağlamında buna genellikle ince ayar denir. Ancak bu soruna doğrudan yaklaşırsanız, yani. Sinir ağının ağırlıklarını bitmiş modeldeki değerlerle başlatmanız ve yeni veriler üzerinde öğrenmeye başlamanız yeterlidir; ardından alan değişikliğinin etkisiyle karşılaşabilirsiniz: eğitim ilerledikçe web sayfalarının (alan içi) çevirisinin kalitesi artacaktır. artacak, ancak normal (alan dışı) metinlerin çeviri kalitesi düşecek. Bu hoş olmayan özellikten kurtulmak için, ek eğitim sırasında sinir ağına ek bir kısıtlama uygulayarak ağırlıkların başlangıç durumuna göre çok fazla değişmesini yasaklıyoruz.

Matematiksel olarak bu, orijinal ve ek olarak eğitilmiş ağlar tarafından yayınlanan bir sonraki kelimenin üretilmesi olasılık dağılımları arasındaki Kullback-Leibler mesafesi (KL-ıraksama) olan kayıp fonksiyonuna bir terim eklenerek ifade edilir. Bu durum resimde de görülebileceği gibi web sayfalarının çeviri kalitesinin artmasının artık sıradan metinlerin çevirisinin bozulmasına yol açmamasına yol açmaktadır.

Navigasyondan sıklık ifadelerini parlatma. Yeni bir çevirmen üzerinde çalışırken web sayfalarının çeşitli bölümlerindeki metinlere ilişkin istatistikler topladık ve ilginç bir şey gördük. Gezinme öğeleriyle ilgili metinler oldukça standartlaştırılmıştır, dolayısıyla genellikle aynı şablon ifadelerinden oluşurlar. Bu o kadar güçlü bir etki ki, internette bulunan tüm gezinme ifadelerinin yarısından fazlası, en sık kullanılanların yalnızca 2 bin tanesinden oluşuyor.

Biz de elbette bundan yararlandık ve kalitelerinden kesinlikle emin olmak için en sık kullanılan binlerce ifadeyi ve bunların çevirilerini doğrulama için çevirmenlerimize verdik.

Dış hizalamalar. Tarayıcıdaki web sayfası çevirmeninin başka bir önemli gereksinimi daha vardı - işaretlemeyi bozmamalı. HTML etiketleri cümle sınırlarının dışına veya üzerine yerleştirildiğinde herhangi bir sorun ortaya çıkmaz. Ama eğer cümlenin içinde örneğin, iki altı çizili kelimeler, o zaman çeviride “iki”yi görmek istiyoruz altı çizili kelimeler". Onlar. Transfer sonucunda iki koşulun gerçekleşmesi gerekir:

Çevirideki altı çizili parça, kaynak metindeki altı çizili parçaya tam olarak karşılık gelmelidir.
Altı çizili parçanın sınırlarında çevirinin tutarlılığı ihlal edilmemelidir.

Bu davranışı elde etmek için önce metni her zamanki gibi çeviririz, ardından kaynağın parçaları ile çevrilmiş metinler arasındaki eşleşmeleri belirlemek için istatistiksel kelime kelime hizalama modellerini kullanırız. Bu, tam olarak neyin vurgulanması gerektiğinin anlaşılmasına yardımcı olur (italik olarak, köprü olarak biçimlendirilmiş, ...).

Kavşak gözlemcisi. Eğittiğimiz güçlü sinir ağı çeviri modelleri, sunucularımızda (hem CPU hem de GPU) önceki nesil istatistiksel modellere göre önemli ölçüde daha fazla bilgi işlem kaynağı gerektirir. Aynı zamanda kullanıcılar her zaman sayfaları sonuna kadar okumadıkları için web sayfalarının tüm metinlerinin buluta gönderilmesi gereksiz görünüyor. Sunucu kaynaklarından ve kullanıcı trafiğinden tasarruf etmek için Çevirmen'e şunu kullanmayı öğrettik:

Yoksa miktar kaliteye mi dönüşüyor?

RIF+KIB 2017 konferansındaki bir konuşmaya dayanan makale.

Nöral Makine Çevirisi: neden sadece şimdi?

Sinir ağları uzun süredir konuşuluyor ve öyle görünüyor ki, yapay zekanın klasik sorunlarından biri olan makine çevirisi, bu teknoloji temelinde çözülmeyi bekliyor.

Bununla birlikte, genel olarak sinir ağları ve özel olarak sinir makinesi çevirisi ile ilgili sorgu aramalarındaki popülerliğin dinamikleri şunlardır:

Yakın zamana kadar sinirsel makine çevirisiyle ilgili hiçbir şeyin radarda olmadığı açıkça görülüyor - ve 2016'nın sonunda aralarında Google, Microsoft ve SYSTRAN'ın da bulunduğu birçok şirket yeni teknolojilerini ve sinir ağlarına dayalı makine çeviri sistemlerini tanıttı. Neredeyse aynı anda, birkaç hafta, hatta birkaç gün arayla ortaya çıktılar. Nedenmiş?

Bu soruyu cevaplamak için sinir ağlarına dayalı makine çevirisinin ne olduğunu ve günümüzde makine çevirisi için kullanılan klasik istatistiksel sistemlerden veya analitik sistemlerden temel farkının ne olduğunu anlamak gerekir.

Sinir çevirmeni, matris hesaplamaları üzerine kurulu, istatistiksel makine çevirmenlerinden önemli ölçüde daha karmaşık olasılıksal modeller oluşturmanıza olanak tanıyan, çift yönlü tekrarlayan sinir ağları (Çift Yönlü Tekrarlayan Sinir Ağları) mekanizmasına dayanmaktadır.

İstatistiksel çeviri gibi, sinirsel çeviri de eğitim için paralel derlemler gerektirir; bu, otomatik çeviriyi "insan" referansıyla karşılaştırmayı mümkün kılar; yalnızca öğrenme sürecinde bireysel ifadeler ve kelime kombinasyonlarıyla değil, tüm cümlelerle çalışır. Asıl sorun, böyle bir sistemin eğitiminin önemli ölçüde daha fazla bilgi işlem gücü gerektirmesidir.

Geliştiriciler süreci hızlandırmak için NVIDIA'nın GPU'larının yanı sıra Google'ın makine öğrenimi teknolojileri için özel olarak uyarlanmış özel çipleri olan Tensör İşleme Birimi'ni (TPU) kullanıyor. Grafik yongaları başlangıçta matris hesaplama algoritmaları için optimize edilmiştir ve bu nedenle performans kazancı CPU'ya göre 7-15 kat daha fazladır.

Öyle bile olsa, tek bir sinir modelinin eğitimi 1 ila 3 hafta sürerken, kabaca aynı boyuttaki bir istatistiksel modelin eğitimi 1 ila 3 gün sürer ve boyut arttıkça bu fark da artar.

Ancak makine çevirisi görevi bağlamında sinir ağlarının gelişimini engelleyen yalnızca teknolojik sorunlar değildi. Sonunda dil modellerini daha yavaş da olsa daha erken eğitmek mümkün oldu, ancak hiçbir temel engel yoktu.

Sinir ağlarına yönelik moda da bir rol oynadı. Pek çok insan dahili olarak gelişiyordu, ancak belki de toplumun Sinir Ağları ifadesinden beklediği kalite artışını alamayacaklarından korkarak bunu duyurmak için acele etmiyorlardı. Bu, birçok sinirsel tercümanın birbiri ardına ilan edilmesini açıklayabilir.

Çeviri kalitesi: kimin BLEU puanı daha kalın?

Çeviri kalitesindeki artışın, birikmiş beklentilere ve çeviri için sinir ağlarının geliştirilmesi ve desteklenmesine eşlik eden maliyetlerdeki artışa karşılık gelip gelmediğini anlamaya çalışalım.
Google, araştırmasında, nöral makine çevirisinin, klasik istatistiksel yaklaşıma (veya aynı zamanda Cümle Tabanlı Makine Çevirisi, PBMT olarak da adlandırıldığı gibi) kıyasla, dil çiftine bağlı olarak %58'den %87'ye kadar Göreli İyileşme sağladığını göstermektedir.

SYSTRAN, sunulan çeşitli seçenekler arasından seçim yaparak çeviri kalitesinin değerlendirildiği bir çalışma yürütmektedir. çeşitli sistemler ve "insan" çevirisi. Ve kendi sinirsel çevirisinin vakaların %46'sında insan çevirisine tercih edildiğini belirtiyor.

Çeviri kalitesi: bir gelişme var mı?

Google her ne kadar %60 veya daha fazla bir iyileşme olduğunu iddia etse de bu rakamda hafif bir yakalama var. Şirketin temsilcileri "Göreceli İyileştirme"den, yani klasik istatistik tercümanındakiyle ilişkili olarak İnsan Çevirisinin kalitesine sinirsel yaklaşımla ne kadar yaklaştıklarından bahsediyor.

Google'ın "Google'ın Nöral Makine Çeviri Sistemi: İnsan ve Makine Çevirisi Arasındaki Uçurumu Kapatmak" başlıklı makalede sunulan sonuçları analiz eden sektör uzmanları, sunulan sonuçlara oldukça şüpheyle yaklaşıyor ve aslında BLEU puanının yalnızca %10 oranında arttığını ve önemli ilerleme tam olarak fark ediliyor basit testler Büyük olasılıkla ağ eğitimi sürecinde kullanılan Wikipedia'dan.

PROMT içerisinde, sistemlerimizin çeşitli metinlerindeki çevirileri rakiplerle düzenli olarak karşılaştırıyoruz ve bu nedenle, sinirsel çevirinin gerçekten üreticilerin iddia ettiği gibi önceki nesle göre daha üstün olup olmadığını kontrol edebileceğimiz örnekler her zaman elimizde oluyor.

Orijinal metin (TR): Endişelenmenin kimseye faydası olmadı.
Google Çevirisi PBMT: Endişelenmeden kimseye iyi bir şey yapmadım.
Google Çevirisi NMT: Endişenin hiç kimseye faydası olmadı.

Bu arada, Translate.Ru'daki aynı cümlenin çevirisi: "Endişe hiçbir zaman kimseye fayda sağlamadı", bunun sinir ağları kullanılmadan da aynı kaldığını görebilirsiniz.

Microsoft Translator da bu konuda çok geride değil. Google'daki meslektaşlarının aksine, kalitedeki artışla ilgili ifadelerin asılsız olmadığından emin olmak için iki sonucu tercüme edip karşılaştırabileceğiniz bir web sitesi bile yaptılar: sinirsel ve ön sinirsel.

Bu örnekte ilerleme olduğunu görüyoruz ve bu gerçekten fark ediliyor. İlk bakışta geliştiricilerin makine çevirisinin neredeyse insan çevirisini yakaladığı yönündeki açıklaması doğru gibi görünüyor. Peki bu gerçekten böyle mi ve teknolojinin iş dünyasında pratik uygulaması açısından bu ne anlama geliyor?

İÇİNDE Genel dava Sinir ağlarını kullanan çeviri, istatistiksel çeviriden daha üstündür ve bu teknolojinin gelişme açısından çok büyük potansiyeli vardır. Ancak konuya dikkatli bakarsak ilerlemenin her şeyde olmadığını ve görevin kendisi dikkate alınmadan tüm görevlerin sinir ağlarına uygulanamayacağını görebiliriz.

Makine çevirisi: zorluklar nelerdir?

Otomatik tercümandan varoluşunun tüm tarihi - ve bu zaten 60 yıldan fazla! – bir çeşit sihir bekliyorlardı, onu bilim kurgu filmlerinden alınmış, herhangi bir konuşmayı anında yabancı bir düdük ve geri dönüşe dönüştüren bir makine olarak hayal ediyorlardı.

Aslında görevler farklı düzeylerde gelir; bunlardan biri, günlük görevler için "evrensel" veya deyim yerindeyse "gündelik" çeviri ve anlama kolaylığı içerir. Çevrimiçi çeviri hizmetleri ve birçok mobil ürün bu seviyedeki görevlerle iyi başa çıkıyor.

Bu tür görevler şunları içerir:

Çeşitli amaçlara yönelik kelimelerin ve kısa metinlerin hızlı çevirisi;
forumlarda iletişim sırasında otomatik çeviri sosyal ağlarda, haberciler;
haberleri, Wikipedia makalelerini okurken otomatik çeviri;
seyahat ederken tercüman (mobil).

Yukarıda tartıştığımız, sinir ağlarını kullanarak çeviri kalitesini artırmaya yönelik tüm örnekler tam olarak bu görevlerle ilgilidir.

Ancak makine çevirisine ilişkin iş amaç ve hedeflerine gelince işler biraz farklıdır. Örneğin, kurumsal makine çevirisi sistemlerine yönelik bazı gereksinimler şunlardır:

Tercüme İş yazışmaları müşterilerle, ortaklarla, yatırımcılarla, yabancı çalışanlarla;
web sitelerinin, çevrimiçi mağazaların, ürün açıklamalarının, talimatların yerelleştirilmesi;
kullanıcı içeriğinin çevirisi (incelemeler, forumlar, bloglar);
çeviriyi iş süreçlerine ve yazılım ürün ve hizmetlerine entegre etme yeteneği;
çevirinin terminolojiye, gizliliğe ve güvenliğe uygun doğruluğu.

Örnekler kullanarak, herhangi bir çeviri işi sorununun sinir ağları kullanılarak çözülüp çözülemeyeceğini ve tam olarak nasıl çözülebileceğini anlamaya çalışalım.

Vaka: Amadeus

Amadeus dünyanın en büyük küresel uçak bileti dağıtım sistemlerinden biridir. Bir yandan hava taşıyıcıları buna bağlı, diğer yandan değişikliklerle ilgili tüm bilgileri gerçek zamanlı olarak alıp müşterilerine iletmesi gereken acenteler var.

Görev, rezervasyon sisteminde farklı kaynaklardan otomatik olarak oluşturulan tarifelerin (Ücret Kuralları) uygulanma koşullarını yerelleştirmektir. Bu kurallar her zaman oluşturulur ingilizce dili. Çok fazla bilgi olması ve sık sık değişmesi nedeniyle manuel çeviri burada neredeyse imkansızdır. Bir uçak bileti acentesi, müşterilerine hızlı ve yetkin bir şekilde tavsiyelerde bulunmak için Ücret Kurallarını Rusça okumak istiyor.

Tipik terimler ve kısaltmalar dikkate alınarak tarife kurallarının anlamını aktaran açık bir çeviri gereklidir. Otomatik çevirinin doğrudan Amadeus rezervasyon sistemine entegre edilmesi gerekiyor.

→ Projenin görevi ve uygulanması belgede ayrıntılı olarak anlatılmaktadır.

Amadeus Fare Rules Translator'a entegre PROMT Cloud API aracılığıyla yapılan çeviriyi ve Google'ın "nöral" çevirisini karşılaştırmaya çalışalım.

Orijinal: GİDİŞ DÖNÜŞ ANLIK SATIN ALMA ÜCRETLERİ

PROMT (Analitik yaklaşım): GİDİŞ DÖNÜŞ UÇUŞ ANLIK SATIN ALMA ORANLARI

GNMT: YUVARLAK ALIMLAR

Sinirsel tercümanın bununla başa çıkamayacağı açıktır ve biraz daha ileride bunun nedeni anlaşılacaktır.

Vaka: TripAdvisor

TripAdvisor, tanıtım gerektirmeyen dünyanın en büyük seyahat hizmetlerinden biridir. The Telegraph'ın yayınladığı bir makaleye göre sitede her gün çeşitli turistik mekanlara ilişkin farklı dillerde 165.600 yeni yorum yer alıyor.

Görev, turist incelemelerini, bu incelemenin anlamını anlamaya yetecek bir çeviri kalitesiyle İngilizceden Rusçaya çevirmektir. Temel zorluk: Kullanıcı tarafından oluşturulan içeriğin tipik özellikleri (hatalı metinler, yazım hataları, eksik kelimeler).

Görevin bir parçası da, çevirinin kalitesinin TripAdvisor web sitesinde yayınlanmadan önce otomatik olarak değerlendirilmesiydi. Çevrilmiş içeriğin tamamını manuel olarak değerlendirmek mümkün olmadığından, bir makine çevirisi çözümünün, TripAdvisor'ın yalnızca yüksek kalitede çevrilmiş değerlendirmeler yayınlamasını sağlamak için otomatik bir güven puanı sağlaması gerekir.

Çözüm için, çeviri sonuçlarının istatistiksel olarak sonradan düzenlenmesi de dahil olmak üzere, son okuyucunun anlayabileceği daha yüksek kalitede bir çeviri elde etmeyi mümkün kılan PROMT DeepHybrid teknolojisi kullanıldı.

Örneklere bakalım:

Orijinal: Dün gece bir hevesle orada yemek yedik ve çok güzel bir yemekti. Servis aşırıya kaçmadan özenliydi.

PROMT (Hibrit çeviri): Dün gece bir hevesle orada yemek yedik ve harika bir yemekti. Personel baskıcı olmadan dikkatliydi.

GNMT: Dün gece bir hevesle orada yemek yedik ve harika bir yemekti. Hizmet zorba olmadan özenli.

Burada her şey kalite açısından önceki örnekte olduğu kadar iç karartıcı değil. Ve genel olarak parametreler açısından bu sorun potansiyel olarak sinir ağları kullanılarak çözülebilir ve bu, çeviri kalitesini daha da artırabilir.

NMT'yi iş amaçlı kullanmanın zorlukları

Daha önce de belirtildiği gibi, “evrensel” bir çevirmen her zaman kabul edilebilir bir kalite sağlamaz ve belirli bir terminolojiyi destekleyemez. Sinir ağlarını süreçlerinize çeviri amacıyla entegre etmek ve kullanmak için temel gereksinimleri karşılamanız gerekir:

Bir sinir ağını eğitebilmek için yeterli miktarda paralel metinlerin varlığı. Çoğu zaman müşterinin bunlardan birkaçı vardır veya doğada bu konuyla ilgili hiçbir metin yoktur. Sınıflandırılmış veya otomatik işlemeye pek uygun olmayan bir durumda olabilirler.

Bir model oluşturmak için en az 100 milyon jeton (kelime kullanımı) içeren bir veritabanına ve az çok kabul edilebilir kalitede bir çeviri (500 milyon jeton) almanız gerekir. Her şirketin bu kadar malzeme hacmi yoktur.

Elde edilen sonucun kalitesini otomatik olarak değerlendirmek için bir mekanizma veya algoritmaların mevcudiyeti.

Yeterli bilgi işlem gücü.
"Evrensel" bir sinir çeviricisi çoğu zaman kalite açısından uygun değildir ve kabul edilebilir kalite ve iş hızı sağlayabilen kendi özel sinir ağınızı dağıtmak için "küçük bir bulut" gereklidir.

Gizlilik konusunda ne yapılacağı belli değil.
Güvenlik nedeniyle her müşteri içeriğini çeviri için buluta vermeye hazır değildir ve NMT, buluta öncelik veren bir hikayedir.

sonuçlar

Genel olarak sinirsel otomatik çeviri, "tamamen" istatistiksel bir yaklaşıma göre daha yüksek kalitede sonuçlar üretir;
Sinir ağı aracılığıyla otomatik çeviri, "evrensel çeviri" sorununu çözmek için daha uygundur;
Makine çevirisine yönelik yaklaşımların hiçbiri tek başına herhangi bir çeviri sorununu çözmek için ideal bir evrensel araç değildir;
Ticari çeviri sorunlarını çözmek için yalnızca özel çözümler tüm gereksinimlere uygunluğu garanti edebilir.

Çeviri görevleriniz için buna en uygun tercümanı kullanmanız gerektiği konusunda kesinlikle açık ve mantıklı bir karara vardık. İçeride bir sinir ağının olup olmaması önemli değil. Görevin kendisini anlamak daha önemlidir.

Etiketler: Etiket ekleyin

09.14.2017 Per, 14:19, Moskova Saati , Metin: Valeria Shmyrova

Yandex.Çevirmen hizmetinde istatistiksel çevirinin yanı sıra sinir ağından çeviri seçeneği de kullanıma sunuldu. Avantajı, tüm cümlelerle çalışması, bağlamı daha iyi dikkate alması ve tutarlı, doğal metinler üretmesidir. Ancak sinir ağı bir şeyi anlamadığında hayal kurmaya başlar.

Bir sinir ağını başlatma

Yandex.Çevirmen hizmeti, çeviri kalitesinin artırılmasına yardımcı olacak bir sinir ağı başlattı. Daha önce bir dilden diğerine çeviri istatistiksel bir mekanizma kullanılarak yapılıyordu. Artık süreç hibrit olacak: hem istatistiksel model hem de sinir ağı kendi çeviri versiyonlarını sunacak. Bunun ardından makine öğrenmesine dayanan CatBoost algoritması elde edilen en iyi sonucu seçecektir.

Sinir ağı şu ana kadar yalnızca İngilizce'den Rusça'ya ve yalnızca hizmetin web sürümünde çeviri gerçekleştiriyor. Şirkete göre Yandex.Çevirmen'de İngilizce-Rusça çeviri talepleri tüm taleplerin %80'ini oluşturuyor. Önümüzdeki aylarda geliştiriciler hibrit modeli diğer alanlarda da tanıtmayı planlıyor. Kullanıcının farklı mekanizmalardan gelen çevirileri karşılaştırmasına olanak sağlamak için özel bir anahtar sağlanmıştır.

İstatistiksel çevirmenden farklar

Bir sinir ağının çalışma prensibi istatistiksel çeviri modelinden farklıdır. Metni kelime kelime, ifadeden ifadeye çevirmek yerine, parçalara ayırmadan tüm cümlelerle çalışır. Bu sayede çeviri bağlamı dikkate alır ve anlamı daha iyi aktarır. Ayrıca çevrilen cümle tutarlı, doğal, okunması ve anlaşılması kolaydır. Geliştiricilere göre bu, bir insan çevirmeninin çalışmasıyla karıştırılabilir.

Sinir ağı çevirisi insan çevirisine benzer

Sinir ağının özellikleri arasında, bir şeyi anlamadığında "hayal kurma" eğilimi de yer alıyor. Bu şekilde doğru çeviriyi tahmin etmeye çalışır.

İstatistik çevirmeninin avantajları vardır: Nadir kelimeleri ve ifadeleri daha başarılı bir şekilde çevirir - daha az yaygın isimler, yer adları vb. Ayrıca, bir cümlenin anlamı açık değilse hayal kurmaz. Geliştiricilere göre istatistiksel model kısa ifadelerle daha iyi başa çıkıyor.

Diğer mekanizmalar

Yandex.Çeviri, tıpkı istatistiksel bir çevirmenin çevirisi gibi sinir ağının çevirisini hassaslaştıran, uyumsuz sözcük kombinasyonlarını ve yazım hatalarını düzelten özel bir mekanizmaya sahiptir. Bu sayede kullanıcı “baba gitti” veya “baba gitti” gibi kombinasyonları görmeyecektir. şiddetli acı", geliştiriciler garanti ediyor. Bu etki, çevirinin dil modeliyle (sistem tarafından dil hakkında biriktirilen tüm bilgiler) karşılaştırılmasıyla elde edilir.

Zor durumlarda sinir ağı hayal kurmaya eğilimlidir.

Dil modeli, bir dildeki sözcük ve ifadelerin bir listesinin yanı sıra bunların kullanım sıklığına ilişkin verileri de içerir. Yandex.Çeviri dışında da uygulama buldu. Örneğin Yandex.Klavye'yi kullanırken kullanıcının bir sonraki adımda hangi kelimeyi yazmak istediğini tahmin eden ve ona hazır seçenekler sunan kişidir. Örneğin dil modeli, "merhaba, nasıl" ifadesinin ardından muhtemelen "yapmak" veya "sen" değişkenlerinin geleceğini anlar.

“Yandex.Çeviri” nedir?

“Yandex.Translator, 2011 yılında çalışmaya başlayan Yandex firmasının metinleri bir dilden diğerine çevirmeye yönelik bir hizmetidir. Başlangıçta yalnızca Rusça, Ukraynaca ve İngilizce ile çalışıyordu.

Hizmetin varlığı sırasında dil sayısı 94 dile yükseldi. Bunların arasında örgü veya papiamento gibi egzotik olanlar da var. Herhangi iki dil arasında çeviri yapılabilir.

2016 yılında Yandex.Çevirmen, J. R. R. Tolkien'in kitaplarına elfler tarafından kullanılan kurgusal ve yapay olarak oluşturulmuş bir dili ekledi.