Rumah Pencegahan Penerjemah jaringan saraf lebih cepat lebih dekat lebih akurat. Jaringan saraf akan membuat terjemahan di Yandex.Browser lebih tepat

Pencegahan

Penerjemah jaringan saraf lebih cepat lebih dekat lebih akurat. Jaringan saraf akan membuat terjemahan di Yandex.Browser lebih tepat

Ada lebih dari setengah miliar salinan situs web yang diindeks oleh mesin pencari, dan total ada puluhan ribu kali lebih banyak halaman web. Konten berbahasa Rusia menempati 6% dari seluruh Internet.

Bagaimana menerjemahkan teks yang diinginkan dengan cepat dan sedemikian rupa sehingga makna yang dimaksudkan penulis tetap terjaga. Metode lama modul terjemahan konten statistik bekerja sangat diragukan, karena... Tidak mungkin menentukan deklinasi kata, tense, dll secara akurat. Sifat kata-kata dan hubungan di antara kata-kata itu rumit, itulah sebabnya hasilnya terkadang terlihat sangat tidak wajar.

Kini Yandex menggunakan terjemahan mesin otomatis, yang akan meningkatkan kualitas teks yang dihasilkan. Anda dapat mengunduh browser versi resmi terbaru dengan terjemahan bawaan yang baru.

Terjemahan hibrida dari frasa dan kata

Browser Yandex adalah satu-satunya yang dapat menerjemahkan halaman secara keseluruhan, serta kata dan frasa satu per satu. Fungsi tersebut akan sangat berguna bagi para pengguna yang kurang lebih memilikinya bahasa asing, namun terkadang menghadapi kesulitan penerjemahan.

Jaringan saraf yang dibangun ke dalam mekanisme penerjemahan kata tidak selalu mampu mengatasi tugas yang diberikan, karena Sangat sulit untuk memasukkan kata-kata langka ke dalam teks dan membuatnya dapat dibaca. Sekarang metode hybrid telah dibangun ke dalam aplikasi menggunakan teknologi lama dan baru.

Mekanismenya begini: program menerima kalimat atau kata yang dipilih, lalu memberikannya ke modul jaringan saraf dan penerjemah statistik, dan algoritme bawaan menentukan hasil mana yang lebih baik dan kemudian memberikannya kepada pengguna.

Penerjemah jaringan saraf

Konten asing diformat dengan cara yang sangat spesifik:

huruf pertama kata pada judul ditulis dengan huruf kapital;
kalimat dibangun dengan tata bahasa yang disederhanakan, beberapa kata dihilangkan.

Menu navigasi pada website dianalisis berdasarkan lokasinya, misalnya kata Kembali, diterjemahkan dengan benar kembali (kembali), dan bukan kembali.

Untuk memperhitungkan semua fitur yang disebutkan di atas, pengembang juga melatih jaringan saraf, yang sudah menggunakan sejumlah besar data teks. Kini kualitas terjemahan dipengaruhi oleh lokasi konten dan desainnya.

Hasil terjemahan yang diterapkan

Kualitas terjemahan dapat diukur dengan algoritma BLEU*, yang membandingkan terjemahan mesin dan terjemahan profesional. Skala kualitas dari 0 hingga 100%.

Semakin baik terjemahan sarafnya, semakin tinggi persentasenya. Menurut algoritma ini, browser Yandex mulai menerjemahkan 1,7 kali lebih baik.

Terjemahan mesin menggunakan jaringan saraf telah berkembang pesat sejak pertama kali penelitian ilmiah tentang topik ini hingga Google mengumumkan transfer lengkap layanan Google Terjemahan ke pembelajaran mendalam.

Seperti diketahui, penerjemah saraf didasarkan pada mekanisme jaringan saraf berulang dua arah (BiDirectional Recurrent Neural Networks), yang dibangun berdasarkan perhitungan matriks, yang memungkinkan pembangunan model probabilistik yang jauh lebih kompleks daripada penerjemah mesin statistik. Namun, selalu diyakini bahwa terjemahan saraf, seperti terjemahan statistik, memerlukan kumpulan teks paralel dalam dua bahasa untuk pelatihan. Jaringan saraf dilatih pada korpus-korpus ini, dengan menggunakan terjemahan manusia sebagai referensi.

Ternyata, jaringan saraf mampu menguasai bahasa baru untuk penerjemahan bahkan tanpa kumpulan teks paralel! Dua makalah tentang topik ini telah diterbitkan di situs pracetak arXiv.org.

“Bayangkan Anda memberi seseorang banyak buku berbahasa Mandarin dan banyak buku berbahasa Arab – tidak ada satupun yang sama – dan orang tersebut belajar menerjemahkan dari bahasa Mandarin ke bahasa Arab. Tampaknya mustahil, bukan? Namun kami telah menunjukkan bahwa komputer dapat melakukan hal ini,” kata Mikel Artetxe, ilmuwan komputer di Universitas Basque Country di San Sebastian, Spanyol.

Sebagian besar jaringan saraf terjemahan mesin dilatih “dengan seorang guru”, yang merupakan kumpulan teks paralel yang diterjemahkan oleh seseorang. Selama proses pembelajaran, secara kasar, jaringan saraf membuat asumsi, memeriksa standar, dan membuat penyesuaian yang diperlukan pada sistemnya, kemudian mempelajari lebih lanjut. Masalahnya adalah untuk beberapa bahasa jumlah teks paralel di dunia tidak banyak, sehingga teks tersebut tidak dapat diakses oleh jaringan saraf terjemahan mesin tradisional.

“Bahasa universal” jaringan saraf Google Neural Machine Translation (GNMT). Ilustrasi di sebelah kiri warna yang berbeda Kelompok arti setiap kata ditampilkan, di kanan bawah - arti kata yang diperoleh dari berbagai bahasa manusia: Inggris, Korea, dan Jepang

Setelah menyusun “atlas” raksasa untuk setiap bahasa, sistem kemudian mencoba untuk menumpangkan satu atlas tersebut ke atlas lain - dan begitulah, Anda sudah memiliki semacam corpora teks paralel yang siap!

Desain dari dua arsitektur pembelajaran tanpa pengawasan yang diusulkan dapat dibandingkan.

Arsitektur sistem yang diusulkan. Untuk setiap kalimat di L1, sistem belajar mengganti dua langkah: 1) penindasan kebisingan(denoising), yang mengoptimalkan kemungkinan pengkodean versi kalimat yang berisik dengan encoder umum dan merekonstruksinya dengan decoder L1; 2) terjemahan terbalik(terjemahan balik) ketika sebuah kalimat diterjemahkan dalam mode keluaran (yaitu, dikodekan oleh encoder umum dan didekodekan oleh decoder L2), dan kemudian kemungkinan menyandikan kalimat terjemahan ini dengan encoder umum dan merekonstruksi kalimat aslinya dengan Dekoder L1 dioptimalkan. Ilustrasi: Michela Artetxe dkk.

Usulan arsitektur dan tujuan pelatihan sistem (dari karya ilmiah kedua). Arsitekturnya adalah model terjemahan kalimat demi kalimat, di mana encoder dan decoder beroperasi dalam dua bahasa, bergantung pada ID bahasa input, yang menukar tabel pencarian. Atas (encoding otomatis): Model dilatih untuk melakukan denoising di setiap domain. Bawah (terjemahan): seperti sebelumnya, ditambah kami mengkodekan dari bahasa lain menggunakan input terjemahan yang dihasilkan oleh model pada iterasi sebelumnya (persegi panjang biru). Elips hijau menunjukkan suku dalam fungsi kerugian. Ilustrasi: Guillaume Lampla dkk.

Keduanya karya ilmiah menggunakan metodologi yang sangat mirip dengan sedikit perbedaan. Namun dalam kedua kasus tersebut, penerjemahan dilakukan melalui suatu “bahasa” perantara atau, lebih baik dikatakan, suatu dimensi atau ruang perantara. Sejauh ini, jaringan saraf tanpa pengawasan tidak menunjukkan kualitas terjemahan yang sangat tinggi, namun penulis mengatakan bahwa jaringan tersebut dapat dengan mudah ditingkatkan jika Anda menggunakan sedikit bantuan dari seorang guru, mereka hanya tidak melakukan ini demi kemurnian percobaan. .

Karya disajikan untuk Konferensi Internasional tentang representasi pembelajaran 2018 (Konferensi Internasional tentang Representasi Pembelajaran). Belum ada satupun artikel yang dipublikasikan di media ilmiah.

Ada lebih dari 630 juta situs di Internet modern, tetapi hanya 6% di antaranya berisi konten berbahasa Rusia. Hambatan bahasa adalah masalah utama dalam menyebarkan pengetahuan antar pengguna jaringan, dan kami percaya bahwa hal ini perlu diselesaikan tidak hanya dengan pengajaran bahasa asing, tetapi juga dengan menggunakan terjemahan mesin otomatis di browser.

Hari ini kami akan memberi tahu pembaca Habr tentang dua perubahan teknologi penting dalam penerjemah Browser Yandex. Pertama, terjemahan kata dan frasa yang disorot sekarang menggunakan model hibrid, dan kami akan mengingatkan Anda bagaimana pendekatan ini berbeda dari penggunaan jaringan saraf murni. Kedua, jaringan saraf penerjemah sekarang memperhitungkan struktur halaman web, fitur-fiturnya juga akan kita bahas di bawah ini.

Penerjemah hibrida kata dan frasa

Sistem terjemahan mesin pertama didasarkan pada kamus dan aturan(pada dasarnya karakter biasa yang ditulis tangan), yang menentukan kualitas terjemahan. Ahli bahasa profesional telah bekerja selama bertahun-tahun untuk mengembangkan aturan manual yang semakin rinci. Pekerjaan ini sangat memakan waktu sehingga perhatian serius hanya diberikan pada pasangan bahasa yang paling populer, namun bahkan dalam pasangan bahasa tersebut, mesin tersebut melakukan pekerjaan yang buruk. Bahasa yang hidup sangat sebuah sistem yang kompleks, yang tidak mematuhi aturan dengan baik. Lebih sulit lagi untuk menggambarkan aturan korespondensi antara dua bahasa.

Satu-satunya cara bagi mesin untuk terus beradaptasi dengan perubahan kondisi adalah dengan belajar secara mandiri dari sejumlah besar teks paralel (maknanya identik, tetapi ditulis dalam bahasa yang sama). bahasa berbeda). Ini adalah pendekatan statistik untuk terjemahan mesin. Komputer membandingkan teks paralel dan secara independen mengidentifikasi pola.

kamu penerjemah statistik ada kelebihan dan kekurangannya. Di satu sisi, dia mengingat dengan baik kata-kata dan frasa yang langka dan kompleks. Jika ditemukan dalam teks paralel, penerjemah akan mengingatnya dan terus menerjemahkan dengan benar. Di sisi lain, hasil terjemahan bisa seperti teka-teki yang sudah selesai: gambaran keseluruhannya tampak jelas, tetapi jika diperhatikan lebih dekat, Anda akan melihat bahwa itu terdiri dari bagian-bagian yang terpisah. Alasannya adalah penerjemah mewakili kata-kata individual sebagai pengidentifikasi, yang sama sekali tidak mencerminkan hubungan di antara kata-kata tersebut. Hal ini tidak konsisten dengan cara orang merasakan bahasa, di mana kata-kata ditentukan oleh cara penggunaannya, hubungannya, dan perbedaannya dengan kata lain.

Membantu memecahkan masalah ini jaringan saraf. Penyematan kata, yang digunakan dalam terjemahan mesin saraf, biasanya mengaitkan setiap kata dengan vektor yang panjangnya beberapa ratus angka. Vektor, tidak seperti pengidentifikasi sederhana dari pendekatan statistik, dibentuk saat melatih jaringan saraf dan memperhitungkan hubungan antar kata. Misalnya, model tersebut mungkin mengenali bahwa karena “teh” dan “kopi” sering kali muncul dalam konteks yang serupa, kedua kata tersebut seharusnya dapat digunakan dalam konteks kata baru “tumpah”, yang, katakanlah, hanya salah satu dari keduanya yang muncul di data pelatihan.

Namun, proses mempelajari representasi vektor jelas lebih menuntut secara statistik daripada menghafal contoh. Selain itu, tidak jelas apa yang harus dilakukan dengan kata-kata masukan langka yang tidak cukup sering muncul sehingga jaringan dapat membangun representasi vektor yang dapat diterima oleh kata-kata tersebut. Dalam situasi ini, adalah logis untuk menggabungkan kedua metode tersebut.

Sejak tahun lalu, Yandex.Translator telah menggunakan model hibrida. Saat Penerjemah menerima teks dari pengguna, ia memberikannya ke kedua sistem untuk diterjemahkan - jaringan saraf dan penerjemah statistik. Suatu algoritma, berdasarkan metode pembelajaran, kemudian mengevaluasi terjemahan mana yang lebih baik. Saat memberikan peringkat, lusinan faktor diperhitungkan - mulai dari panjang kalimat (frasa pendek lebih baik diterjemahkan dengan model statistik) hingga sintaksis. Terjemahan yang diakui sebagai yang terbaik ditampilkan kepada pengguna.

Ini adalah model hybrid yang sekarang digunakan di Yandex.Browser, ketika pengguna memilih kata dan frasa tertentu di halaman untuk diterjemahkan.

Mode ini sangat nyaman bagi mereka yang umumnya berbicara bahasa asing dan hanya ingin menerjemahkan kata-kata yang tidak diketahui. Tetapi jika, misalnya, alih-alih bahasa Inggris biasa Anda menemukan bahasa Mandarin, maka akan sulit melakukannya tanpa penerjemah halaman demi halaman. Tampaknya perbedaannya hanya pada volume teks terjemahan, tetapi tidak semuanya sesederhana itu.

Penerjemah jaringan saraf halaman web

Sejak eksperimen Georgetown hingga saat ini, semua sistem terjemahan mesin telah dilatih untuk menerjemahkan setiap kalimat teks sumber terpisah. Sedangkan halaman web bukan sekedar kumpulan kalimat, melainkan teks terstruktur yang mengandung unsur-unsur berbeda secara mendasar. Mari kita lihat elemen dasar dari sebagian besar halaman.

Menuju. Biasanya teks terang dan besar yang langsung kita lihat saat memasuki halaman. Judul berita seringkali memuat intisari berita, sehingga penting untuk menerjemahkannya dengan benar. Namun hal ini sulit dilakukan, karena teks pada judulnya tidak cukup dan tanpa memahami konteksnya Anda bisa membuat kesalahan. Dalam bahasa Inggris, hal ini menjadi lebih rumit karena judul-judul berbahasa Inggris sering kali mengandung frasa dengan tata bahasa yang tidak lazim, infinitif, atau bahkan kata kerja yang hilang. Misalnya, Prekuel Game of Thrones diumumkan.

Navigasi. Kata dan frasa yang membantu kami menavigasi situs. Misalnya, Rumah, Kembali Dan Akun saya Hampir tidak ada gunanya menerjemahkan sebagai "Beranda", "Kembali", dan "Akun Saya" jika semuanya berada di menu situs dan bukan di teks publikasi.

Teks utama. Semuanya lebih sederhana dengannya; tidak ada bedanya dengan teks dan kalimat biasa yang bisa kita temukan di buku. Namun bahkan di sini, penting untuk memastikan konsistensi terjemahan, yaitu memastikan bahwa dalam halaman web yang sama, istilah dan konsep yang sama diterjemahkan dengan cara yang sama.

Untuk terjemahan halaman web berkualitas tinggi, menggunakan jaringan saraf atau model hibrid saja tidak cukup - struktur halaman juga perlu diperhitungkan. Dan untuk melakukan hal ini kami harus menghadapi banyak kesulitan teknologi.

Klasifikasi segmen teks. Untuk melakukan ini, kami kembali menggunakan CatBoost dan faktor-faktor berdasarkan teks itu sendiri dan markup HTML dokumen (tag, ukuran teks, jumlah tautan per unit teks, ...). Faktor-faktornya cukup heterogen, itulah sebabnya CatBoost (berdasarkan peningkatan gradien) menunjukkan hasil terbaik (akurasi klasifikasi di atas 95%). Namun mengklasifikasikan segmen saja tidak cukup.

Data miring. Secara tradisional, algoritma Yandex.Translator dilatih berdasarkan teks dari Internet. Tampaknya ini adalah solusi ideal untuk melatih penerjemah halaman web (dengan kata lain, jaringan belajar dari teks yang sifatnya sama dengan teks yang akan kita gunakan). Namun begitu kami belajar memisahkan segmen yang berbeda satu sama lain, kami menemukan fitur menarik. Rata-rata, di situs web, konten menempati sekitar 85% dari seluruh teks, dengan judul dan navigasi hanya menyumbang 7,5%. Ingat juga bahwa judul dan elemen navigasinya sendiri sangat berbeda dalam gaya dan tata bahasa dari teks lainnya. Kedua faktor ini bersama-sama menyebabkan masalah ketimpangan data. Akan lebih menguntungkan bagi jaringan saraf untuk mengabaikan fitur-fitur segmen ini, yang kurang terwakili dalam set pelatihan. Jaringan belajar menerjemahkan hanya teks utama dengan baik, itulah sebabnya kualitas terjemahan judul dan navigasi menurun. Untuk menghilangkan efek yang tidak menyenangkan ini, kami melakukan dua hal: untuk setiap pasangan kalimat paralel kami menetapkan salah satu darinya tiga jenis segmen (konten, judul, atau navigasi) dan secara artifisial meningkatkan konsentrasi dua segmen terakhir dalam korpus pelatihan menjadi 33% karena fakta bahwa mereka mulai lebih sering menampilkan contoh serupa ke jaringan saraf pembelajaran.

Pembelajaran multi-tugas. Karena kita sekarang dapat membagi teks pada halaman web menjadi tiga kelas segmen, mungkin tampak wajar untuk melatih tiga model terpisah, yang masing-masing akan menangani terjemahan jenis teks berbeda—judul, navigasi, atau konten. Ini benar-benar berfungsi dengan baik, tetapi skema ini bekerja lebih baik lagi di mana kami melatih satu jaringan saraf untuk menerjemahkan semua jenis teks sekaligus. Kunci pemahamannya terletak pada gagasan pembelajaran mutli-task (MTL): jika terdapat hubungan internal antara beberapa tugas pembelajaran mesin, maka model yang belajar menyelesaikan tugas-tugas tersebut secara bersamaan dapat belajar menyelesaikan setiap tugas dengan lebih baik. daripada model yang sangat terspesialisasi!

Mencari setelan. Kami sudah memiliki terjemahan mesin yang cukup bagus, jadi tidak bijaksana untuk melatih penerjemah baru untuk Yandex.Browser dari awal. Lebih logis untuk mengambil sistem dasar untuk menerjemahkan teks biasa dan melatihnya untuk bekerja dengan halaman web. Dalam konteks jaringan saraf, hal ini sering disebut fine-tuning. Tetapi jika Anda mendekati masalah ini secara langsung, mis. Cukup inisialisasi bobot jaringan saraf dengan nilai dari model yang sudah jadi dan mulailah mempelajari data baru, maka Anda mungkin mengalami efek pergeseran domain: seiring dengan kemajuan pelatihan, kualitas terjemahan halaman web (dalam domain) akan meningkat. meningkat, namun kualitas terjemahan teks biasa (di luar domain) akan menurun. Untuk menghilangkan fitur yang tidak menyenangkan ini, selama pelatihan tambahan kami menerapkan batasan tambahan pada jaringan saraf, melarangnya mengubah bobot terlalu banyak dibandingkan dengan keadaan awal.

Secara matematis, hal ini dinyatakan dengan menambahkan istilah pada fungsi kerugian, yaitu jarak Kullback-Leibler (KL-divergence) antara distribusi probabilitas menghasilkan kata berikutnya, yang dikeluarkan oleh jaringan asli dan tambahan yang dilatih. Seperti terlihat pada ilustrasi, hal ini mengarah pada fakta bahwa peningkatan kualitas terjemahan halaman web tidak lagi menyebabkan penurunan kualitas terjemahan teks biasa.

Memoles frasa frekuensi dari navigasi. Saat mengerjakan penerjemah baru, kami mengumpulkan statistik teks dari berbagai segmen halaman web dan melihat sesuatu yang menarik. Teks yang berkaitan dengan elemen navigasi cukup terstandarisasi, sehingga sering kali terdiri dari frasa templat yang sama. Ini adalah efek yang sangat kuat sehingga lebih dari separuh frasa navigasi yang ditemukan di Internet hanya mencakup 2 ribu frasa yang paling sering digunakan.

Kami, tentu saja, memanfaatkan hal ini dan memberikan beberapa ribu frasa paling umum dan terjemahannya kepada penerjemah kami untuk diverifikasi agar benar-benar yakin akan kualitasnya.

Penyelarasan eksternal. Ada persyaratan penting lainnya untuk penerjemah halaman web di Browser - tidak boleh mendistorsi markup. Ketika tag HTML ditempatkan di luar atau pada batas kalimat, tidak ada masalah yang muncul. Namun jika di dalam kalimat tersebut ada, misalnya, dua digarisbawahi kata-kata, lalu dalam terjemahannya kita ingin melihat “dua digarisbawahi kata-kata". Itu. Sebagai hasil dari transfer tersebut, dua syarat harus dipenuhi:

Fragmen yang digarisbawahi dalam terjemahan harus sama persis dengan fragmen yang digarisbawahi dalam teks sumber.
Konsistensi terjemahan pada batas fragmen yang digarisbawahi tidak boleh dilanggar.

Untuk mencapai perilaku ini, pertama-tama kami menerjemahkan teks seperti biasa, lalu menggunakan model statistik penyelarasan kata demi kata untuk menentukan kecocokan antara fragmen sumber dan teks terjemahan. Ini membantu untuk memahami apa yang sebenarnya perlu ditekankan (dalam huruf miring, diformat sebagai hyperlink, ...).

Pengamat persimpangan. Model terjemahan jaringan saraf canggih yang telah kami latih memerlukan sumber daya komputasi yang jauh lebih besar di server kami (baik CPU maupun GPU) dibandingkan model statistik generasi sebelumnya. Pada saat yang sama, pengguna tidak selalu membaca halaman sampai akhir, jadi mengirim semua teks halaman web ke cloud tampaknya tidak diperlukan. Untuk menghemat sumber daya server dan lalu lintas pengguna, kami mengajarkan Penerjemah untuk menggunakannya

atau Apakah kuantitas berkembang menjadi kualitas?

Artikel berdasarkan pidato pada konferensi RIF+KIB 2017.

Terjemahan Mesin Neural: mengapa hanya sekarang?

Jaringan saraf telah dibicarakan sejak lama, dan tampaknya salah satu masalah klasik kecerdasan buatan - terjemahan mesin - perlu diselesaikan berdasarkan teknologi ini.

Namun demikian, berikut adalah dinamika popularitas dalam penelusuran pertanyaan tentang jaringan saraf secara umum dan tentang terjemahan mesin saraf pada khususnya:

Terlihat jelas bahwa hingga saat ini, belum ada yang diketahui mengenai terjemahan mesin saraf – dan pada akhir tahun 2016, beberapa perusahaan mendemonstrasikan teknologi baru dan sistem terjemahan mesin berdasarkan jaringan saraf, termasuk Google, Microsoft, dan SYSTRAN. Mereka muncul hampir bersamaan, selang waktu beberapa minggu atau bahkan beberapa hari. Mengapa demikian?

Untuk menjawab pertanyaan ini, penting untuk memahami apa itu terjemahan mesin berdasarkan jaringan saraf dan apa perbedaan utamanya dari sistem statistik klasik atau sistem analitik yang digunakan saat ini untuk terjemahan mesin.

Penerjemah saraf didasarkan pada mekanisme jaringan saraf berulang dua arah (Jaringan Syaraf Berulang Dua Arah), yang dibangun berdasarkan perhitungan matriks, yang memungkinkan Anda membangun model probabilistik yang jauh lebih kompleks daripada penerjemah mesin statistik.

Seperti terjemahan statistik, terjemahan saraf memerlukan korpus paralel untuk pelatihan, yang memungkinkan untuk membandingkan terjemahan otomatis dengan referensi "manusia"; hanya dalam proses pembelajaran, terjemahan ini tidak beroperasi dengan frasa dan kombinasi kata individual, tetapi dengan keseluruhan kalimat. Masalah utamanya adalah melatih sistem seperti itu memerlukan daya komputasi yang jauh lebih besar.

Untuk mempercepat proses, pengembang menggunakan GPU dari NVIDIA, serta Tensor Processing Unit (TPU) Google, chip berpemilik yang diadaptasi secara khusus untuk teknologi pembelajaran mesin. Chip grafis pada awalnya dioptimalkan untuk algoritma penghitungan matriks, dan oleh karena itu peningkatan kinerjanya 7-15 kali lipat dibandingkan dengan CPU.

Meski begitu, pelatihan model saraf tunggal memerlukan waktu 1 hingga 3 minggu, sedangkan model statistik dengan ukuran yang kira-kira sama memerlukan waktu 1 hingga 3 hari untuk dilatih, dan perbedaan ini meningkat seiring bertambahnya ukuran.

Namun, bukan hanya masalah teknologi yang menghambat pengembangan jaringan saraf dalam konteks tugas terjemahan mesin. Pada akhirnya, model bahasa dapat dilatih lebih awal, meskipun lebih lambat, namun tidak ada kendala yang mendasar.

Mode untuk jaringan saraf juga berperan. Banyak orang melakukan pengembangan secara internal, namun mereka tidak terburu-buru mengumumkannya, karena takut, mungkin, bahwa mereka tidak akan menerima peningkatan kualitas yang diharapkan masyarakat dari ungkapan Jaringan Syaraf Tiruan. Ini mungkin menjelaskan fakta bahwa beberapa penerjemah saraf diumumkan satu demi satu.

Kualitas terjemahan: skor BLEU siapa yang lebih tebal?

Mari kita coba memahami apakah peningkatan kualitas terjemahan sesuai dengan akumulasi ekspektasi dan peningkatan biaya yang menyertai pengembangan dan dukungan jaringan saraf untuk penerjemahan.
Google dalam penelitiannya menunjukkan bahwa terjemahan mesin saraf memberikan Peningkatan Relatif dari 58% menjadi 87%, bergantung pada pasangan bahasa, dibandingkan dengan pendekatan statistik klasik (atau disebut juga Terjemahan Mesin Berbasis Frasa, PBMT).

SYSTRAN melakukan penelitian di mana kualitas terjemahan dinilai dengan memilih dari beberapa pilihan yang disajikan berbagai sistem, serta terjemahan “manusia”. Dan dia menyatakan bahwa terjemahan sarafnya lebih disukai dalam 46% kasus daripada terjemahan manusia.

Kualitas terjemahan: apakah ada terobosan?

Meskipun Google mengklaim peningkatan sebesar 60% atau lebih, ada sedikit batasan pada angka ini. Perwakilan perusahaan berbicara tentang “Peningkatan Relatif”, yaitu seberapa dekat mereka mengelola pendekatan saraf terhadap kualitas Terjemahan Manusia dalam kaitannya dengan apa yang ada pada penerjemah statistik klasik.

Pakar industri yang menganalisis hasil yang disajikan oleh Google dalam artikel “Sistem Terjemahan Mesin Neural Google: Menjembatani Kesenjangan antara Terjemahan Manusia dan Mesin” cukup skeptis dengan hasil yang disajikan dan mengatakan bahwa sebenarnya skor BLEU hanya meningkat sebesar 10%, dan kemajuan signifikan terlihat tepat pada saat itu tes sederhana dari Wikipedia, yang kemungkinan besar digunakan dalam proses pelatihan jaringan.

Di dalam PROMT, kami secara rutin membandingkan terjemahan berbagai teks di sistem kami dengan pesaing, dan oleh karena itu kami selalu memiliki contoh yang dapat digunakan untuk memeriksa apakah terjemahan saraf benar-benar lebih unggul dari generasi sebelumnya seperti yang diklaim oleh pabrikan.

Teks asli (EN): Khawatir tidak pernah ada gunanya bagi siapa pun.
Google Terjemahan PBMT : Tidak berbuat baik kepada siapapun tanpa rasa khawatir.
Google Terjemahan NMT: Kekhawatiran tidak pernah membantu siapa pun.

Omong-omong, terjemahan frasa yang sama di Translate.Ru: “Kekhawatiran tidak pernah membawa manfaat apa pun kepada siapa pun,” Anda dapat melihat bahwa hal itu tetap sama tanpa menggunakan jaringan saraf.

Microsoft Translator juga tidak ketinggalan dalam hal ini. Berbeda dengan rekan-rekan mereka di Google, mereka bahkan membuat situs web tempat Anda dapat menerjemahkan dan membandingkan dua hasil: neural dan pra-neural, untuk memastikan bahwa pernyataan tentang pertumbuhan kualitas tidak berdasar.

Dalam contoh ini, kita melihat adanya kemajuan, dan itu sangat nyata. Pada pandangan pertama, tampaknya pernyataan pengembang bahwa terjemahan mesin hampir menyamai terjemahan manusia adalah benar. Namun benarkah demikian, dan apa artinya penerapan praktis teknologi dalam bisnis?

DI DALAM kasus umum Penerjemahan menggunakan jaringan saraf lebih unggul daripada terjemahan statistik, dan teknologi ini memiliki potensi yang sangat besar untuk dikembangkan. Namun jika kita melihat masalah ini dengan cermat, kita dapat melihat bahwa tidak ada kemajuan dalam segala hal, dan tidak semua tugas dapat diterapkan ke jaringan saraf tanpa memperhatikan tugas itu sendiri.

Terjemahan mesin: apa tantangannya?

Dari penerjemah otomatis seluruh sejarah keberadaannya - dan ini sudah lebih dari 60 tahun! – mereka mengharapkan semacam keajaiban, membayangkannya sebagai mesin dari film fiksi ilmiah yang secara instan mengubah ucapan apa pun menjadi peluit alien dan sebaliknya.

Faktanya, tugas datang pada tingkat yang berbeda, salah satunya melibatkan terjemahan “universal” atau, bisa dikatakan, “sehari-hari” untuk tugas sehari-hari dan kemudahan pemahaman. Layanan terjemahan online dan banyak produk seluler dapat mengatasi tugas-tugas pada tingkat ini dengan baik.

Tugas-tugas tersebut meliputi:

Terjemahan cepat kata dan teks pendek untuk berbagai tujuan;
terjemahan otomatis selama komunikasi di forum, di di jejaring sosial, utusan;
terjemahan otomatis saat membaca berita, artikel Wikipedia;
penerjemah perjalanan (ponsel).

Semua contoh peningkatan kualitas terjemahan menggunakan jaringan saraf yang telah kita bahas di atas berhubungan persis dengan tugas-tugas ini.

Namun, jika menyangkut tujuan dan sasaran bisnis terkait terjemahan mesin, segalanya sedikit berbeda. Berikut ini, misalnya, beberapa persyaratan untuk sistem terjemahan mesin perusahaan:

Terjemahan korespondensi bisnis dengan klien, mitra, investor, karyawan asing;
lokalisasi situs web, toko online, deskripsi produk, instruksi;
terjemahan konten pengguna (ulasan, forum, blog);
kemampuan untuk mengintegrasikan terjemahan ke dalam proses bisnis dan produk serta layanan perangkat lunak;
keakuratan terjemahan sesuai dengan terminologi, kerahasiaan dan keamanan.

Mari kita coba memahami, dengan menggunakan contoh, apakah masalah bisnis penerjemahan dapat diselesaikan menggunakan jaringan saraf dan bagaimana tepatnya.

Kasus: Amadeus

Amadeus adalah salah satu sistem distribusi tiket pesawat global terbesar di dunia. Di satu sisi, maskapai penerbangan terhubung dengannya, di sisi lain, lembaga yang harus menerima semua informasi tentang perubahan secara real time dan menyampaikannya kepada klien mereka.

Tugasnya adalah melokalisasi kondisi penerapan tarif (Fare Rules), yang dihasilkan secara otomatis dalam sistem reservasi dari berbagai sumber. Aturan-aturan ini selalu dibentuk bahasa Inggris. Terjemahan manual praktis tidak mungkin dilakukan di sini, karena terdapat banyak informasi dan sering berubah. Agen tiket pesawat ingin membaca Peraturan Tarif dalam bahasa Rusia agar dapat memberikan saran yang cepat dan kompeten kepada kliennya.

Diperlukan terjemahan yang jelas untuk menyampaikan arti aturan tarif, dengan mempertimbangkan istilah dan singkatan yang umum. Dan memerlukan terjemahan otomatis untuk diintegrasikan langsung ke dalam sistem pemesanan Amadeus.

→ Tugas dan pelaksanaan proyek dijelaskan secara rinci dalam dokumen.

Mari kita coba bandingkan terjemahan yang dilakukan melalui PROMT Cloud API, yang terintegrasi ke dalam Amadeus Fare Rules Translator, dan terjemahan “neural” dari Google.

Asli: HARGA PEMBELIAN INSTAN Pulang Pergi

PROMT (Pendekatan Analitik): HARGA UNTUK PEMBELIAN INSTAN PENERBANGAN PUTARAN

GNMT: PEMBELIAN PUTARAN

Jelas sekali bahwa penerjemah saraf tidak dapat mengatasinya, dan sedikit lebih jauh akan menjadi jelas alasannya.

Kasus: TripAdvisor

TripAdvisor adalah salah satu layanan perjalanan terbesar di dunia yang tidak perlu diperkenalkan lagi. Menurut artikel yang diterbitkan The Telegraph, 165.600 ulasan baru dari berbagai lokasi wisata dalam berbagai bahasa muncul di situs tersebut setiap hari.

Tugasnya adalah menerjemahkan ulasan wisata dari bahasa Inggris ke bahasa Rusia dengan kualitas terjemahan yang cukup untuk memahami maksud ulasan ini. Kesulitan utama: fitur khas konten buatan pengguna (teks dengan kesalahan, kesalahan ketik, kata-kata hilang).

Bagian dari tugasnya juga adalah menilai kualitas terjemahan secara otomatis sebelum dipublikasikan di situs web TripAdvisor. Karena tidak mungkin menilai semua konten terjemahan secara manual, solusi terjemahan mesin harus memberikan skor kepercayaan otomatis untuk memastikan TripAdvisor hanya menerbitkan ulasan terjemahan berkualitas tinggi.

Sebagai solusinya, digunakan teknologi PROMT DeepHybrid, yang memungkinkan diperolehnya terjemahan dengan kualitas lebih tinggi yang dapat dipahami oleh pembaca akhir, termasuk melalui statistik pasca-editing hasil terjemahan.

Mari kita lihat contohnya:

Asli: Kami makan di sana tadi malam sambil lalu dan itu adalah makanan yang enak. Layanan ini penuh perhatian tanpa berlebihan.

PROMT (Terjemahan hybrid): Kami makan di sana tadi malam sambil lalu dan itu adalah makanan yang luar biasa. Staf penuh perhatian tanpa menjadi sombong.

GNMT: Kami makan di sana tadi malam sambil lalu dan itu adalah makanan yang luar biasa. Layanan ini penuh perhatian tanpa menjadi sombong.

Di sini semuanya tidak begitu menyedihkan dalam hal kualitas seperti pada contoh sebelumnya. Dan secara umum, dari segi parameternya, masalah ini berpotensi diselesaikan dengan menggunakan jaringan saraf, dan ini selanjutnya dapat meningkatkan kualitas terjemahan.

Tantangan penggunaan NMT untuk bisnis

Seperti disebutkan sebelumnya, penerjemah “universal” tidak selalu memberikan kualitas yang dapat diterima dan tidak dapat mendukung terminologi tertentu. Untuk mengintegrasikan dan menggunakan jaringan saraf untuk penerjemahan ke dalam proses Anda, Anda harus memenuhi persyaratan dasar:

Kehadiran teks paralel dalam jumlah yang cukup untuk dapat melatih jaringan saraf. Seringkali pelanggan hanya memiliki sedikit atau tidak ada teks tentang topik ini di alam. Mereka mungkin diklasifikasikan atau dalam kondisi yang tidak sesuai untuk pemrosesan otomatis.

Untuk membuat model, Anda memerlukan database yang berisi setidaknya 100 juta token (penggunaan kata), dan untuk mendapatkan terjemahan dengan kualitas yang kurang lebih dapat diterima - 500 juta token. Tidak setiap perusahaan memiliki bahan sebanyak itu.

Tersedianya mekanisme atau algoritma untuk menilai kualitas hasil yang diperoleh secara otomatis.

Daya komputasi yang cukup.
Penerjemah saraf "universal" sering kali tidak sesuai kualitasnya, dan untuk menerapkan jaringan saraf pribadi Anda yang mampu memberikan kualitas dan kecepatan kerja yang dapat diterima, diperlukan "cloud kecil".

Tidak jelas apa yang harus dilakukan dengan privasi.
Tidak semua pelanggan siap memberikan konten mereka untuk diterjemahkan ke cloud demi alasan keamanan, dan NMT adalah kisah yang mengutamakan cloud.

kesimpulan

Secara umum, terjemahan otomatis saraf menghasilkan hasil dengan kualitas lebih tinggi daripada pendekatan statistik “murni”;
Terjemahan otomatis melalui jaringan saraf lebih cocok untuk memecahkan masalah “terjemahan universal”;
Tak satu pun dari pendekatan MT itu sendiri yang merupakan alat universal yang ideal untuk memecahkan masalah penerjemahan apa pun;
Untuk mengatasi masalah penerjemahan bisnis, hanya solusi khusus yang dapat menjamin kepatuhan terhadap semua persyaratan.

Kami sampai pada keputusan yang sangat jelas dan logis bahwa untuk tugas penerjemahan Anda, Anda perlu menggunakan penerjemah yang paling cocok untuk ini. Tidak masalah apakah ada jaringan saraf di dalamnya atau tidak. Memahami tugas itu sendiri lebih penting.

Tag: Tambahkan tag

14-09-2017, Kam, 14:19, waktu Moskow , Teks: Valeria Shmyrova

Di layanan Yandex.Translator, selain terjemahan statistik, opsi terjemahan dari jaringan saraf telah tersedia. Keuntungannya adalah ia berfungsi dengan seluruh kalimat, lebih mempertimbangkan konteks, dan menghasilkan teks yang konsisten dan alami. Namun, ketika jaringan saraf tidak memahami sesuatu, ia mulai berfantasi.

Meluncurkan jaringan saraf

Layanan Yandex.Translator telah meluncurkan jaringan saraf yang akan membantu meningkatkan kualitas terjemahan. Sebelumnya penerjemahan dari satu bahasa ke bahasa lain dilakukan dengan menggunakan mekanisme statistik. Sekarang prosesnya akan bersifat hibrid: model statistik dan jaringan saraf akan menawarkan versi terjemahannya sendiri. Setelah itu, algoritma CatBoost yang berbasis pembelajaran mesin akan memilih hasil terbaik yang diperoleh.

Sejauh ini, jaringan saraf hanya melakukan terjemahan dari bahasa Inggris ke bahasa Rusia dan hanya dalam layanan versi web. Menurut perusahaan, di Yandex.Translator, permintaan terjemahan Inggris-Rusia mencapai 80% dari semua permintaan. Dalam beberapa bulan mendatang, pengembang bermaksud memperkenalkan model hybrid di wilayah lain. Untuk memungkinkan pengguna membandingkan terjemahan dari mekanisme yang berbeda, saklar khusus disediakan.

Perbedaan dari penerjemah statistik

Prinsip operasi jaringan saraf berbeda dengan model terjemahan statistik. Alih-alih menerjemahkan teks kata demi kata, ekspresi demi ekspresi, ia bekerja dengan seluruh kalimat tanpa memecahnya menjadi beberapa bagian. Berkat ini, terjemahannya mempertimbangkan konteksnya dan menyampaikan maknanya dengan lebih baik. Selain itu, kalimat terjemahannya konsisten, natural, mudah dibaca dan dipahami. Menurut pengembangnya, ini bisa disalahartikan sebagai karya penerjemah manusia.

Terjemahan jaringan saraf menyerupai terjemahan manusia

Kekhasan jaringan saraf termasuk kecenderungan untuk “berfantasi” ketika tidak memahami sesuatu. Dengan cara ini dia mencoba menebak terjemahan yang benar.

Penerjemah statistik memiliki kelebihan: ia lebih berhasil menerjemahkan kata-kata dan ekspresi yang jarang - nama yang kurang umum, toponim, dll. Selain itu, ia tidak berfantasi jika arti sebuah kalimat tidak jelas. Menurut pengembangnya, model statistik mampu mengatasi frasa pendek dengan lebih baik.

Mekanisme lainnya

Yandex.Translator memiliki mekanisme khusus yang menyempurnakan terjemahan jaringan saraf, seperti terjemahan penerjemah statistik, mengoreksi kombinasi kata yang tidak cocok dan kesalahan ejaan. Berkat ini, pengguna tidak akan melihat kombinasi seperti “ayah pergi” atau “ sakit parah", para pengembang meyakinkan. Efek ini dicapai dengan membandingkan terjemahan dengan model bahasa - semua pengetahuan tentang bahasa dikumpulkan oleh sistem.

Dalam kasus-kasus sulit, jaringan saraf cenderung berfantasi

Model bahasa berisi daftar kata dan ekspresi dalam suatu bahasa, serta data frekuensi penggunaannya. Ini telah menemukan aplikasi di luar Yandex.Translator. Misalnya, saat menggunakan Yandex.Keyboard, dialah yang menebak kata apa yang ingin diketik pengguna selanjutnya dan menawarkan opsi yang sudah jadi. Misalnya, model bahasa memahami bahwa “halo, bagaimana” kemungkinan besar akan diikuti oleh varian “melakukan” atau “Anda”.

Apa itu "Yandex.Penerjemah"

“Yandex.Translator adalah layanan untuk menerjemahkan teks dari satu bahasa ke bahasa lain dari perusahaan Yandex, yang mulai bekerja pada tahun 2011. Awalnya, ini hanya berfungsi dengan bahasa Rusia, Ukraina, dan Inggris.

Selama keberadaan layanan, jumlah bahasa bertambah menjadi 94 bahasa. Diantaranya ada juga yang eksotik, seperti kepang atau papiamento. Terjemahan dapat dilakukan antara dua bahasa apa pun.

Pada tahun 2016, Yandex.Translator menambahkan bahasa fiksi dan buatan yang digunakan oleh para elf dalam buku J. R. R. Tolkien.