Rumah Pencegahan Penterjemah rangkaian saraf lebih cepat lebih dekat lebih tepat. Rangkaian saraf akan membuat terjemahan dalam Yandex.Browser lebih betul

Penterjemah rangkaian saraf lebih cepat lebih dekat lebih tepat. Rangkaian saraf akan membuat terjemahan dalam Yandex.Browser lebih betul

Terdapat lebih daripada setengah bilion salinan tapak web yang diindeks oleh enjin carian, dan jumlah terdapat berpuluh-puluh ribu kali lebih banyak halaman web. Kandungan bahasa Rusia mengambil 6% daripada keseluruhan Internet.

Bagaimana untuk menterjemah teks yang diingini dengan cepat dan dengan cara yang maksud yang dimaksudkan oleh pengarang dipelihara. Kaedah lama modul terjemahan kandungan statistik berfungsi dengan sangat meragukan, kerana... Tidak mustahil untuk menentukan dengan tepat deklinasi perkataan, tegang, dll. Sifat kata-kata dan hubungan antara mereka adalah kompleks, itulah sebabnya hasilnya kadang-kadang kelihatan sangat tidak wajar.

Kini Yandex menggunakan terjemahan mesin automatik, yang akan meningkatkan kualiti teks yang dihasilkan. Anda boleh memuat turun versi rasmi terkini penyemak imbas dengan terjemahan terbina dalam baharu.

Terjemahan hibrid bagi frasa dan perkataan

Pelayar Yandex adalah satu-satunya yang boleh menterjemah halaman secara keseluruhan, serta perkataan dan frasa secara individu. Fungsi ini akan sangat berguna untuk pengguna yang lebih kurang memilikinya Bahasa asing, tetapi kadangkala menghadapi kesukaran terjemahan.

Rangkaian saraf yang dibina ke dalam mekanisme terjemahan perkataan tidak selalu mengatasi tugas yang diberikan, kerana Amat sukar untuk membenamkan perkataan yang jarang ditemui ke dalam teks dan menjadikannya boleh dibaca. Kini kaedah hibrid telah dibina ke dalam aplikasi menggunakan teknologi lama dan yang baharu.

Mekanismenya ialah ini: program menerima ayat atau perkataan yang dipilih, kemudian memberikannya kepada kedua-dua modul rangkaian saraf dan penterjemah statistik, dan algoritma terbina dalam menentukan hasil yang lebih baik dan kemudian memberikannya kepada pengguna.

Penterjemah rangkaian saraf

Kandungan asing diformatkan dengan cara yang sangat khusus:

  • huruf pertama perkataan dalam tajuk ditulis dengan huruf besar;
  • ayat dibina dengan tatabahasa yang dipermudahkan, beberapa perkataan digugurkan.

Menu navigasi pada tapak web dianalisis dengan mengambil kira lokasinya, contohnya perkataan Kembali, diterjemahkan dengan betul kembali (kembali), dan bukan kembali.

Untuk mengambil kira semua ciri yang disebutkan di atas, pembangun juga melatih rangkaian saraf, yang sudah menggunakan pelbagai besar data teks. Kini kualiti terjemahan dipengaruhi oleh lokasi kandungan dan reka bentuknya.

Hasil terjemahan yang digunakan

Kualiti terjemahan boleh diukur dengan algoritma BLEU*, yang membandingkan terjemahan mesin dan terjemahan profesional. Skala kualiti dari 0 hingga 100%.

Lebih baik terjemahan saraf, lebih tinggi peratusannya. Menurut algoritma ini, pelayar Yandex mula menterjemah 1.7 kali lebih baik.



Terjemahan mesin menggunakan rangkaian saraf telah berjalan jauh sejak yang pertama kajian saintifik mengenai topik ini sehingga Google mengumumkan pemindahan lengkap perkhidmatan Terjemahan Google kepada pembelajaran mendalam.

Seperti yang diketahui, penterjemah saraf adalah berdasarkan mekanisme rangkaian saraf berulang dua arah (Rangkaian Neural Berulang Dua Arah), dibina berdasarkan pengiraan matriks, yang membolehkan pembinaan model kebarangkalian yang jauh lebih kompleks daripada penterjemah mesin statistik. Walau bagaimanapun, ia sentiasa dipercayai bahawa terjemahan saraf, seperti terjemahan statistik, memerlukan korpora selari teks dalam dua bahasa untuk latihan. Rangkaian saraf dilatih pada korpus ini, mengambil terjemahan manusia sebagai rujukan.

Seperti yang kini ternyata, rangkaian saraf mampu menguasai bahasa baharu untuk terjemahan walaupun tanpa korpus teks yang selari! Dua kertas kerja mengenai topik ini telah diterbitkan di laman web pracetak arXiv.org.

“Bayangkan bahawa anda memberi seseorang banyak buku Cina dan banyak buku Arab - tiada satu pun daripada mereka yang sama - dan orang ini belajar menterjemah daripada bahasa Cina ke bahasa Arab. Nampak mustahil kan? Tetapi kami telah menunjukkan bahawa komputer boleh melakukan ini, "kata Mikel Artetxe, seorang saintis komputer di Universiti Negara Basque di San Sebastian, Sepanyol.

Kebanyakan rangkaian neural terjemahan mesin dilatih "dengan seorang guru," yang merupakan korpus selari teks yang diterjemahkan oleh seseorang. Semasa proses pembelajaran, secara kasarnya, rangkaian saraf membuat andaian, menyemak dengan standard, dan membuat pelarasan yang diperlukan pada sistemnya, kemudian belajar lebih lanjut. Masalahnya ialah untuk sesetengah bahasa tidak terdapat sejumlah besar teks selari di dunia, jadi ia tidak boleh diakses oleh rangkaian neural terjemahan mesin tradisional.


"Bahasa universal" rangkaian neural Terjemahan Mesin Neural Google (GNMT). Pada ilustrasi sebelah kiri warna yang berbeza Kelompok makna setiap perkataan ditunjukkan, di bahagian bawah sebelah kanan - makna perkataan yang diperoleh untuknya daripada bahasa manusia yang berbeza: Inggeris, Korea dan Jepun

Setelah menyusun "atlas" gergasi untuk setiap bahasa, sistem kemudian cuba menindih satu atlas sedemikian pada yang lain - dan di sana anda mempunyainya, anda mempunyai beberapa jenis korpora teks selari sedia!

Reka bentuk dua seni bina pembelajaran tanpa pengawasan yang dicadangkan boleh dibandingkan.


Seni bina sistem yang dicadangkan. Untuk setiap ayat dalam L1, sistem belajar menukar dua langkah: 1) penindasan bunyi(denoising), yang mengoptimumkan kebarangkalian pengekodan versi bising ayat dengan pengekod biasa dan membina semulanya dengan penyahkod L1; 2) terjemahan terbalik(terjemahan belakang) apabila ayat diterjemahkan dalam mod keluaran (iaitu, dikodkan oleh pengekod biasa dan dinyahkod oleh penyahkod L2), dan kemudian kebarangkalian untuk mengekod ayat terjemahan ini dengan pengekod biasa dan membina semula ayat asal oleh Penyahkod L1 dioptimumkan. Ilustrasi: Michela Artetxe et al.


Cadangan seni bina dan objektif latihan sistem (daripada kerja saintifik kedua). Seni bina ialah model terjemahan ayat demi ayat, di mana kedua-dua pengekod dan penyahkod beroperasi dalam dua bahasa, bergantung pada ID bahasa input, yang menukar jadual carian. Atas (pengekodan automatik): Model dilatih untuk melakukan denoising dalam setiap domain. Bawah (terjemahan): seperti sebelum ini, ditambah kita mengekod daripada bahasa lain menggunakan sebagai input terjemahan yang dihasilkan oleh model dalam lelaran sebelumnya (segi empat tepat biru). Elips hijau menunjukkan istilah dalam fungsi kehilangan. Ilustrasi: Guillaume Lampla et al.

Kedua-duanya karya ilmiah gunakan metodologi yang sangat serupa dengan perbezaan kecil. Tetapi dalam kedua-dua kes terjemahan dijalankan melalui beberapa "bahasa" perantaraan atau, lebih baik dikatakan, dimensi atau ruang perantaraan. Setakat ini, rangkaian saraf tanpa pengawasan tidak menunjukkan kualiti terjemahan yang sangat tinggi, tetapi penulis mengatakan bahawa ia boleh diperbaiki dengan mudah jika anda menggunakan sedikit bantuan daripada guru, mereka tidak melakukan ini demi kesucian eksperimen .

Karya yang dibentangkan untuk Persidangan antarabangsa mengenai perwakilan pembelajaran 2018 (Persidangan Antarabangsa mengenai Perwakilan Pembelajaran). Belum ada satu pun artikel yang diterbitkan dalam akhbar saintifik.

Terdapat lebih daripada 630 juta tapak di Internet moden, tetapi hanya 6% daripadanya mengandungi kandungan berbahasa Rusia. Halangan bahasa adalah masalah utama penyebaran pengetahuan antara pengguna rangkaian, dan kami percaya bahawa ia perlu diselesaikan bukan sahaja dengan mengajar bahasa asing, tetapi juga dengan menggunakan terjemahan mesin automatik dalam penyemak imbas.

Hari ini kami akan memberitahu pembaca Habr tentang dua perubahan teknologi penting dalam penterjemah Pelayar Yandex. Pertama, terjemahan perkataan dan frasa yang diserlahkan kini menggunakan model hibrid, dan kami akan mengingatkan anda bagaimana pendekatan ini berbeza daripada menggunakan rangkaian saraf semata-mata. Kedua, rangkaian saraf penterjemah kini mengambil kira struktur halaman web, ciri-cirinya juga akan dibincangkan di bawah potongan.

Penterjemah perkataan dan frasa hibrid

Sistem terjemahan mesin pertama adalah berdasarkan kamus dan peraturan(pada asasnya aksara biasa tulisan tangan), yang menentukan kualiti terjemahan. Ahli bahasa profesional telah bekerja selama bertahun-tahun untuk membangunkan peraturan manual yang semakin terperinci. Kerja ini sangat memakan masa sehingga perhatian serius hanya diberikan kepada pasangan bahasa yang paling popular, tetapi walaupun dalam ini mesin melakukan kerja yang buruk. Bahasa hidup sangat sistem yang kompleks, yang tidak mematuhi peraturan dengan baik. Adalah lebih sukar untuk menerangkan peraturan surat-menyurat antara dua bahasa.

Satu-satunya cara untuk mesin sentiasa menyesuaikan diri dengan keadaan yang berubah-ubah adalah dengan belajar secara bebas daripada sejumlah besar teks selari (sama makna, tetapi ditulis dalam perbezaan bahasa). Ini ialah pendekatan statistik untuk terjemahan mesin. Komputer membandingkan teks selari dan mengenal pasti corak secara bebas.

U penterjemah statistik terdapat kebaikan dan keburukan. Di satu pihak, dia mengingati perkataan dan frasa yang jarang dan kompleks dengan baik. Jika ia ditemui dalam teks selari, penterjemah akan mengingatinya dan akan terus menterjemah dengan betul. Sebaliknya, hasil terjemahan boleh menjadi seperti teka-teki yang lengkap: gambaran keseluruhan kelihatan jelas, tetapi jika anda melihat dengan teliti, anda dapat melihat bahawa ia terdiri daripada kepingan yang berasingan. Sebabnya ialah penterjemah mewakili perkataan individu sebagai pengecam, yang sama sekali tidak mencerminkan hubungan antara mereka. Ini tidak konsisten dengan cara orang mengalami bahasa, di mana perkataan ditakrifkan mengikut cara ia digunakan, cara ia berkaitan dan berbeza daripada perkataan lain.

Membantu menyelesaikan masalah ini rangkaian saraf. Pembenaman perkataan, yang digunakan dalam terjemahan mesin saraf, biasanya mengaitkan setiap perkataan dengan vektor beberapa ratus nombor panjangnya. Vektor, tidak seperti pengecam mudah daripada pendekatan statistik, dibentuk apabila melatih rangkaian saraf dan mengambil kira hubungan antara perkataan. Sebagai contoh, model mungkin menyedari bahawa memandangkan "teh" dan "kopi" sering muncul dalam konteks yang sama, kedua-dua perkataan ini sepatutnya boleh digunakan dalam konteks perkataan baharu "tumpah", yang, katakan, hanya satu daripadanya muncul dalam data latihan.

Walau bagaimanapun, proses pembelajaran perwakilan vektor jelas lebih menuntut secara statistik berbanding hafalan contoh. Di samping itu, tidak jelas apa yang perlu dilakukan dengan perkataan input yang jarang berlaku yang tidak cukup kerap berlaku untuk rangkaian membina perwakilan vektor yang boleh diterima untuk mereka. Dalam keadaan ini, adalah logik untuk menggabungkan kedua-dua kaedah.

Sejak tahun lepas, Yandex.Translator telah menggunakan model hibrid. Apabila Penterjemah menerima teks daripada pengguna, dia memberikannya kepada kedua-dua sistem untuk terjemahan - rangkaian saraf dan penterjemah statistik. Algoritma, berdasarkan kaedah pembelajaran, kemudian menilai terjemahan yang lebih baik. Apabila memberikan penilaian, berpuluh-puluh faktor diambil kira - daripada panjang ayat (frasa pendek lebih baik diterjemahkan oleh model statistik) kepada sintaks. Terjemahan yang diiktiraf sebagai yang terbaik ditunjukkan kepada pengguna.

Ia adalah model hibrid yang kini digunakan dalam Yandex.Browser, apabila pengguna memilih perkataan dan frasa tertentu pada halaman untuk terjemahan.

Mod ini amat sesuai untuk mereka yang biasanya bercakap bahasa asing dan hanya ingin menterjemah perkataan yang tidak diketahui. Tetapi jika, sebagai contoh, bukannya bahasa Inggeris biasa anda menjumpai bahasa Cina, maka ia akan menjadi sukar untuk dilakukan tanpa penterjemah halaman demi halaman. Nampaknya perbezaannya hanya dalam jumlah teks yang diterjemahkan, tetapi tidak semuanya begitu mudah.

Penterjemah rangkaian neural halaman web

Dari masa eksperimen Georgetown hingga hampir ke hari ini, semua sistem terjemahan mesin telah dilatih untuk menterjemah setiap ayat teks sumber secara berasingan. Walaupun halaman web bukan hanya satu set ayat, tetapi teks berstruktur yang mengandungi elemen asas yang berbeza. Mari kita lihat elemen asas kebanyakan halaman.

Tajuk. Biasanya teks terang dan besar yang kita lihat serta-merta apabila memasuki halaman. Tajuk berita selalunya mengandungi intipati berita, jadi penting untuk menterjemahkannya dengan betul. Tetapi ini sukar dilakukan, kerana teks tidak mencukupi dalam tajuk dan tanpa memahami konteks anda boleh membuat kesilapan. Dalam kes bahasa Inggeris, ia lebih rumit kerana tajuk bahasa Inggeris sering mengandungi frasa dengan tatabahasa yang tidak konvensional, infinitif atau kata kerja yang hilang. Sebagai contoh, Prekuel Game of Thrones diumumkan.

Navigasi. Perkataan dan frasa yang membantu kami menavigasi tapak. Sebagai contoh, Rumah, belakang Dan Akaun saya Tidak berbaloi untuk diterjemahkan sebagai "Rumah", "Kembali" dan "Akaun Saya" jika ia terdapat dalam menu tapak dan bukan dalam teks penerbitan.

Teks utama. Segala-galanya lebih mudah dengannya; ia berbeza sedikit daripada teks dan ayat biasa yang boleh kita temui dalam buku. Tetapi di sini, adalah penting untuk memastikan konsistensi terjemahan, iaitu, untuk memastikan bahawa dalam halaman web yang sama istilah dan konsep yang sama diterjemahkan dengan cara yang sama.

Untuk terjemahan halaman web yang berkualiti tinggi, tidak mencukupi untuk menggunakan rangkaian saraf atau model hibrid - ia juga perlu mengambil kira struktur halaman. Dan untuk melakukan ini, kami terpaksa berhadapan dengan banyak kesukaran teknologi.

Klasifikasi segmen teks. Untuk melakukan ini, kami sekali lagi menggunakan CatBoost dan faktor berdasarkan kedua-dua teks itu sendiri dan pada penanda HTML dokumen (teg, saiz teks, bilangan pautan setiap unit teks, ...). Faktornya agak heterogen, itulah sebabnya CatBoost (berdasarkan peningkatan kecerunan) menunjukkan hasil terbaik (ketepatan klasifikasi melebihi 95%). Tetapi mengelaskan segmen sahaja tidak mencukupi.

Data senget. Secara tradisinya, algoritma Yandex.Translator dilatih pada teks dari Internet. Nampaknya ini adalah penyelesaian yang ideal untuk melatih penterjemah halaman web (dengan kata lain, rangkaian belajar daripada teks yang sama dengan teks yang akan kita gunakan). Tetapi setelah kami belajar untuk memisahkan segmen yang berbeza antara satu sama lain, kami dapati ciri menarik. Secara purata, di tapak web, kandungan mengambil kira-kira 85% daripada semua teks, dengan tajuk dan navigasi menyumbang hanya 7.5%. Ingat juga bahawa tajuk dan elemen navigasi itu sendiri nyata berbeza dalam gaya dan tatabahasa daripada teks yang lain. Kedua-dua faktor ini bersama-sama membawa kepada masalah penyimpangan data. Adalah lebih menguntungkan bagi rangkaian saraf untuk mengabaikan ciri-ciri segmen ini, yang sangat kurang diwakili dalam set latihan. Rangkaian belajar untuk menterjemah hanya teks utama dengan baik, itulah sebabnya kualiti terjemahan tajuk dan navigasi terjejas. Untuk meratakan kesan yang tidak menyenangkan ini, kami melakukan dua perkara: untuk setiap pasangan ayat selari kami menetapkan satu daripada tiga jenis segmen (kandungan, tajuk atau navigasi) dan secara buatan meningkatkan kepekatan dua terakhir dalam korpus latihan kepada 33% disebabkan oleh fakta bahawa mereka mula menunjukkan contoh yang serupa kepada rangkaian saraf pembelajaran dengan lebih kerap.

Pembelajaran pelbagai tugas. Memandangkan kita kini boleh membahagikan teks pada halaman web kepada tiga kelas segmen, ia mungkin kelihatan seperti idea semula jadi untuk melatih tiga model berasingan, yang setiap satunya akan mengendalikan terjemahan jenis teks yang berbeza—tajuk, navigasi atau kandungan. Ini benar-benar berfungsi dengan baik, tetapi skema ini berfungsi dengan lebih baik di mana kami melatih satu rangkaian saraf untuk menterjemah semua jenis teks sekaligus. Kunci pemahaman terletak pada idea pembelajaran mutli-task (MTL): jika terdapat hubungan dalaman antara beberapa tugas pembelajaran mesin, maka model yang belajar menyelesaikan tugasan ini secara serentak boleh belajar menyelesaikan setiap tugas dengan lebih baik. daripada model khusus yang sempit!

Penalaan halus. Kami sudah mempunyai terjemahan mesin yang cukup baik, jadi adalah tidak bijak untuk melatih penterjemah baharu untuk Yandex.Browser dari awal. Lebih masuk akal untuk mengambil sistem asas untuk menterjemah teks biasa dan melatihnya untuk berfungsi dengan halaman web. Dalam konteks rangkaian saraf, ini sering dipanggil penalaan halus. Tetapi jika anda mendekati masalah ini secara langsung, i.e. Hanya mulakan berat rangkaian saraf dengan nilai daripada model siap dan mula belajar pada data baharu, maka anda mungkin menghadapi kesan peralihan domain: semasa latihan berlangsung, kualiti terjemahan halaman web (dalam domain) akan meningkat, tetapi kualiti terjemahan teks biasa (di luar domain) ) akan jatuh. Untuk menghilangkan ciri yang tidak menyenangkan ini, semasa latihan tambahan kami mengenakan sekatan tambahan pada rangkaian saraf, melarangnya daripada menukar berat terlalu banyak berbanding keadaan awal.

Secara matematik, ini dinyatakan dengan menambah istilah pada fungsi kehilangan, iaitu jarak Kullback-Leibler (KL-divergence) antara taburan kebarangkalian menjana perkataan seterusnya, yang dikeluarkan oleh rangkaian asal dan tambahan terlatih. Seperti yang dapat dilihat dalam ilustrasi, ini membawa kepada fakta bahawa peningkatan dalam kualiti terjemahan halaman web tidak lagi membawa kepada kemerosotan terjemahan teks biasa.

Menggilap frasa kekerapan daripada navigasi. Semasa mengerjakan penterjemah baharu, kami mengumpul statistik pada teks pelbagai segmen halaman web dan melihat sesuatu yang menarik. Teks yang berkaitan dengan elemen navigasi adalah sangat standard, jadi ia selalunya terdiri daripada frasa templat yang sama. Ini adalah kesan yang sangat kuat sehingga lebih separuh daripada semua frasa navigasi yang terdapat di Internet diambil kira oleh hanya 2 ribu frasa yang paling kerap.

Kami, sudah tentu, mengambil kesempatan daripada ini dan memberikan beberapa ribu frasa yang paling biasa dan terjemahannya kepada penterjemah kami untuk pengesahan supaya benar-benar pasti kualitinya.

Penjajaran luaran. Terdapat satu lagi keperluan penting untuk penterjemah halaman web dalam Pelayar - ia tidak sepatutnya memesongkan penanda. Apabila tag HTML diletakkan di luar atau pada sempadan ayat, tiada masalah timbul. Tetapi jika di dalam ayat itu ada, contohnya, dua digariskan perkataan, maka dalam terjemahan kita ingin melihat “dua digariskan perkataan". Itu. Hasil daripada pemindahan itu, dua syarat mesti dipenuhi:

  1. Serpihan yang digariskan dalam terjemahan mesti sepadan dengan serpihan yang digariskan dalam teks sumber.
  2. Ketekalan terjemahan pada sempadan serpihan yang digariskan tidak boleh dilanggar.
Untuk mencapai gelagat ini, kami mula-mula menterjemah teks seperti biasa, dan kemudian menggunakan model penjajaran perkataan demi perkataan statistik untuk menentukan padanan antara serpihan sumber dan teks terjemahan. Ini membantu untuk memahami perkara yang perlu dititikberatkan (dalam huruf condong, diformat sebagai hiperpautan, ...).

Pemerhati persimpangan. Model terjemahan rangkaian saraf berkuasa yang telah kami latih memerlukan lebih banyak sumber pengkomputeran pada pelayan kami (kedua-dua CPU dan GPU) berbanding model statistik generasi sebelumnya. Pada masa yang sama, pengguna tidak selalu membaca halaman hingga akhir, jadi menghantar semua teks halaman web ke awan nampaknya tidak perlu. Untuk menjimatkan sumber pelayan dan trafik pengguna, kami mengajar Penterjemah untuk digunakan

atau Adakah kuantiti berkembang menjadi kualiti?

Artikel berdasarkan ucapan di persidangan RIF+KIB 2017.

Terjemahan Mesin Neural: kenapa baru sekarang?

Rangkaian saraf telah lama diperkatakan, dan nampaknya salah satu masalah klasik kecerdasan buatan - terjemahan mesin - hanya meminta untuk diselesaikan berdasarkan teknologi ini.

Namun begitu, berikut ialah dinamik populariti dalam carian untuk pertanyaan tentang rangkaian saraf secara umum dan tentang terjemahan mesin saraf khususnya:

Jelas kelihatan bahawa sehingga baru-baru ini tiada apa-apa dalam radar tentang terjemahan mesin saraf – dan pada penghujung 2016, beberapa syarikat menunjukkan teknologi baharu dan sistem terjemahan mesin mereka berdasarkan rangkaian saraf, termasuk Google, Microsoft dan SYSTRAN. Mereka muncul hampir serentak, beberapa minggu atau bahkan beberapa hari. Kenapa begitu?

Untuk menjawab soalan ini, adalah perlu untuk memahami terjemahan mesin berdasarkan rangkaian saraf dan apakah perbezaan utamanya daripada sistem statistik klasik atau sistem analitik yang digunakan hari ini untuk terjemahan mesin.

Penterjemah saraf adalah berdasarkan mekanisme rangkaian saraf berulang dua arah (Rangkaian Neural Berulang Dua Arah), dibina berdasarkan pengiraan matriks, yang membolehkan anda membina model kebarangkalian yang jauh lebih kompleks daripada penterjemah mesin statistik.


Seperti terjemahan statistik, terjemahan saraf memerlukan korpus selari untuk latihan, yang memungkinkan untuk membandingkan terjemahan automatik dengan rujukan "manusia" hanya dalam proses pembelajaran ia beroperasi bukan dengan frasa dan gabungan perkataan individu, tetapi dengan keseluruhan ayat. Masalah utama ialah latihan sistem sedemikian memerlukan lebih banyak kuasa pengkomputeran.

Untuk mempercepatkan proses, pembangun menggunakan GPU daripada NVIDIA, serta Unit Pemprosesan Tensor (TPU) Google, cip proprietari yang disesuaikan khusus untuk teknologi pembelajaran mesin. Cip grafik pada mulanya dioptimumkan untuk algoritma pengiraan matriks, dan oleh itu peningkatan prestasi adalah 7-15 kali berbanding dengan CPU.

Walaupun begitu, melatih model saraf tunggal mengambil masa 1 hingga 3 minggu, manakala model statistik dengan saiz yang lebih kurang sama mengambil masa 1 hingga 3 hari untuk dilatih, dan perbezaan ini meningkat apabila saiznya bertambah.

Walau bagaimanapun, bukan sahaja masalah teknologi yang menghalang pembangunan rangkaian saraf dalam konteks tugas terjemahan mesin. Pada akhirnya, adalah mungkin untuk melatih model bahasa lebih awal, walaupun lebih perlahan, tetapi tidak ada halangan asas.

Fesyen untuk rangkaian saraf juga memainkan peranan. Ramai orang sedang membangun secara dalaman, tetapi mereka tidak tergesa-gesa untuk mengumumkannya, takut, mungkin, mereka tidak akan menerima peningkatan kualiti yang diharapkan masyarakat daripada frasa Rangkaian Neural. Ini mungkin menjelaskan fakta bahawa beberapa penterjemah saraf diumumkan satu demi satu.

Kualiti terjemahan: skor BLEU siapa yang lebih tebal?

Mari kita cuba memahami sama ada peningkatan dalam kualiti terjemahan sepadan dengan jangkaan terkumpul dan peningkatan kos yang mengiringi pembangunan dan sokongan rangkaian saraf untuk terjemahan.
Google dalam penyelidikannya menunjukkan bahawa terjemahan mesin saraf memberikan Penambahbaikan Relatif daripada 58% kepada 87%, bergantung pada pasangan bahasa, berbanding pendekatan statistik klasik (atau Terjemahan Mesin Berasaskan Frasa, PBMT, sebagaimana ia juga dipanggil).


SYSTRAN menjalankan kajian di mana kualiti terjemahan dinilai dengan memilih daripada beberapa pilihan yang dibentangkan yang dibuat pelbagai sistem, serta terjemahan "manusia". Dan dia menyatakan bahawa terjemahan sarafnya lebih disukai dalam 46% kes daripada terjemahan manusia.

Kualiti terjemahan: adakah terdapat kejayaan?

Walaupun Google mendakwa peningkatan sebanyak 60% atau lebih, terdapat sedikit tangkapan pada angka ini. Wakil syarikat bercakap tentang "Peningkatan Relatif", iaitu, sejauh mana mereka berjaya dengan pendekatan saraf kepada kualiti Terjemahan Manusia berhubung dengan apa yang terdapat dalam penterjemah statistik klasik.


Pakar industri yang menganalisis hasil yang dibentangkan oleh Google dalam artikel "Sistem Terjemahan Mesin Neural Google: Merapatkan Jurang antara Terjemahan Manusia dan Mesin" agak ragu-ragu tentang hasil yang dibentangkan dan mengatakan bahawa sebenarnya skor BLEU hanya meningkat sebanyak 10%, dan kemajuan yang ketara dapat dilihat dengan tepat apabila ujian mudah daripada Wikipedia, yang kemungkinan besar digunakan dalam proses latihan rangkaian.

Di dalam PROMT, kami kerap membandingkan terjemahan pada pelbagai teks sistem kami dengan pesaing, dan oleh itu kami sentiasa mempunyai contoh yang boleh kami semak sama ada terjemahan saraf benar-benar lebih hebat daripada generasi sebelumnya seperti yang didakwa pengeluar.

Teks asal (EN): Kebimbangan tidak pernah mendatangkan kebaikan kepada sesiapa pun.
Terjemahan Google PBMT: Tidak melakukan apa-apa yang baik kepada sesiapa tanpa rasa bimbang.
Terjemahan Google NMT: Kebimbangan tidak pernah membantu sesiapa pun.

Ngomong-ngomong, terjemahan frasa yang sama di Translate.Ru: "Kebimbangan tidak pernah membawa manfaat kepada sesiapa pun," anda dapat melihat bahawa ia adalah dan tetap sama tanpa menggunakan rangkaian saraf.

Microsoft Translator juga tidak ketinggalan dalam perkara ini. Tidak seperti rakan sekerja mereka daripada Google, mereka malah membuat tapak web di mana anda boleh menterjemah dan membandingkan dua hasil: neural dan pra-neural, untuk memastikan bahawa kenyataan tentang pertumbuhan dalam kualiti tidak berasas.


Dalam contoh ini, kita melihat bahawa terdapat kemajuan, dan ia benar-benar ketara. Pada pandangan pertama, nampaknya kenyataan pembangun bahawa terjemahan mesin hampir mengejar terjemahan manusia adalah benar. Tetapi adakah ini benar-benar begitu, dan apakah maksud ini dari segi aplikasi praktikal teknologi untuk perniagaan?

DALAM kes am Terjemahan menggunakan rangkaian saraf adalah lebih baik daripada terjemahan statistik, dan teknologi ini mempunyai potensi besar untuk pembangunan. Tetapi jika kita melihat isu ini dengan teliti, kita dapat melihat bahawa kemajuan bukan dalam segala-galanya, dan tidak semua tugas boleh digunakan pada rangkaian saraf tanpa mengambil kira tugas itu sendiri.

Terjemahan mesin: apakah cabarannya?

Dari penterjemah automatik seluruh sejarah kewujudannya - dan ini sudah lebih daripada 60 tahun! – mereka menjangkakan sejenis sihir, membayangkannya sebagai mesin daripada filem fiksyen sains yang serta-merta mengubah sebarang ucapan menjadi siulan makhluk asing dan ke belakang.

Malah, tugasan datang pada tahap yang berbeza, salah satunya melibatkan terjemahan "sejagat" atau, boleh dikatakan, terjemahan "setiap hari" untuk tugasan harian dan kemudahan pemahaman. Perkhidmatan terjemahan dalam talian dan banyak produk mudah alih mengatasi tugas pada tahap ini dengan baik.

Tugas-tugas tersebut termasuk:

Terjemahan pantas perkataan dan teks pendek untuk pelbagai tujuan;
terjemahan automatik semasa komunikasi di forum, dalam dalam rangkaian sosial, utusan;
terjemahan automatik apabila membaca berita, artikel Wikipedia;
penterjemah perjalanan (mudah alih).

Semua contoh peningkatan kualiti terjemahan menggunakan rangkaian saraf yang kami bincangkan di atas berkaitan dengan tepat dengan tugasan ini.

Walau bagaimanapun, apabila ia berkaitan dengan matlamat dan objektif perniagaan mengenai terjemahan mesin, keadaannya sedikit berbeza. Di sini, sebagai contoh, ialah beberapa keperluan untuk sistem terjemahan mesin korporat:

Terjemahan surat-menyurat perniagaan dengan pelanggan, rakan kongsi, pelabur, pekerja asing;
penyetempatan laman web, kedai dalam talian, penerangan produk, arahan;
terjemahan kandungan pengguna (ulasan, forum, blog);
keupayaan untuk menyepadukan terjemahan ke dalam proses perniagaan dan produk dan perkhidmatan perisian;
ketepatan terjemahan mengikut istilah, kerahsiaan dan keselamatan.

Mari cuba fahami, menggunakan contoh, sama ada sebarang masalah perniagaan terjemahan boleh diselesaikan menggunakan rangkaian saraf dan bagaimana sebenarnya.

Kes: Amadeus

Amadeus ialah salah satu sistem pengedaran tiket penerbangan global terbesar di dunia. Di satu pihak, syarikat penerbangan disambungkan kepadanya, sebaliknya, agensi yang mesti menerima semua maklumat tentang perubahan dalam masa nyata dan menyampaikannya kepada pelanggan mereka.

Tugasnya adalah untuk menyetempatkan syarat untuk mengenakan tarif (Peraturan Tambang), yang dijana secara automatik dalam sistem tempahan daripada sumber yang berbeza. Peraturan ini sentiasa dibentuk pada Bahasa Inggeris. Terjemahan manual hampir mustahil di sini, kerana terdapat banyak maklumat dan ia sering berubah. Ejen tiket penerbangan ingin membaca Peraturan Tambang dalam bahasa Rusia untuk menasihati pelanggan mereka dengan segera dan cekap.

Terjemahan yang jelas diperlukan yang menyampaikan maksud peraturan tarif, dengan mengambil kira istilah dan singkatan biasa. Dan ia memerlukan terjemahan automatik untuk disepadukan terus ke dalam sistem tempahan Amadeus.

→ Tugas dan pelaksanaan projek diterangkan secara terperinci dalam dokumen.

Mari cuba bandingkan terjemahan yang dibuat melalui API Awan PROMT, disepadukan ke dalam Penterjemah Peraturan Tambang Amadeus dan terjemahan "neural" daripada Google.

Asal: TAMBANG PEMBELIAN SEGERA PERGI-GALI

PROMT (Pendekatan Analitik): KADAR UNTUK PEMBELIAN SEGERA PENERBANGAN PUTAR

GNMT: PEMBELIAN BULAT

Adalah jelas bahawa penterjemah saraf tidak dapat mengatasi di sini, dan sedikit lagi ia akan menjadi jelas mengapa.

Kes: TripAdvisor

TripAdvisor ialah salah satu perkhidmatan pelancongan terbesar di dunia yang tidak memerlukan pengenalan. Menurut artikel yang diterbitkan oleh The Telegraph, 165,600 ulasan baharu pelbagai tapak pelancongan dalam bahasa berbeza muncul di laman web itu setiap hari.

Tugasnya adalah untuk menterjemah ulasan pelancong dari bahasa Inggeris ke bahasa Rusia dengan kualiti terjemahan yang mencukupi untuk memahami maksud ulasan ini. Kesukaran utama: ciri biasa kandungan yang dijana pengguna (teks dengan ralat, kesilapan menaip, perkataan yang hilang).

Juga sebahagian daripada tugas adalah untuk menilai secara automatik kualiti terjemahan sebelum diterbitkan di laman web TripAdvisor. Memandangkan menilai secara manual semua kandungan terjemahan tidak boleh dilakukan, penyelesaian terjemahan mesin mesti memberikan skor keyakinan automatik untuk memastikan TripAdvisor hanya menerbitkan ulasan terjemahan berkualiti tinggi.

Untuk penyelesaiannya, teknologi PROMT DeepHybrid telah digunakan, yang memungkinkan untuk mendapatkan terjemahan berkualiti tinggi yang boleh difahami oleh pembaca akhir, termasuk melalui penyuntingan pasca statistik hasil terjemahan.

Mari lihat contoh:

Asal: Kami makan di sana malam tadi secara sesuka hati dan ia adalah hidangan yang indah. Perkhidmatan ini penuh perhatian tanpa berlebihan.

PROMT (terjemahan Hibrid): Kami makan di sana malam tadi secara sesuka hati dan ia adalah hidangan yang indah. Kakitangan penuh perhatian tanpa bersikap sombong.

GNMT: Kami makan di sana malam tadi secara sesuka hati dan ia adalah hidangan yang indah. Perkhidmatan ini penuh perhatian tanpa sombong.

Di sini semuanya tidak begitu menyedihkan dari segi kualiti seperti dalam contoh sebelum ini. Dan secara umum, dari segi parameternya, masalah ini berpotensi dapat diselesaikan menggunakan rangkaian saraf, dan ini dapat meningkatkan lagi kualiti terjemahan.

Cabaran menggunakan NMT untuk perniagaan

Seperti yang dinyatakan sebelum ini, penterjemah "sejagat" tidak selalu memberikan kualiti yang boleh diterima dan tidak dapat menyokong istilah tertentu. Untuk menyepadukan dan menggunakan rangkaian saraf untuk terjemahan ke dalam proses anda, anda perlu memenuhi keperluan asas:

Kehadiran volum teks selari yang mencukupi agar dapat melatih rangkaian saraf. Selalunya pelanggan hanya mempunyai sedikit daripada mereka atau tiada teks mengenai topik ini wujud secara semula jadi. Mereka mungkin dikelaskan atau dalam keadaan tidak begitu sesuai untuk pemprosesan automatik.

Untuk mencipta model, anda memerlukan pangkalan data yang mengandungi sekurang-kurangnya 100 juta token (penggunaan perkataan), dan untuk mendapatkan terjemahan kualiti yang lebih kurang boleh diterima - 500 juta token. Tidak setiap syarikat mempunyai jumlah bahan sedemikian.

Ketersediaan mekanisme atau algoritma untuk menilai secara automatik kualiti hasil yang diperolehi.

Kuasa pengkomputeran yang mencukupi.
Penterjemah saraf "sejagat" selalunya tidak sesuai dalam kualiti, dan untuk menggunakan rangkaian saraf peribadi anda sendiri yang mampu memberikan kualiti dan kelajuan kerja yang boleh diterima, "awan kecil" diperlukan.

Tidak jelas apa yang perlu dilakukan dengan privasi.
Tidak setiap pelanggan bersedia untuk memberikan kandungan mereka untuk terjemahan ke awan atas sebab keselamatan, dan NMT ialah cerita yang mengutamakan awan.

kesimpulan

Secara umum, terjemahan automatik neural menghasilkan hasil yang lebih berkualiti daripada pendekatan statistik "tulen";
Terjemahan automatik melalui rangkaian saraf adalah lebih sesuai untuk menyelesaikan masalah "terjemahan universal";
Tiada satu pun pendekatan kepada MT dengan sendirinya merupakan alat universal yang ideal untuk menyelesaikan sebarang masalah terjemahan;
Untuk menyelesaikan masalah terjemahan perniagaan, hanya penyelesaian khusus yang boleh menjamin pematuhan dengan semua keperluan.

Kami sampai kepada keputusan yang jelas dan logik bahawa untuk tugas terjemahan anda, anda perlu menggunakan penterjemah yang paling sesuai untuk ini. Tidak kira sama ada terdapat rangkaian saraf di dalam atau tidak. Memahami tugas itu sendiri adalah lebih penting.

Tag: Tambah tag

09.14.2017, Khamis, 14:19, waktu Moscow , Teks: Valeria Shmyrova

Dalam perkhidmatan Yandex.Translator, sebagai tambahan kepada terjemahan statistik, pilihan terjemahan daripada rangkaian saraf telah tersedia. Kelebihannya ialah ia berfungsi dengan keseluruhan ayat, mengambil kira konteks yang lebih baik dan menghasilkan teks yang konsisten dan semula jadi. Walau bagaimanapun, apabila rangkaian saraf tidak memahami sesuatu, ia mula berkhayal.

Melancarkan rangkaian saraf

Perkhidmatan Yandex.Translator telah melancarkan rangkaian saraf yang akan membantu meningkatkan kualiti terjemahan. Sebelum ini, penterjemahan dari satu bahasa ke bahasa yang lain dilakukan dengan menggunakan mekanisme statistik. Kini prosesnya akan menjadi hibrid: kedua-dua model statistik dan rangkaian saraf akan menawarkan versi terjemahan mereka sendiri. Selepas ini, algoritma CatBoost, yang berasaskan pembelajaran mesin, akan memilih hasil terbaik yang diperoleh.

Setakat ini, rangkaian saraf hanya melakukan terjemahan daripada bahasa Inggeris ke bahasa Rusia dan hanya dalam versi web perkhidmatan. Menurut syarikat itu, dalam Yandex.Translator permintaan untuk terjemahan Inggeris-Rusia membentuk 80% daripada semua permintaan. Dalam beberapa bulan akan datang, pemaju berhasrat untuk memperkenalkan model hibrid di kawasan lain. Untuk membolehkan pengguna membandingkan terjemahan daripada mekanisme yang berbeza, suis khas disediakan.

Perbezaan daripada penterjemah statistik

Prinsip operasi rangkaian saraf berbeza daripada model terjemahan statistik. Daripada menterjemah teks perkataan demi perkataan, ungkapan demi ungkapan, ia berfungsi dengan keseluruhan ayat tanpa memecahkannya menjadi beberapa bahagian. Terima kasih kepada ini, terjemahan mengambil kira konteks dan menyampaikan maksud dengan lebih baik. Selain itu, ayat terjemahan adalah konsisten, semula jadi, mudah dibaca dan difahami. Menurut pemaju, ia boleh disalah anggap sebagai kerja penterjemah manusia.

Terjemahan rangkaian neural menyerupai terjemahan manusia

Keistimewaan rangkaian saraf termasuk kecenderungan untuk "berkhayal" apabila sesuatu tidak jelas kepadanya. Dengan cara ini dia cuba meneka terjemahan yang betul.

Penterjemah statistik mempunyai kelebihannya: dia lebih berjaya menterjemah perkataan dan ungkapan yang jarang berlaku - nama yang kurang biasa, toponim, dll. Di samping itu, dia tidak berkhayal jika makna ayat tidak jelas. Menurut pemaju, model statistik mengatasi lebih baik dengan frasa pendek.

Mekanisme lain

Yandex.Translator mempunyai mekanisme khas yang memperhalusi terjemahan rangkaian saraf, sama seperti terjemahan penterjemah statistik, membetulkan gabungan perkataan dan ralat ejaan yang tidak sepadan. Terima kasih kepada ini, pengguna tidak akan melihat kombinasi seperti "ayah pergi" atau " sakit teruk", pemaju memberi jaminan. Kesan ini dicapai dengan membandingkan terjemahan dengan model bahasa - semua pengetahuan tentang bahasa yang terkumpul oleh sistem.

Dalam kes yang sukar, rangkaian saraf cenderung untuk berkhayal

Model bahasa mengandungi senarai perkataan dan ungkapan dalam bahasa, serta data tentang kekerapan penggunaannya. Ia telah menemui aplikasi di luar Yandex.Translator. Sebagai contoh, apabila menggunakan Yandex.Keyboard, dialah yang meneka perkataan yang ingin ditaip oleh pengguna seterusnya dan menawarkan pilihan siap sedia. Sebagai contoh, model bahasa memahami bahawa "hello, bagaimana" mungkin diikuti oleh varian "melakukan" atau "anda."

Apakah itu "Yandex.Translator"

"Yandex.Translator ialah perkhidmatan untuk menterjemah teks dari satu bahasa ke bahasa lain dari syarikat Yandex, yang mula berfungsi pada tahun 2011. Pada mulanya, ia hanya berfungsi dengan Rusia, Ukraine dan Inggeris.

Semasa kewujudan perkhidmatan tersebut, bilangan bahasa telah meningkat kepada 94 bahasa. Antaranya terdapat juga yang eksotik, seperti jalinan atau papiamento. Terjemahan boleh dilakukan antara mana-mana dua bahasa.

Pada 2016, Yandex.Translator menambahkan bahasa fiksyen dan buatan yang digunakan oleh bunian dalam buku J. R. R. Tolkien.



Baru di tapak

>

Paling popular