বাড়ি প্রতিরোধ নিউরাল নেটওয়ার্ক অনুবাদক দ্রুত কাছাকাছি আরো নির্ভুল. নিউরাল নেটওয়ার্ক Yandex.Browser-এ অনুবাদগুলিকে আরও সঠিক করে তুলবে

নিউরাল নেটওয়ার্ক অনুবাদক দ্রুত কাছাকাছি আরো নির্ভুল. নিউরাল নেটওয়ার্ক Yandex.Browser-এ অনুবাদগুলিকে আরও সঠিক করে তুলবে

সার্চ ইঞ্জিন দ্বারা সূচিত করা ওয়েবসাইটগুলির অর্ধ বিলিয়নেরও বেশি কপি রয়েছে, এবং মোটহাজার হাজার গুণ বেশি ওয়েব পেজ আছে। রাশিয়ান ভাষার সামগ্রী সমগ্র ইন্টারনেটের 6% দখল করে।

কীভাবে কাঙ্খিত পাঠ্যটি দ্রুত এবং এমনভাবে অনুবাদ করা যায় যাতে লেখকের অভিপ্রেত অর্থ সংরক্ষিত হয়। পরিসংখ্যানগত বিষয়বস্তু অনুবাদ মডিউলগুলির পুরানো পদ্ধতিগুলি খুব সন্দেহজনকভাবে কাজ করে, কারণ... শব্দ, কাল ইত্যাদির অবনমন সঠিকভাবে নির্ণয় করা অসম্ভব। শব্দের প্রকৃতি এবং তাদের মধ্যে সংযোগ জটিল, যে কারণে ফলাফল কখনও কখনও খুব অপ্রাকৃত দেখায়।

এখন ইয়ানডেক্স স্বয়ংক্রিয় মেশিন অনুবাদ ব্যবহার করে, যা ফলস্বরূপ পাঠ্যের গুণমানকে উন্নত করবে। আপনি একটি নতুন অন্তর্নির্মিত অনুবাদ সহ ব্রাউজারের সর্বশেষ অফিসিয়াল সংস্করণ ডাউনলোড করতে পারেন।

বাক্যাংশ এবং শব্দের হাইব্রিড অনুবাদ

ইয়ানডেক্স ব্রাউজারই একমাত্র যেটি সম্পূর্ণরূপে একটি পৃষ্ঠা অনুবাদ করতে পারে, সেইসাথে শব্দ এবং বাক্যাংশগুলিকে পৃথকভাবে অনুবাদ করতে পারে। ফাংশনটি সেই সমস্ত ব্যবহারকারীদের জন্য খুবই উপযোগী হবে যারা কমবেশি মালিক বিদেশী ভাষা, কিন্তু কখনও কখনও অনুবাদ অসুবিধা সম্মুখীন হয়.

শব্দ অনুবাদ প্রক্রিয়ার মধ্যে নির্মিত নিউরাল নেটওয়ার্ক সবসময় নির্ধারিত কাজগুলির সাথে মানিয়ে নিতে পারে না, কারণ পাঠ্যটিতে বিরল শব্দগুলি এম্বেড করা এবং এটি পাঠযোগ্য করা অত্যন্ত কঠিন ছিল। এখন পুরানো প্রযুক্তি এবং নতুনগুলি ব্যবহার করে অ্যাপ্লিকেশনটিতে একটি হাইব্রিড পদ্ধতি তৈরি করা হয়েছে।

প্রক্রিয়াটি হল: প্রোগ্রামটি নির্বাচিত বাক্য বা শব্দগুলি গ্রহণ করে, তারপর সেগুলি নিউরাল নেটওয়ার্ক মডিউল এবং পরিসংখ্যান অনুবাদক উভয়কেই দেয় এবং অন্তর্নির্মিত অ্যালগরিদম নির্ধারণ করে কোন ফলাফলটি ভাল এবং তারপর ব্যবহারকারীকে দেয়।

নিউরাল নেটওয়ার্ক অনুবাদক

বিদেশী বিষয়বস্তু একটি খুব নির্দিষ্ট উপায়ে ফর্ম্যাট করা হয়:

  • শিরোনামগুলিতে শব্দের প্রথম অক্ষরগুলি বড় আকারে লেখা হয়;
  • বাক্যগুলি সরলীকৃত ব্যাকরণ দিয়ে তৈরি করা হয়, কিছু শব্দ বাদ দেওয়া হয়।

ওয়েবসাইটগুলিতে নেভিগেশন মেনুগুলি তাদের অবস্থান বিবেচনায় নিয়ে বিশ্লেষণ করা হয়, উদাহরণস্বরূপ ব্যাক শব্দটি, সঠিকভাবে অনুবাদ করা ব্যাক (ফিরে যান) এবং পিছনে নয়।

উপরে উল্লিখিত সমস্ত বৈশিষ্ট্যগুলি বিবেচনায় নেওয়ার জন্য, বিকাশকারীরা অতিরিক্তভাবে একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষিত করেছে, যা ইতিমধ্যেই পাঠ্য ডেটার একটি বিশাল অ্যারে ব্যবহার করে। এখন অনুবাদের গুণমান বিষয়বস্তুর অবস্থান এবং এর নকশা দ্বারা প্রভাবিত হয়।

প্রয়োগকৃত অনুবাদের ফলাফল

অনুবাদের গুণমান BLEU* অ্যালগরিদম দ্বারা পরিমাপ করা যেতে পারে, যা মেশিন অনুবাদ এবং পেশাদার অনুবাদের তুলনা করে। 0 থেকে 100% পর্যন্ত গুণমানের স্কেল।

স্নায়ু অনুবাদ যত ভাল, শতাংশ তত বেশি। এই অ্যালগরিদম অনুসারে, ইয়ানডেক্স ব্রাউজারটি 1.7 গুণ ভাল অনুবাদ করতে শুরু করেছে।



নিউরাল নেটওয়ার্ক ব্যবহার করে মেশিন অনুবাদ প্রথম থেকে অনেক দূর এগিয়েছে বৈজ্ঞানিক গবেষণাএই বিষয়ে যতক্ষণ না Google Google Translate পরিষেবাকে গভীর শিক্ষায় সম্পূর্ণ স্থানান্তরের ঘোষণা না করে।

যেমনটি জানা যায়, নিউরাল ট্রান্সলেটরটি ম্যাট্রিক্স ক্যালকুলেশনের উপর নির্মিত দ্বিমুখী পৌনঃপুনিক নিউরাল নেটওয়ার্কের (বাইডাইরেশনাল রিকারেন্ট নিউরাল নেটওয়ার্ক) পদ্ধতির উপর ভিত্তি করে তৈরি, যা পরিসংখ্যানগত মেশিন অনুবাদকদের তুলনায় উল্লেখযোগ্যভাবে জটিল সম্ভাব্য মডেল নির্মাণের অনুমতি দেয়। যাইহোক, এটি সর্বদা বিশ্বাস করা হয়েছে যে পরিসংখ্যানগত অনুবাদের মতো নিউরাল অনুবাদের জন্য প্রশিক্ষণের জন্য দুটি ভাষায় পাঠ্যের সমান্তরাল কর্পোরা প্রয়োজন। একটি নিউরাল নেটওয়ার্ক এই মৃতদেহগুলিতে প্রশিক্ষিত হয়, মানব অনুবাদকে একটি রেফারেন্স হিসাবে গ্রহণ করে।

এটি এখন পরিণত হয়েছে, নিউরাল নেটওয়ার্কগুলি পাঠ্যের সমান্তরাল কর্পাস ছাড়াই অনুবাদের জন্য একটি নতুন ভাষা আয়ত্ত করতে সক্ষম! এই বিষয়ে দুটি গবেষণাপত্র প্রিপ্রিন্ট ওয়েবসাইট arXiv.org-এ প্রকাশিত হয়েছে।

"ভাবুন যে আপনি একজন ব্যক্তিকে অনেকগুলি চীনা বই এবং অনেক আরবি বই দেন - তাদের কোনটিই এক নয় - এবং এই ব্যক্তি চীনা থেকে আরবিতে অনুবাদ করতে শিখেছেন৷ এটা অসম্ভব বলে মনে হচ্ছে, তাই না? কিন্তু আমরা দেখিয়েছি যে একটি কম্পিউটার এটি করতে পারে,” স্পেনের সান সেবাস্তিয়ানের ইউনিভার্সিটি অফ বাস্ক কান্ট্রির কম্পিউটার বিজ্ঞানী মাইকেল আর্টেক্সে বলেছেন।

বেশিরভাগ মেশিন ট্রান্সলেশন নিউরাল নেটওয়ার্ক "একজন শিক্ষকের সাথে" প্রশিক্ষিত হয়, যা একজন ব্যক্তির দ্বারা অনুবাদ করা পাঠ্যের সমান্তরাল কর্পাস। শেখার প্রক্রিয়া চলাকালীন, মোটামুটিভাবে বলতে গেলে, নিউরাল নেটওয়ার্ক একটি অনুমান করে, স্ট্যান্ডার্ডের সাথে পরীক্ষা করে এবং এর সিস্টেমে প্রয়োজনীয় সমন্বয় করে, তারপরে আরও শিখে। সমস্যা হল যে কিছু ভাষার জন্য পৃথিবীতে সমান্তরাল পাঠ্যের একটি বড় সংখ্যা নেই, তাই তারা প্রথাগত মেশিন অনুবাদ নিউরাল নেটওয়ার্কগুলিতে অ্যাক্সেসযোগ্য নয়।


Google নিউরাল মেশিন ট্রান্সলেশন (GNMT) নিউরাল নেটওয়ার্কের "সর্বজনীন ভাষা"। বাম চিত্রে ভিন্ন রঙনীচের ডানদিকে প্রতিটি শব্দের অর্থের ক্লাস্টার দেখানো হয়েছে - বিভিন্ন মানব ভাষা থেকে প্রাপ্ত শব্দের অর্থ: ইংরেজি, কোরিয়ান এবং জাপানি

প্রতিটি ভাষার জন্য একটি দৈত্যাকার "অ্যাটলাস" সংকলন করার পরে, সিস্টেমটি তখন এমন একটি অ্যাটলাসকে অন্যটির উপর চাপিয়ে দেওয়ার চেষ্টা করে - এবং সেখানে আপনার কাছে এটি রয়েছে, আপনার কাছে এক ধরণের সমান্তরাল পাঠ্য কর্পোরা প্রস্তুত রয়েছে!

দুটি প্রস্তাবিত unsupervised লার্নিং আর্কিটেকচারের নকশা তুলনা করা যেতে পারে.


প্রস্তাবিত সিস্টেমের আর্কিটেকচার। L1-এ প্রতিটি বাক্যের জন্য, সিস্টেম দুটি ধাপে বিকল্প করতে শেখে: 1) শব্দ দমন(denoising), যা একটি সাধারণ এনকোডারের সাথে একটি বাক্যটির একটি গোলমালপূর্ণ সংস্করণ এনকোড করার এবং L1 ডিকোডারের সাথে এটি পুনর্গঠনের সম্ভাবনাকে অনুকূল করে; 2) বিপরীত অনুবাদ(ব্যাক-অনুবাদ) যখন একটি বাক্য আউটপুট মোডে অনুবাদ করা হয় (অর্থাৎ, একটি সাধারণ এনকোডার দ্বারা এনকোড করা হয় এবং একটি L2 ডিকোডার দ্বারা ডিকোড করা হয়), এবং তারপরে একটি সাধারণ এনকোডারের সাথে এই অনুবাদিত বাক্যটিকে এনকোড করার এবং মূল বাক্যটিকে পুনর্গঠন করার সম্ভাবনা L1 ডিকোডার অপ্টিমাইজ করা হয়. উদাহরণ: Michela Artetxe et al.


সিস্টেমের প্রস্তাবিত আর্কিটেকচার এবং প্রশিক্ষণের উদ্দেশ্য (দ্বিতীয় বৈজ্ঞানিক কাজ থেকে)। আর্কিটেকচার হল একটি বাক্য-দ্বারা-বাক্য অনুবাদ মডেল, যেখানে এনকোডার এবং ডিকোডার উভয়ই দুটি ভাষায় কাজ করে, ইনপুট ভাষা আইডির উপর নির্ভর করে, যা লুকআপ টেবিলগুলিকে অদলবদল করে। শীর্ষ (স্বয়ংক্রিয়-এনকোডিং): মডেলটিকে প্রতিটি ডোমেনে ডিনোইসিং করার জন্য প্রশিক্ষিত করা হয়। নীচে (অনুবাদ): আগের মতো, প্লাস আমরা আগের পুনরাবৃত্তি (নীল আয়তক্ষেত্র) মডেলের দ্বারা উত্পাদিত অনুবাদটিকে ইনপুট হিসাবে ব্যবহার করে অন্য ভাষা থেকে এনকোড করি। সবুজ উপবৃত্তগুলি ক্ষতি ফাংশনের শর্তগুলি নির্দেশ করে। দৃষ্টান্ত: Guillaume Lampla et al.

উভয় বৈজ্ঞানিক কাজসামান্য পার্থক্য সহ একটি লক্ষণীয়ভাবে অনুরূপ পদ্ধতি ব্যবহার করুন। কিন্তু উভয় ক্ষেত্রেই অনুবাদ কিছু মধ্যবর্তী "ভাষা" বা, আরও ভালভাবে বলা যায়, একটি মধ্যবর্তী মাত্রা বা স্থানের মাধ্যমে করা হয়। এখনও অবধি, তত্ত্বাবধানহীন নিউরাল নেটওয়ার্কগুলি খুব উচ্চ অনুবাদের গুণমান দেখায় না, তবে লেখক বলেছেন যে আপনি যদি একজন শিক্ষকের সামান্য সাহায্য ব্যবহার করেন তবে এটি সহজেই উন্নত করা যেতে পারে, তারা কেবল পরীক্ষার বিশুদ্ধতার জন্য এটি করেনি। .

জন্য উপস্থাপিত কাজ আন্তর্জাতিক সম্মেলনলার্নিং রিপ্রেজেন্টেশন 2018 (শিক্ষার প্রতিনিধিত্বের উপর আন্তর্জাতিক সম্মেলন)। নিবন্ধগুলির কোনটি এখনও বৈজ্ঞানিক প্রেসে প্রকাশিত হয়নি।

আধুনিক ইন্টারনেটে 630 মিলিয়নেরও বেশি সাইট রয়েছে, তবে তাদের মধ্যে মাত্র 6% রাশিয়ান ভাষার সামগ্রী রয়েছে। ভাষা বাধা হল নেটওয়ার্ক ব্যবহারকারীদের মধ্যে জ্ঞান ছড়িয়ে দেওয়ার প্রধান সমস্যা, এবং আমরা বিশ্বাস করি যে এটি শুধুমাত্র বিদেশী ভাষা শেখানোর মাধ্যমে নয়, ব্রাউজারে স্বয়ংক্রিয় মেশিন অনুবাদ ব্যবহার করেও সমাধান করা প্রয়োজন।

আজ আমরা হাবর পাঠকদের ইয়ানডেক্স ব্রাউজার অনুবাদকের দুটি গুরুত্বপূর্ণ প্রযুক্তিগত পরিবর্তন সম্পর্কে বলব। প্রথমত, হাইলাইট করা শব্দ এবং বাক্যাংশের অনুবাদ এখন একটি হাইব্রিড মডেল ব্যবহার করে এবং আমরা আপনাকে মনে করিয়ে দেব যে এই পদ্ধতিটি সম্পূর্ণরূপে নিউরাল নেটওয়ার্ক ব্যবহার করার থেকে কীভাবে আলাদা। দ্বিতীয়ত, অনুবাদকের নিউরাল নেটওয়ার্কগুলি এখন ওয়েব পৃষ্ঠাগুলির গঠনকে বিবেচনা করে, যার বৈশিষ্ট্যগুলি আমরা কাটার নীচে আলোচনা করব।

শব্দ এবং বাক্যাংশের হাইব্রিড অনুবাদক

প্রথম মেশিন অনুবাদ সিস্টেমের উপর ভিত্তি করে ছিল অভিধান এবং নিয়ম(মূলত হাতে লেখা নিয়মিত অক্ষর), যা অনুবাদের গুণমান নির্ধারণ করে। পেশাদার ভাষাবিদরা ক্রমবর্ধমান বিস্তারিত ম্যানুয়াল নিয়মগুলি বিকাশের জন্য বছরের পর বছর ধরে কাজ করেছেন। এই কাজটি এতটাই সময়সাপেক্ষ ছিল যে শুধুমাত্র সবচেয়ে জনপ্রিয় জোড়া ভাষার দিকেই গুরুত্ব দেওয়া হয়েছিল, কিন্তু এইগুলির মধ্যেও মেশিনগুলি একটি খারাপ কাজ করেছিল। জীবন্ত ভাষা খুব একটি জটিল সিস্টেম, যা ভালভাবে নিয়ম মেনে চলে না। দুটি ভাষার মধ্যে চিঠিপত্রের নিয়মগুলি বর্ণনা করা আরও কঠিন।

একটি মেশিনের জন্য ক্রমাগত পরিবর্তিত অবস্থার সাথে খাপ খাইয়ে নেওয়ার একমাত্র উপায় হল বিপুল সংখ্যক সমান্তরাল পাঠ্য থেকে স্বাধীনভাবে শেখা (অর্থে অভিন্ন, কিন্তু লেখা বিভিন্ন ভাষা) এটি মেশিন অনুবাদের পরিসংখ্যানগত পদ্ধতি। কম্পিউটার সমান্তরাল টেক্সট তুলনা করে এবং স্বাধীনভাবে প্যাটার্ন শনাক্ত করে।

পরিসংখ্যান অনুবাদকউভয় সুবিধা এবং অসুবিধা আছে. একদিকে, তিনি বিরল এবং জটিল শব্দ এবং বাক্যাংশগুলি ভালভাবে মনে রাখেন। যদি সেগুলি সমান্তরাল পাঠ্যগুলিতে পাওয়া যায় তবে অনুবাদক সেগুলি মনে রাখবে এবং সঠিকভাবে অনুবাদ করতে থাকবে। অন্যদিকে, একটি অনুবাদের ফলাফল একটি সম্পূর্ণ ধাঁধার মতো হতে পারে: সামগ্রিক চিত্রটি পরিষ্কার বলে মনে হয়, কিন্তু আপনি যদি ঘনিষ্ঠভাবে তাকান তবে আপনি দেখতে পাবেন যে এটি পৃথক টুকরা দিয়ে তৈরি। কারণ হল যে অনুবাদক পৃথক শব্দগুলিকে শনাক্তকারী হিসাবে উপস্থাপন করে, যা কোনভাবেই তাদের মধ্যে সম্পর্ককে প্রতিফলিত করে না। এটি লোকেদের ভাষার অভিজ্ঞতার সাথে অসঙ্গতিপূর্ণ, যেখানে শব্দগুলি কীভাবে ব্যবহার করা হয়, কীভাবে তারা অন্যান্য শব্দের সাথে সম্পর্কিত এবং আলাদা তা দ্বারা সংজ্ঞায়িত করা হয়।

এই সমস্যা সমাধানে সাহায্য করে নিউরাল নেটওয়ার্ক. শব্দ এমবেডিং, নিউরাল মেশিন অনুবাদে ব্যবহৃত হয়, সাধারণত প্রতিটি শব্দকে দৈর্ঘ্যের কয়েকশ সংখ্যার ভেক্টরের সাথে যুক্ত করে। ভেক্টর, পরিসংখ্যানগত পদ্ধতির সাধারণ শনাক্তকারীর বিপরীতে, একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দেওয়ার সময় গঠিত হয় এবং শব্দের মধ্যে সম্পর্ক বিবেচনা করে। উদাহরণ স্বরূপ, মডেলটি চিনতে পারে যে যেহেতু "চা" এবং "কফি" প্রায়শই একই প্রসঙ্গে উপস্থিত হয়, তাই এই দুটি শব্দই নতুন শব্দ "স্পিল" এর প্রেক্ষাপটে সম্ভব হওয়া উচিত, যেটি বলুন, তাদের মধ্যে শুধুমাত্র একটিতে উপস্থিত হয়েছে প্রশিক্ষণের তথ্য।

যাইহোক, ভেক্টর উপস্থাপনা শেখার প্রক্রিয়াটি স্পষ্টতই পরিসংখ্যানগতভাবে উদাহরণের রট মুখস্থ করার চেয়ে বেশি দাবি করে। উপরন্তু, সেই বিরল ইনপুট শব্দগুলির সাথে কী করা উচিত তা স্পষ্ট নয় যেগুলি নেটওয়ার্কের জন্য তাদের জন্য একটি গ্রহণযোগ্য ভেক্টর উপস্থাপনা তৈরি করার জন্য যথেষ্ট পরিমাণে ঘটেনি। এই পরিস্থিতিতে, উভয় পদ্ধতি একত্রিত করা যৌক্তিক।

গত বছর থেকে, Yandex.Translator ব্যবহার করছে হাইব্রিড মডেল. অনুবাদক যখন একজন ব্যবহারকারীর কাছ থেকে একটি পাঠ্য গ্রহণ করেন, তখন তিনি তা অনুবাদের জন্য উভয় সিস্টেমে দেন - নিউরাল নেটওয়ার্ক এবং পরিসংখ্যান অনুবাদক। একটি অ্যালগরিদম, একটি শেখার পদ্ধতির উপর ভিত্তি করে, তারপর কোন অনুবাদটি ভাল তা মূল্যায়ন করে। একটি রেটিং নির্ধারণ করার সময়, কয়েক ডজন কারণ বিবেচনা করা হয় - বাক্যের দৈর্ঘ্য (সংক্ষিপ্ত বাক্যাংশগুলি পরিসংখ্যানগত মডেল দ্বারা আরও ভালভাবে অনুবাদ করা হয়) থেকে বাক্য গঠন পর্যন্ত। সেরা হিসাবে স্বীকৃত অনুবাদ ব্যবহারকারীকে দেখানো হয়।

এটি হাইব্রিড মডেল যা এখন Yandex.Browser-এ ব্যবহৃত হয়, যখন ব্যবহারকারী অনুবাদের জন্য পৃষ্ঠায় নির্দিষ্ট শব্দ এবং বাক্যাংশ নির্বাচন করে।

এই মোডটি বিশেষত তাদের জন্য সুবিধাজনক যারা সাধারণত একটি বিদেশী ভাষায় কথা বলেন এবং শুধুমাত্র অজানা শব্দ অনুবাদ করতে চান। কিন্তু যদি, উদাহরণস্বরূপ, সাধারণ ইংরেজির পরিবর্তে আপনি চীনা ভাষা জুড়ে আসেন, তাহলে পৃষ্ঠা-দ্বারা-পৃষ্ঠা অনুবাদক ছাড়া এটি করা কঠিন হবে। দেখে মনে হবে যে পার্থক্যটি কেবল অনুবাদিত পাঠ্যের ভলিউমে, তবে সবকিছু এত সহজ নয়।

ওয়েব পৃষ্ঠাগুলির নিউরাল নেটওয়ার্ক অনুবাদক

জর্জটাউন পরীক্ষার সময় থেকে প্রায় বর্তমান দিন পর্যন্ত, সমস্ত মেশিন অনুবাদ সিস্টেম প্রতিটি বাক্য অনুবাদ করার জন্য প্রশিক্ষিত হয়েছে উত্স পাঠ্যআলাদাভাবে যদিও একটি ওয়েব পৃষ্ঠা শুধুমাত্র বাক্যের একটি সেট নয়, তবে কাঠামোগত পাঠ্য যা মৌলিকভাবে বিভিন্ন উপাদান ধারণ করে। আসুন বেশিরভাগ পৃষ্ঠার মৌলিক উপাদানগুলি দেখি।

শিরোনাম. সাধারণত উজ্জ্বল এবং বড় পাঠ্য যা আমরা পৃষ্ঠায় প্রবেশ করার সাথে সাথে দেখতে পাই। শিরোনামে প্রায়শই সংবাদের সারমর্ম থাকে, তাই এটি সঠিকভাবে অনুবাদ করা গুরুত্বপূর্ণ। তবে এটি করা কঠিন, কারণ শিরোনামে পর্যাপ্ত পাঠ্য নেই এবং প্রসঙ্গটি না বুঝে আপনি ভুল করতে পারেন। ইংরেজির ক্ষেত্রে, এটি আরও জটিল কারণ ইংরেজি-ভাষার শিরোনামগুলিতে প্রায়শই অপ্রচলিত ব্যাকরণ, অসম্পূর্ণ বা এমনকি অনুপস্থিত ক্রিয়া সহ বাক্যাংশ থাকে। উদাহরণ স্বরূপ, গেম অফ থ্রোনসের প্রিক্যুয়েল ঘোষণা করা হয়েছে.

নেভিগেশন. শব্দ এবং বাক্যাংশ যা আমাদের সাইট নেভিগেট করতে সাহায্য করে। উদাহরণ স্বরূপ, বাড়ি, পেছনেএবং আমার অ্যাকাউন্টএটি "হোম", "ব্যাক" এবং "আমার অ্যাকাউন্ট" হিসাবে অনুবাদ করা খুব কমই উপযুক্ত যদি সেগুলি সাইটের মেনুতে থাকে এবং প্রকাশনার পাঠ্যে না থাকে।

প্রধান পাঠ্য. এটির সাথে সবকিছুই সহজ; এটি সাধারণ পাঠ্য এবং বাক্যগুলির থেকে সামান্যই আলাদা যা আমরা বইগুলিতে পেতে পারি। কিন্তু এখানেও, অনুবাদের ধারাবাহিকতা নিশ্চিত করা গুরুত্বপূর্ণ, অর্থাৎ একই ওয়েব পৃষ্ঠার মধ্যে একই পদ এবং ধারণাগুলি একইভাবে অনুবাদ করা হয়েছে তা নিশ্চিত করা।

ওয়েব পৃষ্ঠাগুলির উচ্চ-মানের অনুবাদের জন্য, এটি একটি নিউরাল নেটওয়ার্ক বা হাইব্রিড মডেল ব্যবহার করা যথেষ্ট নয় - এটি পৃষ্ঠাগুলির গঠনকেও বিবেচনায় নেওয়া প্রয়োজন। এবং এটি করতে আমাদের অনেক প্রযুক্তিগত অসুবিধা মোকাবেলা করতে হয়েছে।

পাঠ্য অংশের শ্রেণীবিভাগ. এটি করার জন্য, আমরা আবার টেক্সট এবং ডকুমেন্টের HTML মার্কআপের উপর ভিত্তি করে ক্যাটবুস্ট এবং ফ্যাক্টর ব্যবহার করি (ট্যাগ, টেক্সট সাইজ, প্রতি টেক্সট ইউনিটের লিঙ্কের সংখ্যা, ...)। কারণগুলি বেশ ভিন্নধর্মী, যে কারণে ক্যাটবুস্ট (গ্রেডিয়েন্ট বুস্টিংয়ের উপর ভিত্তি করে) সর্বোত্তম ফলাফল দেখায় (95% এর উপরে শ্রেণিবিন্যাস নির্ভুলতা)। কিন্তু শুধুমাত্র বিভাগগুলিকে শ্রেণীবদ্ধ করাই যথেষ্ট নয়।

বিচ্ছিন্ন তথ্য. ঐতিহ্যগতভাবে, Yandex.Translator অ্যালগরিদম ইন্টারনেট থেকে পাঠ্যের উপর প্রশিক্ষিত হয়। দেখে মনে হবে এটি একটি ওয়েব পৃষ্ঠা অনুবাদককে প্রশিক্ষণের জন্য একটি আদর্শ সমাধান (অন্য কথায়, নেটওয়ার্কটি একই প্রকৃতির পাঠ্য থেকে শেখে যে পাঠ্যগুলিতে আমরা এটি ব্যবহার করতে যাচ্ছি)। কিন্তু একবার আমরা একে অপরের থেকে বিভিন্ন বিভাগ আলাদা করতে শিখেছি, আমরা আবিষ্কার করেছি আকর্ষণীয় বৈশিষ্ট্য. গড়ে, ওয়েবসাইটগুলিতে, বিষয়বস্তু সমস্ত পাঠ্যের প্রায় 85% গ্রহণ করে, শিরোনাম এবং নেভিগেশন অ্যাকাউন্টিং মাত্র 7.5%। এছাড়াও মনে রাখবেন যে শিরোনাম এবং নেভিগেশন উপাদানগুলি নিজেরাই স্টাইল এবং ব্যাকরণে বাকি পাঠ্য থেকে লক্ষণীয়ভাবে আলাদা। এই দুটি কারণ একসাথে ডেটা তির্যক সমস্যার দিকে পরিচালিত করে। একটি নিউরাল নেটওয়ার্কের জন্য এই বিভাগগুলির বৈশিষ্ট্যগুলিকে উপেক্ষা করা আরও লাভজনক, যা প্রশিক্ষণ সেটে খুব খারাপভাবে উপস্থাপন করা হয়। নেটওয়ার্ক শুধুমাত্র প্রধান পাঠ্য ভালভাবে অনুবাদ করতে শেখে, যে কারণে শিরোনাম এবং নেভিগেশন অনুবাদের গুণমান ক্ষতিগ্রস্ত হয়। এই অপ্রীতিকর প্রভাবকে সমতল করার জন্য, আমরা দুটি জিনিস করেছি: প্রতিটি জোড়া সমান্তরাল বাক্যের জন্য আমরা একটি বরাদ্দ করেছি তিন প্রকারবিভাগগুলি (বিষয়বস্তু, শিরোনাম বা নেভিগেশন) এবং কৃত্রিমভাবে প্রশিক্ষণ কর্পাসের শেষ দুটির ঘনত্বকে 33% এ বাড়িয়েছে কারণ তারা আরও প্রায়ই শেখার নিউরাল নেটওয়ার্কের অনুরূপ উদাহরণ দেখাতে শুরু করেছে।

মাল্টি-টাস্ক শেখার. যেহেতু আমরা এখন ওয়েব পৃষ্ঠাগুলিতে পাঠ্যকে তিনটি শ্রেণির সেগমেন্টে ভাগ করতে পারি, তাই তিনটি পৃথক মডেলকে প্রশিক্ষণ দেওয়া একটি স্বাভাবিক ধারণা বলে মনে হতে পারে, যার প্রতিটি একটি ভিন্ন ধরনের পাঠ্যের অনুবাদ পরিচালনা করবে—শিরোনাম, নেভিগেশন বা বিষয়বস্তু। এটি সত্যিই ভাল কাজ করে, কিন্তু স্কিমটি আরও ভাল কাজ করে যাতে আমরা একটি নিউরাল নেটওয়ার্ককে একযোগে সব ধরনের পাঠ্য অনুবাদ করতে প্রশিক্ষণ দিই। বোঝার মূল চাবিকাঠি মুটলি-টাস্ক লার্নিং (MTL) ধারণার মধ্যে নিহিত: যদি বেশ কয়েকটি মেশিন লার্নিং কাজের মধ্যে একটি অভ্যন্তরীণ সংযোগ থাকে, তবে একটি মডেল যা একই সাথে এই কাজগুলি সমাধান করতে শেখে সে প্রতিটি কাজকে আরও ভালভাবে সমাধান করতে শিখতে পারে। একটি সংকীর্ণ বিশেষ মডেলের চেয়ে!

ফাইন-টিউনিং. আমাদের ইতিমধ্যেই বেশ ভালো মেশিন অনুবাদ ছিল, তাই Yandex.Browser-এর জন্য স্ক্র্যাচ থেকে একজন নতুন অনুবাদককে প্রশিক্ষণ দেওয়া বোকামি হবে। সাধারণ পাঠ্য অনুবাদ করার জন্য একটি মৌলিক সিস্টেম গ্রহণ করা এবং ওয়েব পৃষ্ঠাগুলির সাথে কাজ করার জন্য এটিকে প্রশিক্ষণ দেওয়া আরও যৌক্তিক৷ নিউরাল নেটওয়ার্কের পরিপ্রেক্ষিতে, একে প্রায়ই ফাইন-টিউনিং বলা হয়। কিন্তু আপনি যদি এই সমস্যাটির দিকে এগিয়ে যান, যেমন শুধুমাত্র সমাপ্ত মডেল থেকে মান সহ নিউরাল নেটওয়ার্কের ওজন শুরু করুন এবং নতুন ডেটা শিখতে শুরু করুন, তারপরে আপনি ডোমেন পরিবর্তনের প্রভাবের সম্মুখীন হতে পারেন: প্রশিক্ষণের অগ্রগতির সাথে সাথে ওয়েব পৃষ্ঠাগুলির অনুবাদের গুণমান (ইন-ডোমেন) হবে বাড়লেও নিয়মিত (ডোমেনের বাইরে) লেখার অনুবাদের মান কমে যাবে। এই অপ্রীতিকর বৈশিষ্ট্য থেকে পরিত্রাণ পেতে, অতিরিক্ত প্রশিক্ষণের সময় আমরা নিউরাল নেটওয়ার্কের উপর একটি অতিরিক্ত বিধিনিষেধ আরোপ করি, এটিকে প্রাথমিক অবস্থার তুলনায় খুব বেশি ওজন পরিবর্তন করা থেকে নিষিদ্ধ করে।

গাণিতিকভাবে, এটি ক্ষতি ফাংশনে একটি শব্দ যোগ করে প্রকাশ করা হয়, যা মূল এবং অতিরিক্ত প্রশিক্ষিত নেটওয়ার্ক দ্বারা জারি করা পরবর্তী শব্দ তৈরি করার সম্ভাব্যতা বন্টনের মধ্যে Kullback-Leibler দূরত্ব (KL-ডাইভারজেন্স)। যেমনটি উদাহরণে দেখা যায়, এটি এই সত্যের দিকে পরিচালিত করে যে ওয়েব পৃষ্ঠাগুলির অনুবাদের গুণমান বৃদ্ধির ফলে সাধারণ পাঠ্যের অনুবাদের অবনতি ঘটে না।

নেভিগেশন থেকে পলিশিং ফ্রিকোয়েন্সি বাক্যাংশ. একটি নতুন অনুবাদকের সাথে কাজ করার সময়, আমরা ওয়েব পৃষ্ঠাগুলির বিভিন্ন অংশের পাঠ্যের পরিসংখ্যান সংগ্রহ করেছি এবং কিছু আকর্ষণীয় দেখেছি। ন্যাভিগেশন উপাদানগুলির সাথে সম্পর্কিত পাঠ্যগুলি বেশ উচ্চ মানসম্মত, তাই তারা প্রায়শই একই টেমপ্লেট বাক্যাংশ নিয়ে গঠিত। এটি এমন একটি শক্তিশালী প্রভাব যে ইন্টারনেটে পাওয়া সমস্ত নেভিগেশন বাক্যাংশের অর্ধেকেরও বেশি ঘন ঘন প্রায় 2 হাজারের জন্য দায়ী।

আমরা, অবশ্যই, এটির সুবিধা নিয়েছি এবং তাদের গুণমান সম্পর্কে পুরোপুরি নিশ্চিত হওয়ার জন্য যাচাইয়ের জন্য আমাদের অনুবাদকদের কয়েক হাজার সবচেয়ে সাধারণ বাক্যাংশ এবং তাদের অনুবাদ দিয়েছি।

বাহ্যিক প্রান্তিককরণ। ব্রাউজারে ওয়েব পৃষ্ঠা অনুবাদকের জন্য আরেকটি গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল - এটি মার্কআপকে বিকৃত করা উচিত নয়। যখন এইচটিএমএল ট্যাগগুলি বাক্যের সীমানার বাইরে বা সীমারেখায় স্থাপন করা হয়, তখন কোন সমস্যা হয় না। কিন্তু যদি বাক্যের ভিতরে থাকে, উদাহরণস্বরূপ, দুই আন্ডারলাইন করাশব্দ, তারপর অনুবাদে আমরা দেখতে চাই “দুই আন্ডারলাইন করাশব্দ" সেগুলো. স্থানান্তরের ফলস্বরূপ, দুটি শর্ত পূরণ করতে হবে:

  1. অনুবাদে আন্ডারলাইন করা খণ্ডটি অবশ্যই উৎস টেক্সটের আন্ডারলাইন করা টুকরোটির সাথে মিল থাকতে হবে।
  2. আন্ডারলাইন করা অংশের সীমানায় অনুবাদের ধারাবাহিকতা লঙ্ঘন করা উচিত নয়।
এই আচরণটি অর্জন করার জন্য, আমরা প্রথমে যথারীতি পাঠ্যটি অনুবাদ করি এবং তারপরে উৎসের টুকরো এবং অনুবাদিত পাঠ্যের মধ্যে মিল নির্ধারণ করতে পরিসংখ্যানগত শব্দ-দ্বারা-শব্দ সারিবদ্ধ মডেল ব্যবহার করি। এটি ঠিক কিসের উপর জোর দেওয়া দরকার তা বুঝতে সাহায্য করে (তির্যক ভাষায়, হাইপারলিঙ্ক হিসাবে ফর্ম্যাট করা, ...)।

ছেদ পর্যবেক্ষক. আমাদের প্রশিক্ষিত শক্তিশালী নিউরাল নেটওয়ার্ক অনুবাদ মডেলগুলির জন্য আমাদের সার্ভারগুলিতে (CPU এবং GPU উভয়) পরিসংখ্যানগত মডেলগুলির পূর্ববর্তী প্রজন্মের তুলনায় উল্লেখযোগ্যভাবে বেশি কম্পিউটিং সংস্থান প্রয়োজন। একই সময়ে, ব্যবহারকারীরা সর্বদা পৃষ্ঠাগুলি শেষ পর্যন্ত পড়ে না, তাই ক্লাউডে ওয়েব পৃষ্ঠাগুলির সমস্ত পাঠ্য পাঠানো অপ্রয়োজনীয় বলে মনে হয়। সার্ভার সংস্থান এবং ব্যবহারকারীর ট্রাফিক সংরক্ষণ করতে, আমরা অনুবাদককে ব্যবহার করতে শিখিয়েছি

বা পরিমাণ কি গুণমানে বিকশিত হয়?

RIF+KIB 2017 সম্মেলনের বক্তৃতার উপর ভিত্তি করে প্রবন্ধ।

নিউরাল মেশিন অনুবাদ: কেন শুধু এখন?

নিউরাল নেটওয়ার্কগুলি নিয়ে দীর্ঘকাল ধরে কথা বলা হয়েছে, এবং মনে হবে যে কৃত্রিম বুদ্ধিমত্তার ক্লাসিক সমস্যাগুলির মধ্যে একটি - মেশিন অনুবাদ - কেবল এই প্রযুক্তির ভিত্তিতে সমাধান করার জন্য অনুরোধ করে।

তবুও, এখানে সাধারণভাবে নিউরাল নেটওয়ার্ক এবং বিশেষ করে নিউরাল মেশিন অনুবাদ সম্পর্কে অনুসন্ধানের জন্য জনপ্রিয়তার গতিশীলতা রয়েছে:

এটা স্পষ্টভাবে দৃশ্যমান যে সম্প্রতি পর্যন্ত রাডারে নিউরাল মেশিন ট্রান্সলেশন সম্পর্কে কিছুই ছিল না – এবং 2016 এর শেষে, বেশ কয়েকটি কোম্পানি তাদের নতুন প্রযুক্তি এবং মেশিন ট্রান্সলেশন সিস্টেমগুলিকে প্রদর্শন করেছে, যার মধ্যে Google, Microsoft এবং SYSTRAN সহ নিউরাল নেটওয়ার্কের উপর ভিত্তি করে। তারা প্রায় একযোগে হাজির হয়েছিল, কয়েক সপ্তাহ বা এমনকি দিনের ব্যবধানে। কেন এমন হল?

এই প্রশ্নের উত্তর দেওয়ার জন্য, নিউরাল নেটওয়ার্কের উপর ভিত্তি করে মেশিন অনুবাদ কী এবং আজ মেশিন অনুবাদের জন্য ব্যবহৃত ধ্রুপদী পরিসংখ্যান সিস্টেম বা বিশ্লেষণাত্মক সিস্টেম থেকে এর মূল পার্থক্য কী তা বোঝা দরকার।

নিউরাল ট্রান্সলেটরটি ম্যাট্রিক্স গণনার উপর নির্মিত দ্বিমুখী পুনরাবৃত্ত নিউরাল নেটওয়ার্কের (বাইডাইরেশনাল রিকারেন্ট নিউরাল নেটওয়ার্ক) একটি প্রক্রিয়ার উপর ভিত্তি করে তৈরি করা হয়েছে, যা আপনাকে পরিসংখ্যানগত মেশিন অনুবাদকের তুলনায় উল্লেখযোগ্যভাবে জটিল সম্ভাব্য মডেল তৈরি করতে দেয়।


পরিসংখ্যানগত অনুবাদের মতো, স্নায়ু অনুবাদের জন্য প্রশিক্ষণের জন্য সমান্তরাল পদার্থের প্রয়োজন হয়, যা "মানব" রেফারেন্সের সাথে স্বয়ংক্রিয় অনুবাদের তুলনা করা সম্ভব করে তোলে; শুধুমাত্র শেখার প্রক্রিয়ায় এটি পৃথক বাক্যাংশ এবং শব্দ সংমিশ্রণে নয়, সম্পূর্ণ বাক্যগুলির সাথে কাজ করে। প্রধান সমস্যা হল যে এই ধরনের একটি সিস্টেম প্রশিক্ষণ উল্লেখযোগ্যভাবে আরো কম্পিউটিং শক্তি প্রয়োজন.

প্রক্রিয়াটিকে দ্রুততর করার জন্য, বিকাশকারীরা NVIDIA থেকে GPUs, সেইসাথে Google-এর টেনসর প্রসেসিং ইউনিট (TPU), মালিকানা চিপগুলি ব্যবহার করে যা মেশিন লার্নিং প্রযুক্তির জন্য বিশেষভাবে অভিযোজিত হয়। গ্রাফিক্স চিপগুলি প্রাথমিকভাবে ম্যাট্রিক্স ক্যালকুলেশন অ্যালগরিদমের জন্য অপ্টিমাইজ করা হয়, এবং সেইজন্য সিপিইউর তুলনায় কর্মক্ষমতা লাভ 7-15 গুণ।

তা সত্ত্বেও, একটি একক নিউরাল মডেলকে প্রশিক্ষণ দিতে 1 থেকে 3 সপ্তাহ সময় লাগে, যখন মোটামুটি একই আকারের একটি পরিসংখ্যানগত মডেল প্রশিক্ষণের জন্য 1 থেকে 3 দিন সময় নেয় এবং আকার বৃদ্ধির সাথে সাথে এই পার্থক্যটি বৃদ্ধি পায়।

যাইহোক, এটি কেবলমাত্র প্রযুক্তিগত সমস্যাই ছিল না যা মেশিন অনুবাদ কাজের পরিপ্রেক্ষিতে নিউরাল নেটওয়ার্কগুলির বিকাশকে বাধা দেয়। শেষ পর্যন্ত, ভাষা মডেলগুলিকে আগে প্রশিক্ষিত করা সম্ভব হয়েছিল, যদিও আরও ধীরে ধীরে, কিন্তু কোন মৌলিক বাধা ছিল না।

নিউরাল নেটওয়ার্কের ফ্যাশনও একটি ভূমিকা পালন করেছে। অনেক লোক অভ্যন্তরীণভাবে বিকাশ করছিল, কিন্তু তারা এটি ঘোষণা করার জন্য কোন তাড়াহুড়ো করেনি, এই ভয়ে যে তারা সম্ভবত নিউরাল নেটওয়ার্কস শব্দগুচ্ছ থেকে সমাজের প্রত্যাশার মানের বৃদ্ধি পাবে না। এটি ব্যাখ্যা করতে পারে যে একাধিক নিউরাল অনুবাদক একের পর এক ঘোষণা করা হয়েছিল।

অনুবাদ গুণমান: কার BLEU স্কোর মোটা?

অনুবাদের মানের বৃদ্ধি পুঞ্জীভূত প্রত্যাশা এবং অনুবাদের জন্য নিউরাল নেটওয়ার্কগুলির বিকাশ এবং সহায়তার সাথে ব্যয় বৃদ্ধির সাথে সামঞ্জস্যপূর্ণ কিনা তা বোঝার চেষ্টা করা যাক।
Google তার গবেষণায় দেখায় যে নিউরাল মেশিন ট্রান্সলেশন 58% থেকে 87% পর্যন্ত আপেক্ষিক উন্নতি দেয়, ভাষা জোড়ার উপর নির্ভর করে, ক্লাসিক্যাল পরিসংখ্যানগত পদ্ধতির (বা বাক্যাংশ ভিত্তিক মেশিন অনুবাদ, PBMT, এটিও বলা হয়) তুলনায়।


SYSTRAN একটি অধ্যয়ন পরিচালনা করে যেখানে অনুবাদের গুণমান মূল্যায়ন করা হয় বিভিন্ন উপস্থাপিত বিকল্পগুলি থেকে নির্বাচন করে বিভিন্ন সিস্টেম, সেইসাথে "মানব" অনুবাদ। এবং তিনি বলেছেন যে তার নিউরাল অনুবাদ 46% ক্ষেত্রে মানুষের অনুবাদের জন্য পছন্দ করা হয়।

অনুবাদ গুণমান: একটি যুগান্তকারী আছে?

যদিও Google 60% বা তার বেশি উন্নতির দাবি করে, এই পরিসংখ্যানে সামান্য ধরা আছে। কোম্পানির প্রতিনিধিরা "আপেক্ষিক উন্নতি" সম্পর্কে কথা বলেন, অর্থাৎ, ক্লাসিক পরিসংখ্যান অনুবাদকের মধ্যে যা ছিল তার সাথে সম্পর্কিত মানব অনুবাদের মানের স্নায়বিক পদ্ধতির সাথে তারা কতটা ঘনিষ্ঠভাবে পরিচালনা করেছে।


শিল্প বিশেষজ্ঞরা "গুগলের নিউরাল মেশিন ট্রান্সলেশন সিস্টেম: হিউম্যান অ্যান্ড মেশিন ট্রান্সলেশনের মধ্যে ব্যবধান কমানো" নিবন্ধে Google দ্বারা উপস্থাপিত ফলাফলগুলি বিশ্লেষণ করে উপস্থাপিত ফলাফলগুলি সম্পর্কে যথেষ্ট সন্দিহান এবং বলছেন যে আসলে BLEU স্কোর শুধুমাত্র 10% দ্বারা উন্নত হয়েছে, এবং উল্লেখযোগ্য অগ্রগতি স্পষ্টভাবে লক্ষণীয় যখন সহজ পরীক্ষাউইকিপিডিয়া থেকে, যা সম্ভবত নেটওয়ার্ক প্রশিক্ষণ প্রক্রিয়ায় ব্যবহৃত হয়েছিল।

PROMT-এর ভিতরে, আমরা প্রতিযোগীদের সাথে আমাদের সিস্টেমের বিভিন্ন পাঠ্যের অনুবাদগুলিকে নিয়মিত তুলনা করি, এবং সেইজন্য আমাদের কাছে সর্বদা এমন উদাহরণ রয়েছে যেগুলির সাহায্যে আমরা পরীক্ষা করতে পারি যে স্নায়ু অনুবাদটি নির্মাতারা দাবি করার মতো আগের প্রজন্মের তুলনায় সত্যিই উন্নত কিনা।

মূল পাঠ্য (EN): দুশ্চিন্তা কখনোই কারো উপকার করেনি।
গুগল ট্রান্সলেশন পিবিএমটি: দুশ্চিন্তা না করে কারও ভালো কিছু করেননি।
গুগল ট্রান্সলেশন NMT: দুশ্চিন্তা কখনো কাউকে সাহায্য করেনি।

যাইহোক, Translate.Ru-এ একই বাক্যাংশের অনুবাদ: "উদ্বেগ কখনো কারো উপকার করেনি," আপনি দেখতে পাচ্ছেন যে এটি নিউরাল নেটওয়ার্ক ব্যবহার না করেই একই ছিল এবং রয়ে গেছে।

মাইক্রোসফট ট্রান্সলেটরও এক্ষেত্রে পিছিয়ে নেই। Google-এর তাদের সহকর্মীদের থেকে ভিন্ন, তারা এমন একটি ওয়েবসাইট তৈরি করেছে যেখানে আপনি দুটি ফলাফল অনুবাদ এবং তুলনা করতে পারেন: নিউরাল এবং প্রি-নিউরাল, নিশ্চিত করার জন্য যে গুণমানের বৃদ্ধি সম্পর্কে বিবৃতিগুলি ভিত্তিহীন নয়।


এই উদাহরণে, আমরা দেখতে পাই যে সেখানে অগ্রগতি রয়েছে এবং এটি সত্যিই লক্ষণীয়। প্রথম নজরে, মনে হচ্ছে যে ডেভেলপারদের বক্তব্য যে মেশিন অনুবাদ প্রায় মানব অনুবাদের সাথে ধরা পড়েছে। কিন্তু এটি কি সত্যিই তাই, এবং ব্যবসার জন্য প্রযুক্তির ব্যবহারিক প্রয়োগের পরিপ্রেক্ষিতে এর অর্থ কী?

ভিতরে সাধারণ ক্ষেত্রেনিউরাল নেটওয়ার্ক ব্যবহার করে অনুবাদ পরিসংখ্যানগত অনুবাদের চেয়ে উচ্চতর, এবং এই প্রযুক্তির বিকাশের জন্য প্রচুর সম্ভাবনা রয়েছে। কিন্তু যদি আমরা বিষয়টিকে মনোযোগ সহকারে দেখি, তাহলে আমরা দেখতে পাব যে সবকিছুতেই অগ্রগতি নেই, এবং সমস্ত কাজই স্নায়ু নেটওয়ার্কে প্রয়োগ করা যায় না কাজটিকে বিবেচনা না করে।

মেশিন অনুবাদ: চ্যালেঞ্জ কি?

স্বয়ংক্রিয় অনুবাদক থেকে এর অস্তিত্বের পুরো ইতিহাস - এবং এটি ইতিমধ্যে 60 বছরেরও বেশি! - তারা কিছু জাদু আশা করছিল, এটিকে বিজ্ঞান কল্পকাহিনীর একটি যন্ত্র হিসাবে কল্পনা করে যা তাত্ক্ষণিকভাবে যে কোনও বক্তৃতাকে একটি এলিয়েন হুইসেল এবং পিছনে রূপান্তরিত করে।

প্রকৃতপক্ষে, কার্যগুলি বিভিন্ন স্তরে আসে, যার মধ্যে একটি "সর্বজনীন" বা, তাই বলতে গেলে, দৈনন্দিন কাজগুলির জন্য "প্রতিদিন" অনুবাদ এবং বোঝার সহজতা জড়িত। অনলাইন অনুবাদ পরিষেবা এবং অনেক মোবাইল পণ্য এই স্তরে কাজগুলির সাথে ভালভাবে মোকাবেলা করে।

এই ধরনের কাজ অন্তর্ভুক্ত:

বিভিন্ন উদ্দেশ্যে শব্দ এবং ছোট পাঠ্যের দ্রুত অনুবাদ;
ফোরামে যোগাযোগের সময় স্বয়ংক্রিয় অনুবাদ, ইন সামাজিক নেটওয়ার্কগুলিতে, বার্তাবাহক;
খবর পড়ার সময় স্বয়ংক্রিয় অনুবাদ, উইকিপিডিয়া নিবন্ধ;
ভ্রমণ অনুবাদক (মোবাইল)।

নিউরাল নেটওয়ার্ক ব্যবহার করে অনুবাদের গুণমান বাড়ানোর এই সমস্ত উদাহরণ যা আমরা উপরে আলোচনা করেছি এই কাজগুলির সাথে অবিকল সম্পর্কযুক্ত।

যাইহোক, যখন মেশিন অনুবাদ সম্পর্কিত ব্যবসায়িক লক্ষ্য এবং উদ্দেশ্য আসে, জিনিসগুলি একটু ভিন্ন। এখানে, উদাহরণস্বরূপ, কর্পোরেট মেশিন অনুবাদ সিস্টেমের জন্য কিছু প্রয়োজনীয়তা রয়েছে:

অনুবাদ আমার স্নাতকেরক্লায়েন্ট, অংশীদার, বিনিয়োগকারী, বিদেশী কর্মচারীদের সাথে;
ওয়েবসাইট স্থানীয়করণ, অনলাইন স্টোর, পণ্যের বিবরণ, নির্দেশাবলী;
ব্যবহারকারীর বিষয়বস্তুর অনুবাদ (রিভিউ, ফোরাম, ব্লগ);
ব্যবসায়িক প্রক্রিয়া এবং সফ্টওয়্যার পণ্য এবং পরিষেবাগুলিতে অনুবাদকে একীভূত করার ক্ষমতা;
পরিভাষা, গোপনীয়তা এবং নিরাপত্তার সাথে সম্মতিতে অনুবাদের যথার্থতা।

চলুন, উদাহরণ ব্যবহার করে বোঝার চেষ্টা করি, নিউরাল নেটওয়ার্ক ব্যবহার করে কোনো অনুবাদ ব্যবসায়িক সমস্যা সমাধান করা যায় কিনা এবং ঠিক কীভাবে।

কেস: অ্যামাডিয়াস

Amadeus হল বিশ্বের বৃহত্তম গ্লোবাল এয়ারলাইন টিকিট বিতরণ ব্যবস্থাগুলির মধ্যে একটি। একদিকে, এয়ার ক্যারিয়ারগুলি এটির সাথে সংযুক্ত থাকে, অন্যদিকে, সংস্থাগুলিকে অবশ্যই রিয়েল টাইমে পরিবর্তন সম্পর্কে সমস্ত তথ্য গ্রহণ করতে হবে এবং তাদের ক্লায়েন্টদের কাছে পৌঁছে দিতে হবে।

কাজটি হল ট্যারিফ (ভাড়ার নিয়ম) প্রয়োগের শর্তগুলি স্থানীয়করণ করা, যা বিভিন্ন উত্স থেকে রিজার্ভেশন সিস্টেমে স্বয়ংক্রিয়ভাবে তৈরি হয়। এই নিয়ম সবসময় উপর গঠিত হয় ইংরেজী ভাষা. ম্যানুয়াল অনুবাদ এখানে কার্যত অসম্ভব, কারণ এখানে প্রচুর তথ্য রয়েছে এবং এটি প্রায়শই পরিবর্তিত হয়। একজন এয়ারলাইন টিকিট এজেন্ট তাদের ক্লায়েন্টদের দ্রুত এবং দক্ষতার সাথে পরামর্শ দেওয়ার জন্য রাশিয়ান ভাষায় ভাড়ার নিয়ম পড়তে চান।

একটি সুস্পষ্ট অনুবাদ প্রয়োজন যা ট্যারিফ নিয়মের অর্থ প্রকাশ করে, সাধারণ পদ এবং সংক্ষিপ্ত রূপগুলি বিবেচনা করে। এবং এর জন্য স্বয়ংক্রিয় অনুবাদের প্রয়োজন সরাসরি অ্যামাডেউস বুকিং সিস্টেমে একত্রিত করা।

→ প্রকল্পের কাজ এবং বাস্তবায়ন নথিতে বিশদভাবে বর্ণনা করা হয়েছে।

আসুন PROMT ক্লাউড API-এর মাধ্যমে করা অনুবাদের তুলনা করার চেষ্টা করি, যা Amadeus Fare Rules Translator-এ সমন্বিত, এবং Google থেকে "নিউরাল" অনুবাদ।

আসল: রাউন্ড ট্রিপ তাত্ক্ষণিক ক্রয় ভাড়া

PROMT (বিশ্লেষণমূলক পদ্ধতি): একটি রাউন্ড ফ্লাইটের তাত্ক্ষণিক ক্রয়ের জন্য হার

GNMT: রাউন্ড ক্রয়

এটা স্পষ্ট যে স্নায়ু অনুবাদক এখানে মোকাবেলা করতে পারে না, এবং একটু এগিয়ে এটি কেন স্পষ্ট হয়ে যাবে।

কেস: TripAdvisor

TripAdvisor হল বিশ্বের বৃহত্তম ভ্রমণ পরিষেবাগুলির মধ্যে একটি যার কোনও পরিচয়ের প্রয়োজন নেই৷ দ্য টেলিগ্রাফ দ্বারা প্রকাশিত একটি নিবন্ধ অনুসারে, বিভিন্ন ভাষায় বিভিন্ন পর্যটন সাইটের 165,600 টি নতুন পর্যালোচনা প্রতিদিন সাইটে উপস্থিত হয়।

কাজটি হল এই পর্যালোচনার অর্থ বোঝার জন্য পর্যাপ্ত অনুবাদ গুণমান সহ ইংরেজি থেকে রাশিয়ান ভাষায় পর্যটক পর্যালোচনাগুলি অনুবাদ করা। প্রধান অসুবিধা: ব্যবহারকারীর তৈরি সামগ্রীর সাধারণ বৈশিষ্ট্য (ত্রুটি সহ পাঠ্য, টাইপো, অনুপস্থিত শব্দ)।

এছাড়াও টাস্কের অংশ ছিল TripAdvisor ওয়েবসাইটে প্রকাশের আগে অনুবাদের গুণমান স্বয়ংক্রিয়ভাবে মূল্যায়ন করা। যেহেতু ম্যানুয়ালি সমস্ত অনূদিত বিষয়বস্তু মূল্যায়ন করা সম্ভব নয়, তাই একটি মেশিন অনুবাদ সমাধানকে অবশ্যই একটি স্বয়ংক্রিয় আত্মবিশ্বাসের স্কোর প্রদান করতে হবে যাতে TripAdvisor শুধুমাত্র উচ্চ-মানের অনুবাদিত পর্যালোচনা প্রকাশ করে।

সমাধানের জন্য, PROMT DeepHybrid প্রযুক্তি ব্যবহার করা হয়েছিল, যা অনুবাদ ফলাফলের পরিসংখ্যানগত পোস্ট-সম্পাদনা সহ শেষ পাঠকের কাছে বোধগম্য একটি উচ্চ মানের অনুবাদ পাওয়া সম্ভব করে।

আসুন উদাহরণ দেখি:

অরিজিনাল: আমরা গতরাতে সেখানে খেয়েছি এবং এটি একটি সুন্দর খাবার ছিল। ওভার বিয়ারিং ছাড়াই সেবাটি মনোযোগী ছিল।

PROMT (হাইব্রিড অনুবাদ): আমরা গত রাতে সেখানে খেয়েছিলাম এবং এটি একটি দুর্দান্ত খাবার ছিল। কর্মীরা অবাধ্য না হয়ে মনোযোগী ছিল।

জিএনএমটি: আমরা গত রাতে সেখানে খেয়েছিলাম এবং এটি একটি দুর্দান্ত খাবার ছিল। সেবা অবাধ্য না হয়ে মনোযোগী ছিল.

এখানে সবকিছু আগের উদাহরণের মতো মানের দিক থেকে হতাশাজনক নয়। এবং সাধারণভাবে, এর পরামিতিগুলির পরিপ্রেক্ষিতে, এই সমস্যাটি সম্ভাব্যভাবে নিউরাল নেটওয়ার্ক ব্যবহার করে সমাধান করা যেতে পারে এবং এটি অনুবাদের গুণমানকে আরও উন্নত করতে পারে।

ব্যবসার জন্য NMT ব্যবহার করার চ্যালেঞ্জ

আগেই উল্লেখ করা হয়েছে, একজন "সর্বজনীন" অনুবাদক সর্বদা গ্রহণযোগ্য গুণমান প্রদান করে না এবং নির্দিষ্ট পরিভাষা সমর্থন করতে পারে না। আপনার প্রক্রিয়াগুলিতে অনুবাদের জন্য নিউরাল নেটওয়ার্কগুলিকে সংহত করতে এবং ব্যবহার করতে, আপনাকে মৌলিক প্রয়োজনীয়তাগুলি পূরণ করতে হবে:

একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দিতে সক্ষম হওয়ার জন্য সমান্তরাল পাঠ্যের পর্যাপ্ত পরিমাণের উপস্থিতি। প্রায়শই গ্রাহকের কাছে সেগুলির মধ্যে কয়েকটি থাকে বা প্রকৃতিতে এই বিষয়ে কোনও পাঠ্য নেই। তারা শ্রেণীবদ্ধ বা স্বয়ংক্রিয় প্রক্রিয়াকরণের জন্য খুব উপযুক্ত নয় এমন অবস্থায় থাকতে পারে।

একটি মডেল তৈরি করতে, আপনার একটি ডাটাবেস প্রয়োজন যাতে কমপক্ষে 100 মিলিয়ন টোকেন (শব্দ ব্যবহার) থাকে এবং কম বা কম গ্রহণযোগ্য মানের অনুবাদ পেতে - 500 মিলিয়ন টোকেন। প্রতিটি কোম্পানির এত পরিমাণ উপকরণ নেই।

প্রাপ্ত ফলাফলের গুণমান স্বয়ংক্রিয়ভাবে মূল্যায়নের জন্য একটি প্রক্রিয়া বা অ্যালগরিদমের উপলব্ধতা।

পর্যাপ্ত কম্পিউটিং শক্তি।
একটি "সর্বজনীন" নিউরাল অনুবাদক প্রায়শই গুণমানের ক্ষেত্রে উপযুক্ত নয় এবং গ্রহণযোগ্য গুণমান এবং কাজের গতি প্রদান করতে সক্ষম আপনার নিজস্ব ব্যক্তিগত নিউরাল নেটওয়ার্ক স্থাপন করার জন্য, একটি "ছোট মেঘ" প্রয়োজন।

গোপনীয়তার সাথে কী করতে হবে তা পরিষ্কার নয়।
প্রতিটি গ্রাহক নিরাপত্তার কারণে ক্লাউডে অনুবাদের জন্য তাদের সামগ্রী দিতে প্রস্তুত নয় এবং NMT হল একটি ক্লাউড-প্রথম গল্প।

উপসংহার

সাধারণভাবে, নিউরাল স্বয়ংক্রিয় অনুবাদ একটি "বিশুদ্ধভাবে" পরিসংখ্যানগত পদ্ধতির চেয়ে উচ্চ মানের ফলাফল তৈরি করে;
একটি নিউরাল নেটওয়ার্কের মাধ্যমে স্বয়ংক্রিয় অনুবাদ "সর্বজনীন অনুবাদ" এর সমস্যা সমাধানের জন্য আরও উপযুক্ত;
MT-এর কোনো পন্থা নিজেই অনুবাদের সমস্যা সমাধানের জন্য একটি আদর্শ সার্বজনীন হাতিয়ার নয়;
ব্যবসায়িক অনুবাদ সমস্যা সমাধানের জন্য, শুধুমাত্র বিশেষ সমাধানগুলি সমস্ত প্রয়োজনীয়তার সাথে সম্মতির গ্যারান্টি দিতে পারে।

আমরা একেবারে সুস্পষ্ট এবং যৌক্তিক সিদ্ধান্তে এসেছি যে আপনার অনুবাদ কাজের জন্য আপনাকে অনুবাদক ব্যবহার করতে হবে যা এর জন্য সবচেয়ে উপযুক্ত। ভিতরে একটি নিউরাল নেটওয়ার্ক আছে কিনা তা কোন ব্যাপার না। কাজটি নিজেই বোঝা আরও গুরুত্বপূর্ণ।

ট্যাগ: ট্যাগ যোগ করুন

09.14.2017, বৃহস্পতি, 14:19, মস্কো সময় , পাঠ্য: Valeria Shmyrova

Yandex.Translator পরিষেবাতে, পরিসংখ্যানগত অনুবাদ ছাড়াও, একটি নিউরাল নেটওয়ার্ক থেকে অনুবাদের বিকল্প উপলব্ধ হয়েছে৷ এর সুবিধা হল এটি সম্পূর্ণ বাক্যের সাথে কাজ করে, প্রসঙ্গকে আরও ভালোভাবে বিবেচনা করে এবং সামঞ্জস্যপূর্ণ, স্বাভাবিক পাঠ্য তৈরি করে। যাইহোক, যখন একটি নিউরাল নেটওয়ার্ক কিছু বুঝতে পারে না, তখন এটি কল্পনা করতে শুরু করে।

একটি নিউরাল নেটওয়ার্ক চালু করা হচ্ছে

Yandex.Translator পরিষেবা একটি নিউরাল নেটওয়ার্ক চালু করেছে যা অনুবাদের মান উন্নত করতে সাহায্য করবে৷ পূর্বে, একটি পরিসংখ্যান পদ্ধতি ব্যবহার করে এক ভাষা থেকে অন্য ভাষাতে অনুবাদ করা হত। এখন প্রক্রিয়াটি হাইব্রিড হবে: পরিসংখ্যান মডেল এবং নিউরাল নেটওয়ার্ক উভয়ই তাদের নিজস্ব অনুবাদের সংস্করণ অফার করবে। এর পরে, ক্যাটবুস্ট অ্যালগরিদম, যা মেশিন লার্নিংয়ের উপর ভিত্তি করে, প্রাপ্ত সেরা ফলাফল নির্বাচন করবে।

এখন পর্যন্ত, নিউরাল নেটওয়ার্ক শুধুমাত্র ইংরেজি থেকে রাশিয়ান এবং শুধুমাত্র পরিষেবার ওয়েব সংস্করণে অনুবাদ করে। কোম্পানির মতে, Yandex.Translator-এ ইংরেজি-রাশিয়ান অনুবাদের অনুরোধগুলি সমস্ত অনুরোধের 80% তৈরি করে৷ আগামী মাসগুলিতে, বিকাশকারীরা অন্যান্য এলাকায় হাইব্রিড মডেলটি চালু করতে চায়। ব্যবহারকারীকে বিভিন্ন প্রক্রিয়া থেকে অনুবাদ তুলনা করার অনুমতি দিতে, একটি বিশেষ সুইচ প্রদান করা হয়।

পরিসংখ্যান অনুবাদক থেকে পার্থক্য

একটি নিউরাল নেটওয়ার্কের অপারেটিং নীতি পরিসংখ্যান অনুবাদ মডেল থেকে পৃথক। টেক্সট শব্দকে শব্দ দ্বারা অনুবাদ করার পরিবর্তে, অভিব্যক্তি দ্বারা অভিব্যক্তি, এটি সম্পূর্ণ বাক্যাংশে ভাগ না করে কাজ করে। এর জন্য ধন্যবাদ, অনুবাদটি প্রসঙ্গটি বিবেচনা করে এবং অর্থটি আরও ভালভাবে বোঝায়। উপরন্তু, অনুদিত বাক্যটি সামঞ্জস্যপূর্ণ, স্বাভাবিক, সহজে পড়া এবং বোঝা যায়। ডেভেলপারদের মতে, এটি একটি মানব অনুবাদকের কাজের জন্য ভুল হতে পারে।

নিউরাল নেটওয়ার্ক অনুবাদ মানুষের অনুবাদের অনুরূপ

নিউরাল নেটওয়ার্কের বিশেষত্বের মধ্যে রয়েছে "ফ্যান্টাসাইজ" করার প্রবণতা যখন এটি কিছু বুঝতে পারে না। এইভাবে তিনি সঠিক অনুবাদ অনুমান করার চেষ্টা করেন।

একজন পরিসংখ্যান অনুবাদকের এর সুবিধা রয়েছে: তিনি আরও সফলভাবে বিরল শব্দ এবং অভিব্যক্তি অনুবাদ করেন - কম সাধারণ নাম, শীর্ষস্থানীয় ইত্যাদি। উপরন্তু, বাক্যটির অর্থ স্পষ্ট না হলে তিনি কল্পনা করেন না। বিকাশকারীদের মতে, পরিসংখ্যান মডেলটি ছোট বাক্যাংশের সাথে আরও ভালভাবে মোকাবেলা করে।

অন্যান্য প্রক্রিয়া

Yandex.Translator এর একটি বিশেষ ব্যবস্থা রয়েছে যা একটি নিউরাল নেটওয়ার্কের অনুবাদকে পরিমার্জিত করে, ঠিক যেমন একটি পরিসংখ্যান অনুবাদকের অনুবাদ, শব্দের অমিল সমন্বয় এবং বানান ত্রুটি সংশোধন করে। এর জন্য ধন্যবাদ, ব্যবহারকারী "বাবা গেলেন" বা "এর মতো সমন্বয় দেখতে পাবেন না তীব্র ব্যথা", বিকাশকারীরা আশ্বাস দেয়। এই প্রভাবটি ভাষা মডেলের সাথে অনুবাদের তুলনা করে অর্জন করা হয় - সিস্টেম দ্বারা সঞ্চিত ভাষা সম্পর্কে সমস্ত জ্ঞান।

কঠিন ক্ষেত্রে, নিউরাল নেটওয়ার্ক ফ্যান্টাসাইজ করতে থাকে

একটি ভাষার মডেলে একটি ভাষার শব্দ এবং অভিব্যক্তির তালিকা রয়েছে, সেইসাথে তাদের ব্যবহারের ফ্রিকোয়েন্সি সম্পর্কিত ডেটা রয়েছে। এটি Yandex.Translator এর বাইরে অ্যাপ্লিকেশন খুঁজে পেয়েছে। উদাহরণস্বরূপ, Yandex.Keyboard ব্যবহার করার সময়, তিনিই অনুমান করেন যে ব্যবহারকারী পরবর্তীতে কোন শব্দটি টাইপ করতে চায় এবং তাকে প্রস্তুত বিকল্পগুলি অফার করে। উদাহরণস্বরূপ, ভাষার মডেল বুঝতে পারে যে "হ্যালো, কিভাবে" এর পরে "করতে হবে" বা "আপনি" এর রূপগুলি অনুসরণ করা হতে পারে৷

"Yandex.Translator" কি

"Yandex.Translator হল Yandex কোম্পানির থেকে এক ভাষা থেকে অন্য ভাষায় পাঠ্য অনুবাদ করার জন্য একটি পরিষেবা, যা 2011 সালে কাজ শুরু করেছিল৷ প্রাথমিকভাবে, এটি শুধুমাত্র রাশিয়ান, ইউক্রেনীয় এবং ইংরেজিতে কাজ করেছিল৷

পরিষেবার অস্তিত্বের সময়, ভাষার সংখ্যা 94 টি ভাষায় বৃদ্ধি পেয়েছে। তাদের মধ্যে বিনুনি বা papiamento হিসাবে বহিরাগত বেশী আছে. যে কোনো দুটি ভাষার মধ্যে অনুবাদ করা যায়।

2016 সালে, Yandex.Translator J.R.R. Tolkien-এর বইগুলিতে এলভদের দ্বারা ব্যবহৃত একটি কাল্পনিক এবং কৃত্রিমভাবে তৈরি ভাষা যোগ করেছে।



সাইটে নতুন

>

সবচেয়ে জনপ্রিয়