ઘર નિવારણ ન્યુરલ નેટવર્ક અનુવાદક વધુ ઝડપી નજીક વધુ સચોટ. ન્યુરલ નેટવર્ક Yandex.Browser માં અનુવાદોને વધુ યોગ્ય બનાવશે

ન્યુરલ નેટવર્ક અનુવાદક વધુ ઝડપી નજીક વધુ સચોટ. ન્યુરલ નેટવર્ક Yandex.Browser માં અનુવાદોને વધુ યોગ્ય બનાવશે

સર્ચ એન્જિન દ્વારા અનુક્રમિત વેબસાઇટ્સની અડધા અબજથી વધુ નકલો છે, અને કુલ જથ્થોહજારો ગણા વધુ વેબ પૃષ્ઠો છે. રશિયન ભાષાની સામગ્રી સમગ્ર ઇન્ટરનેટનો 6% હિસ્સો લે છે.

ઇચ્છિત ટેક્સ્ટનો ઝડપથી અને એવી રીતે અનુવાદ કેવી રીતે કરવો કે લેખક દ્વારા ઇચ્છિત અર્થ સચવાય. આંકડાકીય સામગ્રી અનુવાદ મોડ્યુલોની જૂની પદ્ધતિઓ ખૂબ જ શંકાસ્પદ રીતે કામ કરે છે, કારણ કે... શબ્દોના ક્ષીણતા, તંગ વગેરેને ચોક્કસ રીતે નક્કી કરવું અશક્ય છે. શબ્દોની પ્રકૃતિ અને તેમની વચ્ચેના જોડાણો જટિલ છે, તેથી જ પરિણામ ક્યારેક ખૂબ જ અકુદરતી દેખાતું હતું.

હવે યાન્ડેક્સ સ્વચાલિત મશીન અનુવાદનો ઉપયોગ કરે છે, જે પરિણામી ટેક્સ્ટની ગુણવત્તામાં સુધારો કરશે. તમે નવા બિલ્ટ-ઇન અનુવાદ સાથે બ્રાઉઝરનું નવીનતમ અધિકૃત સંસ્કરણ ડાઉનલોડ કરી શકો છો.

શબ્દસમૂહો અને શબ્દોનો વર્ણસંકર અનુવાદ

યાન્ડેક્ષ બ્રાઉઝર એ એકમાત્ર બ્રાઉઝર છે જે સંપૂર્ણ પૃષ્ઠ, તેમજ શબ્દો અને શબ્દસમૂહોને વ્યક્તિગત રૂપે અનુવાદિત કરી શકે છે. ફંક્શન તે વપરાશકર્તાઓ માટે ખૂબ જ ઉપયોગી થશે જેઓ વધુ કે ઓછા માલિકી ધરાવે છે વિદેશી ભાષા, પરંતુ કેટલીકવાર અનુવાદની મુશ્કેલીઓનો સામનો કરવો પડે છે.

શબ્દ અનુવાદ મિકેનિઝમમાં બનેલ ન્યુરલ નેટવર્ક હંમેશા સોંપેલ કાર્યો સાથે સામનો કરતું નથી, કારણ કે લખાણમાં દુર્લભ શબ્દોને એમ્બેડ કરવું અને તેને વાંચવા યોગ્ય બનાવવું અત્યંત મુશ્કેલ હતું. હવે જૂની અને નવી તકનીકોનો ઉપયોગ કરીને એપ્લિકેશનમાં એક હાઇબ્રિડ પદ્ધતિ બનાવવામાં આવી છે.

મિકેનિઝમ આ છે: પ્રોગ્રામ પસંદ કરેલા વાક્યો અથવા શબ્દોને સ્વીકારે છે, પછી તે બંને ન્યુરલ નેટવર્ક મોડ્યુલો અને આંકડાકીય અનુવાદકને આપે છે, અને બિલ્ટ-ઇન અલ્ગોરિધમ નક્કી કરે છે કે કયું પરિણામ વધુ સારું છે અને પછી તે વપરાશકર્તાને આપે છે.

ન્યુરલ નેટવર્ક અનુવાદક

વિદેશી સામગ્રી ખૂબ ચોક્કસ રીતે ફોર્મેટ કરવામાં આવે છે:

  • હેડિંગમાં શબ્દોના પ્રથમ અક્ષરો કેપિટલમાં લખવામાં આવે છે;
  • વાક્યો સરળ વ્યાકરણ સાથે બાંધવામાં આવે છે, કેટલાક શબ્દો અવગણવામાં આવે છે.

વેબસાઇટ્સ પરના નેવિગેશન મેનુઓનું તેમના સ્થાનને ધ્યાનમાં લઈને વિશ્લેષણ કરવામાં આવે છે, ઉદાહરણ તરીકે પાછા શબ્દ, સાચો અનુવાદ બેક (પાછળ જાઓ), અને પાછળ નહીં.

ઉપરોક્ત તમામ સુવિધાઓને ધ્યાનમાં લેવા માટે, વિકાસકર્તાઓએ વધુમાં એક ન્યુરલ નેટવર્કને તાલીમ આપી છે, જે પહેલાથી જ ટેક્સ્ટ ડેટાની વિશાળ શ્રેણીનો ઉપયોગ કરે છે. હવે અનુવાદની ગુણવત્તા સામગ્રીના સ્થાન અને તેની ડિઝાઇન દ્વારા પ્રભાવિત થાય છે.

લાગુ કરેલ અનુવાદના પરિણામો

અનુવાદની ગુણવત્તાને BLEU* અલ્ગોરિધમ દ્વારા માપી શકાય છે, જે મશીન અનુવાદ અને વ્યાવસાયિક અનુવાદની તુલના કરે છે. ગુણવત્તા સ્કેલ 0 થી 100% સુધી.

ન્યુરલ ટ્રાન્સલેશન જેટલું સારું, ટકાવારી વધારે. આ અલ્ગોરિધમ મુજબ, યાન્ડેક્ષ બ્રાઉઝર 1.7 ગણું વધુ સારું ભાષાંતર કરવાનું શરૂ કર્યું.



ન્યુરલ નેટવર્કનો ઉપયોગ કરીને મશીન ટ્રાન્સલેશન એ પહેલાથી ઘણો લાંબો રસ્તો કાઢ્યો છે વૈજ્ઞાનિક સંશોધનઆ વિષય પર જ્યાં સુધી Google Google અનુવાદ સેવાને ઊંડા શિક્ષણમાં સ્થાનાંતરિત કરવાની જાહેરાત ન કરે ત્યાં સુધી.

જેમ જાણીતું છે, ન્યુરલ ટ્રાન્સલેટર મેટ્રિક્સ ગણતરીઓ પર બનેલ બાયડાયરેક્શનલ રિકરન્ટ ન્યુરલ નેટવર્ક્સ (બાયડાયરેક્શનલ રિકરન્ટ ન્યુરલ નેટવર્ક્સ) ની પદ્ધતિ પર આધારિત છે, જે આંકડાકીય મશીન અનુવાદકો કરતાં નોંધપાત્ર રીતે વધુ જટિલ સંભવિત મોડેલો બનાવવાની મંજૂરી આપે છે. જો કે, હંમેશા એવું માનવામાં આવે છે કે આંકડાકીય અનુવાદની જેમ ન્યુરલ ટ્રાન્સલેશનને તાલીમ માટે બે ભાષાઓમાં ટેક્સ્ટના સમાંતર કોર્પોરાની જરૂર પડે છે. માનવીય અનુવાદને સંદર્ભ તરીકે લેતા, આ શબ પર ન્યુરલ નેટવર્ક પ્રશિક્ષિત છે.

તે હવે બહાર આવ્યું છે તેમ, ન્યુરલ નેટવર્ક્સ ટેક્સ્ટના સમાંતર કોર્પસ વિના પણ અનુવાદ માટે નવી ભાષામાં નિપુણતા મેળવવા માટે સક્ષમ છે! આ વિષય પરના બે પેપર પ્રીપ્રિન્ટ વેબસાઇટ arXiv.org પર પ્રકાશિત કરવામાં આવ્યા છે.

“કલ્પના કરો કે તમે કોઈ વ્યક્તિને ઘણી બધી ચાઈનીઝ પુસ્તકો અને ઘણી અરબી પુસ્તકો આપો છો - તેમાંથી કોઈ એક સરખું નથી - અને આ વ્યક્તિ ચાઈનીઝમાંથી અરબીમાં ભાષાંતર કરવાનું શીખે છે. તે અશક્ય લાગે છે, બરાબર? પરંતુ અમે બતાવ્યું છે કે કોમ્પ્યુટર આ કરી શકે છે,” સ્પેનના સાન સેબેસ્ટિયનમાં યુનિવર્સિટી ઓફ બાસ્ક કન્ટ્રીના કોમ્પ્યુટર સાયન્ટિસ્ટ મિકેલ આર્ટેક્ષ કહે છે.

મોટાભાગના મશીન ટ્રાન્સલેશન ન્યુરલ નેટવર્કને "શિક્ષક સાથે" પ્રશિક્ષિત કરવામાં આવે છે, જે વ્યક્તિ દ્વારા અનુવાદિત પાઠોનો સમાંતર કોર્પસ છે. શીખવાની પ્રક્રિયા દરમિયાન, આશરે કહીએ તો, ન્યુરલ નેટવર્ક ધારણા કરે છે, ધોરણ સાથે તપાસ કરે છે અને તેની સિસ્ટમમાં જરૂરી ગોઠવણો કરે છે, પછી આગળ શીખે છે. સમસ્યા એ છે કે કેટલીક ભાષાઓ માટે વિશ્વમાં મોટી સંખ્યામાં સમાંતર પાઠો નથી, તેથી તેઓ પરંપરાગત મશીન અનુવાદ ન્યુરલ નેટવર્ક્સ માટે અગમ્ય છે.


Google ન્યુરલ મશીન ટ્રાન્સલેશન (GNMT) ન્યુરલ નેટવર્કની "સાર્વત્રિક ભાષા". ડાબી ચિત્ર પર વિવિધ રંગોદરેક શબ્દના અર્થોના ક્લસ્ટરો, નીચે જમણી બાજુએ દર્શાવવામાં આવ્યા છે - વિવિધ માનવ ભાષાઓમાંથી તેના માટે મેળવેલા શબ્દના અર્થો: અંગ્રેજી, કોરિયન અને જાપાનીઝ

દરેક ભાષા માટે એક વિશાળ “એટલાસ” સંકલિત કર્યા પછી, સિસ્ટમ પછી આવા એક એટલાસને બીજા પર સુપરઇમ્પોઝ કરવાનો પ્રયાસ કરે છે - અને તમારી પાસે તે છે, તમારી પાસે અમુક પ્રકારનું સમાંતર ટેક્સ્ટ કોર્પોરા તૈયાર છે!

બે સૂચિત અસુપરવાઇઝ્ડ લર્નિંગ આર્કિટેક્ચરની ડિઝાઇનની તુલના કરી શકાય છે.


સૂચિત સિસ્ટમનું આર્કિટેક્ચર. L1 માં દરેક વાક્ય માટે, સિસ્ટમ વૈકલ્પિક બે પગલાં શીખે છે: 1) અવાજ ઘટાડો(denoising), જે સામાન્ય એન્કોડર સાથે વાક્યના ઘોંઘાટીયા સંસ્કરણને એન્કોડ કરવાની અને તેને L1 ડીકોડર સાથે પુનઃનિર્માણ કરવાની સંભાવનાને શ્રેષ્ઠ બનાવે છે; 2) વિપરીત અનુવાદ(પાછળ-અનુવાદ) જ્યારે વાક્યનું આઉટપુટ મોડમાં ભાષાંતર કરવામાં આવે છે (એટલે ​​​​કે, સામાન્ય એન્કોડર દ્વારા એન્કોડ કરવામાં આવે છે અને L2 ડીકોડર દ્વારા ડીકોડ કરવામાં આવે છે), અને પછી આ અનુવાદિત વાક્યને સામાન્ય એન્કોડર સાથે એન્કોડ કરવાની અને મૂળ વાક્યનું પુનઃનિર્માણ કરવાની સંભાવના L1 ડીકોડર ઑપ્ટિમાઇઝ કરેલ છે. ચિત્ર: મિશેલા આર્ટેક્ષ એટ અલ.


સિસ્ટમના પ્રસ્તાવિત આર્કિટેક્ચર અને તાલીમ હેતુઓ (બીજા વૈજ્ઞાનિક કાર્યમાંથી). આર્કિટેક્ચર એ વાક્ય-દર-વાક્ય અનુવાદ મોડેલ છે, જ્યાં એન્કોડર અને ડીકોડર બંને બે ભાષાઓમાં કાર્ય કરે છે, ઇનપુટ ભાષા ID પર આધાર રાખીને, જે લુકઅપ કોષ્ટકોને સ્વેપ કરે છે. ટોપ (ઓટો-એન્કોડિંગ): મોડેલને દરેક ડોમેનમાં ડિનોઈઝિંગ કરવા માટે તાલીમ આપવામાં આવે છે. બોટમ (અનુવાદ): પહેલાની જેમ, વત્તા અમે અગાઉના પુનરાવર્તન (વાદળી લંબચોરસ) માં મોડેલ દ્વારા ઉત્પાદિત અનુવાદને ઇનપુટ તરીકે ઉપયોગ કરીને બીજી ભાષામાંથી એન્કોડ કરીએ છીએ. લીલા લંબગોળો નુકશાન કાર્યમાં શરતો સૂચવે છે. ચિત્ર: ગિલાઉમ લેમ્પલા એટ અલ.

બંને વૈજ્ઞાનિક કાર્યોનાના તફાવતો સાથે સ્પષ્ટ રીતે સમાન પદ્ધતિનો ઉપયોગ કરો. પરંતુ બંને કિસ્સાઓમાં અનુવાદ અમુક મધ્યવર્તી "ભાષા" અથવા વધુ સારી રીતે કહીએ તો, મધ્યવર્તી પરિમાણ અથવા જગ્યા દ્વારા કરવામાં આવે છે. અત્યાર સુધી, અનસુપરવાઇઝ્ડ ન્યુરલ નેટવર્ક્સ અનુવાદની ઉચ્ચ ગુણવત્તા દર્શાવતા નથી, પરંતુ લેખકો કહે છે કે જો તમે શિક્ષકની થોડી મદદ લો તો તેને સરળતાથી સુધારી શકાય છે, તેઓએ પ્રયોગની શુદ્ધતા ખાતર આવું કર્યું નથી. .

માટે પ્રસ્તુત કૃતિઓ આંતરરાષ્ટ્રીય પરિષદશીખવાની રજૂઆતો પર 2018 (શિક્ષણ પ્રતિનિધિત્વ પર આંતરરાષ્ટ્રીય પરિષદ). વૈજ્ઞાનિક પ્રેસમાં હજુ સુધી કોઈપણ લેખ પ્રકાશિત થયો નથી.

આધુનિક ઇન્ટરનેટ પર 630 મિલિયનથી વધુ સાઇટ્સ છે, પરંતુ તેમાંથી માત્ર 6% રશિયન ભાષાની સામગ્રી ધરાવે છે. ભાષા અવરોધ એ નેટવર્ક વપરાશકર્તાઓ વચ્ચે જ્ઞાનના પ્રસારની મુખ્ય સમસ્યા છે, અને અમે માનીએ છીએ કે તેને માત્ર વિદેશી ભાષાઓ શીખવીને જ નહીં, પણ બ્રાઉઝરમાં સ્વચાલિત મશીન અનુવાદનો ઉપયોગ કરીને પણ હલ કરવાની જરૂર છે.

આજે અમે Habr વાચકોને યાન્ડેક્સ બ્રાઉઝર અનુવાદકમાં બે મહત્વપૂર્ણ તકનીકી ફેરફારો વિશે જણાવીશું. પ્રથમ, હાઇલાઇટ કરેલા શબ્દો અને શબ્દસમૂહોનું ભાષાંતર હવે હાઇબ્રિડ મોડેલનો ઉપયોગ કરે છે, અને અમે તમને યાદ અપાવીશું કે આ અભિગમ કેવળ ન્યુરલ નેટવર્કના ઉપયોગથી કેવી રીતે અલગ છે. બીજું, અનુવાદકના ન્યુરલ નેટવર્ક્સ હવે વેબ પૃષ્ઠોની રચનાને ધ્યાનમાં લે છે, જેની વિશેષતાઓ આપણે કટની નીચે પણ વાત કરીશું.

શબ્દો અને શબ્દસમૂહોનો વર્ણસંકર અનુવાદક

પ્રથમ મશીન અનુવાદ સિસ્ટમો પર આધારિત હતી શબ્દકોશો અને નિયમો(આવશ્યક રીતે હાથથી લખેલા નિયમિત અક્ષરો), જે અનુવાદની ગુણવત્તા નક્કી કરે છે. વ્યાવસાયિક ભાષાશાસ્ત્રીઓએ વધુને વધુ વિગતવાર મેન્યુઅલ નિયમો વિકસાવવા માટે વર્ષોથી કામ કર્યું છે. આ કાર્ય એટલું સમય માંગી લેતું હતું કે ફક્ત ભાષાઓની સૌથી લોકપ્રિય જોડી પર ગંભીર ધ્યાન આપવામાં આવ્યું હતું, પરંતુ આમાં પણ મશીનોએ ખરાબ કામ કર્યું હતું. જીવંત ભાષા ખૂબ જ છે જટિલ સિસ્ટમ, જે નિયમોનું સારી રીતે પાલન કરતું નથી. બે ભાષાઓ વચ્ચેના પત્રવ્યવહારના નિયમોનું વર્ણન કરવું વધુ મુશ્કેલ છે.

મશીન માટે સતત બદલાતી પરિસ્થિતિઓમાં અનુકૂલન કરવાનો એકમાત્ર રસ્તો એ છે કે મોટી સંખ્યામાં સમાંતર ગ્રંથોમાંથી સ્વતંત્ર રીતે શીખવું (અર્થમાં સમાન, પરંતુ વિવિધ ભાષાઓ). મશીન અનુવાદ માટે આ આંકડાકીય અભિગમ છે. કમ્પ્યુટર સમાંતર લખાણોની તુલના કરે છે અને સ્વતંત્ર રીતે પેટર્નને ઓળખે છે.

યુ આંકડાકીય અનુવાદકફાયદા અને ગેરફાયદા બંને છે. એક તરફ, તેને દુર્લભ અને જટિલ શબ્દો અને શબ્દસમૂહો સારી રીતે યાદ છે. જો તેઓ સમાંતર ગ્રંથોમાં જોવા મળે, તો અનુવાદક તેમને યાદ રાખશે અને યોગ્ય રીતે અનુવાદ કરવાનું ચાલુ રાખશે. બીજી બાજુ, અનુવાદનું પરિણામ પૂર્ણ કોયડા જેવું હોઈ શકે છે: એકંદર ચિત્ર સ્પષ્ટ લાગે છે, પરંતુ જો તમે નજીકથી જોશો, તો તમે જોઈ શકો છો કે તે અલગ ટુકડાઓથી બનેલું છે. કારણ એ છે કે અનુવાદક વ્યક્તિગત શબ્દોને ઓળખકર્તા તરીકે રજૂ કરે છે, જે કોઈપણ રીતે તેમની વચ્ચેના સંબંધને પ્રતિબિંબિત કરતા નથી. લોકો જે રીતે ભાષાનો અનુભવ કરે છે તેની સાથે આ અસંગત છે, જ્યાં શબ્દોનો ઉપયોગ કેવી રીતે થાય છે, તેઓ અન્ય શબ્દો સાથે કેવી રીતે સંબંધિત છે અને તેનાથી અલગ છે તેના દ્વારા વ્યાખ્યાયિત કરવામાં આવે છે.

આ સમસ્યા હલ કરવામાં મદદ કરે છે ન્યુરલ નેટવર્ક્સ. વર્ડ એમ્બેડિંગ, જેનો ઉપયોગ ન્યુરલ મશીન ટ્રાન્સલેશનમાં થાય છે, સામાન્ય રીતે દરેક શબ્દને કેટલાંક સો સંખ્યાઓના વેક્ટર સાથે સાંકળે છે. વેક્ટર્સ, આંકડાકીય અભિગમના સરળ ઓળખકર્તાઓથી વિપરીત, ન્યુરલ નેટવર્કને તાલીમ આપતી વખતે રચાય છે અને શબ્દો વચ્ચેના સંબંધોને ધ્યાનમાં લે છે. ઉદાહરણ તરીકે, મોડેલ ઓળખી શકે છે કે કારણ કે "ચા" અને "કોફી" ઘણીવાર સમાન સંદર્ભમાં દેખાય છે, આ બંને શબ્દો નવા શબ્દ "સ્પિલ" ના સંદર્ભમાં શક્ય હોવા જોઈએ, જે કહે છે, તેમાંથી ફક્ત એક જ દેખાય છે. તાલીમ ડેટા.

જો કે, વેક્ટર રજૂઆતો શીખવાની પ્રક્રિયા સ્પષ્ટપણે ઉદાહરણોને યાદ રાખવા કરતાં આંકડાકીય રીતે વધુ માંગ કરે છે. વધુમાં, તે દુર્લભ ઇનપુટ શબ્દોનું શું કરવું તે સ્પષ્ટ નથી કે જે નેટવર્ક માટે તેમના માટે સ્વીકાર્ય વેક્ટર પ્રતિનિધિત્વ બનાવવા માટે પૂરતા પ્રમાણમાં ન હોય. આ પરિસ્થિતિમાં, બંને પદ્ધતિઓને જોડવાનું તાર્કિક છે.

ગયા વર્ષથી, Yandex.Translator નો ઉપયોગ કરવામાં આવે છે વર્ણસંકર મોડેલ. જ્યારે અનુવાદક વપરાશકર્તા પાસેથી ટેક્સ્ટ મેળવે છે, ત્યારે તે અનુવાદ માટે બંને સિસ્ટમોને આપે છે - ન્યુરલ નેટવર્ક અને આંકડાકીય અનુવાદક. એક અલ્ગોરિધમ, શીખવાની પદ્ધતિ પર આધારિત, પછી મૂલ્યાંકન કરે છે કે કયો અનુવાદ વધુ સારો છે. રેટિંગ અસાઇન કરતી વખતે, ડઝનેક પરિબળો ધ્યાનમાં લેવામાં આવે છે - વાક્યની લંબાઈ (ટૂંકા શબ્દસમૂહો આંકડાકીય મોડેલ દ્વારા વધુ સારી રીતે અનુવાદિત થાય છે) થી વાક્યરચના સુધી. શ્રેષ્ઠ તરીકે ઓળખાયેલ અનુવાદ વપરાશકર્તાને બતાવવામાં આવે છે.

તે હાઇબ્રિડ મોડેલ છે જેનો ઉપયોગ હવે Yandex.Browser માં થાય છે, જ્યારે વપરાશકર્તા અનુવાદ માટે પૃષ્ઠ પર ચોક્કસ શબ્દો અને શબ્દસમૂહો પસંદ કરે છે.

આ મોડ ખાસ કરીને તે લોકો માટે અનુકૂળ છે જેઓ સામાન્ય રીતે વિદેશી ભાષા બોલે છે અને માત્ર અજાણ્યા શબ્દોનો અનુવાદ કરવા માંગે છે. પરંતુ જો, ઉદાહરણ તરીકે, સામાન્ય અંગ્રેજીને બદલે તમે ચાઇનીઝ આવો છો, તો પછી પૃષ્ઠ-દર-પૃષ્ઠ અનુવાદક વિના કરવું મુશ્કેલ બનશે. એવું લાગે છે કે તફાવત ફક્ત અનુવાદિત ટેક્સ્ટના જથ્થામાં છે, પરંતુ બધું એટલું સરળ નથી.

વેબ પૃષ્ઠોના ન્યુરલ નેટવર્ક અનુવાદક

જ્યોર્જટાઉન પ્રયોગના સમયથી લગભગ આજના દિવસ સુધી, તમામ મશીન ટ્રાન્સલેશન સિસ્ટમ્સને દરેક વાક્યનો અનુવાદ કરવા માટે તાલીમ આપવામાં આવી છે. સ્ત્રોત ટેક્સ્ટઅલગથી જ્યારે વેબ પેજ એ માત્ર વાક્યોનો સમૂહ નથી, પરંતુ સંરચિત ટેક્સ્ટ કે જેમાં મૂળભૂત રીતે અલગ તત્વો હોય છે. ચાલો મોટાભાગના પૃષ્ઠોના મૂળભૂત ઘટકો જોઈએ.

મથાળું. સામાન્ય રીતે તેજસ્વી અને વિશાળ ટેક્સ્ટ કે જે આપણે પૃષ્ઠ દાખલ કરતી વખતે તરત જ જોઈએ છીએ. હેડલાઇનમાં મોટાભાગે સમાચારનો સાર હોય છે, તેથી તેનો યોગ્ય રીતે અનુવાદ કરવો મહત્વપૂર્ણ છે. પરંતુ આ કરવું મુશ્કેલ છે, કારણ કે શીર્ષકમાં પૂરતું લખાણ નથી અને સંદર્ભને સમજ્યા વિના તમે ભૂલ કરી શકો છો. અંગ્રેજીના કિસ્સામાં, તે વધુ જટિલ છે કારણ કે અંગ્રેજી-ભાષાના શીર્ષકોમાં ઘણીવાર બિનપરંપરાગત વ્યાકરણ, અસંખ્ય અથવા ગુમ થયેલ ક્રિયાપદો સાથેના શબ્દસમૂહો હોય છે. ઉદાહરણ તરીકે, ગેમ ઓફ થ્રોન્સ પ્રિક્વલની જાહેરાત.

નેવિગેશન. શબ્દો અને શબ્દસમૂહો જે અમને સાઇટ નેવિગેટ કરવામાં મદદ કરે છે. ઉદાહરણ તરીકે, ઘર, પાછળઅને મારું એકાઉન્ટ"હોમ", "પાછળ" અને "મારું એકાઉન્ટ" તરીકે ભાષાંતર કરવું ભાગ્યે જ યોગ્ય છે જો તેઓ સાઇટ મેનૂમાં સ્થિત હોય અને પ્રકાશનના ટેક્સ્ટમાં નહીં.

મુખ્ય લખાણ. તેની સાથે બધું સરળ છે; તે સામાન્ય ગ્રંથો અને વાક્યોથી થોડું અલગ છે જે આપણે પુસ્તકોમાં શોધી શકીએ છીએ. પરંતુ અહીં પણ, અનુવાદની સુસંગતતા સુનિશ્ચિત કરવી મહત્વપૂર્ણ છે, એટલે કે તે જ વેબ પૃષ્ઠની અંદર સમાન શબ્દો અને વિભાવનાઓ સમાન રીતે અનુવાદિત થાય છે તેની ખાતરી કરવી.

વેબ પૃષ્ઠોના ઉચ્ચ-ગુણવત્તાવાળા અનુવાદ માટે, ન્યુરલ નેટવર્ક અથવા હાઇબ્રિડ મોડેલનો ઉપયોગ કરવો પૂરતો નથી - પૃષ્ઠોની રચનાને ધ્યાનમાં લેવી પણ જરૂરી છે. અને આ કરવા માટે અમારે ઘણી તકનીકી મુશ્કેલીઓનો સામનો કરવો પડ્યો.

ટેક્સ્ટ સેગમેન્ટ્સનું વર્ગીકરણ. આ કરવા માટે, અમે ફરીથી ટેક્સ્ટ અને દસ્તાવેજોના HTML માર્કઅપ (ટેગ, ટેક્સ્ટ કદ, ટેક્સ્ટ યુનિટ દીઠ લિંક્સની સંખ્યા, ...) બંને પર આધારિત કેટબૂસ્ટ અને પરિબળોનો ફરીથી ઉપયોગ કરીએ છીએ. પરિબળો તદ્દન વિજાતીય છે, તેથી જ કેટબૂસ્ટ (ગ્રેડિયન્ટ બૂસ્ટિંગ પર આધારિત) શ્રેષ્ઠ પરિણામો દર્શાવે છે (95% ઉપર વર્ગીકરણની ચોકસાઈ). પરંતુ એકલા વિભાગોનું વર્ગીકરણ કરવું પૂરતું નથી.

વિકૃત ડેટા. પરંપરાગત રીતે, Yandex.Translator એલ્ગોરિધમ્સને ઈન્ટરનેટના પાઠો પર તાલીમ આપવામાં આવે છે. એવું લાગે છે કે વેબ પૃષ્ઠ અનુવાદકને તાલીમ આપવા માટે આ એક આદર્શ ઉકેલ છે (બીજા શબ્દોમાં કહીએ તો, નેટવર્ક એ જ પ્રકૃતિના પાઠોમાંથી શીખે છે જેમના પાઠો પર આપણે તેનો ઉપયોગ કરવા જઈ રહ્યા છીએ). પરંતુ એકવાર અમે જુદા જુદા ભાગોને એકબીજાથી અલગ કરવાનું શીખ્યા, અમે શોધ્યું રસપ્રદ લક્ષણ. સરેરાશ, વેબસાઇટ્સ પર, સામગ્રી તમામ ટેક્સ્ટના લગભગ 85% લે છે, જેમાં હેડિંગ અને નેવિગેશનનો હિસ્સો માત્ર 7.5% છે. એ પણ યાદ રાખો કે શીર્ષકો અને સંશોધક તત્વો પોતે બાકીના ટેક્સ્ટ કરતાં શૈલી અને વ્યાકરણમાં નોંધપાત્ર રીતે અલગ છે. આ બે પરિબળો એકસાથે ડેટા સ્ક્યુની સમસ્યા તરફ દોરી જાય છે. ન્યુરલ નેટવર્ક માટે આ સેગમેન્ટ્સની વિશેષતાઓને અવગણવી તે વધુ નફાકારક છે, જે તાલીમ સેટમાં ખૂબ જ નબળી રીતે રજૂ થાય છે. નેટવર્ક ફક્ત મુખ્ય ટેક્સ્ટનો જ સારી રીતે અનુવાદ કરવાનું શીખે છે, તેથી જ હેડિંગ અને નેવિગેશનના અનુવાદની ગુણવત્તાને નુકસાન થાય છે. આ અપ્રિય અસરને સરખાવવા માટે, અમે બે વસ્તુઓ કરી: સમાંતર વાક્યોની દરેક જોડીને અમે એક ત્રણ પ્રકારસેગમેન્ટ્સ (સામગ્રી, શીર્ષક અથવા નેવિગેશન) અને કૃત્રિમ રીતે તાલીમ કોર્પસમાં છેલ્લા બેની સાંદ્રતામાં 33% વધારો થયો છે કારણ કે તેઓએ શીખવાની ન્યુરલ નેટવર્કમાં સમાન ઉદાહરણો વધુ વખત બતાવવાનું શરૂ કર્યું છે.

મલ્ટિ-ટાસ્ક લર્નિંગ. હવે આપણે વેબ પૃષ્ઠો પરના ટેક્સ્ટને ત્રણ વર્ગોના સેગમેન્ટમાં વિભાજીત કરી શકીએ છીએ, તેથી ત્રણ અલગ-અલગ મૉડલ્સને તાલીમ આપવા માટે તે એક સ્વાભાવિક વિચાર જેવું લાગે છે, જેમાંથી દરેક એક અલગ પ્રકારના ટેક્સ્ટ-હેડિંગ્સ, નેવિગેશન અથવા સામગ્રીના અનુવાદને સંભાળશે. આ ખરેખર સારી રીતે કામ કરે છે, પરંતુ આ સ્કીમ વધુ સારી રીતે કામ કરે છે જેમાં અમે એક ન્યુરલ નેટવર્કને એક સાથે તમામ પ્રકારના ટેક્સ્ટનું ભાષાંતર કરવા માટે તાલીમ આપીએ છીએ. સમજવાની ચાવી મુટલી-ટાસ્ક લર્નિંગ (MTL) ના વિચારમાં રહેલી છે: જો મશીન લર્નિંગના ઘણા કાર્યો વચ્ચે આંતરિક જોડાણ હોય, તો એક મોડેલ જે આ કાર્યોને એકસાથે હલ કરવાનું શીખે છે તે દરેક કાર્યને વધુ સારી રીતે હલ કરવાનું શીખી શકે છે. સંકુચિત વિશિષ્ટ મોડેલ કરતાં!

ફાઇન-ટ્યુનિંગ. અમારી પાસે પહેલેથી જ ખૂબ સારું મશીન અનુવાદ છે, તેથી શરૂઆતથી Yandex.Browser માટે નવા અનુવાદકને તાલીમ આપવી તે મૂર્ખામીભર્યું રહેશે. સામાન્ય ગ્રંથોના અનુવાદ માટે મૂળભૂત સિસ્ટમ લેવી અને તેને વેબ પૃષ્ઠો સાથે કામ કરવા માટે તાલીમ આપવી તે વધુ તાર્કિક છે. ન્યુરલ નેટવર્ક્સના સંદર્ભમાં, આને ઘણીવાર ફાઇન-ટ્યુનિંગ કહેવામાં આવે છે. પરંતુ જો તમે આ સમસ્યાનો સંપર્ક કરો છો, એટલે કે. ફિનિશ્ડ મોડેલમાંથી મૂલ્યો સાથે ન્યુરલ નેટવર્કના વજનને ફક્ત પ્રારંભ કરો અને નવા ડેટા પર શીખવાનું શરૂ કરો, પછી તમે ડોમેન શિફ્ટની અસરનો સામનો કરી શકો છો: જેમ જેમ તાલીમ આગળ વધે છે તેમ, વેબ પૃષ્ઠો (ઇન-ડોમેન) ના અનુવાદની ગુણવત્તામાં વધારો થશે. વધારો, પરંતુ નિયમિત (આઉટ-ઓફ-ડોમેન) ગ્રંથોના અનુવાદની ગુણવત્તામાં ઘટાડો થશે. આ અપ્રિય લક્ષણથી છુટકારો મેળવવા માટે, વધારાની તાલીમ દરમિયાન અમે ન્યુરલ નેટવર્ક પર વધારાના પ્રતિબંધ લાદીએ છીએ, તેને પ્રારંભિક સ્થિતિની તુલનામાં વજનમાં વધુ ફેરફાર કરવાથી પ્રતિબંધિત કરીએ છીએ.

ગાણિતિક રીતે, આને નુકશાન કાર્યમાં એક શબ્દ ઉમેરીને વ્યક્ત કરવામાં આવે છે, જે મૂળ અને વધારાના પ્રશિક્ષિત નેટવર્ક્સ દ્વારા જારી કરાયેલ, આગલા શબ્દને જનરેટ કરવાની સંભાવનાના વિતરણ વચ્ચે કુલબેક-લેબિલર અંતર (KL-ડાઇવર્જન્સ) છે. ઉદાહરણમાં જોઈ શકાય છે તેમ, આ એ હકીકત તરફ દોરી જાય છે કે વેબ પૃષ્ઠોના અનુવાદની ગુણવત્તામાં વધારો હવે સામાન્ય ટેક્સ્ટના અનુવાદના અધોગતિ તરફ દોરી જતો નથી.

નેવિગેશનમાંથી પોલિશિંગ ફ્રીક્વન્સી શબ્દસમૂહો. નવા અનુવાદક પર કામ કરતી વખતે, અમે વેબ પૃષ્ઠોના વિવિધ વિભાગોના પાઠો પર આંકડા એકત્રિત કર્યા અને કંઈક રસપ્રદ જોયું. સંશોધક તત્વોને લગતા ગ્રંથો ખૂબ જ પ્રમાણભૂત હોય છે, તેથી તે ઘણીવાર સમાન નમૂનાના શબ્દસમૂહો ધરાવે છે. આ એટલી શક્તિશાળી અસર છે કે ઈન્ટરનેટ પર જોવા મળતા તમામ નેવિગેશન શબ્દસમૂહોમાંથી અડધા કરતાં વધુ વારંવારના માત્ર 2 હજાર દ્વારા જ ગણવામાં આવે છે.

અમે, અલબત્ત, આનો લાભ લીધો અને તેમની ગુણવત્તાની સંપૂર્ણ ખાતરી કરવા માટે અમારા અનુવાદકોને હજારો સૌથી સામાન્ય શબ્દસમૂહો અને તેમના અનુવાદો આપ્યા.

બાહ્ય ગોઠવણી. બ્રાઉઝરમાં વેબ પેજ ટ્રાન્સલેટર માટે બીજી મહત્વપૂર્ણ આવશ્યકતા હતી - તે માર્કઅપને વિકૃત ન થવી જોઈએ. જ્યારે HTML ટૅગ્સ વાક્યની સીમાઓની બહાર અથવા પર મૂકવામાં આવે છે, ત્યારે કોઈ સમસ્યા ઊભી થતી નથી. પરંતુ જો વાક્યની અંદર છે, ઉદાહરણ તરીકે, બે રેખાંકિતશબ્દો, પછી અનુવાદમાં આપણે "બે રેખાંકિતશબ્દો". તે. ટ્રાન્સફરના પરિણામે, બે શરતો પૂરી કરવી આવશ્યક છે:

  1. અનુવાદમાં રેખાંકિત ટુકડો સ્રોત ટેક્સ્ટમાં રેખાંકિત ટુકડાને બરાબર અનુરૂપ હોવો જોઈએ.
  2. રેખાંકિત ટુકડાની સીમાઓ પરના અનુવાદની સુસંગતતાનું ઉલ્લંઘન થવું જોઈએ નહીં.
આ વર્તણૂક હાંસલ કરવા માટે, અમે પહેલા લખાણને હંમેશની જેમ અનુવાદિત કરીએ છીએ, અને પછી સ્રોતના ટુકડાઓ અને અનુવાદિત પાઠો વચ્ચેના મેળને નિર્ધારિત કરવા માટે આંકડાકીય શબ્દ-દર-શબ્દ સંરેખણ મોડલનો ઉપયોગ કરીએ છીએ. આ સમજવામાં મદદ કરે છે કે બરાબર શું પર ભાર મૂકવાની જરૂર છે (ઇટાલિક્સમાં, હાયપરલિંક તરીકે ફોર્મેટ કરેલ, ...).

આંતરછેદ નિરીક્ષક. અમે જે શક્તિશાળી ન્યુરલ નેટવર્ક ટ્રાન્સલેશન મોડલ્સને પ્રશિક્ષિત કર્યા છે તેને અમારા સર્વર (CPU અને GPU બંને) પર આંકડાકીય મોડલ્સની અગાઉની પેઢીઓ કરતાં નોંધપાત્ર રીતે વધુ કમ્પ્યુટિંગ સંસાધનોની જરૂર છે. તે જ સમયે, વપરાશકર્તાઓ હંમેશા પૃષ્ઠોને અંત સુધી વાંચતા નથી, તેથી વેબ પૃષ્ઠોના તમામ ટેક્સ્ટને ક્લાઉડ પર મોકલવું બિનજરૂરી લાગે છે. સર્વર સંસાધનો અને વપરાશકર્તા ટ્રાફિકને બચાવવા માટે, અમે અનુવાદકનો ઉપયોગ કરવાનું શીખવ્યું

અથવા જથ્થો ગુણવત્તામાં વિકસે છે?

RIF+KIB 2017 કોન્ફરન્સના ભાષણ પર આધારિત લેખ.

ન્યુરલ મશીન ટ્રાન્સલેશન: હમણાં જ શા માટે?

ન્યુરલ નેટવર્ક્સ વિશે લાંબા સમયથી વાત કરવામાં આવી રહી છે, અને એવું લાગે છે કે કૃત્રિમ બુદ્ધિની ક્લાસિક સમસ્યાઓમાંની એક - મશીન ટ્રાન્સલેશન - ફક્ત આ તકનીકના આધારે હલ કરવાની વિનંતી કરે છે.

તેમ છતાં, અહીં સામાન્ય રીતે ન્યુરલ નેટવર્ક અને ખાસ કરીને ન્યુરલ મશીન ટ્રાન્સલેશન વિશેના પ્રશ્નોની શોધમાં લોકપ્રિયતાની ગતિશીલતા છે:

તે સ્પષ્ટપણે દૃશ્યમાન છે કે તાજેતરમાં સુધી ન્યુરલ મશીન ટ્રાન્સલેશન વિશે રડાર પર કંઈ નહોતું - અને 2016 ના અંતમાં, ઘણી કંપનીઓએ ગૂગલ, માઇક્રોસોફ્ટ અને સિસ્ટ્રાન સહિત ન્યુરલ નેટવર્ક્સ પર આધારિત તેમની નવી તકનીકો અને મશીન ટ્રાન્સલેશન સિસ્ટમ્સનું પ્રદર્શન કર્યું. તેઓ લગભગ એક સાથે દેખાયા હતા, કેટલાક અઠવાડિયા અથવા તો દિવસોના અંતરે. આવું કેમ છે?

આ પ્રશ્નનો જવાબ આપવા માટે, એ સમજવું જરૂરી છે કે ન્યુરલ નેટવર્ક્સ પર આધારિત મશીન અનુવાદ શું છે અને તેનો ક્લાસિકલ સ્ટેટિસ્ટિકલ સિસ્ટમ્સ અથવા વિશ્લેષણાત્મક સિસ્ટમોથી મુખ્ય તફાવત શું છે જે આજે મશીન અનુવાદ માટે ઉપયોગમાં લેવાય છે.

ન્યુરલ ટ્રાન્સલેટર મેટ્રિક્સ ગણતરીઓ પર બનેલ બાયડાયરેક્શનલ રિકરન્ટ ન્યુરલ નેટવર્ક્સ (બાયડાયરેક્શનલ રિકરન્ટ ન્યુરલ નેટવર્ક્સ) ની પદ્ધતિ પર આધારિત છે, જે તમને આંકડાકીય મશીન અનુવાદકો કરતાં નોંધપાત્ર રીતે વધુ જટિલ સંભવિત મોડલ્સ બનાવવાની મંજૂરી આપે છે.


આંકડાકીય અનુવાદની જેમ, ન્યુરલ ટ્રાન્સલેશનને તાલીમ માટે સમાંતર કોર્પસની જરૂર પડે છે, જે ફક્ત શીખવાની પ્રક્રિયામાં જ "માનવ" સાથે સ્વચાલિત અનુવાદની તુલના કરવાનું શક્ય બનાવે છે, તે વ્યક્તિગત શબ્દસમૂહો અને શબ્દ સંયોજનો સાથે નહીં, પરંતુ સંપૂર્ણ વાક્યો સાથે કાર્ય કરે છે. મુખ્ય સમસ્યા એ છે કે આવી સિસ્ટમને તાલીમ આપવા માટે નોંધપાત્ર રીતે વધુ કમ્પ્યુટિંગ પાવરની જરૂર છે.

પ્રક્રિયાને ઝડપી બનાવવા માટે, વિકાસકર્તાઓ NVIDIA માંથી GPUs, તેમજ Google ના ટેન્સર પ્રોસેસિંગ યુનિટ (TPU), માલિકીની ચિપ્સનો ઉપયોગ કરે છે જે ખાસ કરીને મશીન લર્નિંગ ટેક્નોલોજીઓ માટે સ્વીકારવામાં આવે છે. ગ્રાફિક્સ ચિપ્સ શરૂઆતમાં મેટ્રિક્સ ગણતરી અલ્ગોરિધમ્સ માટે ઑપ્ટિમાઇઝ કરવામાં આવે છે, અને તેથી CPU ની સરખામણીમાં પરફોર્મન્સ ગેઇન 7-15 ગણો છે.

તેમ છતાં, એક ન્યુરલ મોડેલને તાલીમ આપવામાં 1 થી 3 અઠવાડિયા લાગે છે, જ્યારે લગભગ સમાન કદના આંકડાકીય મોડેલને તાલીમ આપવામાં 1 થી 3 દિવસનો સમય લાગે છે, અને આ તફાવત જેમ જેમ કદ વધે છે તેમ વધે છે.

જો કે, તે માત્ર તકનીકી સમસ્યાઓ જ ન હતી જેણે મશીન અનુવાદ કાર્યના સંદર્ભમાં ન્યુરલ નેટવર્ક્સના વિકાસમાં અવરોધ ઉભો કર્યો હતો. અંતે, ભાષાના મોડલને અગાઉ તાલીમ આપવાનું શક્ય હતું, જો કે વધુ ધીમેથી, પરંતુ તેમાં કોઈ મૂળભૂત અવરોધો ન હતા.

ન્યુરલ નેટવર્ક્સ માટેની ફેશને પણ ભૂમિકા ભજવી હતી. ઘણા લોકો આંતરિક રીતે વિકાસ કરી રહ્યા હતા, પરંતુ તેઓ તેની જાહેરાત કરવાની કોઈ ઉતાવળમાં ન હતા, ડરતા કે, કદાચ, તેઓ ગુણવત્તામાં વધારો નહીં કરે જે સમાજ ન્યુરલ નેટવર્ક્સ શબ્દસમૂહથી અપેક્ષા રાખે છે. આ એ હકીકતને સમજાવી શકે છે કે એક પછી એક ઘણા ન્યુરલ અનુવાદકોની જાહેરાત કરવામાં આવી હતી.

અનુવાદ ગુણવત્તા: કોનો BLEU સ્કોર વધુ ગાઢ છે?

ચાલો એ સમજવાનો પ્રયાસ કરીએ કે શું અનુવાદની ગુણવત્તામાં વધારો સંચિત અપેક્ષાઓ અને ખર્ચમાં વધારો જે અનુવાદ માટે ન્યુરલ નેટવર્કના વિકાસ અને સમર્થન સાથે આવે છે તેને અનુરૂપ છે.
Google તેના સંશોધનમાં દર્શાવે છે કે શાસ્ત્રીય આંકડાકીય અભિગમ (અથવા શબ્દસમૂહ આધારિત મશીન અનુવાદ, PBMT, જેમ કે તેને પણ કહેવામાં આવે છે)ની તુલનામાં, ભાષાની જોડીના આધારે, ન્યુરલ મશીન ટ્રાન્સલેશન 58% થી 87% સુધી સાપેક્ષ સુધારણા આપે છે.


SYSTRAN એક અભ્યાસ હાથ ધરે છે જેમાં અનુવાદની ગુણવત્તાનું મૂલ્યાંકન કેટલાક પ્રસ્તુત વિકલ્પોમાંથી પસંદ કરીને કરવામાં આવે છે. વિવિધ સિસ્ટમો, તેમજ "માનવ" અનુવાદ. અને તે જણાવે છે કે તેનું ન્યુરલ ટ્રાન્સલેશન 46% કેસોમાં માનવીય અનુવાદ માટે પસંદ કરવામાં આવે છે.

અનુવાદ ગુણવત્તા: શું કોઈ પ્રગતિ છે?

ભલે Google 60% કે તેથી વધુના સુધારાનો દાવો કરે છે, આ આંકડો થોડો પકડે છે. કંપનીના પ્રતિનિધિઓ "રિલેટિવ ઇમ્પ્રૂવમેન્ટ" વિશે વાત કરે છે, એટલે કે, ક્લાસિક આંકડાકીય અનુવાદકમાં જે હતું તેના સંબંધમાં તેઓ માનવ અનુવાદની ગુણવત્તા માટે ન્યુરલ અભિગમ સાથે કેટલા નજીકથી વ્યવસ્થાપિત હતા.


“Googleની ન્યુરલ મશીન ટ્રાન્સલેશન સિસ્ટમ: બ્રિજિંગ ધ ગેપ બીટિન હ્યુમન એન્ડ મશીન ટ્રાન્સલેશન” લેખમાં Google દ્વારા પ્રસ્તુત પરિણામોનું વિશ્લેષણ કરતા ઉદ્યોગ નિષ્ણાતો પ્રસ્તુત પરિણામો વિશે તદ્દન શંકાસ્પદ છે અને કહે છે કે હકીકતમાં BLEU સ્કોર માત્ર 10% જ સુધર્યો હતો, અને નોંધપાત્ર પ્રગતિ ચોક્કસપણે ત્યારે નોંધનીય છે સરળ પરીક્ષણોવિકિપીડિયામાંથી, જેનો મોટાભાગે નેટવર્ક તાલીમ પ્રક્રિયામાં ઉપયોગ થતો હતો.

PROMT ની અંદર, અમે સ્પર્ધકો સાથે અમારી સિસ્ટમના વિવિધ ગ્રંથો પરના અનુવાદોની નિયમિતપણે સરખામણી કરીએ છીએ, અને તેથી અમારી પાસે હંમેશા એવા ઉદાહરણો હોય છે જેના આધારે અમે તપાસ કરી શકીએ છીએ કે ન્યુરલ અનુવાદ ખરેખર અગાઉની પેઢી કરતાં ઉત્પાદકો દાવો કરે છે તેટલો શ્રેષ્ઠ છે કે કેમ.

મૂળ લખાણ (EN): ચિંતા કરવાથી ક્યારેય કોઈનું સારું થતું નથી.
Google અનુવાદ PBMT: ચિંતા કર્યા વિના કોઈનું પણ સારું કર્યું નથી.
Google અનુવાદ NMT: ચિંતાએ ક્યારેય કોઈને મદદ કરી નથી.

માર્ગ દ્વારા, Translate.Ru પર સમાન શબ્દસમૂહનું ભાષાંતર: "ચિંતાથી ક્યારેય કોઈને કોઈ ફાયદો થયો નથી," તમે જોઈ શકો છો કે તે ન્યુરલ નેટવર્કનો ઉપયોગ કર્યા વિના સમાન હતું અને રહેશે.

માઈક્રોસોફ્ટ ટ્રાન્સલેટર પણ આ મામલે પાછળ નથી. Google ના તેમના સાથીદારોથી વિપરીત, તેઓએ એક વેબસાઇટ પણ બનાવી છે જ્યાં તમે બે પરિણામોનું અનુવાદ અને તુલના કરી શકો છો: ન્યુરલ અને પ્રી-ન્યુરલ, તેની ખાતરી કરવા માટે કે ગુણવત્તામાં વૃદ્ધિ વિશેના નિવેદનો પાયાવિહોણા નથી.


આ ઉદાહરણમાં, આપણે જોઈએ છીએ કે ત્યાં પ્રગતિ છે, અને તે ખરેખર નોંધનીય છે. પ્રથમ નજરમાં, એવું લાગે છે કે વિકાસકર્તાઓનું નિવેદન કે મશીન અનુવાદ માનવ અનુવાદ સાથે લગભગ પકડાઈ ગયું છે તે સાચું છે. પરંતુ શું આ ખરેખર આવું છે, અને વ્યવસાય માટે ટેક્નોલોજીના વ્યવહારિક ઉપયોગના સંદર્ભમાં આનો અર્થ શું છે?

IN સામાન્ય કેસન્યુરલ નેટવર્કનો ઉપયોગ કરીને ભાષાંતર આંકડાકીય અનુવાદ કરતાં શ્રેષ્ઠ છે, અને આ ટેકનોલોજીમાં વિકાસની પ્રચંડ સંભાવના છે. પરંતુ જો આપણે આ મુદ્દાને ધ્યાનથી જોઈશું, તો આપણે ખાતરી કરી શકીએ છીએ કે દરેક વસ્તુમાં પ્રગતિ નથી, અને તમામ કાર્યોને ધ્યાનમાં લીધા વિના ન્યુરલ નેટવર્ક્સ પર લાગુ કરી શકાતા નથી.

મશીન અનુવાદ: પડકારો શું છે?

સ્વચાલિત અનુવાદક પાસેથી તેના અસ્તિત્વનો સંપૂર્ણ ઇતિહાસ - અને આ પહેલેથી જ 60 વર્ષથી વધુ છે! - તેઓ કોઈ પ્રકારના જાદુની અપેક્ષા રાખતા હતા, તેને સાયન્સ ફિક્શન ફિલ્મોના મશીન તરીકે કલ્પના કરી રહ્યા હતા જે કોઈપણ ભાષણને તરત જ એલિયન વ્હિસલમાં અને પીઠમાં પરિવર્તિત કરે છે.

વાસ્તવમાં, કાર્યો વિવિધ સ્તરો પર આવે છે, જેમાંના એકમાં "સાર્વત્રિક" અથવા, આમ કહીએ તો, રોજિંદા કાર્યો અને સમજવાની સરળતા માટે "રોજિંદા" અનુવાદનો સમાવેશ થાય છે. ઑનલાઇન અનુવાદ સેવાઓ અને ઘણા મોબાઇલ ઉત્પાદનો આ સ્તરે કાર્યોનો સારી રીતે સામનો કરે છે.

આવા કાર્યોમાં શામેલ છે:

વિવિધ હેતુઓ માટે શબ્દો અને ટૂંકા ગ્રંથોનો ઝડપી અનુવાદ;
ફોરમ પર સંચાર દરમિયાન સ્વચાલિત અનુવાદ, માં સામાજિક નેટવર્ક્સ, સંદેશવાહક;
સમાચાર વાંચતી વખતે સ્વચાલિત અનુવાદ, વિકિપીડિયા લેખો;
મુસાફરી કરતી વખતે અનુવાદક (મોબાઇલ).

ન્યુરલ નેટવર્કનો ઉપયોગ કરીને અનુવાદની ગુણવત્તા વધારવાના તે બધા ઉદાહરણો જેની ઉપર આપણે ચર્ચા કરી છે તે આ કાર્યો સાથે ચોક્કસ રીતે સંબંધિત છે.

જો કે, જ્યારે મશીન અનુવાદને લગતા વ્યવસાયિક લક્ષ્યો અને ઉદ્દેશ્યોની વાત આવે છે, ત્યારે વસ્તુઓ થોડી અલગ હોય છે. અહીં, ઉદાહરણ તરીકે, કોર્પોરેટ મશીન ટ્રાન્સલેશન સિસ્ટમ્સ માટેની કેટલીક આવશ્યકતાઓ છે:

અનુવાદ વ્યવસાય પત્રવ્યવહારગ્રાહકો, ભાગીદારો, રોકાણકારો, વિદેશી કર્મચારીઓ સાથે;
વેબસાઇટ્સ, ઑનલાઇન સ્ટોર્સ, ઉત્પાદન વર્ણનો, સૂચનાઓનું સ્થાનિકીકરણ;
વપરાશકર્તા સામગ્રીનો અનુવાદ (સમીક્ષાઓ, ફોરમ્સ, બ્લોગ્સ);
વ્યવસાયિક પ્રક્રિયાઓ અને સોફ્ટવેર ઉત્પાદનો અને સેવાઓમાં અનુવાદને એકીકૃત કરવાની ક્ષમતા;
પરિભાષા, ગોપનીયતા અને સુરક્ષાના પાલનમાં અનુવાદની ચોકસાઈ.

ચાલો ઉદાહરણોનો ઉપયોગ કરીને સમજવાનો પ્રયાસ કરીએ કે શું ભાષાંતર વ્યવસાયની કોઈપણ સમસ્યાઓ ન્યુરલ નેટવર્કનો ઉપયોગ કરીને ઉકેલી શકાય છે અને કેવી રીતે બરાબર.

કેસ: એમેડિયસ

Amadeus એ વિશ્વની સૌથી મોટી વૈશ્વિક એરલાઇન ટિકિટ વિતરણ પ્રણાલીઓમાંની એક છે. એક તરફ, એર કેરિયર્સ તેની સાથે જોડાયેલા છે, બીજી તરફ, એજન્સીઓ કે જેઓ વાસ્તવિક સમયમાં ફેરફારો વિશેની તમામ માહિતી પ્રાપ્ત કરવી જોઈએ અને તે તેમના ગ્રાહકોને પહોંચાડવી જોઈએ.

કાર્ય ટેરિફ (ભાડાના નિયમો) લાગુ કરવા માટેની શરતોનું સ્થાનિકીકરણ કરવાનું છે, જે વિવિધ સ્રોતોમાંથી બુકિંગ સિસ્ટમમાં આપમેળે જનરેટ થાય છે. આ નિયમો હંમેશા પર રચાય છે અંગ્રેજી. મેન્યુઅલ અનુવાદ અહીં વ્યવહારીક રીતે અશક્ય છે, કારણ કે ત્યાં ઘણી બધી માહિતી છે અને તે વારંવાર બદલાય છે. એરલાઇન ટિકિટ એજન્ટ તેમના ગ્રાહકોને તાત્કાલિક અને સક્ષમ રીતે સલાહ આપવા માટે રશિયનમાં ભાડાના નિયમો વાંચવા માંગે છે.

સ્પષ્ટ ભાષાંતર જરૂરી છે જે ટેરિફ નિયમોનો અર્થ જણાવે છે, સામાન્ય શબ્દો અને સંક્ષિપ્ત શબ્દોને ધ્યાનમાં લેતા. અને તેને એમેડિયસ બુકિંગ સિસ્ટમમાં સીધા જ એકીકૃત કરવા માટે સ્વચાલિત અનુવાદની જરૂર છે.

→ પ્રોજેક્ટનું કાર્ય અને અમલીકરણ દસ્તાવેજમાં વિગતવાર વર્ણવેલ છે.

ચાલો PROMT Cloud API દ્વારા કરવામાં આવેલ અનુવાદની સરખામણી કરવાનો પ્રયાસ કરીએ, જે Amadeus Fare Rules Translator માં સંકલિત છે, અને Google તરફથી "ન્યુરલ" અનુવાદ.

મૂળ: રાઉન્ડ ટ્રીપ ઝટપટ ખરીદી ભાડાં

PROMT (વિશ્લેષણાત્મક અભિગમ): રાઉન્ડ ફ્લાઇટની તાત્કાલિક ખરીદી માટેના દરો

જીએનએમટી: રાઉન્ડ પરચેઝ

તે સ્પષ્ટ છે કે ન્યુરલ અનુવાદક અહીં સામનો કરી શકતું નથી, અને થોડું આગળ તે શા માટે સ્પષ્ટ થશે.

કેસ: TripAdvisor

TripAdvisor એ વિશ્વની સૌથી મોટી મુસાફરી સેવાઓમાંની એક છે જેને કોઈ પરિચયની જરૂર નથી. ધ ટેલિગ્રાફ દ્વારા પ્રકાશિત એક લેખ અનુસાર, વિવિધ ભાષાઓમાં વિવિધ પ્રવાસી સ્થળોની 165,600 નવી સમીક્ષાઓ દરરોજ સાઇટ પર દેખાય છે.

કાર્ય આ સમીક્ષાના અર્થને સમજવા માટે પૂરતી અનુવાદ ગુણવત્તા સાથે અંગ્રેજીમાંથી રશિયનમાં પ્રવાસી સમીક્ષાઓનો અનુવાદ કરવાનું છે. મુખ્ય મુશ્કેલી: વપરાશકર્તા દ્વારા જનરેટ કરેલી સામગ્રીની લાક્ષણિક લાક્ષણિકતાઓ (ભૂલો, ટાઈપો, ગુમ થયેલ શબ્દો સાથેના ટેક્સ્ટ).

ટ્રીપએડવાઈઝર વેબસાઈટ પર પ્રકાશન પહેલા અનુવાદની ગુણવત્તાનું આપમેળે મૂલ્યાંકન કરવાનું કાર્યનો એક ભાગ હતો. તમામ અનુવાદિત સામગ્રીનું મેન્યુઅલી મૂલ્યાંકન કરવું શક્ય ન હોવાથી, ટ્રિપએડવાઈઝર માત્ર ઉચ્ચ-ગુણવત્તાવાળી અનુવાદિત સમીક્ષાઓ પ્રકાશિત કરે છે તેની ખાતરી કરવા માટે મશીન અનુવાદ ઉકેલે સ્વચાલિત વિશ્વાસ સ્કોર પ્રદાન કરવો આવશ્યક છે.

ઉકેલ માટે, PROMT DeepHybrid તકનીકનો ઉપયોગ કરવામાં આવ્યો હતો, જે અનુવાદ પરિણામોના આંકડાકીય પોસ્ટ-એડિટિંગ સહિત, અંતિમ વાચક માટે સમજી શકાય તેવું ઉચ્ચ ગુણવત્તાવાળું અનુવાદ મેળવવાનું શક્ય બનાવે છે.

ચાલો ઉદાહરણો જોઈએ:

મૂળ: અમે ત્યાં ગઈકાલે રાત્રે ધૂન પર ખાધું અને તે એક સુંદર ભોજન હતું. સેવા વધુ પડતી બેરિંગ વિના સચેત હતી.

PROMT (હાઇબ્રિડ અનુવાદ): અમે ત્યાં ગઈકાલે રાત્રે ધૂન પર ખાધું અને તે અદ્ભુત ભોજન હતું. સ્ટાફ ઘમંડી થયા વિના ધ્યાન આપતો હતો.

GNMT: અમે ત્યાં ગઈકાલે રાત્રે ધૂમ મચાવીને ખાધું અને તે અદ્ભુત ભોજન હતું. સેવામાં ઘમંડી થયા વિના સચેત હતી.

અહીં બધું ગુણવત્તાની દ્રષ્ટિએ અગાઉના ઉદાહરણની જેમ નિરાશાજનક નથી. અને સામાન્ય રીતે, તેના પરિમાણોના સંદર્ભમાં, આ સમસ્યાને સંભવિતપણે ન્યુરલ નેટવર્કનો ઉપયોગ કરીને ઉકેલી શકાય છે, અને આ અનુવાદની ગુણવત્તાને વધુ સુધારી શકે છે.

વ્યવસાય માટે NMT નો ઉપયોગ કરવાના પડકારો

અગાઉ સૂચવ્યા મુજબ, "સાર્વત્રિક" અનુવાદક હંમેશા સ્વીકાર્ય ગુણવત્તા પ્રદાન કરતું નથી અને ચોક્કસ પરિભાષાને સમર્થન આપી શકતું નથી. તમારી પ્રક્રિયાઓમાં અનુવાદ માટે ન્યુરલ નેટવર્કને એકીકૃત કરવા અને તેનો ઉપયોગ કરવા માટે, તમારે મૂળભૂત આવશ્યકતાઓને પૂર્ણ કરવાની જરૂર છે:

ન્યુરલ નેટવર્કને તાલીમ આપવા માટે સક્ષમ થવા માટે સમાંતર ગ્રંથોની પૂરતી માત્રાની હાજરી. ઘણીવાર ગ્રાહક પાસે તેમાંથી થોડા જ હોય ​​છે અથવા આ વિષય પર કોઈ ગ્રંથો પ્રકૃતિમાં અસ્તિત્વમાં નથી. તેઓ વર્ગીકૃત અથવા સ્વચાલિત પ્રક્રિયા માટે ખૂબ જ યોગ્ય ન હોય તેવી સ્થિતિમાં હોઈ શકે છે.

મોડેલ બનાવવા માટે, તમારે એક ડેટાબેઝની જરૂર છે જેમાં ઓછામાં ઓછા 100 મિલિયન ટોકન્સ (શબ્દનો ઉપયોગ) હોય અને વધુ કે ઓછા સ્વીકાર્ય ગુણવત્તાનો અનુવાદ મેળવવા માટે - 500 મિલિયન ટોકન્સ. દરેક કંપની પાસે આટલી માત્રામાં સામગ્રી હોતી નથી.

મેળવેલ પરિણામની ગુણવત્તાનું આપમેળે મૂલ્યાંકન કરવા માટે મિકેનિઝમ અથવા અલ્ગોરિધમ્સની ઉપલબ્ધતા.

પૂરતી કમ્પ્યુટિંગ શક્તિ.
"યુનિવર્સલ" ન્યુરલ ટ્રાન્સલેટર મોટે ભાગે ગુણવત્તામાં યોગ્ય નથી, અને સ્વીકાર્ય ગુણવત્તા અને કાર્યની ગતિ પ્રદાન કરવા સક્ષમ તમારા પોતાના ખાનગી ન્યુરલ નેટવર્કને જમાવવા માટે, "નાના વાદળ" ની જરૂર છે.

ગોપનીયતા સાથે શું કરવું તે સ્પષ્ટ નથી.
સુરક્ષા કારણોસર દરેક ગ્રાહક તેમની સામગ્રી ક્લાઉડને અનુવાદ માટે આપવા તૈયાર નથી અને NMT એ ક્લાઉડ-ફર્સ્ટ સ્ટોરી છે.

તારણો

સામાન્ય રીતે, ન્યુરલ ઓટોમેટિક ટ્રાન્સલેશન "શુદ્ધ" આંકડાકીય અભિગમ કરતાં ઉચ્ચ ગુણવત્તાના પરિણામો ઉત્પન્ન કરે છે;
"સાર્વત્રિક અનુવાદ" ની સમસ્યાને ઉકેલવા માટે ન્યુરલ નેટવર્ક દ્વારા સ્વચાલિત અનુવાદ વધુ યોગ્ય છે;
કોઈપણ ભાષાંતર સમસ્યાને ઉકેલવા માટે MT માટેનો કોઈપણ અભિગમ પોતે જ એક આદર્શ સાર્વત્રિક સાધન નથી;
વ્યવસાયિક અનુવાદની સમસ્યાઓને ઉકેલવા માટે, ફક્ત વિશિષ્ટ ઉકેલો જ તમામ જરૂરિયાતોનું પાલન કરવાની ખાતરી આપી શકે છે.

અમે એકદમ સ્પષ્ટ અને તાર્કિક નિર્ણય પર આવ્યા છીએ કે તમારા અનુવાદ કાર્યો માટે તમારે આ માટે સૌથી યોગ્ય અનુવાદકનો ઉપયોગ કરવાની જરૂર છે. અંદર ન્યુરલ નેટવર્ક છે કે નહીં તેનાથી કોઈ ફરક પડતો નથી. કાર્યને સમજવું વધુ મહત્વનું છે.

ટૅગ્સ: ટૅગ્સ ઉમેરો

09.14.2017, ગુરુ, 14:19, મોસ્કો સમય , ટેક્સ્ટ: વેલેરિયા શ્મિરોવા

Yandex.Translator સેવામાં, આંકડાકીય અનુવાદ ઉપરાંત, ન્યુરલ નેટવર્કમાંથી અનુવાદનો વિકલ્પ ઉપલબ્ધ બન્યો છે. તેનો ફાયદો એ છે કે તે સંપૂર્ણ વાક્યો સાથે કામ કરે છે, સંદર્ભને વધુ સારી રીતે ધ્યાનમાં લે છે અને સુસંગત, કુદરતી લખાણ ઉત્પન્ન કરે છે. જો કે, જ્યારે ન્યુરલ નેટવર્ક કંઈક સમજી શકતું નથી, ત્યારે તે કલ્પના કરવાનું શરૂ કરે છે.

ન્યુરલ નેટવર્ક લોન્ચ કરી રહ્યું છે

Yandex.Translator સેવાએ ન્યુરલ નેટવર્ક શરૂ કર્યું છે જે અનુવાદની ગુણવત્તા સુધારવામાં મદદ કરશે. અગાઉ, આંકડાકીય પદ્ધતિનો ઉપયોગ કરીને એક ભાષામાંથી બીજી ભાષામાં અનુવાદ કરવામાં આવતો હતો. હવે પ્રક્રિયા હાઇબ્રિડ હશે: આંકડાકીય મોડેલ અને ન્યુરલ નેટવર્ક બંને અનુવાદનું પોતાનું સંસ્કરણ પ્રદાન કરશે. આ પછી, CatBoost અલ્ગોરિધમ, જે મશીન લર્નિંગ પર આધારિત છે, પ્રાપ્ત શ્રેષ્ઠ પરિણામ પસંદ કરશે.

અત્યાર સુધી, ન્યુરલ નેટવર્ક ફક્ત અંગ્રેજીમાંથી રશિયનમાં અને ફક્ત સેવાના વેબ સંસ્કરણમાં જ અનુવાદ કરે છે. કંપનીના જણાવ્યા મુજબ, Yandex.Translator માં અંગ્રેજી-રશિયન અનુવાદ માટેની વિનંતીઓ તમામ વિનંતીઓમાં 80% છે. આગામી મહિનાઓમાં, વિકાસકર્તાઓ અન્ય ક્ષેત્રોમાં હાઇબ્રિડ મોડલ રજૂ કરવાનો ઇરાદો ધરાવે છે. વપરાશકર્તાને વિવિધ મિકેનિઝમ્સમાંથી અનુવાદોની તુલના કરવાની મંજૂરી આપવા માટે, એક વિશિષ્ટ સ્વીચ પ્રદાન કરવામાં આવે છે.

આંકડાકીય અનુવાદકથી તફાવતો

ન્યુરલ નેટવર્કનું સંચાલન સિદ્ધાંત આંકડાકીય અનુવાદ મોડલથી અલગ છે. ટેક્સ્ટ શબ્દનો શબ્દ દ્વારા, અભિવ્યક્તિ દ્વારા અભિવ્યક્તિનો અનુવાદ કરવાને બદલે, તે સંપૂર્ણ વાક્યોને ભાગોમાં તોડ્યા વિના કાર્ય કરે છે. આનો આભાર, અનુવાદ સંદર્ભને ધ્યાનમાં લે છે અને અર્થને વધુ સારી રીતે વ્યક્ત કરે છે. વધુમાં, અનુવાદિત વાક્ય સુસંગત, કુદરતી, વાંચવા અને સમજવામાં સરળ છે. વિકાસકર્તાઓ અનુસાર, તે માનવ અનુવાદકના કાર્ય માટે ભૂલથી થઈ શકે છે.

ન્યુરલ નેટવર્ક અનુવાદ માનવ અનુવાદ જેવું લાગે છે

ન્યુરલ નેટવર્કની વિશિષ્ટતાઓમાં જ્યારે તે કંઈક સમજી શકતું નથી ત્યારે "કલ્પના" કરવાની વૃત્તિનો સમાવેશ થાય છે. આ રીતે તે સાચા અનુવાદનું અનુમાન કરવાનો પ્રયાસ કરે છે.

આંકડાકીય અનુવાદકના તેના ફાયદા છે: તે દુર્લભ શબ્દો અને અભિવ્યક્તિઓનો વધુ સફળતાપૂર્વક અનુવાદ કરે છે - ઓછા સામાન્ય નામો, ટોપોનિમ્સ વગેરે. વધુમાં, જો વાક્યનો અર્થ સ્પષ્ટ ન હોય તો તે કલ્પના કરતો નથી. વિકાસકર્તાઓ અનુસાર, આંકડાકીય મોડેલ ટૂંકા શબ્દસમૂહો સાથે વધુ સારી રીતે સામનો કરે છે.

અન્ય મિકેનિઝમ્સ

Yandex.Translator પાસે એક વિશિષ્ટ મિકેનિઝમ છે જે ન્યુરલ નેટવર્કના અનુવાદને શુદ્ધ કરે છે, જેમ કે આંકડાકીય અનુવાદકના અનુવાદની જેમ, શબ્દો અને જોડણીની ભૂલોના મેળ ન ખાતા સંયોજનોને સુધારે છે. આનો આભાર, વપરાશકર્તા "પપ્પા ગયા" અથવા "જેવા સંયોજનો જોશે નહીં તીવ્ર પીડા", વિકાસકર્તાઓ ખાતરી આપે છે. આ અસર ભાષા મોડેલ સાથે અનુવાદની તુલના કરીને પ્રાપ્ત થાય છે - સિસ્ટમ દ્વારા સંચિત ભાષા વિશેના તમામ જ્ઞાન.

મુશ્કેલ કિસ્સાઓમાં, ન્યુરલ નેટવર્ક કાલ્પનિક બનવાનું વલણ ધરાવે છે

ભાષા મોડેલમાં ભાષામાં શબ્દો અને અભિવ્યક્તિઓની સૂચિ તેમજ તેમના ઉપયોગની આવર્તન પરનો ડેટા હોય છે. તેને Yandex.Translator ની બહાર એપ્લિકેશન મળી છે. ઉદાહરણ તરીકે, Yandex.Keyboard નો ઉપયોગ કરતી વખતે, તેણી જ અનુમાન કરે છે કે વપરાશકર્તા આગળ કયો શબ્દ લખવા માંગે છે અને તેને તૈયાર વિકલ્પો ઓફર કરે છે. ઉદાહરણ તરીકે, ભાષા મૉડલ સમજે છે કે "હેલો, કેવી રીતે" પછી "કરવું" અથવા "તમે" ના પ્રકારો દ્વારા અનુસરવામાં આવે તેવી શક્યતા છે.

"Yandex.Translator" શું છે

“Yandex.Translator એ Yandex કંપનીની એક ભાષામાંથી બીજી ભાષામાં ટેક્સ્ટનું ભાષાંતર કરવાની સેવા છે, જેણે 2011માં કામ શરૂ કર્યું હતું. શરૂઆતમાં, તે માત્ર રશિયન, યુક્રેનિયન અને અંગ્રેજી સાથે જ કામ કરતી હતી.

સેવાના અસ્તિત્વ દરમિયાન, ભાષાઓની સંખ્યા વધીને 94 ભાષાઓ થઈ ગઈ છે. તેમની વચ્ચે વિદેશી પણ છે, જેમ કે વેણી અથવા પેપિયામેન્ટો. કોઈપણ બે ભાષા વચ્ચે અનુવાદ કરી શકાય છે.

2016માં, Yandex.Translator એ J.R.R. Tolkienના પુસ્તકોમાં ઝનુન દ્વારા ઉપયોગમાં લેવાતી કાલ્પનિક અને કૃત્રિમ રીતે બનાવેલી ભાષા ઉમેરી.



સાઇટ પર નવું

>

સૌથી વધુ લોકપ્રિય