12. února  2013 v 10:50  rubrika: Speciál

Počítače asi nikdy nahradí lidského korektora ani překladatele

Diktát. Ilustrační foto - Foto: Pavel Novák

Diktát. Ilustrační fotoFoto: Pavel Novák

Rozčilují vás neohrabané formulace automatických překladačů a nesmyslné vlnky, kterými vám textový editor podtrhuje bezchybné věty? Nejste sami. Stroje zkrátka ještě pořád nemají tak vytříbený jazykový cit, jak bychom si přáli.

„Drahý příteli, I přinášet vám teplé a srdečné pozdravy z Londýna, Velká Británie. Jeho pravda, že nevíme, navzájem velmi dobře, ale rozhodl jsem se vás kontaktovat poté, co šel přes váš profil. Mé jméno je James McPherson z Londýna, Anglie. Já pracuji s velkým banky tady v Londýně jako generální auditor a vedoucí výpočetního oddělení. Tam je bankovní účet otevřen v mé bance v roce 2000 a od roku 2003 nikdo působí na tomto účtu znovu.“ 

Takový vřelý dopis došel elektronickou poštou asi už každému z nás. Je vlastně úplně jedno, jestli je pod ním podepsaný James McPherson nebo někdo úplně jiný, podle úrovně češtiny můžete vzít jed na to, že ho adresát prohnal strojovým překladem. 

Strojových překladů je ovšem mnoho typů, a mnoho typů je tak i chyb, které dělají. Existuje překlad frázový, kterému se říká také robustní nebo statistický, a překlad hloubkově-syntaktický neboli stromečkový. 

„Přístupů ke strojovému překladu je víc. Nejpodstatnější je, co je cílem, kde má být překlad nasazen. Pokud potřebujeme jenom orientačně zjistit, jestli text v cizím jazyce je určen pro nás a jestli mluví o tom, co nás zajímá, tak postačí metody, které jsou tzv. robustní. Poradí si s jakkoli špatným vstupem, jsou lingvisticky velmi neinformované, ale snadno se trénují. Příkladem takového překladu je nejrozšířenější Google Translator. Nevýhodou tohoto přístupu je nízká spolehlivost výstupu. Nejenom, že to občas přeloží špatně, co je mnohem horší, občas ten výsledný text vypadá pěkně, hladce a srozumitelně, ale ztratila se negace, změnilo se hlavní téma, o čem ta věta je,“ řekl pro magazín Klik-a Ondřej Bojar z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. 

Na škále dvou extrémů je řada mezistupňů. Těmi jsou manuály nebo návody k výrobkům, kde se chyby tolerovat dají. Střední kvalita textů je založen na větném rozboru zdrojového a cílového jazyka. 

Pravopis - Foto: Filip Rožánek

PravopisFoto: Filip Rožánek

„Dnešní výzkum spěje tím směrem, že hloupý statistický přístup bude postupně rozšířen a obohacen o lingvistické rysy. Počítač bude provádět větný rozbor a bude se nepatrně blížit porozumění té větě, ale skutečně nepatrně,“ dodal Bojar. 

Frázové systémy překládají na základě posloupnosti slov větu rozdělí na krátké úseky a větu přeloží. Hloubkově-syntaktický překlad využívá větnou stavbu a rozbor.  

I když si tento stromečkový překlad trumfne ve větném rozboru kdekterého středoškoláka, není těžké ho nachytat na švestkách. O překladu frázovém to ovšem platí zrovna tak, jak dále uvedl Ondřej Bojar:  

„Moje oblíbená věta, která přivede na scestí překlad stromečkový nebo překlad s větným rozborem, je tříslovná věta Ženu holí stroj. Ta věta může znamenat až čtyři různé věci, může mít čtyři různé rozbory. Nechám na posluchačích, aby si je za domácí úkol našli. To je ukázka toho, že provést větný rozbor je obtížná úloha a pokud počítač neuhodne správný větný rozbor, nemůže správně větu přeložit. U jednoduššího frázového překladu stačí šlápnout vedle slovníku. Stačí když použiji slova v takovém tvaru, v jakém je počítač nikdy v trénovacích datech neviděl. Například idiomatické spojení Natáhnout bačkory.“ 

Výzva pro lingvisty i programátory  

Všechny současné strojové překlady mají své mouchy. Ovšem to, co se běžnému uživateli může zdát jako nepřekonatelná vada na kráse, představuje pro programátory a lingvisty velikou výzvu. Své systémy se snaží zdokonalovat a porovnávat s konkurenčními systémy v soutěžích po celém světě. 

Velmi prestižní je v tomto ohledu Workshop in Machine Translation, kde rok co rok se svými systémy soutěží i pražský Ústav formální a aplikované lingvistiky. Podobně jako v krasobruslení je ale i v soutěžích strojových překladů velmi obtížně najít nějaké objektivní hodnocení, a tedy i jednoznačného vítěze. 

Kontrola pravopisu v textovém editoru. - Foto: Jana Matznerová

Kontrola pravopisu v textovém editoru.Foto: Jana Matznerová

„Jak poznat, který překlad je lepší, se zatím ještě neví. Problém je, že velmi často ve větách, které mají běžnou délku, jeden systém pokazí začátek věty, druhý konec věty a třetí celou větu vyrobí krásně srozumitelnou, ale obrátí negaci. Jak potom máte tyto tři výstupy srovnat?“ ptá se Bojar a odpovídá si, „Jeden za zajímavých způsobů, jak hodnotit kvalitu překladu, je lidem dát pouze výstup strojového překladu a zadání: Opravte ten výstup.“ 

(Ne)korektní korektor  

Cizojazyčné překlady ale nejsou jedinou oblastí, kde sázíme na stroje a možnost vytříbit jejich jazykový cit. Velkým pomocníkem jsou nám i korektory jednojazyčných textů, které jsou dnes už automatickou součástí textových editorů. 

Na tomto místě je ale zapotřebí upozornit na rozdíly mezi (hojně proklínanými) automatickými opravami, červeně podtrhávajícími korektory pravopisu a zeleně vlnícími se korektory gramatiky. Rozdíl mezi nimi vysvětlil ředitel Ústavu pro jazyk český Akademie věd a spoluautor Korektoru české gramatiky Karel Oliva. 

„Červené vlnovky, neboli tzv. korektor pravopisu, pracují velmi jednoduchým způsobem. Můžete si to představit tak, že vezmete slova z nějakého českého slovníku, vyskloňujte, vyčasujete, to znamená uděláte všechny tvary, které existují, a pak jenom projíždíte ten text, který máte opravit, a kontrolujete, jestli v tom seznamu, který jste si před tím udělali, taková posloupnost písmenek je, nebo není. Princip věci je jednoduchý: korektor gramatiky nemůže pracovat na takovém principu, protože není možné zadat si dopředu všechny možné české věty. Těch je nekonečně mnoho, vždycky můžeme větu alespoň o jedno slovo prodloužit a tak dále. Čili tam se musí hledat nějaké skutečné jazykové zákonitosti.“ 

Odborníci se snažili nejprve naprogramovat všechny věty, ale pak naprogramovat chybné příklady.  

„Ale pak jsme se po vzoru Járy Cimrmana ujistili o tom, že toto je slepá ulička, takže jsme potom zvolili ten druhý přístup. Velmi pečlivě jsme si zjistili, jaké možné chyby v češtině existují. Tato metoda ovšem „selhává“ u těch vět, kdy z hlediska člověka, který tomu textu rozumí, se zdá ta věta chybná. Fakticky v ní ale žádná chybná konfigurace není, protože existuje nějaké velmi neobvyklé nečekané čtení té věty. Mým oblíbeným příkladem je věta Chlapci šly. Zdá se, že je tam chyba ve shodě podnětu a přísudku. Na druhou stranu, když si takovou větu zasadím do kontextu: ´Koupil jsem svým dětem hodinky. Dceři už za dva dny nešly, chlapci šly,´ tam je to vlastně dobře,“ doplnil Oliva. 

Že by textové korektory připravily o práci lidi-korektory, se Karel Oliva nebojí: 

„Zrovna tak jako strojový překlad asi nenahradí v nejbližší budoucnosti a možná nikdy překladatele, tak zrovna tak tento program může pomáhat, ale nenahradí lidského korektora.“ 

Nápověda k domácímu úkolu  

Abychom vás ale nenapínali celý dlouhý týden do dalšího vydání magazínu Klik-a, prozradíme vám nápovědu k hádance Ondřeje Bojara už teď. 

Budete-li hledat všechny čtyři významy věty „Ženu holí stroj", vězte, že v této větě může být přísudkem každé její slovo. 

 

Co vznikne, když spojí síly lingvisté a programátoři? Například strojové překladače a korektory textů. Jak vlastně fungují a proč občas fungovat nezvládají, vysvětluje Tereza Burianová.

Vložit na svůj web

Pořad: Klik-a  |  Stanice: ČRo Rádio Česko (archivováno)
Čas vysílání: vysíláno do 26. 2. 2013  
 

Mobilní verze | Podmínky užití | English
© 1997-2017 Český rozhlas

Tento web používá k analýze návštěvnosti soubory cookie. Používáním tohoto webu s tím souhlasíte. Další informace