Do beletrie se zatím pouštět nebudeme, říká expert na počítačovou lingvistiku

18. květen 2016

Co je to počítačová lingvistika? Budou někdy počítače schopné věrně překládat beletrii a přesně porozumět lidské řeči? Metody tohoto oboru zkoumá profesor Jan Hajič z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze.

„Snažíme se naučit počítač porozumět i tvořit lidskou řeč, jak mluvenou tak psanou,“ uvedl v Magazínu Leonardo vědec.

Překlad se stále považuje za královskou disciplínu, vysvětlil lingvista. „Jednak je třeba analyzovat jeden jazyk a vyrobit výstup ve druhém jazyce. Pro překlady ale fungují velmi dobře statistické metody.“

„Pokud nechceme kvalitu překladu skutečně maximální, která je dnes ještě nedosažitelná, tak už pro leckteré aplikace strojový překlad použitelný je,“ dodal Hajič.

Ten předpovídá, že v budoucnu se překladatelům pracovní náplň poněkud změní. „V řadě případů nebudou překládat sami, ale budou opravovat to, co přeložil počítač ne úplně dokonale.“

„To bude vyžadovat některé nové postupy, které klasické překládání nezná. Myslím ale, že do beletrie se pouštět nebudeme,“ uznal vědec.

Jak složitý je který jazyk?

Obtížnost jazyků se dříve měřila složitostí gramatiky. „Dnes, díky použití strojového učení, se měří spíše velikostí dostupných dat,“ tvrdí Hajič.

„Strojové učení funguje tím lépe, čím více textů do počítače můžeme dát. Pochopitelně nejvíce textů je dnes dostupných anglicky, čínsky, španělsky, ale pro menší jazyky je to problém. To se týká i češtiny.“

Český MALACH: fonetické vyhledání fráze "Arbeit macht frei"

Při deseti milionech mluvčích českého jazyka textů, podle kterých by se stroje mohly „učit", není k dispozici tolik.

„Místo snažení se popsání gramatické struktury tedy spíše sháníme texty, a pak necháme počítač se jejich strukturu naučit,“ přiblížil metodu Hajič.

Projekt Malach jako zkouška vědecké metody

„Záměrem bylo zkusit zpracovat velký archiv rozhovorů s těmi, kteří přežili holocaust. Archiv byl původně sponzorován režisérem Stevenem Spielbergem.“

Čeští počítačoví lingvisté se k projektu dostali právě proto, že byli schopni analyzovat mluvenou řeč i překladovou část testimonií.

Objem zpracovaných dat byl enormní: šlo o výpovědi 52 tisíc svědků z 56 zemí ve 32 jazycích. „Archiv je to obrovský, takže bylo jasné, že potřebujeme nějakou technologii, aby se v něm dalo najít to, co badatele z různých oborů zajímá.“

„Ve spolupráci s kolegy ze Západočeské univerzity se podařilo zprovoznit fulltextové vyhledávání, takže teď máme systém, který v českých výpovědích projektu Malach může vyhledávat,“ chválil úspěšnou aplikaci Jan Hajič.

autoři: Veronika Paroulková , Jana Olivová , oci
Spustit audio