Firma Google vyvíjí software, který umí sám popisovat obsah obrázků

20. listopad 2014

Výzkumník firmy Oriol Vinyals předvedl veřejnosti, jak umělá inteligence na bázi neuronových sítí, obsažená v jeho experimentálním softwaru, umí samostatně detekovat, klasifikovat a popisovat objekty a situace, které jsou obsaženy i ve složitějších obrazových scénách.

Většina z nás asi zná situaci, kdy chceme zpracovat nějaké rodinné fotografie nebo fotografie z cest a pokud v nich nechceme mít chaos, potřebujeme je patřičně roztřídit a popsat. Pak následují hodiny a dny úmorné práce, kdy si fotografie prohlížíme, přiřazujeme k nim popisky a tagy a třídíme je. Tato práce vyžaduje značné úsilí i tehdy, pokud máme k dispozici software na zpracování obrázkových galerií.

Firma Google ale vyvíjí software, nazvaný prozatímně Neural Image Caption (NIC), který tyto procedury zvládne ve většině sám. Dokonce umí z obrázků “vytáhnout” nejen pojmenování konkrétních objektů, ale také někdy dokáže správně pojmenovat i souvislosti a dění na scéně. Výsledkem tak mohou být například věty jako: “Skupina mladých lidí hraje frisbee”. Nebo “Stádo slonů táhne přes suchou zatravněnou plochu”. Či “Dvě pizzy se nacházejí na sporáku”. Úspěšnost softwaru se momentálně pohybuje kolem 60%. Lidský standard je přitom kolem 70%.

To však není nic divného, pokud si uvědomíme, jak algoritmy založené na umělých neuronových sítích pracují a jak velmi dlouho je třeba je “trénovat”, aby se nedopouštěly chyb. V každém případě tedy musejí výstupy daného programu stále ještě kontrolovat lidé. To ale není zásadní problém, když si uvědomíme, jak fungují některé systémy pro automatické rozeznávání písma a slov (RECAPTCHA), jejichž funkce je a musí být v masovém měřítku korigována uživateli na internetu. Úspěšnost neuronových sítí stoupá souběžně s tím, jaké porce dat už mohly v historii zkonzumovat a jak se tedy mohly ze svých chyb poučit.

Ne všechny popisy se zdařily - úspěšnost softwaru se momentálně pohybuje kolem 60%

Výzkumníci vyšli z postupů používaných ve strojovém překladu, nazvaných rekurentní neuronové sítě (anglická zkratka RNN). V rámci softwaru pro automatický popis obrázků se však navíc objevil další postup na bázi tzv. konvoluční neuronové sítě (CNN). Pracují zde vlastně dvě neuronové sítě. Jedna převádí obsah obrázku do formy matematické reprezentace. Druhá pro příslušný matematický konglomerát nachází vhodný popis v přirozeném jazyce. I když je tento software zatím jen ve vývojovém stadiu, výzkumníci již uvažují o tom, jak dosavadní výsledky uplatnit v oblasti vyhledávání obrázků nebo při pomoci zrakově handicapovaným lidem, kterým by aplikace automaticky sdělovala, co se děje kolem nich. Vojenské nebo bezpečnostní aplikace jsou samozřejmě nasnadě.

Výzkumníci vyšli z postupů používaných ve strojovém překladu, nazvaných rekurentní neuronové sítě (RNN)

Zdroje: Google Research Blog, MIT Technology Review, BBC, New York Times, PC World, Techspot, GMA News

autor: Pavel Vachtl
Spustit audio