Microsoft sa prostredníctvom oficiálneho blogu pochválil dosiahnutím ďalšieho zaujímavého míľniku vo vývoji svojej umelej inteligencie. Výskumníkom sa v testoch Exact Match z databázy otázok SQuAD podarilo dosiahnuť skóre 82.65, pričom priemerné skóre, ktoré dosahujú ľudia je 82.304.
Databáza otázok SQuAD je postavená na obsahu zo známej internetovej encyklopédie Wikipedia a test Exact Match porovnáva a vyhodnocuje presnosť s akou testovaný subjekt dokáže odpovedať na kladené otázky po prečítaní textu. V princípe sa tu teda overuje schopnosť porozumieť čítanému textu a schopnosť správne identifikovať kľúčové informácie.
Umelá inteligencia z dielne Microsoftu má byť, aspoň v určitých prípadoch, schopná s textom pracovať lepšie ako priemerný človek. Microsoft ale pripomína, že predmetná umelá inteligencia má ešte ďaleko k dokonalosti. K tomuto názoru sa pripája aj viacero odborníkov na umelú inteligenciu a spracovanie prirodzeného jazyka.
Úspech bol totiž zaznamenaný vo veľmi špecifickom teste, ktorý nebol navrhnutý s cieľom zachytiť celkovú komplexnosť toho, čo sa pre ľudí skrýva pod pojmom čítanie. Test bol namiesto toho zostavený ako akýsi benchmark pre metódy strojového učenia a predmetné ľudské hodnotenie bolo vykonané kvôli overeniu kvality používaných dát, a nie pre vyhodnotenie ľudskej schopnosti čítať s porozumením.
Hoci otázky a témy môžu pôsobiť pomerne náročne, test je v skutočnosti značne jednoduchý. Testovaný subjekt totiž vie, že na každú stanovú otázku sa odpoveď musí nachádzať niekde v predloženom texte, ba čo viac, umiestnená je tam v presnej formulácii. Pokiaľ je teda otázka položená ako: „Koho autoritu spochybňovala Lutherova teológia?“, v zdrojom texte je uvedené „[Lutherova] teológia popierala autoritu a úrad Pápeža“. To znamená, že testovaný subjekt nemusí presne porozumieť tomu čo číta a stačí mu hľadať potrebné vetné konštrukcie ako podmet, či predmet.
Veľa testovaných modulov umelej inteligencie preto využíva vyhľadávanie vzorov, aby dospeli k správnej odpovedi a nejde tak o priame vyhodnotenie a pochopenie spracovaného obsahu. Výskumníci z oblasti umelej inteligencie a spracovávania prirodzeného jazyka kvôli tomu upozorňujú, že otázky z databázy SQuAD nie sú z pohľadu skutočného čítania s porozumením príliš komplexné. Náročnejšie majú dokonca byť aj testy na základných školách.
Napriek tomu, schopnosť umelej inteligencie identifikovať požadované informácie hoci len s ich povrchovým pochopením môže byť veľmi užitočná pri budovaní lepších vyhľadávačov alebo softvéru pre spracovávanie extrémne dlhých textov, ktoré by našli uplatnenie medzi lekárni a právnikmi.
Výskumníci z Microsoft uvádzajú, že v nadchádzajúcom období chcú popracovať na spracovávaní otázok prirodzeného jazyka. Príkladom je vyhodnocovanie série otázok, ktoré na seba kontextovo nadväzujú, no podmet je uvedený len v prvej z nich.
Ako príklad z praxe Microsoft uvádza dvojicu otázok: „Kedy sa narodila premiérka Nemecka? “, na čo nadväzuje doplňujúca otázka – „V ktorom meste sa narodila? “. Popracovať je potrebné aj na formulácii prirodzených odpovedí v prípade otázok, ktoré vyžadujú spracovanie informácií z viacerých na seba nadväzujúcich viet, ako aj na ďalších komplexnejších problémoch.
Zdroj: Microsoft, TheVerge