Funkce automatických nástrojů pro sumarizaci textu

Ostatní

V poslední době jsou vyhledávání na internetu nejoblíbenější věcí prováděnou lidmi. Je naprosto snadné získat informace o téměř všem. V každém případě nemusí být informace, které získáme z vyhledávačů, přesně to, co je potřeba. Abychom zjistili, co každá webová stránka obsahuje, prozkoumáme malé odstavce pod každým odkazem. Tyto malé odstavce shrnují hlavní článek. Vzhledem k tomu, že na internetu je každý den nahráno mnoho článků, zpráv, webových stránek, blogů a výzkumů, je nemožné každý článek ručně shrnout.

Google, Bing, Yahoo a další vyhledávače využívají nástroje automatického shrnutí článku ke generování shrnutí pro zdlouhavé textové dokumenty. Sumarizátor je systém, který odstraní věty z dokumentů a restrukturalizuje je čitelným způsobem. To se provádí určením nejdůležitějších textů pro vytvoření výrazně kratšího dokumentu. Toto shrnutí umožňuje počítačům analyzovat a porozumět lidskému jazyku.

K automatickému shrnutí textu existují dvě hlavní techniky – abstraktní metoda a metoda extrakce.

Rozsah, v jakém jsou shrnuty texty, je seskupen podle odkazu na jeho typ vstupu (jeden nebo více zdrojových dokumentů), účel, doménově specifický nebo založený na dotazech a typ výstupu (abstraktní nebo extrakční).

Abstraktní metoda vytváří zcela nové věty a fráze, které zachycují podstatu zdrojových textů. Tato metoda je náročnější a poskytuje realističtější výsledek. Ačkoli tato metoda vybírá a komprimuje obsah ze zdrojových textů, může obsahovat slova chybějící ve zdrojovém textu.

Metoda shrnutí textového shrnutí vybírá věty a fráze ze zdrojového dokumentu a vytváří shrnutí. Jeho technika řadí fráze do pořadí podle důležitosti, poté vybírá ty, které jsou nejblíže smyslu původního dokumentu.

Jeho dostupnost a snadnější přístup činí extrakční metodu účinnější a široce používanou; problém abstrakce se však považuje za obecně vyřešený