Oblast zpracování přirozeného jazyka jde za špatným cílem

cykloptická tráva bliká

paní Tech | Unsplash





Na typické výroční schůzi Asociace pro počítačovou lingvistiku (ACL), program je přehlídkou titulů jako Strukturovaný variační autokodér pro kontextové morfologické skloňování. Stejná technická příchuť prostupuje noviny, výzkumné rozhovory a mnoho rozhovorů na chodbě.

Na letošním konference v červenci však bylo něco jiného – a nebyl to jen virtuální formát. Rozhovory účastníků byly neobvykle introspektivní o základních metodách a cílech zpracování přirozeného jazyka (NLP), odvětví umělé inteligence zaměřené na vytváření systémů, které analyzují nebo generují lidský jazyk. Papíry v letošní novince Tématická stopa kladené otázky jako: Jsou aktuální metody opravdu dost k dosažení konečných cílů oboru? Co jsou to vůbec cíle?

Já a moji kolegové Elementární poznání AI, výzkumná firma AI se sídlem v Connecticutu a New Yorku, vidí úzkost jako oprávněnou. Ve skutečnosti se domníváme, že toto pole potřebuje transformaci, a to nejen v návrhu systému, ale i v méně atraktivní oblasti: hodnocení.



Současný NLP zeitgeist vzešel z půl desetiletí neustálého zlepšování podle standardního paradigmatu hodnocení. Schopnost systémů porozumět byla obecně měřena na srovnávací datové sady skládající se z tisíců otázek, z nichž každá je doprovázena pasážemi obsahujícími odpověď. Když hluboké neuronové sítě v polovině roku 2010 překonaly pole, přinesly kvantový skok ve výkonu. Následná kola práce udržovala skóre stále blíž ke 100 % (nebo alespoň k paritě s lidmi).

Výzkumníci by tedy publikovali nové soubory dat dokonce složitější otázky , jen abyste viděli, že ještě větší neuronové sítě rychle zveřejňují působivá skóre. Velká část dnešního výzkumu porozumění psanému textu vyžaduje pečlivé vyladění modelů, aby bylo možné získat o několik procentních bodů více na nejnovějších souborech dat. Stav techniky se prakticky stal vlastním jménem: Porazili jsme SOTA SQUAD o 2,4 bodu!

Ale mnoho lidé v a pole jsou čím dál tím víc unavení z takového honby za žebříčky. Co svět skutečně získal, když masivní neuronová síť dosáhne SOTA na nějakém benchmarku o bod nebo dva? Není to tak, že by se někdo staral o odpovědi na tyto otázky kvůli sobě; vítězství v žebříčku je akademické cvičení, které nemusí nástroje v reálném světě vylepšit. Ve skutečnosti mnoho zjevných zlepšení nevyplývá z obecných schopností porozumění, ale z mimořádných dovedností modelů vykořisťování falešný vzory v datech. Skutečně se nedávné pokroky promítají do pomoci lidem řešit problémy?



Takové pochybnosti jsou více než abstraktní znepokojivé; Skutečnost, zda jsou systémy skutečně zdatné v porozumění jazyku, má pro společnost skutečný význam. Pochopení samozřejmě zahrnuje širokou škálu dovedností. Pro jednodušší aplikace – jako je získávání faktoidů Wikipedie nebo hodnocení sentimentu v recenzích produktů – moderní metody udělat docela dobře . Ale když si lidé představí počítače, které rozumí jazyku, představí si mnohem sofistikovanější chování: právní nástroje, které lidem pomáhají analyzovat jejich nesnáze; asistenti výzkumu, kteří syntetizují informace z celého webu; roboty nebo herní postavy, které provádějí podrobné pokyny.

Dnešní modely se ani zdaleka nedosahují této úrovně porozumění – a není jasné, že další dokument SOTA toto pole přiblíží.

Jak to, že komunita NLP skončila s takovou propastí mezi hodnocením na papíře a schopnostmi v reálném světě? V ACL poziční papír , mí kolegové a já tvrdíme, že ve snaze dosáhnout obtížných měřítek ztratila hodnocení ze zřetele skutečné cíle: ty sofistikované následné aplikace. Abychom si vypůjčili řádek z papíru, výzkumníci NLP trénovali, aby se stali profesionálními sprintery, rozhlíželi se po tělocvičně a osvojili si všechna cvičení, která vypadají tvrdě.



Aby byla hodnocení více v souladu s cíli, pomáhá zvážit, co brzdí dnešní systémy.

Člověk, který čte pasáž, vytvoří detailní reprezentaci entit, míst, událostí a jejich vztahů – mentální model světa popsaný v textu. Čtenář pak může doplnit chybějící detaily v modelu, extrapolovat scénu dopředu nebo dozadu, nebo dokonce vytvořit hypotézy o kontrafaktuálních alternativách.

Tento druh modelování a uvažování je přesně to, co musí dělat automatizovaní výzkumní asistenti nebo herní postavy – a v dnešních systémech nápadně chybí. Výzkumník NLP obvykle dokáže překonat nejmodernější systém porozumění psanému textu během několika pokusů. Jeden spolehlivá technika je prozkoumat systémový model světa, který může opustit i tolik otrávený GPT-3 blábolení o cykloptických stéblech trávy.



Naplnění automatických čteček světovými modely bude vyžadovat velké inovace v návrhu systému, jak je uvedeno v několik Tematická stopa podání . Náš argument je však zásadnější: ať už jsou systémy implementovány jakkoli, pokud potřebují mít věrné světové modely, pak by hodnocení měla systematicky testovat, zda mají věrné světové modely.

Řečeno tak plešatě, může to znít jako samozřejmost, ale dělá se to jen zřídka. Výzkumné skupiny jako např Allenův institut pro AI mít navržený další způsoby, jak zpřísnit hodnocení, jako je zacílení na různé jazykové struktury, kladení otázek, které se opírají o více kroků uvažování, nebo dokonce jen sdružování mnoho benchmarky . Další badatelé, jako např Yejin Choi skupina na Washingtonské univerzitě se zaměřila na testování společný smysl , která vtahuje aspekty světového modelu. Takové snahy jsou užitečné, ale obecně se stále zaměřují na sestavování otázek, na které se dnešní systémy snaží odpovědět.

Navrhujeme zásadnější posun: aby vytvořili smysluplnější hodnocení, měli by výzkumníci NLP začít důkladným specifikováním toho, co by měl model světa systému obsahovat, aby byl užitečný pro následné aplikace. Takový účet nazýváme šablonou porozumění.

Jedním z obzvláště slibných testů pro tento přístup jsou fiktivní příběhy. Originální příběhy jsou bohaté na informace, nelze je Google a jsou ústřední pro mnoho aplikací, což z nich činí ideální test dovedností čtení s porozuměním. Náš generální ředitel čerpá z kognitivní vědecké literatury o lidských čtenářích David Ferrucci navrhl čtyřdílnou šablonu pro testování schopnosti systému umělé inteligence porozumět příběhům.

  • Prostorový: Kde je vše umístěno a jak je to umístěno v příběhu?
  • Dočasný: K jakým událostem dochází a kdy?
  • Kauzální: Jak události mechanicky vedou k jiným událostem?
  • motivační: Proč se postavy rozhodnou udělat to, co dělají?

Systematickým kladením těchto otázek o všech entitách a událostech v příběhu mohou výzkumníci NLP principiálně hodnotit porozumění systémů a zkoumat modely světa, které systémy skutečně potřebují.

Je povzbudivé vidět, jak komunita NLP přemýšlí o tom, co dnešním technologiím chybí. Doufáme, že toto uvažování povede k podstatným investicím nejen do nových algoritmů, ale i do nových a důslednějších způsobů chápání měřicích strojů. Taková práce se možná nedostane do tolika titulků, ale máme podezření, že investice do této oblasti posunou pole kupředu minimálně stejně jako příští gargantuovský model.

Jesse Dunietz je výzkumným pracovníkem v Elementární poznání , kde pracuje na vývoji přísných hodnocení pro systémy čtení s porozuměním. Je také vzdělávacím designérem pro MIT Komunikační laboratoř a vědecký spisovatel .

skrýt