211service.com
Soubory dat s chybami narušují náš pocit, jak dobrá AI skutečně je
Jeremy Lwanga/Unsplash
The Podle 10 nejcitovanějších souborů dat AI je prošpikováno chybami na štítcích nová studie z MIT a zkresluje to naše chápání pokroku v oboru.
Datová páteř: Soubory dat jsou páteří výzkumu AI, ale některé jsou kritičtější než jiné. Existuje jejich základní sada, kterou výzkumníci používají k vyhodnocování modelů strojového učení jako způsob, jak sledovat, jak se schopnosti umělé inteligence v průběhu času vyvíjejí. Jedním z nejznámějších je kanonický soubor dat pro rozpoznávání obrazu ImageNet, který odstartoval moderní revoluci umělé inteligence. Existuje také MNIST, který sestavuje obrázky ručně psaných čísel mezi 0 a 9. Další soubory dat testují modely trénované na rozpoznávání zvuku, textu a ručních kreseb.
Ano, ale: V posledních letech studie zjistily, že tyto soubory dat mohou obsahovat vážné nedostatky. ImageNet například obsahuje rasistické a sexistické označení stejně jako fotografie tváře lidí získané bez souhlasu . Nejnovější studie se nyní zabývá dalším problémem: mnoho štítků je prostě naprosto špatně. Houba je označena jako lžíce, žába je označena jako kočka a vysoký tón od Ariany Grande je označen jako píšťalka. Testovací sada ImageNet má odhadovanou chybovost štítků 5,8 %. Mezitím testovací sada pro QuickDraw, kompilaci ručních kreseb, má odhadovanou chybovost 10,1 %.
Jak se to měřilo? Každá z 10 datových sad používaných pro vyhodnocení modelů má odpovídající datovou sadu použitou pro jejich trénování. Výzkumníci, postgraduální studenti MIT Curtis G. Northcutt a Anish Athalye a kamenec Jonas Mueller, použili soubory tréninkových dat k vývoji modelu strojového učení a poté je použili k předpovědi štítků v testovacích datech. Pokud model nesouhlasil s původním štítkem, datový bod byl označen pro ruční kontrolu. Pět lidských recenzentů na Amazon Mechanical Turk bylo požádáno, aby hlasovali o tom, který štítek – model nebo originál – považují za správný. Pokud většina lidských recenzentů souhlasila s modelem, původní štítek byl započítán jako chyba a poté opraven.
Záleží na tom? Ano. Výzkumníci se podívali na 34 modelů, jejichž výkon byl dříve měřen oproti testovací sadě ImageNet. Poté přeměřili každý model proti zhruba 1500 příkladům, kde bylo zjištěno, že štítky s údaji jsou chybné. Zjistili, že modely, které si na originálu tak dobře nevedly nesprávný štítky byly některé z nejlepších po opravách štítků. Zejména se zdálo, že jednodušší modely dopadly na opravená data lépe než složitější modely, které používají tech giganti jako Google pro rozpoznávání obrázků a považují se za nejlepší v oboru. Jinými slovy, můžeme mít nafouknutý pocit, jak skvělé jsou tyto komplikované modely kvůli chybným testovacím datům.
Co teď? Northcutt doporučuje, aby pole AI vytvářelo čistší datové sady pro hodnocení modelů a sledování pokroku v oboru. Také doporučuje, aby výzkumníci zlepšili hygienu dat při práci s vlastními daty. Jinak říká, že pokud máte hlučnou datovou sadu a spoustu modelů, které zkoušíte, a chystáte se je nasadit v reálném světě, mohli byste skončit výběrem špatného modelu. Za tímto účelem použil open-source kód použil ve své studii pro opravu chyb na štítcích, které, jak říká, již používá několik velkých technologických společností.