Wikipedia přidat význam svým stránkám

Jako globální zdroj vybudovaný z volného času milionů dobrovolníků může být Wikipedie ztělesněním webu 2.0. Ale Nadace Wikimedia , nezisková organizace, která mimo jiné provozuje Wikipedii, nyní přemýšlí o tom, jak z ní udělat základní kámen Webu 3.0 neboli sémantického webu.





To znamená učinit některá data z 15 milionů (a stále přibývajících) článků Wikipedie srozumitelná počítačům i lidem. To by softwaru umožnilo například vědět, že čísla uvedená v jednom ze sloupců v tato tabulka se seznamem prezidentů USA jsou data. To by zase umožnilo aplikacím, které čerpají z Wikipedie, aby automaticky generovaly historické časové osy nebo odpovídaly na takové obecné otázky, které by obvykle vyžadovaly, aby osoba našla a přečetla relevantní záznam na webu.

Na Sémantická technologie 2010 konferenci v San Franciscu minulý měsíc, zástupce ředitele nadace, Erik Möller , a kolega Trevor Parscal , vývojář uživatelských zkušeností pro Wikimedia, ukázal některé první kroky, které nadace podnikla, aby prozkoumala, jak by mohla být do Wikipedie přidána sémantičtější struktura. Obrátili se také na komunitu sémantického webu, aby pomohla vyvinout způsoby, jak zpřístupnit znalosti Wikipedie počítačům a softwaru.

Sémantické informace již ve Wikipedii existují a lidé na nich již staví, říká Möller. Bohužel jim ve skutečnosti nepomáháme a musí k tomu použít rozsáhlé zpracování.



Jedním z příkladů je DBPedia , sémantická databáze vytvořená pomocí softwaru shromažďující data ze stránek webu a spravovaná Svobodnou univerzitou v Berlíně a Univerzitou v Lipsku, obě v Německu. Další je Freebase , zisková znalostní databáze, z nichž velká část byla také získána z Wikipedie. Freebase je zdroj dat používaný vyhledávačem odpovědí na otázky PowerSet , kterou koupila společnost Microsoft, aby se stala součástí jejího vyhledávače Bing.

Prvními cíli pro Möllera a Parscala jsou infoboxy které se objevují jako souhrny na mnoha stránkách Wikipedie a tabulky v heslech, jako např tento ukazuje hrubý národní produkt všech zemí světa .

Už jen možnost znovu použít tato data ve Wikipedii by byla velká věc, říká Yaron Koren , který provozuje poradenskou společnost, která se specializuje na Sémantická MediaWiki , rozšíření softwaru MediaWiki používaného k vytváření Wikipedie. Manuální práce, která dnes vyžaduje údržbu mnoha tabulek a seznamů, by mohla být odstraněna, dodává. Místo toho by mohly být seznamy automaticky generovány z infoboxů jiných stránek. Bylo by také možné generovat mapy pomocí souřadnic polohy, které se objevují na některých stránkách, nebo automaticky generovat časové osy, které by shrnuly období v historii pokryté mnoha jinými stránkami, říká Möller.



Möller říká, že příkladem druhu služeb, které by mohly být povoleny, je WikiPics , vyvinutý společností Daniel Kinzler v německé nadaci Wikimedia. Kinzler seškrábal databázi všech odkazů, které spojují různé stránky Wikipedie dostupné ve více jazycích, a vytvořil plně vícejazyčné vyhledávání obrázků. Když uživatel zadá například výraz kůň, služba ví, že má najít také obrázky cheval (francouzsky) a Pferd (německy). Místo výrazů hledáte pojmy, říká Möller. V současnosti však stránka spoléhá na pomalý proces seškrabování celé Wikipedie, aby aktualizovala své znalosti. Sémantická Wikipedie by udržovala živou databázi, která by mohla být kdykoli dotazována.

Wikipedia čelí dvěma velkým výzvám při přijímání sémantických konceptů, říká Möller. Jedním z nich je, že dosud nikdo nevybudoval sémantickou webovou službu v měřítku webu, jako je Wikipedia, a není jasné, zda stávající software, jako je Semantic MediaWiki, tento úkol zvládne, říká.

Druhou výzvou je funkce Wikipedie, která je zatím nejvíce zodpovědná za její úspěch: její komunita. Přemýšlení o přidání sémantické struktury je přirozeným rozšířením toho, co Wikipedia potřebuje udělat, vzhledem k převládajícím trendům, říká Andrew Lih z University of Southern California a autor knihy z roku 2009 Revoluce na Wikipedii . Ale trochu se obávám o databázový aspekt, který s tím přichází – přitažlivost wiki je v první řadě ve způsobu, jakým byly ručně upravovány lidmi.

Parscal je vedoucím úsilím, aby mohl kdokoli snadno přidávat nebo upravovat data velkého sémantického úložiště. Pracovali jsme na vizuálním editoru, který navrhuje, jak bychom mohli pomoci uživatelům přispívat strukturovanými daty, a který také usnadňuje proces úprav, říká Parscal.

Editace Wikipedie je dnes již skličující proces, který potřebuje zlepšení, připouští Parscal. Pokud jste interagovali s naším rozhraním, vysvětluje, dostali jste facku od wikitextu (označovací jazyk, který používá speciální kód kolem textu k formátování věcí, jako jsou odkazy, odkazy a nadpisy sekcí). Wikitext pro tabulky nebo infoboxy – informace nejzralejší pro vytvoření sémantiky – je obzvláště hustý a těžko srozumitelný, říká Parscal. Nedávno jsme provedli několik studií uživatelských zkušeností s lidmi, kteří jej dříve nepoužívali; byli rychle docela frustrovaní.

V budoucnu může být možné zcela odstranit potřebu člověka osídlit některé části Wikipedie, říká Möller. V zásadě by mnoho z těchto údajů pravděpodobně neměli lidé zadávat na prvním místě, měli by jen, řekněme, jednou ročně zjišťovat zdroj čísla, jako je HDP. To je schopnost, kterou Koren již přidal do Semantic MediaWiki prostřednictvím rozšíření s názvem ExternalData.

skrýt