211service.com
Chytřejší web
Tim Berners-Lee se musí cítit jako v časovém sledu. Na počátku 90. let strávil frustrující rok snahou přimět lidi, aby pochopili sílu a krásu jeho nápadu na schéma známé jako internetový hypertextový systém, kterému dal okouzlující název World Wide Web. Ale protože web ještě neexistoval, většina lidí si nedokázala představit důsledky toho, o čem mluvil. Berners-Lee vytrval a s pomocí několika lidí, kteří sdíleli jeho vizi, se jeho vynález stal nejrychleji rostoucím systémem distribuce médií v historii.
O deset let později se Berners-Lee potýká se stejným problémem – tentokrát se pouze snaží vyjádřit svůj sen o sémantickém webu. Cílem je utkat web, který nejen propojí dokumenty mezi sebou, ale také rozpozná význam informací v těchto dokumentech – což je úkol, který lidé běžně zvládnou docela dobře, ale je to náročný úkol pro počítače, které nedokážou určit, zda hlava znamená vůdce organizace nebo věc na vrcholu těla. Sémantický web jsou skutečně data, která lze zpracovat strojově, říká Berners-Lee, který je ředitelem World Wide Web Consortium se sídlem na MIT. O tom je ten povyk.
Tento příběh byl součástí našeho vydání z listopadu 2001
- Viz zbytek čísla
- předplatit
Dnešní World Wide Web je v podstatě publikační médium – místo pro ukládání a sdílení obrázků a textu. Přidání sémantiky radikálně změní povahu webu – z místa, kde se informace pouze zobrazují, na místo, kde jsou interpretovány, vyměňovány a zpracovávány. Sémantické vyhledávací agenty budou schopny shromažďovat strojově čitelná data z různých zdrojů, zpracovávat je a odvodit nová fakta. Programy, které nebyly vytvořeny tak, aby byly vzájemně kompatibilní, budou sdílet dříve nemixovatelná data. Jinými slovy, konečným cílem sémantického webu je poskytnout uživatelům téměř vševědoucnost nad obrovskými zdroji internetu a přeměnit miliony existujících databázových ostrovů v jedinou gigantickou databázi Pangea.
Abychom porovnali sémantický web s dnešním webem, Berners-Lee – intenzivní člověk, který mluví v malých dávkách – nabízí následující scénář: Představte si online registraci na konferenci.
Web konference uvádí čas, datum a místo konání akce spolu s informacemi o nejbližším letišti a hotelu, který nabízí účastníkům slevu. S dnešním webem musíte nejprve zkontrolovat, zda je váš rozvrh jasný, a pokud ano, musíte čas a datum vyjmout a vložit do kalendáře. Pak musíte zařídit let a hotel, buď zavoláním na rezervační přepážky, nebo na jejich webových stránkách.
Nemůžete prostě říct: Chci na tu událost jít,“ vysvětluje Berners-Lee, protože sémantika toho, který bit je datum a který bit je čas, se ztratila. Ale na sémantickém webu, tvrdí, tyto bity budou označeny; software ve vašem počítači rozpozná tyto štítky a automaticky vám zarezervuje let na konferenci a zarezervuje hotelový pokoj kliknutím na tlačítko.
Sémantický web bude také bohatším a přizpůsobitelnějším webem. Představte si, že přejedete kurzorem na název hotelu a budete informováni, že 15 procent lidí, kteří hlasovali pro jeho kvalitu, říká, že je vynikající. Pokud náhodou víte, že hotel je skládka, můžete dát svému prohlížeči pokyn, aby těmto lidem přiřadil nulovou úroveň důvěryhodnosti. (Informace z dotazování budou uloženy na anotačním serveru třetí strany, ke kterému váš webový prohlížeč přistupoval automaticky.) Přidělením vysoké úrovně důvěry lidem, kteří odpovídají vašemu vkusu a zájmům, a filtrováním lidí, kteří ne, bude web začne vypadat více jako váš web.
je to obrovský podnik. Prvním krokem je vytvoření standardů, které uživatelům umožní přidávat explicitní popisné značky nebo metadata k webovému obsahu, což usnadňuje určit přesně to, co hledáte. Dále přichází na řadu vývoj metod, které umožňují různým programům propojovat a sdílet metadata z různých webových stránek. Poté mohou lidé začít vytvářet další funkce, jako jsou aplikace, které odvozují další fakta z těch, které dostanou. Díky tomu bude vyhledávání přesnější a důkladnější, zefektivní se zadávání dat a snáze se bude ověřovat pravdivost informací. To je alespoň cíl.
Mnozí mají pocit, že se to nedá. I když se věci ve výzkumných laboratořích ohřívají, sémantický web podle představ Berners-Lee je omezován sociálními a technickými problémy, o nichž někteří kritici tvrdí, že se možná nikdy nevyřeší. To však nebrání konsorciu World Wide Web a dalším organizacím ve snaze. Americká Agentura pro výzkum pokročilého obranného výzkumu (DARPA) a komerční podniky, jako je Network Inference v Manchesteru, Anglie, již vyvíjejí nástroje pro budování infrastruktury sémantického webu – stejně jako aplikace pro její použití. A podle Berners-Lee, s rostoucím počtem lidí, kteří začínají chápat, jak sémantický web umožní stále sofistikovanějším agentům dělat věci jejich jménem, brzy uvidíme nějaké záblesky toho, co by se mohlo stát.
Rozuzlení sémantického webu
Zdá se, že výzkumného vědce Erica Millera ve své přeplněné kanceláři ve třetím patře budovy Laboratoře výpočetní techniky MIT neobtěžuje bušení a skřípání, které vycházejí z těžkého zařízení na staveništi vedle. Jako vedoucí projektu sémantického webu je přátelský a energický Miller svou novou prací příliš uchvácen, než aby si toho všiml. Jsem ten nejšťastnější člověk na světě, říká. Dostávám zaplaceno za to, co bych dělal zdarma.
Berners-Lee pověřil Millera, aby vedl aktivitu sémantického webu konsorcia, protože se Miller zapojil do projektů správy znalostí na bázi webu a jeho schopnosti nadšeně formulovat koncepty sémantického webu. Miller stojící vedle tabule pokryté diagramy metadat v akci vysvětluje, že základní myšlenkou sémantického webu je učinit internet pro lidi užitečnějším tím, že informace plovoucí po celém webu budou snadněji manipulovatelné počítači.
Dnes je naopak většina obsahu formátována pro lidskou spotřebu. Když například čtete článek se zprávami online, můžete snadno vybrat titulek, vedlejší řádek, datum, kredit fotografie a tak dále. Ale pokud tyto věci nejsou výslovně označeny, počítač netuší, co to je. Jednoduše vidí hromadu textu. V sémantickém webu bude zpravodajský článek označen štítky, které popisují jeho různé části, což mimo jiné usnadní vyhledávači najít články napsané Jimmym Carterem a ne články napsané o něm.
To dnes není možné, alespoň ne v celosvětovém měřítku. Formátovací značky používané k vytváření webových stránek jsou součástí jazyka HTML (hypertext markup language) a popisují pouze to, jak informace na webové stránce vypadají (tučné písmo, malé, velké, podtržené atd.). Sémantický web by šel nad rámec kosmetiky tím, že by obsahoval štítky, které také popisují, o jaké informace se jedná: štítky by označovaly text jako označující například předmět, autora, adresu, cenu nebo poplatek za dopravu. Tyto popisné značky jsou metadata – data o datech. Metadata nejsou novým konceptem ani konceptem omezeným na internet. Knihovní lístkový katalog – se záznamy popisujícími název knihy, autora, předmět, rok a umístění na policích – jsou metadata.
Web zjednodušil výměnu dokumentů mezi dříve nekompatibilními počítači (několik dnešních uživatelů webu si možná vzpomene na bolesti hlavy z 80. let, kdy byly počítače různých výrobců elektronickými ostrovy). Sémantický web to posune o krok dále a umožní počítačům vyměňovat si konkrétní informace z dokumentů.
Mimo metadata
Bez metadat nemůžete mít sémantický web, ale samotná metadata nestačí. Metadata na webových stránkách budou muset být propojena se speciálními dokumenty, které definují termíny metadat a vztahy mezi termíny. Tyto sady sdílených konceptů a jejich propojení se nazývají ontologie.
Řekněme například, že jste vytvořili webovou stránku se seznamem členů fakulty. Jména různých členů byste označili termíny metadat, jako je předseda, docent, profesor a tak dále. Potom byste stránku propojili s ontologií – ontologií, kterou jste sami vytvořili, nebo kterou již vytvořil někdo jiný – která definuje pracovní pozice ve vzdělávání a jejich vzájemný vztah. Vhodná ontologie by v tomto případě definovala židli jako osobu, nikoli jako věc, na které sedíte, a naznačovala by, že židle je nejvyšší pozicí v oddělení.
Definováním vztahů mezi pojmy pak mohou aplikace používat ontologie k vyvozování nových skutečností. Předpokládejme, že jste vytvořili webovou stránku, která učí školáky o kondorech, a přidali jste k obsahu metadata. Můžete odkazovat na ontologii (nebo spíše několik ontologií), které definují různé pojmy a jejich vztahy: Kalifornský kondor je typ kondora z Kalifornie. Condor je členem rodiny dravců. Všichni dravci jsou masožravci. Kalifornie je stát ve Spojených státech amerických. Masožravci jsou pojídači masa. Pomocí metadat i ontologií by vyhledávač nebo jiný softwarový agent mohl najít váš web kondora na základě vyhledávacího požadavku na masožravce v USA – i když vaše stránky neobsahovaly žádnou zmínku o masožravcích nebo Spojených státech.
Protože vývoj ontologie je velký podnik, je pravděpodobné, že tvůrci stránek budou odkazovat na ontologie třetích stran. Některé budou zdarma, jiné budou prodány nebo licencovány. Jeden problém, kterému bude třeba čelit: stejně jako u slovníků a atlasů se i do ontologií vplíží politická a kulturní zaujatost. Geograficky založená ontologie udržovaná čínskou vládou by například pravděpodobně nedefinovala Tchaj-wan jako zemi.
Ale to téměř nebrání vizi. Jak World Wide Web Consortium pokračuje ve vývoji standardů a technologií pro sémantický web, stovky organizací, společností a jednotlivců přispívají k úsilí vytvářením nástrojů, jazyků a ontologií.
Jedním z hlavních přispěvatelů je DARPA – lidé zodpovědní za velkou část technologií za internetem ( vidět Disruptivní technologie DARPA , TR říjen 2001 ). V těchto dnech DARPA přispívá desítkami milionů dolarů do projektu sémantického webu webového konsorcia a vyvinula sémantický jazyk pro americké ministerstvo obrany nazvaný DARPA Agent Markup Language, který uživatelům umožňuje přidávat metadata do webových dokumentů a spojovat je s ontologií. Profesor informatiky z University of Maryland Jim Hendler, který byl do srpna manažerem programu DARPA, úzce spolupracuje s Berners-Lee a Millerem, aby zajistil soulad s úsilím konsorcia. Loni v prosinci Hendler oznámil vytvoření jazyka, který kombinuje schopnosti DARPA Agent Markup Language s ontologickým jazykem vyvinutým v Evropě, nazvaný OIL (což je zkratka pro Ontology Inference Layer a Ontology Interchange Language).
Vývojář tohoto nového jazyka, lektor University of Manchester Ian Horrocks, také radí World Wide Web Consortium v oblasti sémantického webu. V lednu spoluzaložil společnost s názvem Network Inference s cílem vyvinout technologii, která využívá ontologie a automatizované odvození, aby poskytla možnosti sémantického webu stávajícím relačním databázím a velkým webům. Nedávno začala společnost poskytující datové služby z Isle of Man s názvem PDMS používat technologii Network Inference k přidání funkcí sémantického webu do podnikových databází. Na vývoji sémantického webu přispívají desítky dalších společností, od Hewlett-Packard po Nokii.
Příliš mnoho, příliš pozdě?
Miller věří, že bezproblémový tok a integrace informací vyplývající z těchto přesunů umožní zpracovat znalosti způsobem, který řeší problémy, sbližuje lidi a podněcuje nové myšlenky, které se nikdy předtím nemohly stát. Jiní však nejsou ohledně sémantického webu tak optimističtí. Je to poměrně ambiciózní, říká R. V. Guha, který koncem 90. let vedl vývoj snah webového konsorcia Resource Description Framework. (Tento rámec je základním nástrojem pro popis a sdílení metadat.) Bylo by hezké, kdyby takové věci existovaly, říká, ale jsou tu některé opravdu těžké výzkumné problémy, které je třeba nejprve vyřešit.
Jeden problém se týká dedukce. Doba, kterou potřebuje počítač k vyvození nových závěrů z dat, metadat a ontologií na webu, se rychle zvyšuje s tím, jak jsou do systému přidávána pravidla. Inference spadá do stejné kategorie jako klasický problém cestujících a obchodníků s plánováním nejkratší trasy přes řadu měst. Není těžké vymyslet tu nejlepší ze všech možných cest, když máte co do činění s velmi málo místy. Ale když se dostanete do pouhých 15 měst, existuje více než 43 miliard možných tras. Stejný druh situace na útěku existuje pro vyvozování, kdy by hledání odpovědí hrubou silou mohlo vést k paradoxům nebo rozporům, které ztrácejí čas.
A i když Berners-Lee a jeho kohorty splní technické problémy, nebude to stačit na to, aby se sémantický web zacvakl na místo. Existuje velká otázka, zda si lidé budou myslet, že výhody stojí za to, aby do jejich obsahu v první řadě přidávali metadata. Jedním z důvodů, proč se web stal tak divoce úspěšným, byla koneckonců jeho vznešená snadnost tvorby.
Web je dnes nejjednodušší a nejprimitivnější formou hypertextu, říká bývalý významný inženýr Sun Microsystems Jakob Nielsen, spoluzakladatel Nielsen Norman Group, firmy zabývající se webovým designem ve Fremontu v Kalifornii. A to je důvod, proč to bylo tak snadné implementovat; proto si každý mohl začít vytvářet vlastní webové stránky; proto je web tak velký. I když však většině lidí může vyhovovat zjednodušené úpravy, jako je označení textu tučným písmem, Nielsen podotýká: Nemohou provádět sémantické úpravy, kde řeknou: Toto je jméno autora, nebo Toto je jméno lidí, které jsem cituji.'
Takový pesimismus může samozřejmě ignorovat nedávnou historii. Není to tak dávno, co se představa, že se miliony lidí učí psát kód HTML, zdála přitažená za vlasy – a přesto se přesně to stalo. Překážka vytvoření sémantického webu však bude vyšší. Lidé mohou používat HTML, jak chtějí. Běžně používají tabulky například pro netabulkové účely a plácají na tag subhead pouze pro použití tučného písma. Tyto kliky a zkratky mají většinou jen kosmetické následky. Ale stejný typ fušování – řekněme – použití bibliografických značek k seznamu sbírky DVD – může způsobit, že metadata stránky nebudou použitelná.
Skutečnost, že metadata nebyla implementována hned od začátku webu, mohla také ztížit přijetí sémantického webu. Jedním z obzvlášť tvrdých skeptiků je Peter Merholz, spoluzakladatel Adaptive Path, poradenské společnosti pro uživatelskou zkušenost se sídlem v San Franciscu. Tyto věci musí být zapečeny od začátku, říká Merholz, který nazývá sémantický web zajímavou akademickou činností s malým dopadem na společnost. Říká, že sémantický web je hodně nafoukaný jednoduše proto, že Tim Berners-Lee, vynálezce World Wide Web, se o něj tak zajímá. Kdyby to byl jen nějaký šmejd na nějaké univerzitě v Indianě, nikoho by to nezajímalo.
Počáteční vlákna
Dokonce i Berners-Lee připouští, že cesta k sémantickému webu může být o něco pomalejší než cesta k World Wide Web. Svým způsobem se nemusíme pohybovat příliš rychle, říká, protože teorii, kterou lidé potřebují, aby se na ni podívali, aby se ujistili, že nejsme příliš blázniví, a ostatní lidé si musí vyzkoušet nápady v praxi, než budou sebral a používal příliš intenzivně.
Když byl evangelizátor výměnných dat požádán, aby nahlédl do jeho křišťálové koule, předpovídá, že některé z prvních komerčních aplikací sémantického webu se zaměří na integraci různých informačních systémů, které obvykle koexistují ve velkých organizacích. (Nebylo by hezké starat se o záležitosti na oddělení motorových vozidel nebo v nemocnici, aniž byste museli vyplňovat půl tuctu převážně nadbytečných formulářů? Zde může pomoci sémantický web.)
A přestože sémantický web stále sídlí hlavně na kreslícím prkně, můžete na některých stávajících webových stránkách vidět náznaky jeho síly. Zvažte vyhledávač společnosti Kromě toho Technologies, který prochází tisíce zpravodajských webů několikrát denně, díky čemuž je oblíbený pro narkomany. Softwaroví agenti navíc byli naprogramováni tak, aby se podívali na značky písem (označení HTML, které webovým prohlížečům sdělují, jak velký nebo malý, aby se text objevil na obrazovce), aby určili, zda je konkrétní stránka zpravodajskou zprávou. Pokud agent navíc najde řetězec šesti až 18 slov označených jako velké písmo v horní části stránky, bude předpokládat, že jde o titulek, a umístí jej do databáze. Samozřejmě, protože agent pouze odhaduje, někdy vybere stránku, která nakonec není zpráva. Takže navíc musí použít další filtrování, aby se zbavil stránek, které neobsahují články.
To je stále daleko od konečného cíle, ale je to dobrý začátek. A dokonce ani šampioni sémantického webu nepředstírají, že přesně chápou, kam takové kroky povedou. Koneckonců, kdo předpověděl Amazon.com nebo eBay, když Berners-Lee zapnul přepínač prvního webového serveru na světě v prosinci 1990?
Jde však o to, že lidé chtějí z webu více inteligence, než dostávají – a stále větší počet počítačových vědců sdílí záblesky v očích Berners-Leeho a pocit, že sémantický web obsahuje odpověď. Je skvělé, říká vynálezce World Wide Web, mít znovu kolem sebe to obyčejné nadšení.
