211service.com
Hledat mimo Google
Pokud se zaměstnanci společnosti Google obávají budoucnosti, z návštěvy sídla společnosti byste to nepoznali. Od loňského podzimu, kdy se investorům z řečí o primární veřejné nabídce sbíhaly sliny, je organizace pod neobvyklým drobnohledem: někteří pozorovatelé ji označili za nejžhavější společnost na planetě, zatímco jiní tvrdí, že jde o byznys v nepořádku bez lídra, v němž se shromažďují konkurenti. hlavní zákazníci na pokraji zběhnutí. Ale komplex Google v Mountain View v Kalifornii je navenek stejně bezstarostný jako kterýkoli vysokoškolský kampus. Hlavní hala je pracovna v shagadelickém kýči s dětským křídlem, točícím se párty světlem a řadou neonově zářivých lávových lamp uspořádaných do stejné modro-červené-žluté-modro-zelené-červené sekvence jako známá společnost logo. Kavárna pulzuje rockovou hudbou, křiklou konverzací a zvuky geeků srkajících gurmánské jídlo zdarma. Nahoře, na farmách s kójemi, si programátoři povídají přes chodníky poseté hračkami, transportéry Segway a občasným psem.
Až když si sednu do tiché konferenční místnosti s technologickým ředitelem Google Craigem Silversteinem, nálada v závratných dot-com se změní na vážnější. Nyní, když společnosti jako Google a internetová reklamní agentura Overture prokázaly, že zobrazování placených reklam specifických pro daný předmět vedle výsledků na vyhledávací stránce je skutečným výdělkem, což přispívá k odhadovaným 2 miliardám dolarů v celoodvětvových příjmech v roce 2003 – skupina rádců investuje do vyhledávací software podle nich poskytne uživatelům relevantnější výsledky než Google a rychleji. Ptám se Silversteina, zda slavné zaměření Googlu na lepší technologie ho udrží před veškerou konkurencí. Jeho odpověď je obezřetná.
Je velmi snadné přejít z jednoho vyhledávače na lepší, říká. Google platí stovkám výzkumníků a softwarových vývojářů, včetně více než 60 doktorandů, aby se postavili do předních linií této technologické války, vysvětluje Silverstein, který je sám na prodloužené dovolené z doktorandského studia informatiky na Stanfordské univerzitě. Ale uznává, že to není zárukou vítězství. Doufáme, že další průlom přijde od Googlu – ale kdo ví?
Kdo ví, opravdu? Podle Reston, výzkumné firmy comScore se sídlem ve VA, má Google před svými konkurenty velký náskok v podílu publika v USA, který v srpnu 2003 tvořil 77 procent všech vyhledávání (včetně vyhledávání provedených na AOL a Yahoo!, které využívaly vyhledávač Google ). Ale ve vyhledávacím průmyslu jsou inovace divokou kartou. V roce 1999 byste mohli říci, že AltaVista do značné míry ukončila trh vyhledávání, poznamenává Whit Andrews, ředitel výzkumu v technologické poradenské firmě Gartner. V roce 1997 to byl Inktomi. V roce 1995 to byl Yahoo!. Ve vyhledávání nikdy nevíte, kdy se na ulici objeví někdo, s kým budete vypadat jako včerejší zprávy.
Google je zranitelný částečně proto, že má několik výhod v oblasti infrastruktury, jako je kdysi výhradní vlastnictví většiny telefonní sítě společností AT&T nebo kontrola operačních systémů pro počítače ze strany společnosti Microsoft, které obvykle pomáhají udržet dominanci. (Tiskové zprávy v lednu naznačovaly, že Yahoo! může brzy ukončit svůj vztah se společností Google a obrátit se na vlastní vyhledávací technologii.) A tvrzení společnosti o slávě – schopnost jejích vyhledávacích algoritmů najít ty nejrelevantnější výsledky na základě jejich popularita - může být zatuchlá. Když Google poprvé spustil, měli několik nových triků, o kterých nikdo jiný dosud nepřemýšlel, říká Doug Cutting, nezávislý softwarový konzultant, který napsal některé ze základních technologií vyhledávače Excite a navrhl vyhledávací nástroje pro počítače Apple Macintosh. Ale spousta dalších vyhledávačů nyní nabízí zajímavé alternativy k technikám Google, věří Cutting.
Jde například o Teoma, která řadí výsledky podle jejich postavení mezi uznávanými autoritami na dané téma, a australský startup Mooter, který studuje chování uživatelů, aby lépe intuiovali přesně to, co hledají. A pak je tu gorila z Redmondu: Microsoft se obrací k vyhledávání jako k jedné ze svých dalších velkých obchodních příležitostí. Jeho výzkumníci vymýšlejí nový operační systém, který spojuje vyhledávací funkce podobné Googlu do všech programů Windows, a také software, který prohledává web a hledá definitivní odpovědi na otázky, které formulujete v každodenní angličtině. Mezitím Yahoo! v lednu spustil vlastní výzkumnou laboratoř a sám Cutting buduje open-source alternativu ke Googlu. V dnešní době, říká, nejsem přesvědčen, že [Google je] výrazně lepší.
Bez ohledu na to, která technologie zaujme zítřejší webové surfaře, její tvůrce získá obrovský vliv – a pěkné zisky. Každý den je celosvětově zadáno přibližně 550 milionů vyhledávacích požadavků (z toho 245 milionů ve Spojených státech). Do roku 2007 dosáhnou příjmy z placené reklamy generované všemi těmito vyhledáváními přibližně 7 miliard dolarů, říká analytik Piper Jaffray Safa Rashtchy. Průzkumy však ukazují, že téměř čtvrtina uživatelů nenajde to, co hledali, v první sadě odkazů vrácených vyhledávačem. Částečně je to proto, že vzácné jehly informací, které hledáme, jsou pohřbeny pod kupkou sena, která se každý den rozroste o přibližně 60 terabajtů. A to je důvod, proč brutální konkurence ve vyhledávacím průmyslu bude určitě pokračovat, zvláště když vyhledávací společnosti zavedou řadu pokročilých technologií, jako je zpracování přirozeného jazyka a strojové učení. Během příštích pěti až deseti let, říká Rashtchy, bychom mohli vidět masivní vylepšení, která zajistí řádové zvýšení relevance a použití. A právě soutěž o tato vylepšení – mnohem více než úspěch či neúspěch pověstného IPO společnosti Google, o kterém mnozí očekávají, že k němu dojde letos na jaře – pravděpodobně určí, jak se budeme na webu za pár let pohybovat.
Stahování hodnosti
Web je od přírody chaotický a decentralizovaný a volá po nástrojích, které by lidem pomohly najít dokumenty bez ohledu na to, kde sídlí. Řekněme, že chcete informace o léčbě kurděje v 18. století: bez vyhledávače nemůžete vědět, že data, která potřebujete, jsou uložena pouze na místech, jako je tajemně pojmenovaný soubor ( www.jameslindlibrary.org/trial_records/17th_18th_ Century/lind/lind_kp.html) na serveru v knihovně Royal College of Physicians v Edinburghu ve Skotsku.
Když zadáte kurděje do vyhledávacího pole na Google nebo MSN nebo Ask Jeeves, stále se nedotýkáte skutečného souboru na Royal College. Pouze prohledáváte index webu vyhledávací společnosti – obrovský seznam sestavený softwarovými pavouky, kteří každou sekundu prolezou tisíce stránek a kopírují klíčová slova, fráze, názvy a podtitulky, odkazy a další popisné informace. Jakmile se fragment informace dostane do indexu, je obvykle komprimován, je mu přiřazena váha nebo důležitost a uložen do databáze pro rychlé vyhledání. Zadané hledané výrazy jsou porovnány s tímto indexem a odkazy na stránky obsahující jeden nebo více vašich výrazů se zobrazí v pořadí podle relevance.
Jak vyhledávač určí, že relevance je tajná omáčka. Google raketově vystřelil na výsluní v roce 1999 především díky PageRanku, algoritmu vynalezeného zakladateli Larry Page a Sergey Brin, který jako první využil masivního propojení webových stránek. Každý odkaz je ve skutečnosti hlasováním autora jedné stránky pro obsah stránky jiné. Page a Brin si uvědomili, že pokud by byl jejich index dostatečně velký, byli by schopni posoudit důležitost stránky spočítáním počtu dalších stránek, které na ni odkazovaly. Vzali v úvahu i další faktory, jako je vhodnost textu obklopujícího odkazy a vlastní popularita odkazujících stránek. Jejich průkopnický poznatek však byl, že web je obrovská soutěž popularity – a že nejcitovanější stránky budou pravděpodobně nejužitečnější. Tato technika fungovala ďábelsky dobře a uživatelé webu hlasovali svými kliknutími. Mezi červnem 2000 a lednem 2004 se bývalý nejlepší pes AltaVista, který seřadil výsledky převážně podle toho, kolikrát stránka zmínila uživatelova klíčová slova pro vyhledávání, propadl z osmého místa v celkovém hodnocení návštěvnosti webu na 61. místo, zatímco Google vyšplhal z téměř neviditelnosti na čtvrté místo, podle údajů výzkumných firem Media Metrix a Alexa. Google tak prostoupil web, že jeho samotné jméno bylo vybráno Americkou dialektovou společností jako nejužitečnější nové slovo roku 2002.
Navzdory svým výhodám má PageRank několik nedostatků. Stejně jako dřívější vyhledávače mohly být oklamány stránkami posetými tisíci klíčovými slovy v neviditelném bílém písmu, bezohledný majitel webu, který chce, aby se jeho webová adresa objevila výše ve výsledcích vyhledávání Google, může snadno publikovat tisíce nebo dokonce miliony nevyžádaných stránek. které obsahují odkazy na jeho stránky a uměle zvyšují jejich hodnocení. (Google říká, že má způsoby, jak takovým útokům čelit, ale nebude o nich diskutovat.) Stejná mezera v hodnocení PageRank umožňuje bombardování Googlu – nedávný fenomén, kdy blogeři vtipně nebo politicky vyjadřují vytvoření tolika odkazů na daný web, že zobrazí se jako první, když uživatelé zadají konkrétní výraz do vyhledávacího pole Google. Bombardérům Google protestujícím proti válce v Iráku se například podařilo udělat životopis George W. Bushe v Bílém domě na prvním místě za žalostného selhání.
Více obtěžující pro některé kritiky je však PageRank posedlost slávou. Legitimní stránka, která dokonale odpovídá vyhledávacím dotazům uživatele Google, se může zahrabat do výsledků vyhledávání jednoduše proto, že na ni neodkazuje dostatek jiných stránek, poznamenává Daniel Brandt, webový vývojář, který provozuje kritický web s názvem Google Watch. Relevance stránky pro jednotlivého uživatele, tvrdí Brandt a další kritici, může záviset na více než na její popularitě. To, že si zbytek planety myslí, že toto je cestovatelský web číslo jedna, neznamená, že je to cestovatelský web číslo jedna pro vás, říká Liesl Capper, zakladatelka a generální ředitelka společnosti Mooter se sídlem v Sydney, která věří, že by mohla mít. lepší způsob.
Umístění razítka do výsledků vyhledávání
Zadejte stejný hledaný výraz do deseti různých vyhledávačů a pravděpodobně získáte deset konfliktních sad výsledků. Je to částečně proto, že pavouci vyhledávacích společností procházejí různé podmnožiny webu; ale co je důležitější, je to odraz jedinečných principů, které fungují v algoritmech hodnocení každé společnosti. Zde je návod, jak s výrazem zacházejí tři vyhledávače sbírání známek .
| Zeptejte se Jeeves/Teoma | Mooter | ||
| jeden. | Americká filatelistická společnost | Sběratelství mincí a známek (O.com) | Odkaz na razítko -Filatelie, nejlepší stránka Sběratelství známek ve své kategorii |
| dva. | Filatelistické zdroje Josepha Lufta na webu | Filatelistické zdroje Josepha Lufta na webu | Warragulská filatelistická společnost (sběratelství známek) |
| 3. | Linns.com : Webové stránky největších světových týdenních novin – Linnn’s Stamp News | Americká filatelistická společnost | Poštovní historie , filatelistické obaly a známky na prodej |
| čtyři. | Odkaz na razítko -Filatelie, nejlepší stránka Sběratelství známek ve své kategorii | BNAPS sbírání známek pro děti | Filatelistická společnost Velké Británie |
| 5. | Philatelic.Com | Linns.com : Webové stránky největších světových týdenních novin – Linnn’s Stamp News | Sběratelství známek, Filatelie, Aukce známek |
| Nejlépe hodnocená stránka má nejvyšší autoritu – v podstatě nejvíce odkazů – mezi komunitami webových stránek o sbírání známek. Je ověřeno referencemi ze stránek zdrojů (sbírky odkazů od odborníků a nadšenců – v tomto případě sběratelů známek) a měřeními popularity odkazů podobnými jako u Googlu. Druhý vítěz, Joseph Luft’s Philatelic Resources, má stále méně kvalifikovaných doporučení od odborníků na toto téma. | Představitelé společnosti Google nebudou diskutovat o tom, jak se motor Google dostává k hodnocení konkrétních stránek. Patentové dokumenty a publikované dokumenty však ukazují, že Google řadí stránky podle toho, jak často na ně jiné stránky odkazují. Google také bere v úvahu takové faktory, jako je relevance odkazujících stránek a text obklopující odkazy. Pravděpodobně sbírání známek. about.com je nejcitovanější stránkou na toto téma v indexu Google. | První skupiny Mooter vyústí do shluků nebo témat. Stránky zobrazené výše se objevují ve filatelistickém shluku seřazené podle toho, jak často se na každé stránce objevují klíčová slova pro vyhledávání a název shluku, mimo jiné. Mooter se dozví o záměru uživatele tím, že zaznamená, na které shluky a stránky se kliklo, a přehodnotí výsledky tak, aby odrážely zjevný vzorec zájmu. |
Zdroje: Ask Jeeves, Google, Mooter. Výsledky aktuální k 5. lednu 2004 (Ask Jeeves, Google), 13. ledna 2004 (Mooter).
Záplava nápadů
Obědvám s Capperem jednoho skvělého ranního zimního dne v San Franciscu. Je ve městě, aby oslovila potenciální investory a zákazníky. Lidé, kteří řídí tok informací, mají jemnou, ale všudypřítomnou sílu, říká mi vážně. Někdo tu moc musí držet a je důležité, aby lidé, kteří to dělají, byli ti, kteří se vědomě snaží mít pozitivní dopad a vracejí moc jednotlivci. Mooter se toho snaží dosáhnout tím, že vyhledávání na webu bude jednodušší a osobnější. Capper vyrostla v Zambii, vystudovala psychologii v Jižní Africe a založila řetězec center pro rozvoj raného dětství, než v roce 1997 emigrovala do Austrálie a zvolila vyhledávací technologii jako místo pro svůj další vliv. Založila si obchod v centru Sydney a najala Jondarra Gibba, zkušeného softwarového architekta, a Johna Zakose, postgraduálního studenta, který psal svou doktorskou práci na Griffithově univerzitě o aplikacích teorie neuronových sítí při vyhledávání na internetu.
Všichni tři spojili své myšlenky o psychologii, softwaru a neuronových sítích, aby vytvořili hodnotící algoritmus, který se učí od uživatele v průběhu vyhledávání. Před uložením dlouhého seznamu odkazů na uživatele Mooter analyzuje potenciální významy a permutace výchozích klíčových slov a v zákulisí seřadí relevanci výsledných webových stránek v rámci širokých kategorií nazývaných shluky. Uživatel nejprve uvidí na obrazovce hvězdicový záblesk názvů clusterů. Hledání například jména Paul Czanne přináší shluky jako např umění, umělci, Czanne, Francie, galerie , a slavné obrazy . To je část psychologie. Když provedete tradiční vyhledávání, získáte své miliony výsledků a vaše mysl udělá koncepční seskupení, říká Capper. Ale naše mysl je pevně nastavena na zpracování pouze tří až pěti druhů informací najednou. Rozhodli jsme se, že to nebudeme potlačovat, ale budeme s tím pracovat.
Pak přichází část učení. Aby bylo možné přesněji porozumět tomu, co uživatel pravděpodobně hledá, motor Mooter zaznamenává, na které clustery a odkazy bylo kliknuto, a používá tyto informace ke zlepšení budoucích reakcí. Předpokládejme, že uživatel zadá výraz pes, klikne na skupinu nazvanou plemena a pak stráví spoustu času prohlížením stránek o Schnoodles (oblíbený mix kníračů a pudlů). Když uživatel klikne na nový výsledek vyhledávání, Mooter přizpůsobí hodnocení tak, aby odráželo tento zjevný vzorec zájmu, což může například vést k tomu, že se stránky o psech plus plemenech plus Schnoodles objeví výše. Na každé stránce se zobrazí vylepšená sada výsledků; motor nadále upravuje hodnocení na základě chování uživatele.
Celá myšlenka je poskytnout lidem požadované výsledky na co nejmenší počet kliknutí. Dvě kliknutí a už máme velmi dobrou představu o tom, kam míříte, říká Capper. Když loni v říjnu debutovala beta stránka Mooter, Capper neočekával, že si toho všimne mimo Austrálii. Ale provoz z celého světa byl tak silný, říká, že společnost musela instalovat více webových serverů, aby službu udržela v chodu.
Věnujte mnoho času rozhovorům se zasvěcenci z oboru vyhledávání a uvědomíte si, že existuje téměř tolik způsobů, jak hodnotit výsledky vyhledávání, jako stránek na webu. Údajné přílišné spoléhání Googlu na popularitu bylo jednou z inspirací za Teoma (vyslovujte tay-o-ma), kterou v roce 2000 založil počítačový vědec Apostolos Gerasoulis a kolegové z Rutgers University v New Jersey. Vyhledávací software Teoma nyní pohání Ask Jeeves, vyhledávací web číslo šest. Google se dívá na strukturu webu, ale tato metoda neklesá na další úroveň, říká Paul Gardi, senior viceprezident pro vyhledávání společnosti Teoma. Když se dostanete dolů na místní úroveň, zjistíte, že se odkazy shlukují kolem určitých předmětů nebo témat, velmi podobně jako komunity. Například stránky o domácích kutilech jednoduše neodkazují směrem nahoru na oblíbenější stránky; mají také tendenci se vzájemně propojovat a vytvářet kruhy kolem prominentních stránek jako Hometime.com, Homeideas.com a BobVila.com.
Vědci z Rutgers navrhli Teoma (gaelština pro odborníka), aby nalezli tyto tematicky specifické komunity a využili jejich moudrosti. Před tím, než engine Teoma představí výsledky pro danou sadu klíčových slov, vysvětluje Gardi, identifikuje přidružené komunity a hledá v nich úřady – tedy stránky, na které webové stránky členů komunity nejčastěji odkazují. Teoma se snaží ověřit důvěryhodnost těchto autoritních stránek tím, že zkontroluje, zda jsou uvedeny na stránkách zdrojů vytvořených odborníky nebo nadšenci, kteří mají tendenci odkazovat na nejlepší stránky v rámci komunity. Poté seřadí výsledky vyhledávání podle toho, jak často je každá stránka citována autoritními stránkami.
IBM a další organizace experimentovaly s podobnými hodnotícími systémy založenými na autoritách na konci 90. let, ale Gerasoulis říká, že jejich přístupům může trvat hodiny, než se prokousají všemi tamními stránkami. Gerasoulisova patentovaná technika dělá to samé asi za pětinu sekundy. Společnost Ask Jeeves opustila svého předchozího poskytovatele vyhledávání a v roce 2001 přešla na technologii Teoma a objemy dotazů v letech 2002 a 2003 vyskočily o 30 procent ročně.
I když je těžké uvěřit, když se díváte na tucet stránek s výsledky vyhledávání, dnešní vyhledávače ignorují většinu toho, co je na internetu. Softwaroví pavouci mají potíže s indexováním obsahu, který je chráněn registračními formuláři nebo uložený v databázích, jako jsou katalogy produktů nebo právní a lékařské archivy, a shromážděný do webových stránek pouze v okamžiku, kdy si to uživatelé vyžádají. Tento takzvaný Deep Web může mít celosvětově až 92 petabajtů (92 milionů gigabajtů), neboli téměř 500krát větší objem než povrchový web, podle School of Information Management and Systems na University of California v Berkeley.
Mining the Deep Web je posláním další nové tváře ve vyhledávacím byznysu – Dipsie se sídlem v Chicagu. Google a Teoma indexují pouze asi 1 procento dostupných dokumentů, říká Jason Wiener, zakladatel a technologický ředitel společnosti Dipsie. Wiener, programátor-samouk, který až do zhroucení dot-com vedl webovou společnost v San Franciscu, strávil poslední dva roky budováním svižnějšího crawleru, který dokáže procházet formuláře a databázová rozhraní. Řekněme, že vás zajímá standardní výbava kabrioletu Mercedes 55SL. Na Cars.com bude přechod na stránku s podrobnými informacemi o produktu trvat asi šest kroků. Dipsie však bude mít předem zaindexovanou celou databázi Cars.com, takže vás může jediným kliknutím poslat na stejnou stránku. Nezpracováváme nic, co vyžaduje ověření pomocí uživatelského jména a hesla, ale děláme téměř vše ostatní, říká Wiener. Tvrdí, že než bude Dipsieho vyhledávací stránka letos v létě veřejně dostupná, bude její index obsahovat 10 miliard dokumentů – trojnásobek současné velikosti indexu Google.
Takže zatímco Google je stále králem kopce, kopec samotný je nyní prolezlý konkurenty s vlastními chytrými nápady. Google to ví, říká analytik společnosti Gartner Andrews. Narodili se na Stanfordu a vědí, že ve Stanfordových třídách jsou studenti, kteří říkají: Hej, mám nápad – co kdybychom vzali tento algoritmus a spojili ho s tímto algoritmem?“ Buď si musí najmout mladé Turky nebo je porazit.
Microsearch
Ale pokud existuje jedna softwarová společnost, která ví, jak najmout mladé Turky a přeměnit jejich nápady na produkty s dominantním postavením na trhu, je to Microsoft. Jmenujte jakýkoli horký kout počítačové vědy a společnost, kterou Bill vybudoval, pravděpodobně zaměstná alespoň jednoho nebo dva přední výzkumníky v oboru: koneckonců pět laboratoří Microsoft Research po celém světě zaměstnává více než 600 výzkumníků. A když Microsoft přičichne k velkému trhu, obvykle se pustí s plnou silou, aby svůj nárok vsadil.
Na vpádech Microsoftu do vyhledávání informací, disciplíny, ze které vyhledávač vzešel, není nic modrého. Společnost již získala 97procentní podíl na trhu operačních systémů pro PC a 90procentní podíl v kancelářském softwaru; vyhledávání je jednou z posledních velkých částí počítačového prostředí, které Microsoft nedominuje. A průzkum výzkumných a vývojových projektů ve společnosti potvrzuje, že vylepšené formy vyhledávání považuje za klíčové pro svůj obchodní růst. Jak se vydání další verze Windows s kódovým označením Longhorn blíží – testovací verze bude připravena později v tomto roce – výzkumníci a vývojáři produktů zrychlují své úsilí, aby se vyhledávání na webu stalo jeho nedílnou součástí.
Jeden z nejkřiklavějších kousků softwaru slibuje, že vám umožní zadávat otázky v jednoduché angličtině a získat přímou odpověď. Společnost věří, že uživatelé vyhledávání by se neměli starat o výběr správných klíčových slov a jejich propojení se správnými booleovskými operátory ( a nebo ne atd.) a procházením stránku po stránce výsledků vyhledávání. Místo toho, říká výzkumník Microsoftu Eric Brill, vyhledávače by měly rozumět a odpovídat na otázky v přirozeném jazyce.
Vezměte si program AskMSR společnosti Microsoft Research, který Brill a jeho kolegové testovali v interní síti Microsoftu více než rok. Jeho jádrem je jednoduché vyhledávací pole, kam mohou uživatelé zadávat otázky jako Kdo zabil Abrahama Lincolna? a místo toho, abyste dostali zpět seznam stránek, které mohou mít informace, které hledají, dostanete jednoduchou odpověď: John Wilkes Booth. Software nespoléhá na žádný pokročilý algoritmus umělé inteligence, ale spíše na dva překvapivě jednoduché triky. Nejprve používá jazyková pravidla naučená z velké databáze ukázkových vět k přepsání hledané fráze tak, aby připomínala možné odpovědi: například ___ zabil Abrahama Lincolna nebo Abraham Lincoln byl zabit ___. Tyto textové řetězce jsou pak použity jako dotazy v sekvenci standardních webových vyhledávání založených na klíčových slovech. Pokud vyhledávání vytvoří přesnou shodu, program je hotov a předloží tuto odpověď uživateli.
V mnoha případech však program nenajde přesnou shodu, ale pouze šikmé variace textových řetězců, jako například násilný čin Johna Wilkese Bootha ve Fordově divadle ukončil Lincolnovo druhé funkční období dříve, než začalo. To je také v pořádku. Jako druhý trik AskMSR zdůvodňuje, že pokud se Booth často objevuje ve stejné větě jako Lincoln, musí mezi nimi existovat důležitý vztah – což mu umožňuje předložit odpověď, i když si není stoprocentně jistý ( viz Otázka: Jak funguje odpovídání na otázky? níže ). Narážíme na redundanci webu, vysvětluje Brill. Pokud máte mnoho míst, kde jste si do jisté míry jisti, že jste našli odpověď, redundance to zvyšuje jistoty. S růstem webu poroste i jeho redundance, díky čemuž je AskMSR stále výkonnější, skvělé důvody. Zatímco plány pro AskMSR nejsou definitivní, Brill věří, že kód spatří světlo světa, možná jako součást budoucího vyhledávače Microsoftu.
Další úsilí společnosti Microsoft Research se méně zabývá tím, jak fungují vyhledávače, než tím, jak a kdy uživatelé potřebují informace. Právě teď, když chcete hledat informace, v podstatě zastavíte vše, co děláte, spustíte samostatnou aplikaci, spustíte vyhledávání a pak se pokusíte integrovat výsledek hledání do toho, co jste dělali předtím, říká expertka na vyhledávání informací společnosti Microsoft Susan Dumais. Snažíme se přemýšlet o tom, jak může být vyhledávání mnohem více součástí pokračujícího používání počítače.
Za tímto účelem Dumais vyvíjí program s názvem Stuff I've Seen, který je navržen tak, aby uživatelům počítačů poskytl rychlý a snadný přístup ke všemu, co si na svých počítačích prohlíželi. Rozhraní k experimentálnímu programu, které ovlivní možnosti vyhledávání v Longhornu, je vždy dostupné vyhledávací pole na hlavním panelu Windows. Zadejte dotaz do pole a Stuff I've Seen zobrazí organizovaný seznam odkazů na související e-mailové zprávy, schůzky v kalendáři, kontakty v adresáři, kancelářské dokumenty nebo webové stránky v jediném jednotném okně. Jedna nově vznikající funkce Stuff I've Seen, nazvaná Implicit Query, by fungovala na pozadí a získávala informace související s čímkoli, na čem uživatel pracuje. Pokud například čtete e-mailovou zprávu, implicitní dotaz může zobrazit pole s odkazy na tituly a e-mailové adresy všech lidí, o kterých se zpráva zmiňuje, a na všechny vaše předchozí e-maily ze odesílatel. Aby byl software ještě užitečnější, Dumais pracuje na přidání položky do standardní nabídky dvoutlačítkové myši ve Windows pravým tlačítkem myši, která by byla označena takto: Najít mě a vyhledávala by v osobních i webových datech informace související se zvýrazněným jméno nebo frázi.
AskMSR, Stuff I've Seen a související projekty jsou součástí většího posunu v technologické strategii společnosti Microsoft, který by mohl přimět společnost, aby převedla stovky milionů uživatelů Windows po celém světě na vlastní vyhledávací technologii. vyrval trh webových prohlížečů od Netscape v 90. letech. Jádrem této transformace je nový systém souborů Windows neboli WinFS – samotné srdce Longhornu. V současném souborovém systému Windows každá softwarová aplikace rozděluje svůj přidělený úložný prostor do své vlastní zvláštní hierarchie složek. Díky tomu je například téměř nemožné propojit kus informací, jako je jméno autora dokumentu aplikace Word, s adresou nebo telefonním číslem stejné osoby v aplikaci Outlook. Naproti tomu WinFS má ve svém jádru relační databázi: uspořádanou sadu tabulek uložených na vašem pevném disku, kde lze všechna data na vašem počítači vyhledávat a upravovat všemi aplikacemi pomocí standardní sady příkazů.
Pokud Longhorn obsahuje nástroje založené na Stuff I've Seen a umožňuje jim komunikovat přímo s webovým vyhledávačem, může vytvořit jediné vyhledávací pole, o kterém snili tvůrci softwaru – bránu ke všem informacím, které potřebujete, ať už uvnitř vašeho PC nebo mimo síť. Whit Andrews z Gartneru se například těší na nový software společnosti Microsoft. Přines to! on říká. Sedím tady a dívám se na svůj e-mail. Pokud tě chci vyhledat, musím si tě nezapomenout na Google. Ale to, co opravdu chci, je zjistit, jestli jsem s vámi v minulosti mluvil. Chci tedy kliknout pravým tlačítkem a hledat globálně, prohledávat e-maily a složky kontaktů, hledat na webu U.S. Search.com [který prodává přístup k informacím uloženým ve veřejných záznamech]. Kdo má tu výhodu? Microsoft je tam a pro věci s nízkou cenou, za které spotřebitelé nehodlají hodit spoustu peněz, jsou ve skvělé pozici.
Q: Jak funguje odpovídání na otázky?
A: Takhle
společnosti Microsoft Zeptejte se MSR software mění jednoduché anglické otázky na formální vyhledávací dotazy a ankety na webu
pro konsensuální odpovědi.
| 1. Otázka | Kolik vajec je v pekařském tuctu? |
| 2. Přepište dotaz | V pekařském tuctu je + vejce Pekařský tucet má + vejce pekařství + tucet + vejce |
| 3. Sbírejte výsledky vyhledávání a filtrujte (například ignorujte výsledky, které se nepodobají odpovědi na otázku o počtu) | Tucet má obvykle 12 vajec, takže kolik vajec má pekařský tucet? Pekařova tuctová kuchařka Proč se 13 vajíčkům říká pekařský tucet? 13 vajec tvoří pekařskou desítku. |
| 4. Extrahujte odpovědi z textu a předložit nejpravděpodobnější odpovědi | 13 vajec (pravděpodobnost 81 procent) 12 vajec (pravděpodobnost 7 procent) |
Zdroj: Microsoft
Mezitím zpět v Googleplexu
Ptám se technologického ředitele společnosti Google Craiga Silversteina, zda mu hromadění vyhledávání Microsoftu nedává v noci spát. Uznává, že Microsoft a Google zkoumají stejné technické území, ale tvrdí, že protože je Google mnohem menší než Microsoft (1 000 zaměstnanců oproti 55 000), může podle svých nápadů jednat hbitěji. A navzdory své celkově menší velikosti má Google více výzkumníků věnujících se primárně vyhledávání než Microsoft. Silverstein také poukazuje na to, že každý z několika stovek softwarových vývojářů společnosti Google musí – v rámci své práce – věnovat 10 procent svého času rozsáhlým osobním projektům, které poskytují nepřetržitý přísun kreativních nápadů.
Některé z těchto projektů se objevují v Google Labs (labs.google.com), části webu Google, kde si veřejnost může vyzkoušet a komentovat software související s vyhledáváním, který je stále ve vývoji. Google Viewer například animuje výsledky tak, aby se po obrazovce posouvaly nahoru jako titulky filmu. Hlasové vyhledávání vám umožňuje zadat vyhledávání po telefonu, pokud náhodou nejste u svého stolu, a později získat výsledky online. Panel Google Deskbar nainstaluje trvalé vyhledávací pole Google na hlavní panel systému Windows; výsledky se zobrazí v malém dočasném okně, takže uživatelé nemusí spouštět svůj webový prohlížeč pokaždé, když chtějí něco vyhledat.
Žádný z prototypů Google Labs však nepředstavuje inovaci velikosti Page a Brinova původního PageRank algoritmu. Nejsou ani ve stejné lize jako snaha Microsoftu znovu objevit Windows a integrovat aplikace, které na něm běží. Zatímco Silverstein a jeho kolegové budou hovořit o efektivitě více než 10 000 webových serverů společnosti Google a nadšení a nadšení programátorů společnosti Google, neřeknou, jak společnost doufá ve zlepšení PageRank nebo jaké nové technologie mohou čelit hrozbám, jako je Teoma a Zeptejte se MSR. Takže nakonec existuje jen malý vnější důkaz, že Google má nové nápady, které bude potřebovat, aby si udržel svůj podíl na trhu. Open-source programátor Doug Cutting říká, že Google má spoustu lidí, kteří se snaží přijít s obrovskými pokroky, ale my jsme je neviděli. Myslím, že kdyby je měli, ukázali by je.
Jedna věc, o které Silverstein rád mluví, je jeho dlouhodobý cíl v oblasti vyhledávací technologie, který je podle něj stále v plenkách. Je jasné, že odpovědí [na hledání] není seřazený seznam webových stránek, říká. Nikdo neočekává, že se obrátí na knihovníka, zeptá se ho na Panamský průplav a jako odpověď dostane 50 knižních titulů, tvrdí. Silverstein si myslí, že odborníci na vyhledávání informací by se měli zaměřit na vysokou úroveň a vytvářet software, který je stejně dobrý v nasměrování uživatelů ke konkrétním zdrojům, které potřebují, jako dobře vyškolený referenční knihovník. To si samozřejmě vyžádá velký pokrok v oblastech, jako je pravděpodobnostní strojové učení a zpracování přirozeného jazyka – a Google nadále najímá některé z nejlepších nových doktorandů v těchto oblastech, včetně čtyř čerstvých absolventů ze Stanfordské laboratoře Daphne Koller, a. přední výzkumník v oblasti strojového učení ( vidět 10 nových technologií, které změní váš svět , DĚTI února 2004 ).
Ale bude všechen ten talent převeden do nástrojů, které mohou lidé používat? Samotný Google se objevil zdánlivě odnikud a rychle zastínil další prominentní vyhledávače, jako je AltaVista. A pokud existuje jedno poselství šířené kněžími boomu dot-com, které stále platí, je to to, že touha lidí po rychlejších a efektivnějších způsobech, jak dělat věci, pokaždé převáží loajalitu ke značce. Pokud soupeři jako Ask Jeeves a povýšenci jako Mooter nebo Dipsie dosáhnou byť jen části svých vizí lepších algoritmů hodnocení, jednodušších rozhraní a větších a komplexnějších indexů, mohli by si z podnikání Googlu ukousnout velké sousto. Rozsáhlá revize prostředí Windows od Microsoftu mezitím slibuje změnu samotného konceptu vyhledávání pro drtivou většinu počítačových uživatelů.
Dobrou zprávou pro uživatele internetu je, že konkurence učiní vyhledávací nástroje ještě užitečnější součástí našeho každodenního života. Bez vyhledávacích nástrojů by bylo bohatství webu stejně nedostupné jako tablety, svitky a ručně zkopírované svazky z doby před Gutenbergem, a jak roste samotný web, roste i naše potřeba lepších způsobů, jak do něj proniknout. Ale které technologie poskytnou přístup, po kterém toužíme – a kdo z nich bude nejvíce profitovat – jsou otázky, na které nedokážou odpovědět ani ty nejlepší vyhledávače.