Jak Google hodnotí tweety

Společnost Google přizpůsobila svou technologii hodnocení stránek a vyvinula nové algoritmické triky a filtry, aby návratnost byla relevantní, aby zajistila užitečnou návratnost vyhledávání z takzvaného webu v reálném čase – jako jsou sekundy staré tweety na Twitteru oznamující dopravní zácpy. inženýr Google.





Amit Singhal, člen společnosti Google

Google minulý měsíc zavedl technologii vyhledávání v reálném čase, aby nabídl hledajícím přístup ke zbrusu novým blogovým příspěvkům a novinkám mnohem rychleji než pět až 15 minut, které dříve trvalo webovým prohledávačům Google objevit nově vytvořené položky.

Bing, Cuil a další vyhledávače také poskytují různé druhy výsledků v reálném čase. Google i Bing také uzavřely významné dohody s Twitterem, aby získaly přístup k tweetům v reálném čase, což jsou 140znakové mikroblogové příspěvky zaslané členy Twitteru. Google však tvrdí, že nabízí nejkomplexnější výsledky v reálném čase skenováním novinových titulků, blogů a zdrojů z Facebooku, MySpace, Twitteru a dalších zdrojů.



Tweety jsou základem výsledků Google v reálném čase, ale Google dříve nemluvil o tom, jak je hodnotí. Základní strategie Google pro identifikaci relevance tweetů je analogická té, kterou používá technologie PageRank společnosti Google, která pomáhá najít relevantní webové stránky pomocí tradičního webového vyhledávání. V rámci hodnocení PageRank Google posuzuje důležitost stránek obsahujících dané klíčové slovo pro vyhledávání zčásti podle struktury odkazů stránek. Čím více stránek odkazuje na stránku – a čím více stránek odkazuje na linkery – tím relevantnější je původní stránka.

V případě tweetů je klíčem identifikovat věhlasné následovníky, říká Amit Singhal, člen společnosti Google, který vedl vývoj vyhledávání v reálném čase. (Twitteráři sledují komentáře ostatních twitterů, které si vybrali, a sami jsou sledováni.)

Získáváte reputaci a poté pověst dáváte. Pokud vás sleduje mnoho lidí a vy pak někoho sledujete – pak i když tento [nový člověk] nemá mnoho sledujících, jeho tweet je považován za cenný, protože jeho sledující jsou sami široce sledováni, říká Singhal. Je to rozhodně, rozhodně víc než soutěž popularity, dodává.



Jeden uživatel, který sleduje druhého na sociálních sítích, je analogický s odkazem jedné stránky na jinou na webu. Obojí je formou doporučení, říká Singhal. Jak vysoce kvalitní stránky odkazují na jinou stránku na webu, kvalita odkazované stránky se zvyšuje. Stejně tak v sociálních médiích, jak zavedení uživatelé sledují jiného uživatele, kvalita sledovaného uživatele se také zvyšuje.

Ale triky Google pro sociální hodnocení nejsou jedinou metodou, kterou vyhledávací gigant používá k získání relevance z tweetů. Google také vyvinul nové způsoby, jak vybrat, které (pokud vůbec nějaké) tweety se zobrazí pro běžné výrazy jako Obama – a vyhnout se spamu nebo nekvalitním tweetům – to vše během několika sekund.

Jedním z problémů tweetů je, že je lidé často špiní takzvanými hashtagy. Jedná se o symboly, které začínají znakem libry (#), za kterým následuje slovo, které představuje velmi populární aktuální téma, jako je Nexus One nebo Zemětřesení nebo cokoli jiného, ​​co by mohlo být v současnosti trendy. Když je hashtag zahrnut do tweetu, výsledný tweet se zobrazí, když ostatní uživatelé Twitteru kliknou na téma hashtagu jinde na webu.



I když takové značky mohou užitečně maximalizovat vystavení tweetu, mohou také sloužit jako varovné signály ke snížení kvality tweetu a přilákat obsah podobný spamu, říká Singhal. I když se nechtěl dostat do podrobností, řekl, že Google modeloval toto chování hashtaggingu způsoby, které mají tendenci snižovat vystavení nekvalitních tweetů. Potřebovali jsme modelovat toto [hashtagging] chování. To je technická výzva, na kterou jsme šli s našimi přístupy k modelování, říká Singhal.

Další problém: jak, když někdo hledá Obamu, probírat tweety pro tisk Bílého domu a tisíce dalších, aby našel ty nejaktuálnější a nejaktuálnější informace. Google prohledává tweety, aby našel signál v šumu, říká. Takovým signálem by mohl být nový nápor tweetů a dalších blogů, které zmiňují cambridgeskou policii nebo Harryho Reida poblíž zmínek o Obamovi. Vyhledáním takových signálů je Google schopen poskytovat hity v reálném čase, které obsahují nejčerstvější téma i pro velmi běžné vyhledávací dotazy.

Twitter i Google doufají, že v budoucnu zlepší relevanci výsledků vyhledávání ve všech kontextech přidáním údajů o zeměpisné poloze, které lze přidat k příspěvkům odeslaným z chytrých telefonů. Obecně se vyhledávání v reálném čase vyvíjí, říká Dylan Casey, produktový manažer Google pro vyhledávání v reálném čase. Pravidelně mluvím s kluky z Twitteru, abych zjistil, kam tato funkce směřuje. Dostáváme od nich zpětnou vazbu, poskytujeme jim zpětnou vazbu a naši inženýři spolupracují. Je skutečně symbiotický.



Singhal dodal, že Twitter je stěží jediným zdrojem informací v reálném čase. Twitter je skutečně velmi důležitou součástí webu v reálném čase. Co však pozorujeme, je, že je to jen jedna ze složek. Zprávy, blogy a webové stránky, které jsou generovány v reálném čase, mají velkou hodnotu, protože zpravodajské organizace velmi tvrdě pracují na tom, aby kvalitu dostaly na určitou úroveň, říká. Twitter je skutečně užitečný, protože jde o krátký obsah. Zjišťujeme však, že web v reálném čase je mnohem větší.

skrýt