211service.com
Jak používat Twitter pro těžbu osobních údajů
Váš stream na Twitteru (a brzy i vaše historie příspěvků na zdi na Facebooku) představuje bohatý zdroj informací o vás, nebo, vzhledem k tomu, že většina tweetů je veřejná, téměř o komkoli jiném. Zahrnuje vše od vašich řečových vzorů a témat, kterými se zabýváte, až po identitu vašich skutečných přátel – alespoň v oblasti tweet-o-sphere. Trik je v jeho odemknutí.
Prvním krokem k proniknutí do vašeho podvědomí je stažení reprezentativního vzorku vašich tweetů. Naštěstí jich Twitter ukládá posledních 3 200, což je pravděpodobně více, než jste kdy vychrlili, pokud nejste zrovna plodní.
Jedním snadným způsobem, jak stáhnout všechny tyto tweety, je zaregistrovat se do služby, jako je BackupMy.Net , který zachytí všechny dostupné tweety (až do limitu 3 200) a umožní vám je stáhnout v řadě různých formátů.
Krok dva, získejte bezplatnou kopii TextWrangler (pokud používáte Mac) nebo jeho Ekvivalent Windows . Pokud používáte Linux, vi nebo emacs umí vše, co se chystám popsat.
Krok tři, začněte filtrovat svůj korpus tweetů. Představte si to jako hromadu mokré hlíny. Můžete mu položit jakékoli otázky, které chcete. Zde je to, na co jsem se zeptal mého; pokud máte další nápady, zanechte je v komentářích.
i) Vymažte každý druhý řádek, abyste odstranili šum všech těchto časových a datových razítek. TextWrangler má v nabídce Text výkonnou funkci Process Lines Containing…. V tomto případě vám umožňuje smazat každý řádek obsahující řetězec +0000, což je podle mého názoru prázdná proměnná, kam by normálně chodily údaje o zeměpisné poloze. Pokud jsou vaše tweety geograficky umístěné, nechte je vyhledat každý rok, ve kterém jste tweetovali, za předpokladu, že do svých tweetů často nevkládáte roky.
Tento:
Stává se tímto:
Nyní vložte výsledný text do Wordle , generátor mraků slov, protože mračna slov jsou jen hezké způsoby, jak vizualizovat frekvenci slov.
Pro první přiblížení to není špatné – některé z vašich zájmů a přátel je vidět, jak se snaží vykoukat z nesmyslných slov, která všichni používáme na Twitteru, jako je RT
ii) Pomocí jednoduchého příkazu najít a nahradit se zbavte RT, via a dalších slov, která vám nic neříkají. Nyní můžete vidět, čím jste posedlí. Náhodou jsem byl posedlý klimatickými změnami, hláškami ve zprávách (nové, nyní) a zjevně signalizací sarkasmu a ironického odstupu tím, že fragmenty vět začínáme slovem zřejmě.
iii) Pro čistší destilát vašich vlastních řečových vzorů a neuróz použijte příkaz Zpracovat řádky obsahující… nebo jeho ekvivalent k odstranění všech řádků, které jsou retweety.
iv) Pokud chcete zjistit, kdo jsou vaši skuteční přátelé na Twitteru (a v menší míře i to, o čem s nimi mluvíte), extrahujte všechny řádky, které mají @.
Pokud chcete vědět, co říkáte, když mluvíte se svými přáteli, jednoduše smažte každé slovo začínající znakem @. Nebo dokument roztřiďte tak, abyste mohli uchopit pouze každou konverzaci, kterou jste kdy vedli s konkrétní osobou, a přeměnit *to* na shluk slov.
v) Pokud chcete vědět, že mluvíte, když mluvíte o sobě, jednoduše extrahujte každý řádek řetězcem (rozlišují se malá a velká písmena) I
Na webu existuje nespočet nástrojů pro analýzu vašeho twitterového streamu, od frekvenční analýza na emocionální obsah , ale pokud vím, stažení všech vašich tweetů a jejich vlastní analýza je jediný způsob, jak vizualizovat jejich skutečný obsah s touto úrovní specifičnosti. Jsem si jistý, že existují desítky dotazů, o kterých jsem ani nepřemýšlel a které jsou možné touto metodou - neváhejte zanechat své nápady v komentářích.