Před několika lety jsem pracoval pro Seznam.cz jako analytik. Už tam nepracuji delší dobu, tak o tom s odstupem můžu něco napsat. Chtěl bych tímto reagovat na článek Jana Mrcasíka jménem “Seznamem vnucovaná cílená reklama alias RTB znamená aukci 400 položek o vašem soukromí”. Obdivuji jeho přehled, na laika je to velmi dobrá sonda, nicméně se dopustil několika ne úplně velkých, ale zásadních chyb.
Jednak bych chtěl korigovat jeho popis nakládání s daty, ale především dát místnímu čtenářstvu trochu realističtější pohled na prostředky a zájmy takové firmy, než je ten skandální od pana Mrcasíka.
Data pro cílenou reklamu se nikam neposílají a většinou se s nimi neobchoduje. Ty případy, na které Mrcasík odkazuje, jsou úplně jiná liga, a je to liga třetí. Uživatelé dají ta nejcitlivější data typu jméno, datum narození, kreditní karta, nějaké malé firmě, jako je seznamka pro gaye v USA. Pak začne závod s časem. Firma roste, data se zvětšují a stávají se dobrým cílem pro hackery. Mezitím management buď začne pracovat na jejich zabezpečení, nebo na to dlabe a data se nakonec dostanou ven. Tohle se ale netýká Googlu a Seznamu. Pokud dojde k úniku z takhle velkých firem, pak je to navzdory dobrému zabezpečení a je to prostě moment, kdy zlo vyhrálo v zápase s dobrem. Jestli se o svoje data trochu bojíte, tak je nedávejte malým firmám. Pokud se bojíte hodně, nedávejte je nikomu; když je sami nedáte, tak automaticky generováná data pro cílenou reklamu nebudou obsahovat citlivá data, viz níže.
Jak je to s tou “aukcí otroků”, Real Time Bidding. Když si uživatel otevře seznam.cz bez adblocku, asi se mu zobrazí hned několik reklamních ploch vyplněných hlavně reklamními bannery. Mezitím (za těch několik sekund načítání) se na serverech Seznamu spustila docela zajímavá sada algoritmů. Každý z těch algoritmů má na svou práci jen několik milisekund, aby se reklamy nezobrazovaly pomalu, a musí obsloužit tisíce podobných, kteří web navštívili předtím a kteří přijdou poté. Takže žádný z těch algoritmů nedělá nic chytrého, protože na to není čas ani výpočetní výkon.
Jako první je potřeba vyřešit, jestli uživatele lze spojit s nějakým již existujícím profilem. Pokud je přihlášený, je to snadné. Pokud není, je k dispozici celá řada triků, aby se tak stalo, ale musí to být celé velmi, velmi rychlé, takže to dost často prostě selže a uživatel je dále veden jako anonymní.
Proč se Seznam snaží minimalizovat počet anonymních uživatelů? Prachy. Dali byste peníze za to, že reklamu na dětské plenky zobrazí Seznam všem od 5 do 80 let věku? Tak nějaké asi ano, ale to už si rovnou můžete koupit billboard. Jestliže plenky shání třeba méně než jeden z 20 lidí, pak za matku na mateřské jste prostě ochotni vypláznout výrazně, výrazně víc. Naopak existují některé reklamy, které je v pohodě zobrazovat všem. Takové datum koncertu Ewičky Farny může být považováno za informaci hodnou k rozšíření mezi všechny uživatele.
Aby se rozhodlo, jestli uživatel uvidí Ewu nebo Pampers, inzerenti se utkají v automatizované aukci, kde nejvyšší nabídka vyhrává. Pokud Seznam usoudí, že jste čerstvý a ideálně bonitní otec, zařadí do aukce Pampers, protože oni si v systému Seznamu zadali, že chtějí tkzv. cílit na otce. Není to tak, že by teď reklamka dělající pro Pampers dostala všechna data o uživateli, to ani omylem. Data jsou Seznamu a ten je nepustí z ruky; jsou jeho kapitál a ten mu vydělává na chleba. Ewa v aukci bude taky, ale s výrazně nižší cenou, takže to projede a uvidíte Pampers. Pokud Seznam ale nedokáže přiřadit uživatele ke konkrétní skupině, uvidíte vždycky Ewu. Ewa je tam za malou cenu naschvál, protože chce oslovit co nejvíc uživatelů a nevadí, že nějakou malou skupinu vynechá.
Ty chytré věci se začnou dít daleko později. Na konci měsíce, roku, se na data podívá nějaký analytik. Nedívá se na Vás, dívá se na agregát, protože uživatelů je několik miliónů a stejně ta data lze jen obtížně spojit například s konkrétním jménem, protože bezpečnost. Kdyby nějakému analytikovi nebo programátorovi jeblo, začal by data zneužívat a prasklo to, firma by na tom asi moc nevydělala, takže je v jejím nejlepším zájmu ta data ukládat tak, aby se jen velmi málo osob a ideálně jen s velkými obtížemi dostalo ke zcela neanonymizovaným datům. Je na to celý vědní obor; já o tom nevím mnoho, ale viděl jsem ta data a i vlastní ženu bych v tom hledal s velkými obtížemi.
S tím agregátem analytik udělá to, že se podívá, jací uživatelé kolik vydělávali. Taky se podívá na inzerenty, co chtěli a co dostali. Celkem nepřekvapivě shledá, že nepřihlášení nevydělali Seznamu skoro nic a že inzerenti se poprali o určité skupiny přihlášených uživatelů. A protože cílem firmy je maximalizovat zisk, analytik tedy nahlásí svým nadřízeným, že je potřeba identifikovat co nejvíc lidí a zjistit o nich to, co inzerenti chtějí vědět. Inzerenti také nejsou primárně šmíráci, takže je zajímají sice relativně soukromé, ale ne až tak překvapivé informace. Například distributor kočičího žrádla by rád věděl, kdo má kočku. Výrobce kočárků potřebuje vědět o těhotných. Prodejce luxusních aut nepotřebuje oslavovat náctileté.
Jak tyhle informace Seznam získá? Blbě. Pokud mu je sami nedáte, je to úplná statistická duchařina. V průměru to ale docela funguje. Když už jste jednou klikli na reklamu s Pamperskami… well, možná jste se jenom uklikli, když jste hledali slevový leták z Kauflandu, ale pro Seznam jste podle analytika od teď bonitní otec, takže plenky uvidíte desetkrát za den. Jestli aspoň jeden ze tří takto označených opravdu bonitní otec bude, Pampers uvidí, že tahle reklama prodává víc, než ta necílená, a pustí chlup. Manažeři jsou spokojení a analytik dostane pochvalu, jak krásně identifikoval skupinu bonitních otců.
Zpět k Mrcasíkovi a jeho článku. Myslíte si, že někoho zajímá, co si o Vás Seznam myslí? Kromě reklamních agentur ani náhodou, protože např. bezpečnostní složky asi těžko zužitkují fakt, že jste klikli na reklamu na Pampersky, a co z toho analytici v Seznamu usoudili je každému u zadku. Ano, ta primární data o tom, kde jste brouzdali, jsou extrémně citlivá, ale ty Seznam z ruky nedá, leda že by ho donutili zákonem… což je problém úplně jiný. A i kdyby je chtěl někam předat, zákon ukládá mít souhlas uživatelů, což zase funguje jen u přihlášených, kteří ho explicitně dali, a i tak je to dále omezeno zákonem.
Vidí Seznam všechny stránky, na které chodíte? Ne. Zdaleka ne na všech stránkách jsou reklamy; ne všechny reklamy jsou Seznamu. Taky si uvědomte, že všechno se musí zpracovat strojově, takže sice by se z Vaší historie leccos dalo odvodit, ale to by ten počítač musel mimo jiné přečíst a pochopit všechno, co jste četli, ideálně i s rozpoznávání obrazu, a ještě to dát do kontextu vaší motivace. Což je hrozně náročné a v podstatě na hraně výpočetních možností a poznání, takže se to nedělá.
Je něco špatného na tom, že tohle celé Seznam dělá? Seznam nemá povinnost poskytovat Vám jakékoliv služby. Ta služba je placená. Platí ji inzerenti. Vy jste ten produkt. Jestli nechcete být produkt, zapněte si adblock a nepoužívejte to. Téměř jistě tam v takovém případě buď žádný profil mít nebudete, nebo bude nepřesný až nesmyslný. A pokud se vám nelíbí, že jsou na nějakém webu reklamy od Seznamu, tak si to vyřiďte se zřizovatelem daného webu.
Buďte rádi, že je tady jak Seznam, tak Google; tuzemský trh je tou vyrovnaností unikátní. Ani jedna firma tak nemá kompletní data. Navíc z toho plynou další výhody: věděli jste, že Google udělal v Praze hned po New Yorku kompletní 3D vizualizaci, protože Seznam tady Googlu konkuruje v mapách? Jinak ve většině zemí má buď Google téměř výhradní postavení, nebo tam místní vláda protěžuje vlastní šmírácký subjekt.
Já osobně cpu některým společnostem svoje data vědomě, protože mi pak přináší lepší služby. Inzerentům asi taky, ale já mám zapnutý adblock, takže se inzerenti nakonec stejně můžou jít klouzat. Ostatně co je tak špatného na tom, že na Vás Seznam práskne výrobci kočičího žrádla, že potřebujete kočičí žrádlo? Lepší než reklama na dámské vložky, ne?
15.09.2024 Chopin
Související články:
- Seznamem vnucovaná cílená reklama alias RTB znamená aukci 400 položek o vašem soukromí (6.9.2024), Jan Mrcasik
17 018x přečteno