V zóně .cz existuje více než 1,36 milionu domén druhé úrovně, avšak mnohé z nich jsou neaktivní. V rámci naší studie jsme se pokusili všechny tyto domény spočítat. Za tím účelem jsme zanalyzovali údaje získané z různých zdrojů projektu ADAM. Vycházeli jsme z předpokladu, že je doména aktivní tehdy, pokud hostuje nezaparkovaný web nebo pro ni byl nakonfigurován mailový server.
Pomocí nástroje DNS crawler jsme stáhli webový obsah všech .cz domén. Shromáždili jsme data pro různé kombinace portů (80/443), prefixové jmenovky (prázdný/www) a verze IP (IPv4/IPv6), a následovali jsme všechna HTTP přesměrování. Na konci tohoto procesu byla každá doména přiřazena do jedné ze čtyř kategorií:
4xx
nebo 5xx
K detekci takzvaných zaparkovaných webů jsme použili metody strojového učení. Jako vstup pro klasifikátor jsme použili předzpracovaný webový obsah (viditelný text vyjmutý z HTML, bez renderování JavaScriptu) shromážděný DNS crawlerem. Náš model byl založen na konceptu dolování z textu TF-IDF, který umožňuje identifikaci důležitých slov. Důležitost je odhadována na základě četnosti výskytu slova v dokumentu oproti četnosti jeho výskytu v korpusu. Kromě počítání slov jsme také zkoumali frekvenci výskytu slovních spojení (jedno- až tříúrovňové n-gramy). Jedním z příkladů častého slovního spojení u zaparkovaných webů (po odstranění diakritiky a stopslov) bylo spojení “domena zaregistrovana”, u nezaparkovaných webů to bylo spojení “vsechna prava vyhrazena”.
Pro učení našeho modelu jsme použili výsledky manuální klasifikace, kterou provádíme každý rok v rámci domain reportu. Podařilo se nám dosáhnout 92% přesnosti pro testovací sadu (F1 skóre = 0.92), jinými slovy: webový obsah byl správně klasifikován pro 92 ze 100 domén.
Předpokládali jsme, že doména poskytuje mailovou službu v případě, že se DNS crawleru podařilo připojit k portu 25, 465 nebo 587 na mailovém serveru pro tuto doménu (uvedeném v záznamu mail exchange (MX) nebo v záznamu A/AAAA, pokud neexistovalo MX, viz RFC5321).
Každá doména byla označena jednou z následujících tříd:
Nakonec jsme zkombinovali údaje o webovém obsahu a mailové službě za účelem vytvoření souhrnné predikce. Každá doména byla klasifikována jako:
Dne 23. října 2020 jsme skenovali 1 365 753 .cz domén a shromáždili 200 GB dat, která jsme použili jako vstup pro náš model. U 61,1 % domén byl webový obsah klasifikován jako nezaparkovaný web, zatímco zaparkované weby tvořily 20,1 % celkového počtu domén. U 12,0 % domén jsme nebyli schopni získat webový obsah a u 6,7 % se objevila chyba HTTP. Přibližně 69,3 % domén mělo fungující mailový server.
79,6 % domén mělo buď nezaparkovaný web nebo
fungující mailový server.
Zajímavým zjištěním byl fakt, že stáří domény (čas mezi registrací a 23. říjnem 2020) koreluje s výsledkem klasifikace webového obsahu. Starší domény častěji hostovaly nezaparkovaný web – z domén starších 20 let to bylo 76,7 %. Oproti tomu 34,8 % domén mladších než jeden rok hostovalo zaparkovaný web.
Podobný trend byl odhalen u mailové služby – starší domény měly
větší podíl aktivních mailových serverů.
Zanalyzovali jsme korelaci mezi délkou doménové jmenovky druhé úrovně a výsledky klasifikace webového obsahu. Ukázalo se, že třípísmenné domény méně často hostovaly nezaparkovaný web (53,0 %). Domníváme se, že je tento úkaz možné vysvětlit tím, že krátké domény jsou často registrovány za jiným účelem než hostování webu (např. pro zisk nebo provozování doménového registru druhé úrovně).
Jiný trend byl pozorován u mailové služby – domény s delší
jmenovkou měly méně často svůj mailový server.
Zanalyzovali jsme dotazy na DNS servery zóny .cz, abychom vyhodnotili popularitu .cz domén. Pro každou doménu jsme zjistili počet odlišných zdrojů (DNS resolverů), které pro danou doménu odeslaly 23. října 2020 DNS dotazy. Není žádným překvapením, že nejvyšší počet různých zdrojů byl zjištěn u domén klasifikovaných jako aktivní (tzn. takových, které mají nezaparkovaný web nebo mailový server).
Souhrnná predikce | medián | průměr | q=0.05 | q=0.25 | q=0.75 | q=0.95 |
---|---|---|---|---|---|---|
Aktivní web a/nebo mail | 98 | 289 | 6 | 39 | 261 | 944 |
Neaktivní web a mail | 28 | 80 | 2 | 11 | 54 | 327 |
Graf níže zobrazuje kumulativní distribuci DNS zdrojů.
Výsledky klasifikace se sice liší v závislosti na registrátorovi, avšak nebyly odhaleny žádné konkrétní trendy. Procento aktivních domén je zobrazeno v grafu níže. U velkých hráčů je možné pozorovat typickou tendenci – procento aktivních domén v jejich portfoliu se pohybuje okolo 72 %.
Naše studie odhalila, že přibližně 80 % .cz domén hostuje nezaparkovaný web nebo provozuje mailový server. U starších domén je toto procento o něco vyšší.
Je třeba zmínit, že jistý malý podíl domén mohl být klasifikován nesprávně, přesnost 92 % však lze považovat za dostatečně vysokou, aby bylo možné vyvozovat relevantní závěry ohledně klasifikace webového obsahu. V naší studii jsme se navíc zaměřili pouze na weby a mail, jelikož to jsou nejpopulárnější služby spojené s doménami druhé úrovně.