V zóně .cz existuje více než 1,36 milionu domén druhé úrovně, avšak mnohé z nich jsou neaktivní. V rámci naší studie jsme se pokusili všechny tyto domény spočítat. Za tím účelem jsme zanalyzovali údaje získané z různých zdrojů projektu ADAM. Vycházeli jsme z předpokladu, že je doména aktivní tehdy, pokud hostuje nezaparkovaný web nebo pro ni byl nakonfigurován mailový server.

Webový obsah

Pomocí nástroje DNS crawler jsme stáhli webový obsah všech .cz domén. Shromáždili jsme data pro různé kombinace portů (80/443), prefixové jmenovky (prázdný/www) a verze IP (IPv4/IPv6), a následovali jsme všechna HTTP přesměrování. Na konci tohoto procesu byla každá doména přiřazena do jedné ze čtyř kategorií:

  • Bez obsahu - pokud byl její webový server nedostupný nebo byl webový obsah prázdný
  • Chyba HTTP - pokud její webový server vrátil HTTP stavový kód o hodnotě 4xx nebo 5xx
  • Zaparkovaný web - pokud byl její webový obsah vyhodnocen jako zaparkovaný web
  • Aktivní web - pokud byl její webový obsah vyhodnocen jako nezaparkovaný web

K detekci takzvaných zaparkovaných webů jsme použili metody strojového učení. Jako vstup pro klasifikátor jsme použili předzpracovaný webový obsah (viditelný text vyjmutý z HTML, bez renderování JavaScriptu) shromážděný DNS crawlerem. Náš model byl založen na konceptu dolování z textu TF-IDF, který umožňuje identifikaci důležitých slov. Důležitost je odhadována na základě četnosti výskytu slova v dokumentu oproti četnosti jeho výskytu v korpusu. Kromě počítání slov jsme také zkoumali frekvenci výskytu slovních spojení (jedno- až tříúrovňové n-gramy). Jedním z příkladů častého slovního spojení u zaparkovaných webů (po odstranění diakritiky a stopslov) bylo spojení “domena zaregistrovana”, u nezaparkovaných webů to bylo spojení “vsechna prava vyhrazena”.

Pro učení našeho modelu jsme použili výsledky manuální klasifikace, kterou provádíme každý rok v rámci domain reportu. Podařilo se nám dosáhnout 92% přesnosti pro testovací sadu (F1 skóre = 0.92), jinými slovy: webový obsah byl správně klasifikován pro 92 ze 100 domén.

Mailová služba

Předpokládali jsme, že doména poskytuje mailovou službu v případě, že se DNS crawleru podařilo připojit k portu 25, 465 nebo 587 na mailovém serveru pro tuto doménu (uvedeném v záznamu mail exchange (MX) nebo v záznamu A/AAAA, pokud neexistovalo MX, viz RFC5321).

Každá doména byla označena jednou z následujících tříd:

  • Aktivní mail - pokud měla tato doména dostupný mailový server
  • Neaktivní mail - pokud tato doména neměla mailový server nebo nebyl dostupný

Souhrnná predikce

Nakonec jsme zkombinovali údaje o webovém obsahu a mailové službě za účelem vytvoření souhrnné predikce. Každá doména byla klasifikována jako:

  • Aktivní web a/nebo mail - pokud patřila do třídy Aktivní web nebo Aktivní mail (tzn. že hostovala nezaparkovaný web nebo měla funkční mailový server)
  • Neaktivní web a mail - pokud pro danou doménu neexistoval nezaparkovaný web ani aktivní mailový server

Výsledky

Dne 23. října 2020 jsme skenovali 1 365 753 .cz domén a shromáždili 200 GB dat, která jsme použili jako vstup pro náš model. U 61,1 % domén byl webový obsah klasifikován jako nezaparkovaný web, zatímco zaparkované weby tvořily 20,1 % celkového počtu domén. U 12,0 % domén jsme nebyli schopni získat webový obsah a u 6,7 % se objevila chyba HTTP. Přibližně 69,3 % domén mělo fungující mailový server.


79,6 % domén mělo buď nezaparkovaný web nebo fungující mailový server.

Stáří domény

Zajímavým zjištěním byl fakt, že stáří domény (čas mezi registrací a 23. říjnem 2020) koreluje s výsledkem klasifikace webového obsahu. Starší domény častěji hostovaly nezaparkovaný web – z domén starších 20 let to bylo 76,7 %. Oproti tomu 34,8 % domén mladších než jeden rok hostovalo zaparkovaný web.


Podobný trend byl odhalen u mailové služby – starší domény měly větší podíl aktivních mailových serverů.

Délka doménové jmenovky

Zanalyzovali jsme korelaci mezi délkou doménové jmenovky druhé úrovně a výsledky klasifikace webového obsahu. Ukázalo se, že třípísmenné domény méně často hostovaly nezaparkovaný web (53,0 %). Domníváme se, že je tento úkaz možné vysvětlit tím, že krátké domény jsou často registrovány za jiným účelem než hostování webu (např. pro zisk nebo provozování doménového registru druhé úrovně).


Jiný trend byl pozorován u mailové služby – domény s delší jmenovkou měly méně často svůj mailový server.

DNS provoz

Zanalyzovali jsme dotazy na DNS servery zóny .cz, abychom vyhodnotili popularitu .cz domén. Pro každou doménu jsme zjistili počet odlišných zdrojů (DNS resolverů), které pro danou doménu odeslaly 23. října 2020 DNS dotazy. Není žádným překvapením, že nejvyšší počet různých zdrojů byl zjištěn u domén klasifikovaných jako aktivní (tzn. takových, které mají nezaparkovaný web nebo mailový server).

Počet zdrojů DNS dotazů na doménu
Souhrnná predikce medián průměr q=0.05 q=0.25 q=0.75 q=0.95
Aktivní web a/nebo mail 98 289 6 39 261 944
Neaktivní web a mail 28 80 2 11 54 327

Graf níže zobrazuje kumulativní distribuci DNS zdrojů.

Registrátoři

Výsledky klasifikace se sice liší v závislosti na registrátorovi, avšak nebyly odhaleny žádné konkrétní trendy. Procento aktivních domén je zobrazeno v grafu níže. U velkých hráčů je možné pozorovat typickou tendenci – procento aktivních domén v jejich portfoliu se pohybuje okolo 72 %.

Závěry

Naše studie odhalila, že přibližně 80 % .cz domén hostuje nezaparkovaný web nebo provozuje mailový server. U starších domén je toto procento o něco vyšší.

Je třeba zmínit, že jistý malý podíl domén mohl být klasifikován nesprávně, přesnost 92 % však lze považovat za dostatečně vysokou, aby bylo možné vyvozovat relevantní závěry ohledně klasifikace webového obsahu. V naší studii jsme se navíc zaměřili pouze na weby a mail, jelikož to jsou nejpopulárnější služby spojené s doménami druhé úrovně.

Other ADAM reports » Další reporty »
© CZ.NIC, z.s.p.o., 
ADAM is an R&D project that tries to get the most of the big data generated by DNS and other services operated by CZ.NIC.
Projekt ADAM se snaží vytěžit maximum z dat získávaných z DNS a dalších služeb provozovaných sdružením CZ.NIC.