Tajemství hlubokého webu: Co se skrývá na darknetu a proč tvoří většinu celého internetu

Co je hluboký web a proč není totéž co darknet

V běžné řeči se pojmy deep web, dark web a darknet často hází do jednoho pytle, ale technicky jde o odlišné vrstvy internetu. Hluboký web je jakýkoli obsah, který není dostupný přes veřejné vyhledávače, například interní firemní aplikace, bankovní účty, CRM systémy, akademické databáze, e-maily nebo stránky za přihlášením. Darknet je naopak síť postavená na speciálních protokolech a nástrojích, typicky Tor nebo I2P, která umožňuje anonymnější přístup k obsahu.

Praktický dopad je zásadní: deep web je naprosto běžná součást internetu a používá ho každý den téměř každý uživatel. Darknet je jen malá, technicky oddělená část, která má legitimní i nelegitimní využití. Z hlediska objemu dat tvoří hluboký web podle odhadů více než 90 % celého internetu, zatímco veřejně indexovaný web je jen menšina. To neznamená, že je „skrytý internet“ nějaký tajemný paralelní vesmír — spíš jde o obsah, ke kterému se vyhledávače z principu nedostanou.

Proč vyhledávače neindexují většinu internetu

Google, Bing ani další vyhledávače nevidí do všeho. Existuje několik hlavních důvodů, proč obsah zůstává mimo index:

Ochrana přístupem – obsah je za loginem, v placené sekci nebo po ověření.
Technické blokace – soubor robots.txt, meta tag noindex, HTTP hlavičky nebo blokace crawlerů.
Dynamický obsah – data se generují až po odeslání formuláře nebo skriptem na straně klienta.
Nedostupné odkazy – stránka není nikde veřejně prolinkovaná, takže ji crawler nemusí objevit.
Databázový obsah – informace existují v databázi, ale nejsou zobrazené jako klasická HTML stránka.

Pro SEO je to důležité: mnoho webů má obrovské množství obsahu, který je pro uživatele dostupný, ale pro vyhledávače ne. Typickým příkladem jsou e-shopy s filtrováním, interní znalostní báze, PDF katalogy nebo členské sekce. Pokud chcete, aby se obsah dostal do indexu, musíte řešit nejen text, ale i crawlovatelnost, renderování a informační architekturu.

U webů na WordPressu nebo headless CMS se často vyplatí zkontrolovat, zda důležité stránky nejsou omylem označené jako noindex, zda je správně nastavený canonical a jestli Googlebot vůbec dostane HTML obsah bez nutnosti složitého JavaScriptového renderingu.

Co se skutečně skrývá na darknetu

Darknet je nejznámější hlavně díky síti Tor, která směruje provoz přes více uzlů a tím ztěžuje identifikaci uživatele i serveru. Adresy v Tor síti často používají doménu .onion a nejsou dostupné přes běžný prohlížeč bez speciálního softwaru. To je důvod, proč darknet slouží jak novinářům, aktivistům a lidem v represivních režimech, tak i podvodníkům, prodejcům nelegálního zboží a útočníkům.

Reálně na darknetu najdete několik typů obsahu:

Legitimní anonymní služby – whistleblowing, bezpečná komunikace, zrcadla médií.
Fóra a tržiště – často s vysokou fluktuací a krátkou životností.
Leak site – stránky zveřejňující ukradená data nebo výkupné po útoku ransomwarem.
Podvody – falešná tržiště, phishing, „escrow“ služby bez reálné ochrany.

Bezpečnostní firmy jako Recorded Future, KELA nebo Flashpoint dlouhodobě sledují, že darknet není jen o prodeji drog, jak ho vykreslují filmy. Velká část diskuzí se týká úniků dat, kompromitovaných účtů, přístupu do firemních VPN, kradených cookies a prvotního přístupu do firemních sítí. Pro firmy je to důležité hlavně jako zdroj intel informací o hrozbách.

Jak se hluboký web dotýká SEO, analytiky a technického auditu

Pro SEO specialisty je hluboký web zásadní téma, protože mnoho problémů s indexací vzniká právě tím, že obsah není pro roboty přístupný. Pokud máte tisíce produktů, článků nebo dokumentů a v indexu je jen malá část, problém obvykle není „Google nechce“, ale technické nastavení webu.

V praxi doporučuji tento postup:

Google Search Console – zkontrolujte reporty Indexování, Stránky a Procházení.
Screaming Frog nebo Sitebulb – projděte web a hledejte noindex, canonical, redirect chainy a blokované zdroje.
Log analýza – ověřte, co skutečně crawler navštěvuje a co ignoruje.
Rich Results Test a Schema Markup Validator – zkontrolujte strukturovaná data.
PageSpeed Insights a Lighthouse – zjistěte, zda JavaScript nebrání renderování důležitého obsahu.

Typický příklad z praxe: e-shop má 50 000 produktových URL, ale v indexu je jen 8 000. Po auditu se ukáže, že 30 % stránek vrací duplicitní canonical, další část je zablokovaná parametry v robots.txt a zbytek se generuje až po klientském renderu. Po opravě informační architektury, interního prolinkování a SSR se indexace často výrazně zlepší během několika týdnů.

Stejně důležitá je i práce s topic clustery a sémantickým SEO. Obsah, který je schovaný za filtrem nebo v PDF, sice může být cenný, ale pokud ho chcete získat do organiky, musí být dostupný jako plnohodnotná HTML stránka s jasným záměrem, nadpisy H1–H3 a logickou strukturou.

Bezpečnost, soukromí a rizika: co by měl vědět běžný uživatel i firma

Darknet není automaticky nelegální, ale rizikový je z několika důvodů. Prvním je vysoký podíl podvodů a škodlivého obsahu. Druhým je fakt, že i pouhé „prohlížení ze zvědavosti“ vás může vystavit škodlivým souborům, phishingu nebo sledování provozu, pokud nepoužijete správnou ochranu. Třetím rizikem je právní a compliance rovina: některé činnosti mohou být v rozporu s lokální legislativou nebo interními pravidly firmy.

Pokud se na darknet díváte z profesního pohledu, držte se těchto zásad:

používejte oddělené zařízení nebo sandbox, nikdy pracovní účet;
mějte zapnuté automatické aktualizace a kvalitní antivirovou ochranu;
nepřihlašujte se do osobních služeb přes anonymizační sítě;
neotvírejte stažené soubory mimo izolované prostředí;
u firem sledujte dark web monitoring pro úniky dat a přístupových údajů.

Firmy často využívají nástroje jako Have I Been Pwned, DeHashed, SpyCloud nebo specializované threat intelligence platformy, aby zjistily, zda se jejich domény, e-maily nebo hesla neobjevily v únicích. To je mnohem užitečnější než snaha „prozkoumávat darknet“ bez jasného cíle.

Jak o hlubokém webu přemýšlet strategicky v roce 2026

Hluboký web není exotická odchylka, ale standardní stav internetu. Čím více webů přechází na dynamické aplikace, paywally, personalizaci a přihlášení, tím větší část obsahu se přesouvá mimo klasické vyhledávání. Pro majitele webů to znamená dvě věci: musíte hlídat, co má být indexované, a zároveň si uvědomit, co zůstává záměrně skryté.

Pokud chcete, aby se váš obsah dostal do Google i do AI vyhledávání typu ChatGPT, Perplexity nebo AI Overviews, musí být:

veřejně dostupný bez přihlášení;
dobře interně prolinkovaný;
technicky renderovatelný pro crawler;
strukturovaný pomocí schema markup;
jasně popsán s ohledem na vyhledávací záměr.

Naopak obsah, který má zůstat skrytý, by měl být skutečně chráněný, ne jen „slabě zahalený“. U citlivých dat nestačí spoléhat na to, že je stránka „nikde neodkazovaná“. Správně nastavené přístupy, autentizace, logging a pravidelné audity jsou dnes základ. V éře AI vyhledávání a automatizovaných crawlerů je rozdíl mezi veřejným a neveřejným obsahem důležitější než kdy dřív.