Užitečné tipy

Hluboká síť

Pin
Send
Share
Send
Send


Deep Web - řada webových stránek, které nejsou indexovány vyhledávacími nástroji.

Termín je odvozen z anglického neviditelného webu.

Nejvýznamnější částí hlubokého webu je hluboký web, který se skládá z webových stránek dynamicky generovaných dotazováním online databází. Koncept hlubokého webu by neměl být zaměňován s pojmem temný web, což znamená síťové segmenty, které nejsou vůbec připojeny k internetu nebo jsou připojeny, ale pro přístup k těmto segmentům je vyžadován speciální software / nestandardní porty a / nebo protokoly.

Termín „Deep Web“ se obvykle týká webových stránek, které z nějakého důvodu nejsou vyhledávacími roboty indexovány. Pokud tedy hledáte něco s vaším oblíbeným vyhledávačem, nemůžete jej použít k nalezení stránek, které tento vyhledávač neindexoval. Velikost hlubokého webu není známa a celkově je obtížné jej odhadnout, především kvůli chmurnosti samotného konceptu. Existuje však hrubý odhad celkového počtu stránek, které vedou k online databázím.

K hlubokému internetu patří:

• stránky s „hlubokou“ úrovní vnoření, například: http://www.example.com/folder/folder1/folder2/folder3/folder4/index stránka,

• Internet sociálních sítí / fór s uzavřenými pro vyhledávací stránky.

• „neindexovatelný internet“, který dříve nebyl stránkou formátu html, ale „pdf“, „djvu“, „txt“ atd. Vyhledávací stroje se však dosud naučily indexovat soubory různých formátů (přípon).

To se podobá tradiční topologii neviditelného internetu K. Shermana a G. Price, ale dnes se „neviditelný internet“ změnil, nástroje se objevily a objevují se, které vám umožňují pracovat v „hlubokém webu“.

Jak hledat hluboký web (neviditelná síť)

Funguje to na principu wiki, což znamená, že mnoho našich článků je napsáno několika autory. Při vytváření tohoto článku 31 lidí (a) pracovalo na jeho úpravách a vylepšování, včetně anonymně.

Počet zdrojů použitých v tomto článku: 5. Jejich seznam najdete v dolní části stránky.

Vyhledávače, jako je Google, indexují více než bilion stránek webu, ale na internetu jsou informace, které nelze získat pomocí běžných vyhledávačů. Ve většině případů by tyto informace měly být vyhledávány přímo na stránkách. Hluboký web (neviditelná síť) také obsahuje informace o tajných komunitách, které se chtějí vyhnout publicitě a vlastnímu zájmu ze strany úřadů.

Obsah

Hluboký web obsahuje webové stránky, které nejsou spojeny s jinými hypertextovými odkazy (například slepé webové stránky dynamicky vytvářené skripty na samotných webech, které na vyžádání nemají přímé odkazy), jakož i weby, které jsou přístupné pouze registrovaným uživatelům. a webové stránky pouze s heslem.

Vyhledávací stroje používají speciální vyhledávací roboty, které sledují hypertextové odkazy a indexují obsah webových stránek, na kterých se objevují, a umisťují do nich svůj obsah a hypertextové odkazy ve svých databázích. Po nalezení odkazů na jiné stránky na indexované webové stránce, vyhledávací robot na ně klikne a indexuje obsah každé z nalezených stránek, najde nové hypertextové odkazy a klikne na ně pro indexování, v důsledku kliknutí na odkazy vedoucí mimo indexované stránky, počet indexovaného webu stránky se neustále zvyšují. Vyhledávací robot nemůže dosáhnout webových stránek, na které neexistují žádné odkazy z jiných stránek, a proto není obsah těchto stránek indexován. Výsledkem je, že bez znalosti adresy URL webu nebo webové stránky Deep Network nebude mít běžný uživatel k nim přístup.

Hluboká síť zahrnuje také weby, jejichž vlastníci dobrovolně odmítli indexaci pomocí vyhledávačů (například pomocí souboru robots.txt), jakož i weby a webové stránky, které jsou chráněny autorizací před prohlížením informací třetími stranami. V takovém případě bez znalosti přihlašovacího a (nebo) hesla pro webovou stránku není možné plně zobrazit její obsah nebo použít web.

Hluboké vyhledávání na webu Upravit

V roce 2005 podnikl Yahoo! vážný krok k vyřešení tohoto problému. Společnost vydala vyhledávací stroj „Yahoo!“ Předplatné “, které prohledává weby (dosud ne početné), přístup k nim je přístupný pouze registrovaným členům těchto stránek. Tím se však stávající problém úplně nevyřešil. Experti na vyhledávače se stále snaží najít technické možnosti pro indexování obsahu databáze a přístup k uzavřeným webům.

Jednou z populárních služeb pracujících s hlubokými webovými daty je UFOseek, který byl původně navržen tak, aby systematizoval údaje o paranormálních jevech.

V netstalkingu je hluboký web jedním z předmětů studia, existují samostatné metody a nástroje pro jeho vyhledávání.

Speciální vyhledávače:

Přestože není vždy možné přímo najít obsah konkrétního webového serveru, aby mohl být indexován, můžete k takovým webům stále přistupovat (kvůli zranitelnosti počítače).

Pro vyhledání obsahu na internetu používají vyhledávače webové prolézací moduly, které sledují hypertextové odkazy prostřednictvím známých čísel virtuálních portů protokolu. Tato metoda je ideální pro objevování obsahu na webu, ale je často neúčinná při hledání hlubokého webového obsahu. Vyhledávací roboti například nehledají dynamické stránky, které jsou výsledkem dotazů do databáze kvůli neomezenému počtu těchto dotazů. Bylo poznamenáno, že by to mohlo být (částečně) překonáno poskytnutím odkazů na výsledky dotazu, ale mohlo by to neúmyslně nafouknout popularitu pro člena hluboké sítě.

Existuje několik vyhledávačů, které mají přístup k hlubokému webu. Společnost Intute zastavila financování a od července 2011 je nyní dočasným archivem. Scirus uzavřena na konci ledna 2013.

Vědci studovali, jak automaticky skenovat hluboký web, včetně obsahu, ke kterému lze přistupovat pouze pomocí speciálního softwaru, jako je Tor. V roce 2001 představili Sriram Raghavan a Hector Garcia-Molina (Stanford Computer Science Department, Stanford University) architektonický model skrytého vyhledávače, který používal klíčová slova poskytovaná uživateli nebo získaná z rozhraní dotazů pro vyhledávání a procházení hlubokého internetu.

Komerční vyhledávače začaly zkoumat alternativní metody procházení hlubokého internetu. Protokol Sitemap (poprvé vyvinutý a implementovaný společností Google v roce 2005) a mod_oai jsou mechanismy, které umožňují vyhledávacím strojům a dalším zúčastněným stranám objevit hluboké internetové zdroje na konkrétních webových serverech. Oba mechanismy umožňují webovým serverům hostovat dostupné adresy URL, které automaticky detekují zdroje, které nejsou přímo připojeny k webu. Hluboký webový navigační systém Google vypočítává podání pro každý formulář HTML a výsledné stránky HTML přidává do indexu vyhledávače Google. Výsledky zohlednily tisíce požadavků za sekundu na hluboký webový obsah. V tomto systému se předběžný výpočet reprezentací provádí pomocí tří algoritmů:

  • výběr vstupních hodnot pro textové vyhledávání, které přijímají klíčová slova,
  • konkrétní vstup, který přijímá pouze hodnoty určitého typu (například data),
  • Vyberte malý počet kombinací vstupu, které generují adresy URL vhodné pro zahrnutí do indexu internetového vyhledávání.

Pin
Send
Share
Send
Send