Wikipedie:Stáhnutí databáze

Wikipedie nabízí kopie veškerého dostupného obsahu uživatelům, kteří ji potřebují. Tyto kopie databází můžou být využity pro mirrorování Wikipedie, osobní užití, zálohy informací, použití offline anebo pro dotazy na databázi. Veškerý textový obsah je licencován pod licencí Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) a většina zároveň i pod licencí GNU Free Documentation License (GFDL). Pro další informace o autorském právu na Wikipedii vizte WP:Autorské právo.

Offline čtečky Wikipedie

Některé z mnoha cest, jak číst Wikipedii offline.

Kde získám...

Českojazyčnou Wikipedii

  • Dumpy kteréhokoliv projektu Nadace Wikimedia: https://dumps.wikimedia.org a Internet Archive
  • Dumpy českojazyčné Wikipedie v SQL a XML: https://dumps.wikimedia.org/cswiki
    • pages-articles.xml.bz2 - pouze aktuální verze článků, žádné diskusní a uživatelské stránky, toto je pravděpodobně to, co chcete (okolo 550 MB v komprimované variantě)
    • pages-meta-current.xml.bz2 - pouze aktuální verze všech stránek (včetně diskusí), okolo 670 MB v komprimované verzi
    • abstract.xml.gz - úvody článků
    • all-titles-in-ns0.gz - pouze názvy článků (s přesměrováními)
    • SQL zálohy pro většinu tabulek MediaWiki jsou také dostupné
    • pages-meta-history.xml.bz2 - Obsahuje všechny revize všech stránek, rozbalí se na přes 300 GB velký textový soubor, stahujte pouze, pokud víte, že tento soubor užijete
  • Pro stažení pouze části databáze v XML formátu, třeba jedné kategorie nebo seznamu článků, využijte Special:Export
  • Frontend Wikipedie: MediaWiki ([1])
  • Databázový backend: MySQL

Nakládání s komprimovanými soubory

Komprimované dumpy jsou značně zmenšené, po rozbalení zaberou velké množství prostoru. K dekomprimaci souborů .bz2 a .7z mohou být využity následující programy:

Windows
Mac
  • OS X přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
GNU/Linux
  • GNU/Linux přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
BSD
  • Některé BSD systémy přicházejí se zabudovaným nástrojem na příkazové řádce. U ostatních, jako OpenBSD je nutné tento nástroj napřed nainstalovat z balíčku

Proč si data nestáhnout sám při běhu?

Představme si, že vyvíjíte software, který na některých místech zobrazují informace z Wikipedie. Pokud chcete, aby váš program zobrazil informace jinak, než jsou na Wikipedii, budete pravděpodobně potřebovat wikikód, ve kterém byl text napsán namísto hotového HTML.

Pokud chcete získat všechna data, pravděpodobně je chcete přenést tou nejefektivnější možnou cestou. Servery wikipedia.org musí provést dost práce, než převedou wikikód do HTML. To spotřebovává čas jak váš, tak serverům wikipedia.org, takže stahování všech stránek není správnou cestou.

Prosím uvědomte si, že živé mirrory Wikipedie, které se dynamicky načítají ze serverů Nadace Wikimedia jsou zakázané.

Prosím nevyužívejte web crawler

Prosím, nevyužívejte web crawler (robot stahující obsah internetu) pro stažení velkého množství článků. Agresivní využívání těchto robotů mohou vyústit v dramatické zpomalení běhu Wikipedie.

Příklad mailu zaslanému zablokovanému majiteli robota

Orientační překlad z originální anglické verze

IP adresa nnn.nnn.nnn.nnn stahovala až 50 stránek za sekundu ze serverů wikipedia.org. Soubor robots.txt má v tuto chvíli nastaven limit na jednu stránku za sekundu použitím nastavení Crawl-delay. Prosím, respektujte toto nastavení. Za nic nestojí stahování veškerého obsahu Wikipedie pomocí jednoho stáhnutí za sekundu, protože to zabere několik týdnů. Zmíněná IP adresa je nyní zablokována nebo k tomu dojde během krátké doby. Prosím, kontaktujte nás, pokud si přejete být odblokován. Prosím, nesnažte se zablokování obejít - prostě zablokujeme celý rozsah.

Pokud chcete možnosti, jak obsah stáhnout více efektivně, nabízíme spoustu možností, zahrnující týdenní [.pozn 1] dumpy databáze, které můžete načíst do MySQL databáze a pracovat s daty lokálně, využitím rychlosti, které chcete.

Namísto odpovědi na tento e-mail můžete preferovat navštívení kanálu #mediawiki na irc.freenode.net kvůli diskusi vašich názorů s naším týmem.

Provádění SQL dotazů na aktuální verzi databáze

Namísto stahování dumpu databáze můžete využít živé databázové konzole na https://quarry.wmflabs.org .

Schéma databáze

Viz také: mw:Manual:Database layout

SQL soubor použitý k inicializaci databáze MediaWiki můžete nalézt zde. XML schéma je definované na začátku každého souboru.

Poznámky

  1. Nyní měsíční

Reference

V tomto článku byl použit překlad textu z článku Wikipedia:Database download na anglické Wikipedii.


Zdroj datcs.wikipedia.org
Originálcs.wikipedia.org/wiki/Wikipedie:Stáhnutí_databáze
Zobrazit sloupec 

Kalkulačka - Výpočet

Výpočet čisté mzdy

Důchodová kalkulačka

Přídavky na dítě

Příspěvek na bydlení

Rodičovský příspěvek

Životní minimum

Hypoteční kalkulačka

Povinné ručení

Banky a Bankomaty

Úrokové sazby, Hypotéky

Směnárny - Euro, Dolar

Práce - Volná místa

Úřad práce, Mzda, Platy

Dávky a příspěvky

Nemocenská, Porodné

Podpora v nezaměstnanosti

Důchody

Investice

Burza - ČEZ

Dluhopisy, Podílové fondy

Ekonomika - HDP, Mzdy

Kryptoměny - Bitcoin, Ethereum

Drahé kovy

Zlato, Investiční zlato, Stříbro

Ropa - PHM, Benzín, Nafta, Nafta v Evropě

Podnikání

Města a obce, PSČ

Katastr nemovitostí

Katastrální úřady

Ochranné známky

Občanský zákoník

Zákoník práce

Stavební zákon

Daně, formuláře

Další odkazy

Auto - Cena, Spolehlivost

Registr vozidel - Technický průkaz, eTechničák

Finanční katalog

Volby, Mapa webu

English version

Czech currency

Prague stock exchange


Ochrana dat, Cookies

 

Copyright © 2000 - 2024

Kurzy.cz, spol. s r.o., AliaWeb, spol. s r.o.