Textový soubor

Tento článek je o souborech složených ze znaků. O formátech sloužících pro kvalitní prezentaci textu pojednává článek formátovaný text.

Textový soubor je počítačový soubor složený výhradně ze znaků. Kromě tisknutelných znaků a mezer mohou textové soubory obsahovat omezenou sadu řídicích znaků, zpravidla pouze znaky konce řádků a tabelátory.

Soubory, které obsahují jiná data než znaky, nazýváme binárními. V binárních datech mohou mít některé byty nebo skupiny bytů význam počtu, velikosti, pozice v souboru, barvy, tónu, napětí, posunutí či strojové instrukce. Jakákoli binární data lze (za cenu zvětšení souboru) různými způsoby vyjádřit v textovém tvaru, například pomocí kodéru base64. Soubory obsahující obrázky, audio, video, spustitelné programy a archivní soubory jsou kvůli úspoře místa a pro rychlejší zpracování zpravidla binární.

Textové dokumenty, které pro formátování textu používají pouze znaky konce řádku, mezery a tabelátory, označujeme jako prostý text – obvykle se jim dávají jména s příponou txt. Jak prostý text, tak textové soubory obecně lze vytvářet a upravovat textovými editory. K vytvoření bohatěji formátovaného textu slouží textové procesory, které do souborů ukládají kromě textu i informace o použitém písmu, rozvržení textu na stránce, barvách, umožňují vkládat obrázky apod. Kvůli těmto přidaným informacím obvykle výsledný dokument není textovým souborem. Vložení přídavných informací při zachování textového formátu umožňují značkovací jazyky, které se používají například pro vytváření webových stránek. Textový formát mají také příkazové a dávkové soubory a zdrojové kódy počítačových programů a mohou jej mít i konfigurační soubory a datové soubory.

Textový soubor lze považovat za druh kontejneru. Obvyklý kontejner však definuje globální struktury souboru, do kterých se vkládají jednotlivé části (např. video, audio a titulky), zatímco fakt, že soubor je textový, určuje způsob ukládání těch nejmenších složek dat.

Členění na řádky

Textový soubor není prostou lineární posloupností znaků, ale je členěn na jednotlivé řádky. U historických operačních systémů byl řádek reprezentován pevným počtem znaků (nejčastěji 80 podle počtu pozic na nejrozšířenějších děrných štítcích) nebo záznamem proměnné délky, který začínal údajem o délce. U moderních operačních systémů mají řádky proměnnou délku a každý řádek je zakončen znakem konce řádku:

  • v Unixu znakem LF (line feed – nový řádek)
  • na počítačích Macintosh znakem CR (carriage return – návrat vozíku)
  • v operačním systému MS-Windows a DOS dvojicí znaků CR, LF

Znak konec souboru

Starší operační systémy (například CP/M) neudržovaly délku souboru v bytech, ale v blocích (záznamech, sektorech). Aby mohl textový soubor končit jinde než na konci bloku, ukládal se na konec souboru znak konce souboru (End of File – EOF). V novějších operačních systémech se znak konce souboru uplatňuje pro ukončení souboru čteného z klávesnice; v operačním systému MS-Windows a DOS se používá znak s kódem 26 (Ctrl-Z), v Unixech znak s kódem 4 (Ctrl-D).

Kódování textových souborů

Podle použitého kódování mohou být jednotlivé znaky reprezentovány jedním bytem, pevným počtem bytů (obvykle dvojicí nebo čtveřicí) nebo posloupností bytů.

Při použití kódování ASCII je každý znak uložen v jednom bytu; stejně tomu bylo u různých osmibitová osmibitových kódování používaných pro zápis národních znaků.

Po roce 2000 se stále častěji používá znaková sada ISO/IEC 10646 (Unicode), které umožňuje reprezentovat všechny v současnosti běžně používané znaky, včetně znaků čínské (japonské, korejské) znakové řeči a jiných orientálních skriptů (indické skripty jako sanskrt, dévanágarí, tibetské skripty atp.). Pro kódování se používá nejčastěji UCS-2 nebo UTF-16 (MS-Windows, SMS), kde jeden znak je tvořen dvěma případně čtyřmi byty, nebo UTF-8 (Unixy, WWW, e-mail), kde znak je tvořen posloupností 1-4 bytů.

Textová reprezentace binárních dat

Protože pro zpracování textových souborů existuje velké množství nástrojů, a textová data lze snadno přenášet, bylo vyvinuto množství způsobů pro reprezentaci binárních dat v textové podobě. Mezi nejstarší patří Intel HEX, který se používá hlavně pro zápis obsahu paměti. Významným oborem, který podnítil vývoj textových reprezentací binárních dat byly počítačové sítě a telekomunikace, především e-mail. Po starších formátech specifických pro jednotlivé operační systémy, jako je uuencode používaném v unixových operačních systémech, a BinHex používaných na počítačích Macintosh, přišel standard MIME s kódováním base64 pro binární soubory a quoted-printable pro textové soubory obsahující i jiné než ASCII znaky.

Obsah textových souborů

Obsah textových souborů může být různým způsobem strukturován. Pro ukládání tabulkových dat se používají relativně jednoduché CSV soubory členěné na řádky a položky. O něco složitější je struktura konfiguračních souborů ve formátu INI. Pomocí standardu MIME lze textově reprezentovat multimediální soubory. Soubory používající značkovací jazyky mohou být velmi složité, popsané gramatikou využívající rekurze. Jiným příkladem reprezentace složité spojové datové struktury pomocí poměrně jednoduchého textového souboru je formát GEDCOM pro výměnu genealogických dat.

Odkazy


Zdroj datcs.wikipedia.org
Originálcs.wikipedia.org/wiki/w/index.php
Zobrazit sloupec 

Kalkulačka - Výpočet

Výpočet čisté mzdy

Důchodová kalkulačka

Přídavky na dítě

Příspěvek na bydlení

Rodičovský příspěvek

Životní minimum

Hypoteční kalkulačka

Povinné ručení

Banky a Bankomaty

Úrokové sazby, Hypotéky

Směnárny - Euro, Dolar

Práce - Volná místa

Úřad práce, Mzda, Platy

Dávky a příspěvky

Nemocenská, Porodné

Podpora v nezaměstnanosti

Důchody

Investice

Burza - ČEZ

Dluhopisy, Podílové fondy

Ekonomika - HDP, Mzdy

Kryptoměny - Bitcoin, Ethereum

Drahé kovy

Zlato, Investiční zlato, Stříbro

Ropa - PHM, Benzín, Nafta, Nafta v Evropě

Podnikání

Města a obce, PSČ

Katastr nemovitostí

Katastrální úřady

Ochranné známky

Občanský zákoník

Zákoník práce

Stavební zákon

Daně, formuláře

Další odkazy

Auto - Cena, Spolehlivost

Registr vozidel - Technický průkaz, eTechničák

Finanční katalog

Volby, Mapa webu

English version

Czech currency

Prague stock exchange


Ochrana dat, Cookies

 

Copyright © 2000 - 2024

Kurzy.cz, spol. s r.o., AliaWeb, spol. s r.o.