Понятие формата файла
Понятие формата файла
Существует множество типов и форматов файлов. В общем виде формат – это сведения о том, как программа должна интерпретировать содержимое файла при его открытии. Иногда формат путают с расширением имени файла, но это совершенно разные понятия. Операционная система может использовать расширение имени файла, чтобы быстро определить, какой программой должен открываться данный файл. Как правило, расширение должно соответствовать формату, но это вовсе не обязательно. Сведения о формате находятся в самом файле – они помещаются в начало последовательности байтов.
Текстовый файл – самый простой формат. Каждый байт текстового файла является кодом определенного символа ASCII (буквы, цифры или знака препинания), а также символов пробела, начала и конца строки. Кроме значений текстовых символов, в текстовом файле действительно больше ничего нет! Структура любых других типов файлов гораздо сложнее.
В качестве примера откроем в HEX-редакторе файл рисунка в формате BMP (рис. 1.2). В самом начале файла дана последовательность 42 4D – в текстовой интерпретации это буквы BM. Затем следует довольно длинная последовательность байтов, в которой преобладают нулевые значения, а уже за ней начинается массив самых разных значений, который продолжается до самого конца файла.
Рис. 1.2. Окно программы Hexplorer – открыт файл рисунка в формате BMP
Можно предположить, что начало файла – какая-то служебная информация, причем самые первые ее байты указывают на формат файла. Лишь затем следует то содержимое, которое программа, работающая с подобными файлами, должна интерпретировать как рисунок.
Примечание
В Интернете существует ресурс, который неоднократно будет упоминаться – «Википедия», или «Свободная энциклопедия». Она содержит большое количество сведений и о форматах файлов, и о многих других понятиях, всю информацию о которых в одну книгу собрать просто невозможно.
В статье говорится, что BMP-файл действительно состоит из четырех частей:
• заголовок файла (BITMAPFILEHEADER). Первое поле заголовка (первые два байта) является сигнатурой – указанием на тип файла;
• заголовок изображения (BITMAPINFOHEADER) – необязательный компонент, он может отсутствовать;
• палитра, которая также может отсутствовать;
• само изображение – каждый байт описывает одну точку рисунка.
Здесь необходимо сделать важный вывод. Очевидно, что искажение или утрата данных, относящихся к первым трем частям, может привести к тому, что файл перестанет открываться предназначенной для этого программой, хотя вся значимая информация в нем осталась цела. В этом случае появится сообщение «Файл имеет неправильный формат или поврежден». Наоборот, утрата или искажение данных самого изображения никак не повлияет на открытие файла, но в открывшемся рисунке выпадут или будут искажены отдельные фрагменты.
В качестве эксперимента можно сделать несколько копий файла, намеренно испортить каждую из них в разных местах с помощью HEX-редактора, а затем сохранить. Открывая эти файлы стандартным средством просмотра Windows или программой Paint, пользователь убедится в справедливости сделанного ранее вывода.
Подобным образом устроен любой файл, хотя спецификация частей файла зависит от его типа. Описания почти всех форматов опубликованы, их можно найти в Интернете. Некоторые из детальных описаний занимают не один десяток страниц. Причем понятное описание форматов файлов Microsoft Office найти труднее всего, но все же существуют и общие положения.
• В начале файла всегда находится его заголовок (header). Сам заголовок тоже обладает внутренней структурой.
– Заголовок начинается сигнатурой, или «магическим числом». Это фрагмент кода, который однозначно дает понять, что это за файл или какой программой он создан. Например, EXE-файл всегда начинается с символов MZ, архив RAR содержит в своем коде сигнатуру RAR.
– Другие поля заголовка могут содержать информацию о размере файла, указывать, на каком байте заканчиваются заголовки и начинаются собственно данные, и так далее.
• В файле могут присутствовать специфические для данного формата заголовки, например для файлов изображений они указывают алгоритм сжатия, глубину цвета, размеры изображения в точках и т. д. Для звуковых файлов такими параметрами будут частота и разрядность оцифровки, число каналов, алгоритм сжатия и пр.
• В некоторых файлах могут присутствовать вспомогательные компоненты: палитра, кодовая таблица, внедренные данные шрифтов, макросов и т. д. В отдельных форматах, наподобие документов Microsoft Office или CorelDRAW, такие данные могут занимать больше места, чем все остальное. Достаточно посмотреть, каков размер «пустого» документа Microsoft Word 2003!
• Собственно уникальные данные документа. Иногда в сложных документах эти данные организованы в виде цепочек, или порций (chunks). В таком случае где-то в заголовках дается ссылка на начало и размер каждой порции.
• Указатель конца файла или контрольная сумма (check sum) подтверждают целостность файла. Они присутствуют далеко не во всех форматах.
Очевидно, любой поврежденный файл можно восстановить или хотя бы извлечь полезную информацию, открыв и отредактировав такой файл HEX-редактором. Если испорчена информация о формате, ее (теоретически) можно воссоздать, а затем открыть файл «штатным» приложением. Если повреждена область самих данных, из файла можно извлечь только то, что осталось.
Восстановление или извлечение полезной информации из поврежденных файлов вручную – трудоемкая задача. По сути она схожа с программированием. Проблема даже не в том, чтобы разобраться в структуре формата, а в том, что для поиска и создания новой записи «нужных» байтов потребуется масса рутинных и утомительных пересчетов, проб и проверок. Поэтому на практике, если существует такая возможность, вначале целесообразно прибегнуть к двум другим способам.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Установка размера файла, инициализация файла и разреженные файлы
Установка размера файла, инициализация файла и разреженные файлы Функция SetEndOfFile позволяет переустановить размер файла, используя текущее значение указателя файла для определения его размера. Возможно как расширение, так и усечение файла. В случае расширения файла
Краткое описание формата
Краткое описание формата favicon.ico имеет формат .ico (на самом деле, такой формат есть, а соответствующий MIME-тип прижился не везде; при этом он объединяет несколько довольно специфических типов; подробнее можно посмотреть в статье на Wikipedia, http://en.wikipedia.org/wiki/ICO_%28icon_image_file_format%29 ). С
Текст фиксированного формата
Текст фиксированного формата Аппетит приходит во время еды. Мы еще не успели доделать свою первую Web- страницу, а уже хотим сделать еще одну. Давайте же ее сделаем. Дадим аппетиту разгуляться!Новая Web-страница (листинг 2.10) будет посвящена тегу <TITLE>. Листинг 2.10 <!DOCTYPE
Текст фиксированного формата
Текст фиксированного формата Аппетит приходит во время еды. Мы еще не успели доделать свою первую Web- страницу, а уже хотим сделать еще одну. Давайте же ее сделаем. Дадим аппетиту разгуляться!Новая Web-страница (листинг 2.10) будет посвящена тегу <TITLE>. Листинг 2.10 <!DOCTYPE
22.4.3 Префикс формата адреса
22.4.3 Префикс формата адреса Первые несколько бит адреса называются префиксом формата (format prefix) и идентифицируют тип адреса. Например, префикс 010 определяет IP-адреса для одноадресных рассылок между провайдерами. Формат остальной части адреса зависит от префикса
1.4.5. Понятие владельца файла, права доступа к файлам и каталогам
1.4.5. Понятие владельца файла, права доступа к файлам и каталогам Первоначально в DOS, а затем и в Windows не было такого понятия, как "владелец файла" и "права доступа к файлу". Права доступа к файлам и каталогам появились только в файловой системе NTFS, но фактически NTFS "пришла в
§ 25. Явление формата
§ 25. Явление формата 8 февраля 1999Существует клонирование. Это когда просто берут чужую структуру, картинки и (иногда) меняют текст.Адрес Музея клонов: www.artlebedev.ru/portfolio/museumС другой стороны, существует формат. Это набор правил, свойств и функций, присущих (в нашем случае —
Выбор формата сериализации
Выбор формата сериализации После конфигурации типов для участия в схеме сериализации .NET следующим шагом является выбор формата, который должен использоваться при сохранении объектного графа. В .NET 2.0 вы имеете на выбор три варианта.• BinaryFormatter • SoapFormatter• XmlSerializerТип
Установка формата данных для ячеек
Установка формата данных для ячеек Для отдельных ячеек, строк или столбцов вы можете задать формат данных. Зачем это нужно? В первую очередь затем, чтобы программа правильно интерпретировала данные, которые вы вводите, и правильно отображала их на экране и при печати.
Задание формата данных
Задание формата данных Теперь, когда вы знаете о способах выделения ячеек и диапазонов, можно приступить к изучению методов задания формата. По умолчанию ячейке присвоен общий формат, то есть программа в большинстве случаев распознает тип введенных в ячейку данных.
5.5. Проигрывание диска формата Video CD
5.5. Проигрывание диска формата Video CD Проигрыватель Nero ShowTime – это наиболее подходящий инструмент для всесторонней проверки видеодиска, созданного средствами Nero 8. Однако Nero ShowTime – вполне самостоятельное приложение, которое может использоваться для воспроизведения
Определение формата единиц
Определение формата единиц Размеры каждого из создаваемых в AutoCAD объектов задаются в условных единицах измерения. Соответствие единиц AutoCAD и единиц существующих метрических систем устанавливается перед рисованием. Так, в одном рисунке единица может соответствовать
11.3.3. Задание формата вывода
11.3.3. Задание формата вывода Опция -o позволяет указать, какие поля и в какой последовательности следует включать в формируемую строку. Допустим, нужно создать файл, который включает только имена пользователей и названия городов, в которых они проживают. Требуемая
Выбор формата публикации
Выбор формата публикации Выбор формата публикации фильма и изображения-замены (если таковое есть) мы рассмотрим по отдельности.Выбор формата публикации фильмаНа самом деле, вопрос выбора формата для публикации фильма не так уж и сложен. Мы уже знаем, что существует всего