Важная информация

User Tag List

Показано с 1 по 2 из 2

Тема: Разработка парсера образов дисков различных БКшных итд для индексации

  1. #1
    Moderator
    Регистрация
    25.08.2012
    Адрес
    г. Красноярск
    Сообщений
    1,159
    Спасибо Благодарностей отдано 
    308
    Спасибо Благодарностей получено 
    340
    Поблагодарили
    242 сообщений
    Mentioned
    22 Post(s)
    Tagged
    0 Thread(s)

    Exclamation Разработка парсера образов дисков различных БКшных итд для индексации

    Начало тут
    https://zx-pk.ru/threads/31438-razra...deksatsii.html

    на данный момент итоги

    1. демон-хешер обработал уже 4'6 млн файлов. вывод хешей файлов еще не сделал - надо разбираться с CSS - форматирование съезжает.
    2. на данный момент распознано дисков RT11 в распакованном виде (те не в архиве) 784шт
    3. написана "вызывалка" парсеров контейнеров, сейчас работает только на один вид RT11 но тк задача решена в общем виде, то достаточно добавить файл парсера + в базе прописать как его вызывать
    ну и для новых типов контейнеров дописать их распознавание
    4. написан универсальный настраиваемый парсер результатов выдачи парсеров контейнеров - те можно в базе сразу настроить какие поля и как брать, сделана поддержка хешей и доп.информации
    5. первая порция загружена и проиндексирована

    поиск работает:
    https://mirrors.pdp-11.ru/search.php...+.TEC++&page=1
    5й результат это как раз контейнер DSK


    Что планируется:
    1. расширение зоны поиска - те сейчас сканер файлов работает только на mirrors.pdp-11.ru, планируется добавить всю зону pdp-11.ru, те туда попадет и архив Хобота. те поиск на https://mirrors.pdp-11.ru/ будет выдавать результаты со всего pdp-11.ru
    2. расширение списка поддерживаемых контейнеров и модулей извлечения
    3. доработка модулей извлечения - дабы они выдавали хеш
    4. каскадирование модулей извлечения - те DSK в архиве, архив рассматривается как контейнер, DSK тоже. индексируются файлы и в архиве и в самом контейнере. если в самом DSK есть вложенный логический диск то его тоже извлекаем и индексируем.

    Принимается помощь в виде:
    1. формализованных правил определения типа контейнера
    2. исходники ПО работы с контейнерами - те нужно а) выдавать листинг с хешами б) извлекать файл
    исходники на С/С++ тк все ПО работает на Linux

    Что нужно по БКшке

    1. какие вообще форматы есть ? особо интересен CSIDOS - как оттуда получать список файлов ? как извлекать данные из образов жестких дисков ?
    2. исходники парсеров ? откуда выдирать итд итп

    если есть информация по альтернативным форматам - типа амиги и прочих - тоже нужна
    Последний раз редактировалось SuperMax; 14.03.2020 в 07:45.
    Все о БК ДВК УКНЦ VAX Alpha

    Архив ПО для ретрокомпьютеров

    предоставляю бесплатный хостинг на PDP-11.RU для проектов о ретрокомпьютерах

  2. Этот пользователь поблагодарил SuperMax за это полезное сообщение:

    Manwe (11.03.2020)

  3. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

  4. #2
    Master
    Регистрация
    19.04.2013
    Адрес
    г. Чебоксары
    Сообщений
    535
    Спасибо Благодарностей отдано 
    14
    Спасибо Благодарностей получено 
    132
    Поблагодарили
    103 сообщений
    Mentioned
    7 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от SuperMax Посмотреть сообщение
    какие вообще форматы есть ?
    1. MicroDOS - формат который имеет несколько вариаций.
    1.1 Собственно основа формата - самые ранние ОС типа Нортон-БК и ещё, чего-то всеми давно забытого. Не имеет подкаталогов.
    1.2 АО-ДОС - вариант микродос со своим форматом подкаталогов.
    1.3 NORD - вариант микродос, в котором автор от версии к версии метался по разным форматам подкаталогов и в конце-концов остановился на формате подкаталога MKDOS. Из-за чего эту ОС трудно по нормальному однозначно определить.
    1.4 MKDOS - самый распространённый вариант микродос с самым распространённым форматом подкаталогов. Из всех видов - самая продуманная структура файловой системы.
    Из всего этого зоопарка однозначно и надёжно можно детектировать только MKDOS. С остальными иногда бывают сбои. Некоторые диски NORD мимикрируют под MKDOS, старые версии NORD иногда опознаются как просто MicroDOS
    У всех этих ОС своё видение, не совпадающее с остальными, как считать количество записей в каталоге, и как определять конец каталога. Из-за чего, если ОС опознается неправильно, можно недосчитаться файлов, или можно захватить мусор в конце каталога, или потерять подкаталоги.
    2. ANDOS - ФАТ12 со своими уникальными параметрами BPB. И форматом подкаталогов, несовместимым с MS DOS.
    3. CSIDOS3 - своя файловая система, достаточно хорошо продуманная. Существовали и более ранние версии CSIDOS, с другим форматом ФС, но от них остались только воспоминания.
    4. HC DOS - до сих пор не знаю, то ли это Эн Эс Дос, то ли это Аш Це Дос - редкая, малораспространённая файловая система,
    авторы которой то ли вдохновились, то ли не удовлетворились RT-11 и сделали свою ФС.
    5. ОС БК11 - обычное RT-11, ничего особенного.
    6. Экзотика, которую никто никогда не видел - DOSB10 в первой версии ФС совместима с RT-11, во второй - уже нет, там, по слухам, авторы добавили в RT-11 подкаталоги. Но как они это сделали, и что у них получилось, мы уже не узнаем. Дисков с этой ОС ни у кого не сохранилось.
    Цитата Сообщение от SuperMax Посмотреть сообщение
    особо интересен CSIDOS - как оттуда получать список файлов ?
    можно посмотреть в исходниках утилиты BKDE, в каждом *.h файле описателя файловой системы приводятся структуры данных и форматы ФС.
    Цитата Сообщение от SuperMax Посмотреть сообщение
    как извлекать данные из образов жестких дисков ?
    можно посмотреть в исходниках утилиты BKHDDTool, там приводятся алгоритмы по разборке самарского формата и формата АльтПро.
    Цитата Сообщение от SuperMax Посмотреть сообщение
    2. исходники парсеров ?
    BKDE и BKHDDTool, привязка к MFC минимальная, и легко отделяется. от MSVC тоже отвязать не сложно.

  5. Эти 3 пользователя(ей) поблагодарили gid за это полезное сообщение:

    Manwe (11.03.2020), nzeemin (12.03.2020), SuperMax (14.03.2020)

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 34
    Последнее: 06.09.2020, 13:27
  2. Ответов: 42
    Последнее: 31.07.2016, 00:52
  3. Просмотр образов CP/M дисков
    от Hakuna в разделе Утилиты
    Ответов: 270
    Последнее: 11.04.2016, 23:37
  4. Ответов: 14
    Последнее: 21.11.2011, 11:45
  5. Схемы WAIT для различных клонов ZX Spectrum
    от ARTi в разделе Несортированное железо
    Ответов: 0
    Последнее: 28.04.2008, 16:57

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •