Важная информация

User Tag List

Страница 1 из 4 1234 ПоследняяПоследняя
Показано с 1 по 10 из 35

Тема: Разработка парсера образов дисков RT11 Files11 различных БКшных итд для индексации

  1. #1
    Moderator
    Регистрация
    25.08.2012
    Адрес
    г. Красноярск
    Сообщений
    1,166
    Спасибо Благодарностей отдано 
    310
    Спасибо Благодарностей получено 
    341
    Поблагодарили
    243 сообщений
    Mentioned
    22 Post(s)
    Tagged
    0 Thread(s)

    Exclamation Разработка парсера образов дисков RT11 Files11 различных БКшных итд для индексации

    на тему проблемы https://zx-pk.ru/threads/21450-vsjo-...y/page107.html

    Есть большой архив софта https://mirrors.pdp-11.ru/ снабженный системой поиска
    система поиска использует имена файлов и полного пути для индексации
    те достаточно выкладывать файлы или образа дисков в разумную иерархию директорий и имен

    Систему поиска можно улучшить - сделать извлекалку списка файлов из образов RT-11 и Files11 под линукс
    можно даже на яве (тк индексатор у меня на яве написан)
    и тогда система поиска будет искать образа где есть нужный файл

    Соответственно необходимо определить следующие важные моменты
    1. список расширений файлов с образами которые парсер будет проверять - у меня это dsk img - если есть еще варианты - добавляем
    2. список файловых систем которые надо индексировать - RT11 и по каким признакам файловую систему можно быстро и однозначно идентифицировать
    3. описание формата файловой системы
    тк большим запасом свободного времени увы не обладаю то прошу сразу кидать ccылки или саму документацию
    те в случае с БК я честно уже плохо помню как там файлы хранятся в МКДОС-е и уж тем более в CSIDOS
    4. какую информацию имеет смысл использовать в индексе - те что кроме имени файла ? дату ? длину ? адрес ?

    сам индексатор написан на яве, соответственно если кто-то готов помочь с написанием каких-либо кусков парсера
    Вообще мне представляется модульный парсер, который сначала получает путь до файла с нужным расширением (в индексе уже это есть)
    затем открывает его, выясняет тип файловой системы, вызывает модуль парсера этой файловой системы, получает список файлов и кладет в базу поиска

    принимаются идеи, предложения и помощь тк индексация файлов в образах серьезно улучшит качество архива в целом
    Все о БК ДВК УКНЦ VAX Alpha

    Архив ПО для ретрокомпьютеров

    предоставляю бесплатный хостинг на PDP-11.RU для проектов о ретрокомпьютерах

  2. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

  3. #2
    Guru
    Регистрация
    30.11.2015
    Адрес
    г. Самара
    Сообщений
    6,993
    Спасибо Благодарностей отдано 
    285
    Спасибо Благодарностей получено 
    631
    Поблагодарили
    531 сообщений
    Mentioned
    13 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от SuperMax Посмотреть сообщение
    4. какую информацию имеет смысл использовать в индексе - те что кроме имени файла ? дату ? длину ? адрес ?
    Я для ускорения поиска в своей файловой помойке сохраняю в файле-описателе каталога и хеш файла (сейчас MD5 и SHA1). Соответственно, есть программа, которая для файла вычисляет их же и пробегая по файл-помойке - показывает, где есть ещё файлы с такими же хешами

  4. #3
    Veteran Аватар для Raydac
    Регистрация
    16.08.2005
    Адрес
    Estonia,Tallinn
    Сообщений
    1,128
    Спасибо Благодарностей отдано 
    52
    Спасибо Благодарностей получено 
    227
    Поблагодарили
    179 сообщений
    Mentioned
    1 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    архив исходников эмулятора BK содержит парсинг для форматов разных ОС

  5. #4
    Veteran
    Регистрация
    22.11.2009
    Адрес
    Москва
    Сообщений
    1,587
    Спасибо Благодарностей отдано 
    67
    Спасибо Благодарностей получено 
    157
    Поблагодарили
    103 сообщений
    Mentioned
    12 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Парсеров rt-11 имеется в количестве, например
    - PUTR (http://www.dbit.com/pub/putr/putr.asm)
    - https://gitlab.com/NF6X_Retrocomputing/pyRT11
    - rt11dsk (https://github.com/nzeemin/ukncbtl-utils)

    Некоторые изыскания по этому поводу -- здесь: https://zx-pk.ru/threads/21137-fajlo...ema-rt-11.html

  6. #5
    Veteran Аватар для nzeemin
    Регистрация
    20.12.2005
    Адрес
    Москва
    Сообщений
    1,996
    Спасибо Благодарностей отдано 
    1,061
    Спасибо Благодарностей получено 
    1,224
    Поблагодарили
    478 сообщений
    Mentioned
    15 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Тоже думал на эту тему.
    У Хобота например тоже составлен текстовый индекс файло-архива, но вложенные *.dsk не показаны, плюс есть архивы *.lza, *.lzs, *.fcu итп, хорошо бы их тоже раскрывать, но вопрос чем.
    rt11dsk (https://github.com/nzeemin/ukncbtl-utils) можно собрать через make под линуксом.
    Помимо имени файла интересно: дата, размер в блоках, размер в байтах, хеши md5/sha1.

  7. Этот пользователь поблагодарил nzeemin за это полезное сообщение:

    SuperMax (01.03.2020)

  8. #6
    Guru
    Регистрация
    30.11.2015
    Адрес
    г. Самара
    Сообщений
    6,993
    Спасибо Благодарностей отдано 
    285
    Спасибо Благодарностей получено 
    631
    Поблагодарили
    531 сообщений
    Mentioned
    13 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от nzeemin Посмотреть сообщение
    Помимо имени файла интересно: дата
    Если бы, как Windows сохранялись даты создания и последней записи - возможно. А так дата в RT-11 - она как бы почти не о чем. В RSX в этом плане дела получше

    - - - Добавлено - - -

    Цитата Сообщение от nzeemin Посмотреть сообщение
    размер в байтах,
    Тоже самое - в RT такого понятия нет, придётся смотреть - какого типа файл и в зависимости от этого ставить или по размеру в блоках или искать - по содержимому и/или служебной информации (для RSX)

  9. #7
    Moderator
    Регистрация
    25.08.2012
    Адрес
    г. Красноярск
    Сообщений
    1,166
    Спасибо Благодарностей отдано 
    310
    Спасибо Благодарностей получено 
    341
    Поблагодарили
    243 сообщений
    Mentioned
    22 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Спасибо всем за участие!

    итого получается:
    1. парсер образов RT11 возьму rt11dsk - немного подпилю для удобства вызова
    2. открытый вопрос по идентификации файловой системы образа
    те хорошо бы какой-то список сигнатур или иных простых признаков
    дабы можно было на сях написать идентификатор который бы возвращал результат типа FS в базу


    Обдумываю структуру таблиц для сохранения информации
    1. табличка с информацией о самом образе
    - тип файловой системы в разрезе выбора парсера
    - имя тома
    - владелец
    - id системы
    - размер в блоках


    2. табличка с информацией о файле - список сохраняемой информации
    -имя файла
    -количество блоков
    -дата
    -размер в байтах
    -адрес
    -хеш
    Последний раз редактировалось SuperMax; 01.03.2020 в 17:08.
    Все о БК ДВК УКНЦ VAX Alpha

    Архив ПО для ретрокомпьютеров

    предоставляю бесплатный хостинг на PDP-11.RU для проектов о ретрокомпьютерах

  10. #8
    Veteran Аватар для nzeemin
    Регистрация
    20.12.2005
    Адрес
    Москва
    Сообщений
    1,996
    Спасибо Благодарностей отдано 
    1,061
    Спасибо Благодарностей получено 
    1,224
    Поблагодарили
    478 сообщений
    Mentioned
    15 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Всё же хеши было бы оч хорошо иметь, дублированных файлов бывает очень много.
    Вспомнил что для УКНЦ ещё используется формат дисков *.rtd - для системы Net-RT11, отличается заголовком в 256 байт, rt11dsk это учитывает.

    Ну и удачи в этом деле, иметь текстовое оглавление всего архива - это было бы очень полезно.

  11. Этот пользователь поблагодарил nzeemin за это полезное сообщение:

    hobot (01.03.2020)

  12. #9
    Master Аватар для xolod
    Регистрация
    01.02.2010
    Адрес
    Москва
    Сообщений
    743
    Спасибо Благодарностей отдано 
    157
    Спасибо Благодарностей получено 
    174
    Поблагодарили
    86 сообщений
    Mentioned
    10 Post(s)
    Tagged
    0 Thread(s)

  13. Этот пользователь поблагодарил xolod за это полезное сообщение:

    nzeemin (02.03.2020)

  14. #10
    Moderator
    Регистрация
    25.08.2012
    Адрес
    г. Красноярск
    Сообщений
    1,166
    Спасибо Благодарностей отдано 
    310
    Спасибо Благодарностей получено 
    341
    Поблагодарили
    243 сообщений
    Mentioned
    22 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от nzeemin Посмотреть сообщение
    Всё же хеши было бы оч хорошо иметь, дублированных файлов бывает очень много.
    есть возможность прикрутить это в rt11dsk в режиме листинга ? тк это у тебя получится быстрее чем у меня пока я разберусь что и где
    или явно подсказать куда смотреть

    Вспомнил что для УКНЦ ещё используется формат дисков *.rtd - для системы Net-RT11, отличается заголовком в 256 байт, rt11dsk это учитывает.
    Ну и удачи в этом деле, иметь текстовое оглавление всего архива - это было бы очень полезно.
    спасибо!
    Все о БК ДВК УКНЦ VAX Alpha

    Архив ПО для ретрокомпьютеров

    предоставляю бесплатный хостинг на PDP-11.RU для проектов о ретрокомпьютерах

Страница 1 из 4 1234 ПоследняяПоследняя

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 42
    Последнее: 31.07.2016, 00:52
  2. Просмотр образов CP/M дисков
    от Hakuna в разделе Утилиты
    Ответов: 270
    Последнее: 11.04.2016, 23:37
  3. Ответов: 14
    Последнее: 21.11.2011, 11:45
  4. Схемы WAIT для различных клонов ZX Spectrum
    от ARTi в разделе Несортированное железо
    Ответов: 0
    Последнее: 28.04.2008, 16:57

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •