Важная информация

User Tag List

Показано с 1 по 6 из 6

Тема: Типограф для ZXPRESS.RU

  1. #1
    Guru Аватар для newart
    Регистрация
    19.01.2005
    Адрес
    Санкт-Петербург
    Сообщений
    11,434
    Спасибо Благодарностей отдано 
    191
    Спасибо Благодарностей получено 
    145
    Поблагодарили
    61 сообщений
    Mentioned
    4 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию Типограф для ZXPRESS.RU

    Ситуация следующая. На сайте порядка 18000 статей из электронных газет и журналов.

    Яндекс постоянно "совершенствуется" и в какой-то момент в индексе от 20000 страниц осталось меньше 1000.
    Для людей которые держат сайт в закладках и постоянно туда ходят это никак не сказалось, поскольку на сайте реализован свой поиск.
    Остальные же пользователи попадают на сайт через поисковики, в том числе злосчастный Яндекс. Ну а теперь уже попадают сильно реже.



    На данный момент статьи отображаются для пользователя и поисковика почти в первозданном виде.
    То есть plain text с железным форматированием и переносами слов, без какой-либо семантической разметки свойственной гипертексту.
    А по клику в нужную иконку еще с оригинальной раскраской.

    Очень может быть что Яндекс такие тексты воспринимает как мусорные (гугл пока еще нет).

    Так-же тексты пестрят псевдографикой, и заменой русских буквы на английский с таким же начертанием.
    u = и, p = р, m = м и т.д.

    С заменой я уже начал бороться. В первую очередь это важно для локального поиска. Так-как sphinx (поисковый движок)
    не умеет синонимизировать разные буквы.

    Вообще проблема с буквами в массовом масштабе появилась когда все простые тексты были выдраны
    и остались те что как-то хитро лежат в памяти, или имеют сложный формат раскраски или содержат множество иллюстраций.
    Для таких текстов был создан ZX Fine Reader. Статья скидывается в виде пачки scr, а софт переводит их в текст.

    В общем я решил все статьи отформатировать в HTML вид. И вот тут встает вопрос - а как это сделать?
    Не в плане кода, а алгоритмически.

    Допустим распознать начало и конец абзаца не сложно.

    Псевдографика часто используется для украшательства заголовков статей, но так-же иногда ей рисуются электрические схемы и
    и какая-то другая полезная информация. Как тут быть?

    Попутно можно английские слова встречающиеся в русском тексте выделять жирным. Так текст станет более читабельным. Ведь английским обычно пищутся названия, имена, команды и т.п. Но тут тоже нужен умный подход. Ведь бывают статьи на английском.
    Или абзацы. А еще выделять можно слова в кавычках. А сами кавычки заменять с программерских на типографские.

    По хорошему нужно распозновать и списки. Это текст который имеет перечисления 1) ... 2) ... 3) его можно заменять на
    соответсвующие теги: <ul><li></li></ul>

    Не забываем что в статьях встречаются картинки. И если с фулскрин картинками все просто, то что делать с теми которые обтекаются текстом не понятно.

    Но самое сложное это исходники. Статей по программированию очень много.

    И как найти детектировать в статье куски код, мне пока совершенно не понятно.



    В общем, буду рад любым мыслям и идеям на тему сабжа.

    В первую очередь конечно хочется сделать сайт красивым и удобным для людей. А plain текст даже без проблем с поисковиком очень ограничивает возможности для маневров.

    Вот несколько рабочих ситуаций, которые предстоит решить:













    Последний раз редактировалось newart; 24.01.2017 в 04:50.

  2. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

  3. #2
    Guru Аватар для newart
    Регистрация
    19.01.2005
    Адрес
    Санкт-Петербург
    Сообщений
    11,434
    Спасибо Благодарностей отдано 
    191
    Спасибо Благодарностей получено 
    145
    Поблагодарили
    61 сообщений
    Mentioned
    4 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Тут советуют использовать для разметки markdown синтаксис.

  4. #3
    Сибирский антропоморфн Аватар для Black Cat / Era CG
    Регистрация
    06.05.2010
    Адрес
    Бердск, НСО
    Сообщений
    4,515
    Спасибо Благодарностей отдано 
    911
    Спасибо Благодарностей получено 
    839
    Поблагодарили
    621 сообщений
    Mentioned
    5 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    По-моему, единственный действенный способ, это разбирать каждую статью вручную. По-моему, markdown, тут ничем не поможет. Работа, конечно, титаническая по объему. При этом было бы классно вернуть в текст иллюстрации. Обтекание легко реализуется с помощью css. Только все это придется опять выдирать, схемы и псевдографические рисунки (графики, например) рисовать картинками, таблицы превращать в таблицы... При этом имхо кнопочку с просмотром в виде оригинала необходимо оставить. Так же было бы очень неплохо, если бы кодововые куски привести к виду http://era-cg.su/examp_z80.html Делается это тоже все не сложно. Единственная сложность имхо в объеме.
    Личка заполнена! И чистить я ее не буду! Пользуйтесь адекватными средствами связи! Спасибо.

    Seamos realistas y hagamos lo imposible!

    Ernesto Che Guevara
    Переехал сюда: SteinBlume (ex ATM CP/M Explorer)
    http://era-cg.su

    Скрытый текст

    Speccy2010 r2 (Спасибо m.d. & xlat),
    Sinclair ZX Spectrum + (Спасибо stepmotor),
    ZX Evolution rev.C + 5'25 FDD Epson SD-700AA + NedoPC PAL-Coder (Спасибо m.d. & xlat)
    [свернуть]

  5. #4
    Guru Аватар для newart
    Регистрация
    19.01.2005
    Адрес
    Санкт-Петербург
    Сообщений
    11,434
    Спасибо Благодарностей отдано 
    191
    Спасибо Благодарностей получено 
    145
    Поблагодарили
    61 сообщений
    Mentioned
    4 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от Black Cat / Era CG Посмотреть сообщение
    По-моему, единственный действенный способ, это разбирать каждую статью вручную. По-моему, markdown, тут ничем не поможет. Работа, конечно, титаническая по объему. При этом было бы классно вернуть в текст иллюстрации. Обтекание легко реализуется с помощью css. Только все это придется опять выдирать, схемы и псевдографические рисунки (графики, например) рисовать картинками, таблицы превращать в таблицы... При этом имхо кнопочку с просмотром в виде оригинала необходимо оставить. Так же было бы очень неплохо, если бы кодововые куски привести к виду http://era-cg.su/examp_z80.html Делается это тоже все не сложно. Единственная сложность имхо в объеме.
    Дык.

    Проекту ровно 7 лет. 7*365 = 2555 , 18000 / 2555 = 7 статей нужно было делать каждый день в течении всех этих лет )

  6. #5
    Сибирский антропоморфн Аватар для Black Cat / Era CG
    Регистрация
    06.05.2010
    Адрес
    Бердск, НСО
    Сообщений
    4,515
    Спасибо Благодарностей отдано 
    911
    Спасибо Благодарностей получено 
    839
    Поблагодарили
    621 сообщений
    Mentioned
    5 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от newart Посмотреть сообщение
    Проекту ровно 7 лет. 7*365 = 2555 , 18000 / 2555 = 7 статей нужно было делать каждый день в течении всех этих лет )
    Дааа. Сурово

    - - - Добавлено - - -

    В 1 лицо в ручном режиме точно не вывезти...
    Личка заполнена! И чистить я ее не буду! Пользуйтесь адекватными средствами связи! Спасибо.

    Seamos realistas y hagamos lo imposible!

    Ernesto Che Guevara
    Переехал сюда: SteinBlume (ex ATM CP/M Explorer)
    http://era-cg.su

    Скрытый текст

    Speccy2010 r2 (Спасибо m.d. & xlat),
    Sinclair ZX Spectrum + (Спасибо stepmotor),
    ZX Evolution rev.C + 5'25 FDD Epson SD-700AA + NedoPC PAL-Coder (Спасибо m.d. & xlat)
    [свернуть]

  7. #6
    Member Аватар для morozov
    Регистрация
    19.04.2019
    Адрес
    г. Сан-Хосе, США
    Сообщений
    41
    Спасибо Благодарностей отдано 
    12
    Спасибо Благодарностей получено 
    15
    Поблагодарили
    4 сообщений
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Сам натыкался на неточности форматирования блоков кода из электронных журналов. Думаю, без человеческого вмешательства не обойтись. Что если выложить тексты на GitHub (всё-таки луяше было бы в markdown, а не в HTML) и принимать пулреквесты?

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 58
    Последнее: 16.04.2022, 20:08
  2. Зеркало ZXPRESS.RU
    от newart в разделе Пресса
    Ответов: 0
    Последнее: 11.09.2016, 23:56
  3. Зеркало ZXPRESS
    от NEO SPECTRUMAN в разделе Пресса
    Ответов: 12
    Последнее: 26.10.2015, 00:52
  4. Zxpress offline
    от Alex Rider в разделе Пресса
    Ответов: 34
    Последнее: 23.07.2012, 07:12
  5. Ответов: 19
    Последнее: 25.06.2011, 14:52

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •