User Tag List

Показано с 1 по 6 из 6

Тема: Типограф для ZXPRESS.RU

Древовидный режим

Предыдущее сообщение Предыдущее сообщение   Следующее сообщение Следующее сообщение
  1. #1

    Регистрация
    19.01.2005
    Адрес
    Санкт-Петербург
    Сообщений
    11,551
    Спасибо Благодарностей отдано 
    205
    Спасибо Благодарностей получено 
    188
    Поблагодарили
    83 сообщений
    Mentioned
    5 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию Типограф для ZXPRESS.RU

    Ситуация следующая. На сайте порядка 18000 статей из электронных газет и журналов.

    Яндекс постоянно "совершенствуется" и в какой-то момент в индексе от 20000 страниц осталось меньше 1000.
    Для людей которые держат сайт в закладках и постоянно туда ходят это никак не сказалось, поскольку на сайте реализован свой поиск.
    Остальные же пользователи попадают на сайт через поисковики, в том числе злосчастный Яндекс. Ну а теперь уже попадают сильно реже.



    На данный момент статьи отображаются для пользователя и поисковика почти в первозданном виде.
    То есть plain text с железным форматированием и переносами слов, без какой-либо семантической разметки свойственной гипертексту.
    А по клику в нужную иконку еще с оригинальной раскраской.

    Очень может быть что Яндекс такие тексты воспринимает как мусорные (гугл пока еще нет).

    Так-же тексты пестрят псевдографикой, и заменой русских буквы на английский с таким же начертанием.
    u = и, p = р, m = м и т.д.

    С заменой я уже начал бороться. В первую очередь это важно для локального поиска. Так-как sphinx (поисковый движок)
    не умеет синонимизировать разные буквы.

    Вообще проблема с буквами в массовом масштабе появилась когда все простые тексты были выдраны
    и остались те что как-то хитро лежат в памяти, или имеют сложный формат раскраски или содержат множество иллюстраций.
    Для таких текстов был создан ZX Fine Reader. Статья скидывается в виде пачки scr, а софт переводит их в текст.

    В общем я решил все статьи отформатировать в HTML вид. И вот тут встает вопрос - а как это сделать?
    Не в плане кода, а алгоритмически.

    Допустим распознать начало и конец абзаца не сложно.

    Псевдографика часто используется для украшательства заголовков статей, но так-же иногда ей рисуются электрические схемы и
    и какая-то другая полезная информация. Как тут быть?

    Попутно можно английские слова встречающиеся в русском тексте выделять жирным. Так текст станет более читабельным. Ведь английским обычно пищутся названия, имена, команды и т.п. Но тут тоже нужен умный подход. Ведь бывают статьи на английском.
    Или абзацы. А еще выделять можно слова в кавычках. А сами кавычки заменять с программерских на типографские.

    По хорошему нужно распозновать и списки. Это текст который имеет перечисления 1) ... 2) ... 3) его можно заменять на
    соответсвующие теги: <ul><li></li></ul>

    Не забываем что в статьях встречаются картинки. И если с фулскрин картинками все просто, то что делать с теми которые обтекаются текстом не понятно.

    Но самое сложное это исходники. Статей по программированию очень много.

    И как найти детектировать в статье куски код, мне пока совершенно не понятно.



    В общем, буду рад любым мыслям и идеям на тему сабжа.

    В первую очередь конечно хочется сделать сайт красивым и удобным для людей. А plain текст даже без проблем с поисковиком очень ограничивает возможности для маневров.

    Вот несколько рабочих ситуаций, которые предстоит решить:













    Последний раз редактировалось newart; 24.01.2017 в 04:50.

  2. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 59
    Последнее: 02.09.2024, 08:12
  2. Зеркало ZXPRESS.RU
    от newart в разделе Пресса
    Ответов: 0
    Последнее: 11.09.2016, 23:56
  3. Зеркало ZXPRESS
    от NEO SPECTRUMAN в разделе Пресса
    Ответов: 12
    Последнее: 26.10.2015, 00:52
  4. Zxpress offline
    от Alex Rider в разделе Пресса
    Ответов: 34
    Последнее: 23.07.2012, 07:12
  5. Ответов: 19
    Последнее: 25.06.2011, 14:52

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •