LibRusLib
Понедельник, 02.12.2024, 00:02
Приветствую Вас Гость | RSS
 
Главная ФорумРегистрацияВход
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Обсуждение работы программы
PFNДата: Среда, 16.09.2015, 20:36 | Сообщение # 631
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
у одной и той же книги может быть разное название, книга может относиться к разным сериям, у автора могут быть разные псевдонимы

Ну, это тоже решаемо, хотя и требует ручной обработки. Хуже когда авторы полные тезки: Андреев Николай Юрьевич. Один написал "Звездный взвод" и "Победитель", а второй - "Рыцари Белой мечты - За Русь святую!" Хорошо, что у первого есть псевдоним, а то пришлось бы различать по номерам. smile

Цитата drserj ()
через 5 лет нас ожидает великая октябрьская

А почему не через 2 года?

Цитата drserj ()
Очень советую использовать формат %z, это избавит от множества проблем при росте библиотеки...

Я учел Ваши рекомендации и именно это и пробую сейчас сделать, используя старый архив Либруса.
У меня все файлы с книгами разложены по директориям авторов, т.е. структура имеется. Все они приведены в нормальный вид и не хотелось бы, если сделаю что-то не так, поломать существующий порядок.
Вот закончу с этим архивом и если все получится, тогда и за основную свою библиотеку возьмусь. Тем более, что мне нужно получше освоиться с Вашей программой.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Среда, 16.09.2015, 20:49 | Сообщение # 632
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
А почему не через 2 года?

1912+5=1917 smile


drSerj
 
1_абрамДата: Четверг, 17.09.2015, 08:43 | Сообщение # 633
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj ()
нет, контент хранится на облачных серверах, или на любых других, не связанных с библиотечным.


Т.е.  пользовователь при загрузке книги загружает на сервер флибусты только библ.  информацию и мд5,  а сам файл загружается на сторонний, централизованный сервер,  где хранятся все книги?


Сообщение отредактировал 1_абрам - Четверг, 17.09.2015, 08:45
 
drserjДата: Четверг, 17.09.2015, 10:34 | Сообщение # 634
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Т.е.  пользовователь при загрузке книги загружает на сервер флибусты только библ.  информацию и мд5,  а сам файл загружается на сторонний, централизованный сервер,  где хранятся все книги?

уху....


drSerj
 
1_абрамДата: Четверг, 17.09.2015, 11:35 | Сообщение # 635
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj ()
уху....

Да, такой алгоритм легко осуществим.  В принципе и сейчас  я практически безбоязненно  могу отказаться от скачивания книжек  непосредственно с флибусты  раз в месяц скачивая архивы с торентов  (они в этом случае выполняют  роль стороннего сервера) и используя твою программу. 

Думаю,  что   стивер  легко может это реализовать твое предложение,  но не делает это  т.к. это не решает проблемы закрытия флибусты.  Ее все равно будут закрывать, т.к.:

1) На ней содержится информация,  позволяющая скачивать пиратские файлы (мд5).

2) Сайт участвует а распространении   пиратских файлов  пересылая их на  сторонний  сервер (неважно, что это делается один раз).

 
PFNДата: Четверг, 17.09.2015, 18:23 | Сообщение # 636
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Программа добросовестно выполнила свою задачу: обработала книги, добавила их в базу, отсеяла дубликаты по мд5 и файлы с ошибкой разбора.
Приблизительно получилось 50/50. Как я и ожидал - архивы содержали агромадную кучу мусора в т.ч. и дубликатов, которые теперь придется вычищать ручками.
Конечно, с моей стороны было ошибкой ставить на загрузку такой большой массив данных. Думаю, что оптимальный вариант - не более одного архива за раз. Тогда и обработать его будет легче.
Начал работу по упорядочиванию и сразу столкнулся с двумя проблемами:

1. Очень много неопознанных жанров.
Я знаю, что архив старый и жанры в нем со старыми кодами. И уже существует новый шаблон жанров (от Либрусека, кажется).
Так и часть жанров с новыми кодами тоже попадает в неопознанное...
С новыми кодами разобраться не сложно - добавить их в имеющийся список и можно потирать ручки...
А вот со старыми - проблема. Особенно если придется каждый раз вручную менять жанры большого количества книг.
У себя я тупо сопоставил старые коды с новым названием жанров и получаю на выходе нужный жанр. Здесь так сделать не получается, т.к. в таблицах похоже запрещено иметь в этих полях дубликаты. Но пользователю не важно, какой код указан в метаданных. Он хочет видеть название жанра (Фэнтези, Детектив и т.д), а не "Неопознанное". Поэтому я не вижу большой беды если в поле русского названия жанра будет несколько раз написано "Фэнтези" или "Детектив".
Если у Вас есть способ решения этой проблемы, то подскажите, пожалуйста.

2. Это чехарда с языками. Авторы документов ставят, что в голову взбредет...
Вижу в таблице, что стоит английский язык. Открываю книгу - весь текст на русском языке.
Если есть аннотация, то это легко контролируется, т.к. видно на каком языке она написана... А если - нет... не будешь же открывать каждую книгу, чтобы проверить. Было бы здорово, если бы программа сама определяла язык книги, не надеясь на метаданные или хотя бы выводила в окне аннотации 5-10 строк основного текста.

Надеюсь, я не слишком "губу раскатал"? smile


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Четверг, 17.09.2015, 20:52 | Сообщение # 637
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Думаю,  что   стивер  легко может это реализовать твое предложение

Думаю, что Стивер давно уже не при делах

Цитата 1_абрам ()
1) На ней содержится информация,  позволяющая скачивать пиратские файлы (мд5).


одна минута - и нет ее... дальше что?

Цитата 1_абрам ()
Сайт участвует а распространении   пиратских файлов  пересылая их на  сторонний  сервер (неважно, что это делается один раз).

увы, важно. убирается ссылка - сайт легален.

Цитата PFN ()
1. Очень много неопознанных жанров.

непрописаных жанров, будем говорить...

Цитата PFN ()
У себя я тупо сопоставил старые коды с новым названием жанров и получаю на выходе нужный жанр. Здесь так сделать не получается, т.к. в таблицах похоже запрещено иметь в этих полях дубликаты.

да, такова структура... Никто не мешает завести жанр с индексами 1, 2 а потом слить всё воедино

Цитата PFN ()
2. Это чехарда с языками. Авторы документов ставят, что в голову взбредет...

к сожалению - да. Впрочем, 90% можно обработать почти в автомате, запросами.

Например,

Код
update ignore mlbook set lang="ru" where lang="ру"

заменяя "ру" на то, что надо поменять... на "ru"

Цитата PFN ()
если бы программа сама определяла язык книги, не надеясь на метаданные

ну, с ИИ даже япошки обломались... Да и зачем, если решение всей проблемы с языками (для fb2) не так уж и сложно. Да, часик-второй прийдется посидеть, но это ведь разовая акция...
вся проблема со стандартизацией (ru, rus, РУ и т д)

Хотя, при данном раскладе, когда все данные есть в базе либруса, не проще ли их экспортировать в приватную библиотеку???

1. Создаем онлайновую либрусовую библиотеку
2. Импортируем базу
3. Актуализируем базу (проставляются отметки о скачивании на найденных книгах)
4. делается выборка всех, имеющих пометку "Скачано"
5. всё, что найдено - копируется в частную библиотеку
6. путем копирования на устройство, книги копируются в нужном формате.


drSerj
 
PFNДата: Четверг, 17.09.2015, 21:15 | Сообщение # 638
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
непрописаных жанров, будем говорить...

Можно и так. Интересно, Вы специально не прописали многие жанры даже в таких популярных разделах, как Фантастика и Детективы?

Цитата drserj ()
Никто не мешает завести жанр с индексами 1, 2 а потом слить всё воедино

Ну, это опять же "ручками" надо делать... Придется, видимо, предварительную обработку в своей программе делать. А потом уже вносить в базу.

Цитата drserj ()
ну, с ИИ даже япошки обломались...

Причем здесь ИИ? Есть же программы, которые отлавливают латиницу в тексте на кириллице. Что-то подобное и здесь можно сделать, используя кодовые таблицы набора символов.

Цитата drserj ()
все данные есть в базе либруса, не проще ли их экспортировать в приватную библиотеку???

Не уверен, что там все так причесано. Старые-то архивы никуда не делись, а в них могут находиться книги, которых уже нет в последних обновлениях. Фактически, Вы предлагаете все сделать с нуля... Как подумаю, во что это может вылиться...  eek


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Четверг, 17.09.2015, 21:25 | Сообщение # 639
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Вы специально не прописали многие жанры даже в таких популярных разделах, как Фантастика и Детективы?

Все жанры, указанные в программе, соответствуют спецификации fb2. Все остальные - плод больного воображения библиотек и пользователей, плодящих подобные жанры. Есть четко оговоренный автором самого стандарта перечень. Могу дать ссылку, если интересна спецификация формата.

Цитата PFN ()
Ну, это опять же "ручками" надо делать...

Ну, кушать тоже ручками надо smile Хотя, автоматизировать можно всё.... или почти всё... 

Цитата PFN ()
Причем здесь ИИ? Есть же программы, которые отлавливают латиницу в тексте на кириллице. Что-то подобное и здесь можно сделать, используя кодовые таблицы набора символов.


Если языков - два, да. А если множество? На самом деле (а это старая задача мирового масштаба) единого алгоритма не существует. То что есть - слишком жирно для программы подобного масштаба.

Цитата PFN ()
Не уверен, что там все так причесано.

процентов на 90

Цитата PFN ()
Старые-то архивы никуда не делись, а в них могут находиться книги, которых уже нет в последних обновлениях.

огорчу, до определенного bookid флибуста и либрус имели одну базу. Разошлись где-то на средине. Если есть флибуста - первой половины либруса не надо. Если очень интересно с какого именно bookid пошло расхождение - можно поискать, где-то было. Старая база у меня тоже где-то есть.

Цитата PFN ()
Фактически, Вы предлагаете все сделать с нуля... Как подумаю, во что это может вылиться...

На самом деле - ни во что... Я это делал неоднократно. Тем боле, всё, практически, автоматизировано. Включил на экспорт - и спать smile

Впрочем, я вообще не вижу смысла связываться с либрусом. Всё что есть порядочное - имеем на флибусте. На либрусе очень много мусора, который заливают только ради доступа. Зачем нам мусор? На флибусту льют те же люди, только без мусора.


drSerj
 
1_абрамДата: Четверг, 17.09.2015, 22:16 | Сообщение # 640
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj ()
Впрочем, я вообще не вижу смысла связываться с либрусом. Всё что есть порядочное - имеем на флибусте. На либрусе очень много мусора, который заливают только ради доступа. Зачем нам мусор? На флибусту льют те же люди, только без мусора.


+1
 
PFNДата: Четверг, 17.09.2015, 22:31 | Сообщение # 641
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
Могу дать ссылку, если интересна спецификация формата.

Буду признателен. Но, если это https://code.google.com/p....es.zip, то я отсюда и качал свой набор жанров.

Цитата drserj ()
огорчу, до определенного bookid флибуста и либрус имели одну базу.

Да, я в курсе. Флибуста у меня тоже есть где-то... Надо все-таки серьезно взяться и почистить свои кучи файлов.

Цитата drserj ()
всё, практически, автоматизировано. Включил на экспорт - и спать

Звучит очень завлекательно. Надо будет попробовать.

Цитата drserj ()
я вообще не вижу смысла связываться с либрусом.

Да я за него и не цепляюсь. Разговор о нем только потому, что откопал у себя этот сборник их архивов и решил посмотреть, что из этого можно выжать. Посмотрел... и утонул в куче мусора. smile А так, если нужно найти какую-то книгу иду или на Флибусту, или на ЛитМир (http://www.litmir.co/)


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Пятница, 18.09.2015, 08:38 | Сообщение # 642
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Буду признателен.

тут был, но сейчас сайт почему-то недоступен http://www.fictionbook.org/index.php/Описание_формата_FB2_от_Sclex
вот тут дубликат http://leeet.net/info_fb2.php
кой-че тут...
http://www.gribuser.ru/xml/fictionbook/index.html
https://ru.wikipedia.org/wiki/FictionBook

Цитата PFN ()
А так, если нужно найти какую-то книгу иду или на Флибусту, или на ЛитМир

У меня полный комплект флибусты. После того, как я заметил сливы со всех библиотек в флибусту (причем, в течение дня) я практически перестал просматривать другие библиотеки.


drSerj
 
1_абрамДата: Пятница, 18.09.2015, 09:23 | Сообщение # 643
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj ()
Цитата 1_абрам ()1) На ней содержится информация, позволяющая скачивать пиратские файлы (мд5).

одна минута - и нет ее... дальше что?

Цитата 1_абрам ()
Сайт участвует а распространении пиратских файлов пересылая их на сторонний сервер (неважно, что это делается один раз).

увы, важно. убирается ссылка - сайт легален.


Ты,  наверно,  не понял.  Я думаю,  что твое предложение разделить место хранение контента и описание контента не защищает библиотеку от копирастов.  Для корректного поиска в библиотеки нужно постоянно хранить мд5 книжек (пункт 1).  Сайт участвует в распространении контрафакта (пункт 2).  Следовательно, его можно закрывать  и нет никаких преимуществ с используемой сейчас схемой (когда книжки хранятся на сайте ) нет.


Сообщение отредактировал 1_абрам - Пятница, 18.09.2015, 09:23
 
drserjДата: Пятница, 18.09.2015, 15:25 | Сообщение # 644
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
1_абрам, Это ты не понял, не обязательно мд5, можно и букид, который является абстрактной величиной. Связь доказать невозможно. Может какое-нить третье лицо создать сайт и привязаться к его нумерации. Я сейчас спокойно привяжусь к кремль.рф и на каждый его ид - привяжу книгу. Что, сайт закроют? smile

drSerj
 
PFNДата: Пятница, 18.09.2015, 16:34 | Сообщение # 645
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
вот тут дубликат

Спасибо, посмотрел, почитал. Картина, в общем, ясная: каждая библиотека создает свою структуру жанров и считает свой перечень идеальным. Но т.к. ЛибРус и Флибуста в этом плане несомненные лидеры (среди прочих библиотек), то, наверное, стоит подстраиваться под их структуру.

Цитата drserj ()
У меня полный комплект флибусты.

Интересно, сколько по времени может занять скачивание полного архива Флибусты?


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
Поиск:

Copyright LibRusLib © 2024