Обсуждение работы программы
| |
PFN | Дата: Среда, 16.09.2015, 20:36 | Сообщение # 631 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата drserj ( ) у одной и той же книги может быть разное название, книга может относиться к разным сериям, у автора могут быть разные псевдонимы Ну, это тоже решаемо, хотя и требует ручной обработки. Хуже когда авторы полные тезки: Андреев Николай Юрьевич. Один написал "Звездный взвод" и "Победитель", а второй - "Рыцари Белой мечты - За Русь святую!" Хорошо, что у первого есть псевдоним, а то пришлось бы различать по номерам.
Цитата drserj ( ) через 5 лет нас ожидает великая октябрьская А почему не через 2 года?
Цитата drserj ( ) Очень советую использовать формат %z, это избавит от множества проблем при росте библиотеки... Я учел Ваши рекомендации и именно это и пробую сейчас сделать, используя старый архив Либруса. У меня все файлы с книгами разложены по директориям авторов, т.е. структура имеется. Все они приведены в нормальный вид и не хотелось бы, если сделаю что-то не так, поломать существующий порядок. Вот закончу с этим архивом и если все получится, тогда и за основную свою библиотеку возьмусь. Тем более, что мне нужно получше освоиться с Вашей программой.
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
drserj | Дата: Среда, 16.09.2015, 20:49 | Сообщение # 632 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата PFN ( ) А почему не через 2 года? 1912+5=1917
drSerj
|
|
| |
1_абрам | Дата: Четверг, 17.09.2015, 08:43 | Сообщение # 633 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj ( ) нет, контент хранится на облачных серверах, или на любых других, не связанных с библиотечным.
Т.е. пользовователь при загрузке книги загружает на сервер флибусты только библ. информацию и мд5, а сам файл загружается на сторонний, централизованный сервер, где хранятся все книги?
Сообщение отредактировал 1_абрам - Четверг, 17.09.2015, 08:45 |
|
| |
drserj | Дата: Четверг, 17.09.2015, 10:34 | Сообщение # 634 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Т.е. пользовователь при загрузке книги загружает на сервер флибусты только библ. информацию и мд5, а сам файл загружается на сторонний, централизованный сервер, где хранятся все книги? уху....
drSerj
|
|
| |
1_абрам | Дата: Четверг, 17.09.2015, 11:35 | Сообщение # 635 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj ( ) уху.... Да, такой алгоритм легко осуществим. В принципе и сейчас я практически безбоязненно могу отказаться от скачивания книжек непосредственно с флибусты раз в месяц скачивая архивы с торентов (они в этом случае выполняют роль стороннего сервера) и используя твою программу.
Думаю, что стивер легко может это реализовать твое предложение, но не делает это т.к. это не решает проблемы закрытия флибусты. Ее все равно будут закрывать, т.к.:
1) На ней содержится информация, позволяющая скачивать пиратские файлы (мд5).
2) Сайт участвует а распространении пиратских файлов пересылая их на сторонний сервер (неважно, что это делается один раз).
|
|
| |
PFN | Дата: Четверг, 17.09.2015, 18:23 | Сообщение # 636 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Программа добросовестно выполнила свою задачу: обработала книги, добавила их в базу, отсеяла дубликаты по мд5 и файлы с ошибкой разбора. Приблизительно получилось 50/50. Как я и ожидал - архивы содержали агромадную кучу мусора в т.ч. и дубликатов, которые теперь придется вычищать ручками. Конечно, с моей стороны было ошибкой ставить на загрузку такой большой массив данных. Думаю, что оптимальный вариант - не более одного архива за раз. Тогда и обработать его будет легче. Начал работу по упорядочиванию и сразу столкнулся с двумя проблемами:
1. Очень много неопознанных жанров. Я знаю, что архив старый и жанры в нем со старыми кодами. И уже существует новый шаблон жанров (от Либрусека, кажется). Так и часть жанров с новыми кодами тоже попадает в неопознанное... С новыми кодами разобраться не сложно - добавить их в имеющийся список и можно потирать ручки... А вот со старыми - проблема. Особенно если придется каждый раз вручную менять жанры большого количества книг. У себя я тупо сопоставил старые коды с новым названием жанров и получаю на выходе нужный жанр. Здесь так сделать не получается, т.к. в таблицах похоже запрещено иметь в этих полях дубликаты. Но пользователю не важно, какой код указан в метаданных. Он хочет видеть название жанра (Фэнтези, Детектив и т.д), а не "Неопознанное". Поэтому я не вижу большой беды если в поле русского названия жанра будет несколько раз написано "Фэнтези" или "Детектив". Если у Вас есть способ решения этой проблемы, то подскажите, пожалуйста.
2. Это чехарда с языками. Авторы документов ставят, что в голову взбредет... Вижу в таблице, что стоит английский язык. Открываю книгу - весь текст на русском языке. Если есть аннотация, то это легко контролируется, т.к. видно на каком языке она написана... А если - нет... не будешь же открывать каждую книгу, чтобы проверить. Было бы здорово, если бы программа сама определяла язык книги, не надеясь на метаданные или хотя бы выводила в окне аннотации 5-10 строк основного текста.
Надеюсь, я не слишком "губу раскатал"?
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
drserj | Дата: Четверг, 17.09.2015, 20:52 | Сообщение # 637 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Думаю, что стивер легко может это реализовать твое предложение Думаю, что Стивер давно уже не при делах
Цитата 1_абрам ( ) 1) На ней содержится информация, позволяющая скачивать пиратские файлы (мд5).
одна минута - и нет ее... дальше что?
Цитата 1_абрам ( ) Сайт участвует а распространении пиратских файлов пересылая их на сторонний сервер (неважно, что это делается один раз). увы, важно. убирается ссылка - сайт легален.
Цитата PFN ( ) 1. Очень много неопознанных жанров. непрописаных жанров, будем говорить...
Цитата PFN ( ) У себя я тупо сопоставил старые коды с новым названием жанров и получаю на выходе нужный жанр. Здесь так сделать не получается, т.к. в таблицах похоже запрещено иметь в этих полях дубликаты. да, такова структура... Никто не мешает завести жанр с индексами 1, 2 а потом слить всё воедино
Цитата PFN ( ) 2. Это чехарда с языками. Авторы документов ставят, что в голову взбредет... к сожалению - да. Впрочем, 90% можно обработать почти в автомате, запросами.
Например,
Код update ignore mlbook set lang="ru" where lang="ру" заменяя "ру" на то, что надо поменять... на "ru"
Цитата PFN ( ) если бы программа сама определяла язык книги, не надеясь на метаданные ну, с ИИ даже япошки обломались... Да и зачем, если решение всей проблемы с языками (для fb2) не так уж и сложно. Да, часик-второй прийдется посидеть, но это ведь разовая акция... вся проблема со стандартизацией (ru, rus, РУ и т д)
Хотя, при данном раскладе, когда все данные есть в базе либруса, не проще ли их экспортировать в приватную библиотеку???
1. Создаем онлайновую либрусовую библиотеку 2. Импортируем базу 3. Актуализируем базу (проставляются отметки о скачивании на найденных книгах) 4. делается выборка всех, имеющих пометку "Скачано" 5. всё, что найдено - копируется в частную библиотеку 6. путем копирования на устройство, книги копируются в нужном формате.
drSerj
|
|
| |
PFN | Дата: Четверг, 17.09.2015, 21:15 | Сообщение # 638 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата drserj ( ) непрописаных жанров, будем говорить... Можно и так. Интересно, Вы специально не прописали многие жанры даже в таких популярных разделах, как Фантастика и Детективы?
Цитата drserj ( ) Никто не мешает завести жанр с индексами 1, 2 а потом слить всё воедино Ну, это опять же "ручками" надо делать... Придется, видимо, предварительную обработку в своей программе делать. А потом уже вносить в базу.
Цитата drserj ( ) ну, с ИИ даже япошки обломались... Причем здесь ИИ? Есть же программы, которые отлавливают латиницу в тексте на кириллице. Что-то подобное и здесь можно сделать, используя кодовые таблицы набора символов.
Цитата drserj ( ) все данные есть в базе либруса, не проще ли их экспортировать в приватную библиотеку??? Не уверен, что там все так причесано. Старые-то архивы никуда не делись, а в них могут находиться книги, которых уже нет в последних обновлениях. Фактически, Вы предлагаете все сделать с нуля... Как подумаю, во что это может вылиться...
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
drserj | Дата: Четверг, 17.09.2015, 21:25 | Сообщение # 639 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата PFN ( ) Вы специально не прописали многие жанры даже в таких популярных разделах, как Фантастика и Детективы? Все жанры, указанные в программе, соответствуют спецификации fb2. Все остальные - плод больного воображения библиотек и пользователей, плодящих подобные жанры. Есть четко оговоренный автором самого стандарта перечень. Могу дать ссылку, если интересна спецификация формата.
Цитата PFN ( ) Ну, это опять же "ручками" надо делать... Ну, кушать тоже ручками надо Хотя, автоматизировать можно всё.... или почти всё...
Цитата PFN ( ) Причем здесь ИИ? Есть же программы, которые отлавливают латиницу в тексте на кириллице. Что-то подобное и здесь можно сделать, используя кодовые таблицы набора символов.
Если языков - два, да. А если множество? На самом деле (а это старая задача мирового масштаба) единого алгоритма не существует. То что есть - слишком жирно для программы подобного масштаба.
Цитата PFN ( ) Не уверен, что там все так причесано. процентов на 90
Цитата PFN ( ) Старые-то архивы никуда не делись, а в них могут находиться книги, которых уже нет в последних обновлениях. огорчу, до определенного bookid флибуста и либрус имели одну базу. Разошлись где-то на средине. Если есть флибуста - первой половины либруса не надо. Если очень интересно с какого именно bookid пошло расхождение - можно поискать, где-то было. Старая база у меня тоже где-то есть.
Цитата PFN ( ) Фактически, Вы предлагаете все сделать с нуля... Как подумаю, во что это может вылиться... На самом деле - ни во что... Я это делал неоднократно. Тем боле, всё, практически, автоматизировано. Включил на экспорт - и спать
Впрочем, я вообще не вижу смысла связываться с либрусом. Всё что есть порядочное - имеем на флибусте. На либрусе очень много мусора, который заливают только ради доступа. Зачем нам мусор? На флибусту льют те же люди, только без мусора.
drSerj
|
|
| |
1_абрам | Дата: Четверг, 17.09.2015, 22:16 | Сообщение # 640 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj ( ) Впрочем, я вообще не вижу смысла связываться с либрусом. Всё что есть порядочное - имеем на флибусте. На либрусе очень много мусора, который заливают только ради доступа. Зачем нам мусор? На флибусту льют те же люди, только без мусора.
+1
|
|
| |
PFN | Дата: Четверг, 17.09.2015, 22:31 | Сообщение # 641 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата drserj ( ) Могу дать ссылку, если интересна спецификация формата. Буду признателен. Но, если это https://code.google.com/p....es.zip, то я отсюда и качал свой набор жанров.
Цитата drserj ( ) огорчу, до определенного bookid флибуста и либрус имели одну базу. Да, я в курсе. Флибуста у меня тоже есть где-то... Надо все-таки серьезно взяться и почистить свои кучи файлов.
Цитата drserj ( ) всё, практически, автоматизировано. Включил на экспорт - и спать Звучит очень завлекательно. Надо будет попробовать.
Цитата drserj ( ) я вообще не вижу смысла связываться с либрусом. Да я за него и не цепляюсь. Разговор о нем только потому, что откопал у себя этот сборник их архивов и решил посмотреть, что из этого можно выжать. Посмотрел... и утонул в куче мусора. А так, если нужно найти какую-то книгу иду или на Флибусту, или на ЛитМир (http://www.litmir.co/)
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
drserj | Дата: Пятница, 18.09.2015, 08:38 | Сообщение # 642 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата PFN ( ) Буду признателен. тут был, но сейчас сайт почему-то недоступен http://www.fictionbook.org/index.php/Описание_формата_FB2_от_Sclex вот тут дубликат http://leeet.net/info_fb2.php кой-че тут... http://www.gribuser.ru/xml/fictionbook/index.html https://ru.wikipedia.org/wiki/FictionBook
Цитата PFN ( ) А так, если нужно найти какую-то книгу иду или на Флибусту, или на ЛитМир У меня полный комплект флибусты. После того, как я заметил сливы со всех библиотек в флибусту (причем, в течение дня) я практически перестал просматривать другие библиотеки.
drSerj
|
|
| |
1_абрам | Дата: Пятница, 18.09.2015, 09:23 | Сообщение # 643 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj ( ) Цитата 1_абрам ()1) На ней содержится информация, позволяющая скачивать пиратские файлы (мд5).
одна минута - и нет ее... дальше что?
Цитата 1_абрам () Сайт участвует а распространении пиратских файлов пересылая их на сторонний сервер (неважно, что это делается один раз).
увы, важно. убирается ссылка - сайт легален.
Ты, наверно, не понял. Я думаю, что твое предложение разделить место хранение контента и описание контента не защищает библиотеку от копирастов. Для корректного поиска в библиотеки нужно постоянно хранить мд5 книжек (пункт 1). Сайт участвует в распространении контрафакта (пункт 2). Следовательно, его можно закрывать и нет никаких преимуществ с используемой сейчас схемой (когда книжки хранятся на сайте ) нет.
Сообщение отредактировал 1_абрам - Пятница, 18.09.2015, 09:23 |
|
| |
drserj | Дата: Пятница, 18.09.2015, 15:25 | Сообщение # 644 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| 1_абрам, Это ты не понял, не обязательно мд5, можно и букид, который является абстрактной величиной. Связь доказать невозможно. Может какое-нить третье лицо создать сайт и привязаться к его нумерации. Я сейчас спокойно привяжусь к кремль.рф и на каждый его ид - привяжу книгу. Что, сайт закроют?
drSerj
|
|
| |
PFN | Дата: Пятница, 18.09.2015, 16:34 | Сообщение # 645 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата drserj ( ) вот тут дубликат Спасибо, посмотрел, почитал. Картина, в общем, ясная: каждая библиотека создает свою структуру жанров и считает свой перечень идеальным. Но т.к. ЛибРус и Флибуста в этом плане несомненные лидеры (среди прочих библиотек), то, наверное, стоит подстраиваться под их структуру.
Цитата drserj ( ) У меня полный комплект флибусты. Интересно, сколько по времени может занять скачивание полного архива Флибусты?
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
|