LibRusLib
Четверг, 19.06.2025, 13:30
Приветствую Вас Гость | RSS
 
Главная ФорумРегистрацияВход
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Обсуждение работы программы
drserjДата: Суббота, 01.12.2018, 20:55 | Сообщение # 1876
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата sermsev5068 ()
Что значит и как исправить?
Всё нормально, исправлять ничего не надо.

Цитата sermsev5068 ()
А для 1.10 новых файлов не предвидится?
Там особо ничего нового и нет... Мелочи, ради которых что-то исправлять в справке нет необходимости...
Приятно, что хоть кто-то эту справку читает smile

Цитата sermsev5068 ()
Это происходит в режимах Автор, Серии и Жанры. При поиски книги по названию в меню Поиск - находит правильную книгу.Что сделать чтобы исправить?

Есть вариант, старую книгу с этим ИД в базе удалили, хвосты где-то остались. Вариант второй - косяк в базе (несколько строк по данному ИД). Ничего сказать точно не могу - у меня везде показывает правильно, но у меня флибуста и формат контента %z (имя книги представляет его мд5 хэш, это не позволяет создавать разночтения).
Есть еще вариант - база от одной библиотеки - файл от другой. 
Дело в том, что название, автор, серия и жанр берутся из базы, аннотация и картинка - из файла. Похоже, книга в базе не соответствует книге в архиве. Надо посмотреть, а тот же файл в поиске и в авторе, серии, жанре. Я вижу книга в архиве fb2-402552-406401.zip. А в поиске - такой же файл? В самом архивном файле книга правильная?


drSerj
 
sermsev5068Дата: Воскресенье, 02.12.2018, 10:27 | Сообщение # 1877
Рядовой
Группа: Пользователи
Сообщений: 8
Репутация: 0
Статус: Offline
Цитата drserj ()
Приятно, что хоть кто-то эту справку читает
Если время есть и есть справка у новой проги, всегда стараюсь пробежаться по ней, иногда находишь что-то, что неочевидно при исследовании программы "методом тыка"
Цитата drserj ()
А в поиске - такой же файл? В самом архивном файле книга правильная?
В самом локальном архиве тоже - правильный файл ID=406108. В поиске картина такая

Такое впечатление что ищет по файлам Флибусты. У меня в одной папке на сетевом хранилище лежат файлы и Флибусты и Либрусека. Если перебирать файлы в папке по алфавиту, то первыми будут идти файлы Флибусты. Файл Флибусты f.fb2-303902-307925.zip, из которого показана книга в поиске (см.выше) при переборе будет раньше чем файл Либрусека fb2-406000-410999.zip, в котором лежит книга с правильным ID=406108. Поиск в Мултилибе производится по базе или по файлам?

Но все равно это не объясняет логично почему мне в режимах Авто, Серия и Жанр показывает на книгу 406108 анонс и обложку от книги 547959. Обе эти книги находятся в наборе файлов Либрусека.
Прикрепления: 3591118.png (298.5 Kb)
 
sermsev5068Дата: Воскресенье, 02.12.2018, 11:11 | Сообщение # 1878
Рядовой
Группа: Пользователи
Сообщений: 8
Репутация: 0
Статус: Offline
С поиском разобрался...оказывается можно выбирать в каких библиотеках искать! Я не знал. Это к тому что нужно ли читать подсказки и доки.
Но проблема не ушла - теперь показывает в режиме поиска все то же что и в остальных, но я кажется нашел зацепку:

Есть идеи в чем или хотя бы где косяк?

Переключился на базу Флибусты - там пока все нормально (по крайней мере на первый взгляд)
Прикрепления: 5664885.png (426.8 Kb)
 
drserjДата: Воскресенье, 02.12.2018, 17:38 | Сообщение # 1879
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата sermsev5068 ()
У меня в одной папке на сетевом хранилище лежат файлы и Флибусты и Либрусека.

А вот это категорически неправильно! Низзя так!!!

Цитата sermsev5068 ()
Если перебирать файлы в папке по алфавиту, то первыми будут идти файлы Флибусты.

А винда думает по-своему... Зачастую, непонятно как...

Цитата sermsev5068 ()
Такое впечатление что ищет по файлам Флибусты.

Ага smile По всем библиотекам, если точнее...

Цитата sermsev5068 ()
Есть идеи в чем или хотя бы где косяк?

Ну, если архивы книг лежат в одном каталоге - то косяк явно просматривается... Откуда программа должна знать, что этот архив - флибусты, а этот - либруса? Для одной библиотеки одна папка, для другой - другая. Тогда и конфликтов не будет.


drSerj
 
sermsev5068Дата: Воскресенье, 02.12.2018, 18:30 | Сообщение # 1880
Рядовой
Группа: Пользователи
Сообщений: 8
Репутация: 0
Статус: Offline
Цитата drserj ()
Откуда программа должна знать, что этот архив - флибусты, а этот - либруса?
А имена архивов не являются показателем библиотеки?
С именами как fb2-000024-030559.zip и usr-091400-101860.zip - Либрусек
С именами как f.fb2-173909-177717.zip и f.usr-173909-177717.zip - Флибуста
Полное имя файла для каждой книги в базе же хранится?
Или, все же есть в тексте Мультилиба участки/модули/блоки, которые работают с файлами напрямую, мимо базы данных?

Цитата drserj ()
Для одной библиотеки одна папка, для другой - другая
Но тогда первые фалы до ID=173908 будут сдублированы в обоих папках. Насколько я понимаю во Флибусту они берутся из Либрусека один в один. Это порядка 100Gb. Я понимаю что по нынешним временам это не так уж и много, но все таки.

Нашел "очепятку" в программе. В диалогах "Ключевые слова" и "Примечание", вызываемых из контекстного меню текст пояснения к полю ввода одинаковый - "Введите ключевые слова через пробел". А по логике и судя по содержимому подсказки - должны быть разные. Мелочь конечно, но должен быть "порядок в танковых войсках"
 
drserjДата: Воскресенье, 02.12.2018, 19:05 | Сообщение # 1881
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата sermsev5068 ()
А имена архивов не являются показателем библиотеки?
Не всегда. В данном конкретном случае, где обе библиотеки используют шаблонный формат *xxxxx-yyyyy.zip. 
Как видно, под шаблон попали и fb2-000024-030559.zip и f.fb2-173909-177717.zip и usr-091400-101860.zip и f.usr-173909-177717.zip.

Цитата sermsev5068 ()
Полное имя файла для каждой книги в базе же хранится?

Да, но если оно присутствует в обоих архивах (например 406108.fb2) будет взято первое найденное.

Цитата sermsev5068 ()
Но тогда первые фалы до ID=173908 будут сдублированы в обоих папках. Насколько я понимаю во Флибусту они берутся из Либрусека один в один. Это порядка 100Gb. Я понимаю что по нынешним временам это не так уж и много, но все таки.

На сегодня - нет. Поясняю: обе библиотеки проводили неоднократные ревизии своего контента. Книги удалялись, дырки затыкались новыми книгами. И если на момент раскола библиотек контент полностью совпадал, то на сегодня - нет. Часть совпадает, часть - нет. Причем со стороны обеих (точнее трех как минимум). Вообще, как уже сто раз говорил - лучше брать одну библиотеку (я выбрал флибусту, как самую "чистую", без того мусора, который льют на либрусе ради статуса) и формат %z, который не дает разночтений и обращение к файлу в доли секунды.

Цитата sermsev5068 ()
Нашел "очепятку"
Угу, спасибо, нашел, действительно промахнулся...


drSerj
 
PFNДата: Понедельник, 03.12.2018, 10:30 | Сообщение # 1882
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
я выбрал флибусту, как самую "чистую", без того мусора, который льют на либрусе

Если бы не кавычки в слове "чистую", то я бы "вспыхнул от возмущения"...  biggrin 
На Флибусте тоже мусора хватает:
- не указаны авторы, жанры и даже названия;
- книги не разбиты на главы, с массой орфографических ошибок;
- обязательные для fb2 поля не заполнены.
Под жанром "Современная литература" или "Старинная литература" могут скрываться в большом количестве и детективы, и фантастика, и все,  что душа пожелает... 
Разгребаешь эту кучу и поминаешь тех, кто создавал файл fb2 "тихими, нежными" словами из лексикона старого боцмана!  smile


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Понедельник, 03.12.2018, 22:13 | Сообщение # 1883
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Если бы не кавычки в слове "чистую", то я бы "вспыхнул от возмущения"...

Но по сравнению с либрусом - флибуста как родник по сравнению с болотом... smile

А исправлять возможность есть, я иногда этим балуюсь.


drSerj
 
sermsev5068Дата: Вторник, 04.12.2018, 03:40 | Сообщение # 1884
Рядовой
Группа: Пользователи
Сообщений: 8
Репутация: 0
Статус: Offline
Добрый день!
Скачал SQL-дамп Флибусты. Подскажите, можно ли его использовать для обновления библиотеки вместо того чтобы качать что-то из интернета?

Размышляю про ваш совета о переходе на %z формат хранения библиотек. Есть некие сомнения. Хотелось бы ваших комментариев с высоты большого опыта по поводу следующего

1. Дубликаты. Можно узнать поподробнее как считается хэш. md5 считается по всему файлу? Если будет два fb2 файла с одним текстом, но один, например, с аннотацией, а другой без или, например, с разной информацией в тегах, то это будут разные книги? Если да, то смысла переходить не очень много - все равно большинство дублей останутся.

2. насколько я понял, файлы будут лежать в отдельных папках/подпапках и, если они будут упакованы, то каждый в отдельном zip-архиве. Но это значит что объем библиотеки будет гораздо больше чем при архивах с большим количеством файлов (в силу того что архиваторы всегда сильнее пакуют большее количество файлов). Опять же, с системной точки зрения, чем больше файлы, тем меньше "накладные расходы" на хранение и "манипулирование" на физическом уровне. а в случае перехода на %z, у нас не только уменьшается размер "еденицы хранения", но еще увеличивается количество их и усложняется структура папок. А это все ведет у замедлению файловых операций. Вы не оценивали какова разница в объемах библиотек и в скорости файловых операций при хранении в формате %z и в формате "тысячников"?

3. Сильно настораживает перспектива "завязнуть" при конвертации моего текущего формата хранения (архивы-тысячники) в формат %z. Никаких средств автоматизации этой процедуры я в Мультилибе не нашел. Т.е. придется использовать какие-то сторонние программы. Сколько потребуется времени чтобы сконвертировать около 2ТБ архивов? Даже если ограничится только Флибустой, все равно остается около 700ГБ

Цитата drserj ()
А исправлять возможность есть, я иногда этим балуюсь.

Если не секрет, каким софтом пользуетесь для редактирования fb2, pub и pdf файлов?

Прошу прощения за "много букв" и за назойливость.
 
drserjДата: Вторник, 04.12.2018, 22:07 | Сообщение # 1885
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата sermsev5068 ()
Скачал SQL-дамп Флибусты. Подскажите, можно ли его использовать для обновления библиотеки вместо того чтобы качать что-то из интернета?

Смотря что представляет собой этот дамп. Если набор файлов, скачанный непосредственно с сайта библиотеки (lib.libbook.sql и др.) - то скорее всего да.

Цитата sermsev5068 ()
md5 считается по всему файлу?
да
Цитата sermsev5068 ()
Если будет два fb2 файла с одним текстом, но один, например, с аннотацией, а другой без или, например, с разной информацией в тегах, то это будут разные книги?
абсолютно. Даже если будет разница в один знак - другая книга.

Цитата sermsev5068 ()
смысла переходить не очень много - все равно большинство дублей останутся.

Смысл в скорости и идентичности _файла_

Цитата sermsev5068 ()
2. насколько я понял, файлы будут лежать в отдельных папках/подпапках и, если они будут упакованы, то каждый в отдельном zip-архиве.

Именно

Цитата sermsev5068 ()
Но это значит что объем библиотеки будет гораздо больше чем при архивах с большим количеством файлов (в силу того что архиваторы всегда сильнее пакуют большее количество файлов).

Всё зависит от файловой системы, размера кластера, количества файлов в каталоге и т д. Если хочется комфорта и правильности - %z - единственный на сегодня удачный вариант. При стоимости 1 Gb емкости на диске, считать разницу в размерах, теряя при этом скорость - с моей точки зрения - не совсем правильно.

Цитата sermsev5068 ()
увеличивается количество их и усложняется структура папок.

с точностью до наоборот. Как я уже писал неоднократно, используя программу - каталогизатор не надо приравнивать алгоритм ее работы к человеческому. Программа работает с цифрами, и если программа заранее знает место хранения - время на поиск равно 0. А если планируется поиск "глазками" - .... не, я хочу посмотреть на того, кто глазками будет искать книжки среди полумиллиона файлов smile

Цитата sermsev5068 ()
Вы не оценивали какова разница в объемах библиотек и в скорости файловых операций при хранении в формате %z и в формате "тысячников"?

Конечно оценивал. По размерам - разница не настолько разительная, как казалось бы. А вот по скорости - %z - миллисекунды, архивы (зависит от размера и количества файлов) - до нескольких минут.

Цитата sermsev5068 ()
Сильно настораживает перспектива "завязнуть" при конвертации моего текущего формата хранения (архивы-тысячники) в формат %z.

Абсолютно безболезненная операция smile За несколько дней можно всё перегнать.

Цитата sermsev5068 ()
Никаких средств автоматизации этой процедуры я в Мультилибе не нашел.

Всё настолько примитивно и просто, что даже инструкцию (коя уже не раз тут писалась) могу повторить:

1.Выбираем архив (или группу архивов) с ид от xxxxx до yyyyy. Выбираем, для примера пару тысяч книг.
2.Входим в поиск и вбиваем начальный и конечный ИД. Запускаем поиск.
3.В таблице поиска делаем "Выбрать все файлы"
4.Правой кнопочкой мыши в меню "Отправить на устройство" 
5.В окне копирования на устройство в строке "маска файла" пишем %z, в строке "Папка на устройстве" указываем каталог, где будет храниться коллекция в новом формате.
В настройках, в разделе "устройство" можно поставить птичку "переименовывать файлы внутри архива", тогда и в архиве файлы будут переименованы в формат %z.
И так, сколько надо раз повторить со следующими архивами. Т.е. сегодня архивы от 000001 до 009999, завтра от 010000  до 019999 и т д. Всё зависит от производительности ПК и времени. Я на ночь ставил.

Это я так, в общих чертах описал. Если очень надо - могу более подробно.
Цитата sermsev5068 ()
Если не секрет, каким софтом пользуетесь для редактирования fb2, pub и pdf файлов?

я исправляю не книги а данные в библиотеке. Там есть возможность коррекции данных. А книги - не надо править, иначе это уже получится другая книга smile


drSerj
 
PFNДата: Среда, 05.12.2018, 11:20 | Сообщение # 1886
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата sermsev5068 ()
Если не секрет, каким софтом пользуетесь для редактирования fb2

Для серьезных правок fb2 лучше всех и корректнее справляется FictionBook Editor. А для мелочи - Notepad++.
Еще не плохо решает почти все проблемы с fb2-книгами SharpFBTools

Цитата drserj ()
я исправляю не книги а данные в библиотеке. Там есть возможность коррекции данных. А книги - не надо править, иначе это уже получится другая книга

И имеем в результате ту же кучу дублей и прочего мусора на диске.  smile 
Поэтому я гружу с Флибусты только месячные архивы и предварительно (до загрузки в библиотеку) вычищаю из них все ненужное мне, а также и все дубли.
При размере архива 1500-2500 книг после обработки остается 600-800.
Правда, процесс такой "уборки" весьма затратный по времени.
Все абсолютно автоматизировать не удалось и приходится что-то делать "ручками и глазками"...  smile  Но и в Мультитлибе это тоже есть...
Поэтому и хочется иметь вариант программы для локальной библиотеки  smile


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
sermsev5068Дата: Среда, 05.12.2018, 15:38 | Сообщение # 1887
Рядовой
Группа: Пользователи
Сообщений: 8
Репутация: 0
Статус: Offline
To: drserj и PFN
Благодарю за "пояснялки" и толковые ответы! Буду "пытать" свою библиотеку Мультилибом дальше. Попробую что-то усовершенствовать в системе хранения библиотеки (может быть перейти на %z).

Цитата drserj ()
Цитата sermsev5068 ()md5 считается по всему файлу?
да
Мне кажется, для того чтобы была возможность отсеивать книги (fb2 и pub), в которых текст книги одинаковый а отличается только служебная информация, можно предусмотреть в программе отдельную обработку, которая будет считать md5 не по всему файлу, а только по непосредственно тексту.

Для этих же целей (минимизация дублирования) было бы неплохо добавить в программу обработку, позволяющую сравнивать две книги (или даже несколько) и выводить по результату информацию о различиях в виде "двух-колоночного окна", как это делают многие программы сравнения файлов. Если даже и не в Мультилиб непосредственно, то может быть в виде отдельной утилиты. Главное чтобы сравнение производилось не просто побайтно, а с учетом структуры файла (fb2 и pub)
 
drserjДата: Среда, 05.12.2018, 22:14 | Сообщение # 1888
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата sermsev5068 ()
Мне кажется, для того чтобы была возможность отсеивать книги (fb2 и pub), в которых текст книги одинаковый а отличается только служебная информация, можно предусмотреть в программе отдельную обработку, которая будет считать md5 не по всему файлу, а только по непосредственно тексту.

абсолютно нереально, множество причин.

Цитата sermsev5068 ()
Для этих же целей (минимизация дублирования) было бы неплохо добавить в программу обработку, позволяющую сравнивать две книги (или даже несколько) и выводить по результату информацию о различиях в виде "двух-колоночного окна", как это делают многие программы сравнения файлов.

Для данной программы это непрприемлемое условие. Программа - каталогизатор существующей библиотеки. Она дает возможность работать с уже имеющимся контентом. Программа не может менять контент. По работе с контентом - все вопросы к библиотекарям.


drSerj
 
sermsev5068Дата: Четверг, 06.12.2018, 05:22 | Сообщение # 1889
Рядовой
Группа: Пользователи
Сообщений: 8
Репутация: 0
Статус: Offline
Цитата drserj ()
множество причин.
если можно, хотелось бы узнать причины. хотя бы несколько самых основных

Цитата drserj ()
Программа не может менять контент
а речь не идет об изменении контента. Речь как раз о функциях, которые должны выполняться каталогизатором библиотеки - поиск дубликатов или близких по содержимому книг и выдача как можно более точной информации о различиях тому, кто пользуется этой программой. Для каких целей этот пользователь будет далее использовать эту информацию - удалять что-то или оставить как есть - это уже его дело. В конце концов это его личная библиотека (речь не о Флибусте и Либрусеке, а о PrivateLib- библиотеке, созданной "для себя") и он может делать с ней все что он пожелает. И не надо запускать эту функцию автоматически при загрузке файлов. Решил пользователь заняться "порядком" в своей библиотеке - выбрал несколько книг с одним и тем же произведением, выбрал в меню команду "запустить сравнение", получил результат. Далее - анализируешь различия и решаешь что делать.
 
drserjДата: Четверг, 06.12.2018, 20:21 | Сообщение # 1890
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата sermsev5068 ()
если можно, хотелось бы узнать причины. хотя бы несколько самых основных

Хотя бы то, что невозможно определить ни начало ни конец текста, невозможно вообще работать с бинарными документами *pdf, dox и т д), любая мелочь (любой измененный символ в тексте) приведут к изменению хэша и т д. Т.е. Для того, что бы тексты книг были идентичны, необходимо четкое выделение самого текста, с точностью до бита соответствие этих текстов. На сегодня такого формата нет.

Цитата sermsev5068 ()
речь не о Флибусте и Либрусеке, а о PrivateLib- библиотеке

ыыы... начал писать такую, но пока заморозил проект.


drSerj
 
Поиск:

Copyright LibRusLib © 2025