LibRusLib
Пятница, 19.04.2024, 13:12
Приветствую Вас Гость | RSS
 
Главная ФорумРегистрацияВход
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Форум » MultiLib - Библиотекарь » Version 1.x » Обсуждение работы программы (Баги, проблемы, решения)
Обсуждение работы программы
PFNДата: Пятница, 07.10.2016, 22:52 | Сообщение # 916
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
нет. признака я не знаю.

Если фб2-книга сделана корректно в FBE, то у него есть в метаданных раздел <publish-info>, который содержит в себе и издательскую серию: 
<sequence name="Фантастический боевик" number="59"/>
Но это потребует добавления лишнего поля в БД. В крайнем случае пользователь может и самостоятельно заполнять это поле при желании иметь и издательскую серию.

Пробовал из своей программки поключиться к БД, созданнной в Мультилибе... Полный облом sad
Или у меня знаний для этого не хватает, или это вообще невозможно. Наверно - первое... А жаль, получился бы неплохой тандем для вычистки дубликатов.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
1_абрамДата: Суббота, 08.10.2016, 10:56 | Сообщение # 917
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj ()
нет. признака я не знаю.


А как же http://ssmaker.ru/712cbf3d/

Добавлено (08.10.2016, 08:56)
---------------------------------------------

Цитата PFN ()
Или у меня знаний для этого не хватает, или это вообще невозможно. Наверно - первое... А жаль, получился бы неплохой тандем для вычистки дубликатов.


При использовании формата %Z  для локальных архивов  дубликаты появиться не могут.
 
PFNДата: Суббота, 08.10.2016, 12:59 | Сообщение # 918
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата 1_абрам ()
При использовании формата %Z  для локальных архивов  дубликаты появиться не могут.

Увы, могут. Я несколько дней эксперементировал с МД5 и вот что обнаружил. МД5 отлично находит дубликаты если файлы абсолютно идентичны. Но мне попалось несколько файлов фб2, когда их различие было только в написании одной буквы (Windows и windows). У этих файлов МД5 был разный. Чтобы не быть голословным - вот картинка:

Прикрепления: 7272036.jpg (62.7 Kb)


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
1_абрамДата: Суббота, 08.10.2016, 15:13 | Сообщение # 919
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата PFN ()
вы, могут. Я несколько дней эксперементировал с МД5 и вот что обнаружил. МД5 отлично находит дубликаты если файлы абсолютно идентичны.
 

Так  не удивительно. Это разные файлы.   

На  флибусте недавно начали использовать контрольную сумма книги (это мд5 фб2 без метаинформации):

Контрольная сумма файла (md5): 770f43650adcd5650a41340e9a8b58bb
Контрольная сумма книги (md5): bde08fa3d49d479e5f1b9ef0b9b8871c.

Вот по этому параметру можно отследить ваши дубли.  Но как прикрутить это к мультлибу непонятно.
 
PFNДата: Суббота, 08.10.2016, 16:11 | Сообщение # 920
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата 1_абрам ()
Так  не удивительно. Это разные файлы.

Не все так просто. Я не стал расписывать, что в других файлах/книгах часто встречал такую ситуацию, кода в результате невнимательной вычитки книги имели место ошибки и это сразу давало другой МД5. Например: "лошадь скакала" и "лошадь скакал а". МД5 будут разные.
Поэтому, как ни крути, а без "зоркого" глаза пользователя не обойтись.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Суббота, 08.10.2016, 16:45 | Сообщение # 921
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Пробовал из своей программки поключиться к БД, созданнной в Мультилибе... Полный облом


Что значит облом? Можно подключиться любым mysql-клиентом.

по поводу мд5... Господа, с этим тоже не всё слава Богу... Зачастую, в архиве книга имеет не тот мд5, который в базе. Я этот момент отрабатываю в программе, но, если ориентироваться на реальный мд5 - получится реальный облом. Есть вариант пересчитать реальный мд5 и добавить еще одну таблицу в связке, но это может занять хороший кус времени. Да и смысл это делать имеет только вариант собственной библиотеки, или если загнется (не дай Бог) флибуста и изменений больше не предвидится. Так что, ой...

А вообще, вам двоим более интересна именно локальная часть мультилиба, а она, увы, не доработана и не доведена до ума, т.к. это маленькое дополнение к онлайн-библиотекам.

Споры по дубликатам бессмысленны, ибо каждый определяет для себя это понятие. Лично мне, при нынешней цене на носители, не трудно держать пол-терабайта архивов с дубликатами. Естественно, я не прочту и тысячной части, но, как запасливый хомяк, тяну всё в норку, а вдруххх smile


drSerj
 
drserjДата: Суббота, 08.10.2016, 16:51 | Сообщение # 922
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
На  флибусте недавно начали использовать контрольную сумма книги (это мд5 фб2 без метаинформации):


это вообще полнейший бред, абсолютно бессмысленный и беспощадный... Вообще, мд5 - это больше определитель целостности файла, но никак не текста. Мы его используем именно для отсеивания физ. дублей, ну и удобно книги равномерно распределять по каталогам, дабы файловая система не захлебнулась, как в случае хранения в одном каталоге тысяч файлов... Если десятки или сотни тысяч - файловая система тупо загнется.


drSerj
 
1_абрамДата: Суббота, 08.10.2016, 17:20 | Сообщение # 923
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj ()
поры по дубликатам бессмысленны, ибо каждый определяет для себя это понятие. Лично мне, при нынешней цене на носители, не трудно держать пол-терабайта архивов с дубликатами. Естественно, я не прочту и тысячной части, но, как запасливый хомяк, тяну всё в норку, а вдруххх


Меня тоже дубли совершенно не пугают.

Добавлено (08.10.2016, 15:17)
---------------------------------------------
Цитата drserj ()
А вообще, вам двоим более интересна именно локальная часть мультилиба, а она, увы, не доработана и не доведена до ума, т.к. это маленькое дополнение к онлайн-библиотекам.


Нет я пользуюсь именно флибустой,  и скачиваю время от времени архивы в формате %Z,      пока вроде бы багов с мд5 не наблюдал.  Все работает нормально.

Добавлено (08.10.2016, 15:20)
---------------------------------------------

Цитата 1_абрам ()
то вообще полнейший бред, абсолютно бессмысленный и беспощадный... Вообще, мд5 - это больше определитель целостности файла, но никак не текста. Мы его используем именно для отсеивания физ. дублей


Я честно говоря не совсем понимаю,  где собираются использовать мд5 текста.  Это появилось недавно когда при скачивании книг в них изменяется метаинформация.

Добавлено (08.10.2016, 15:20)
---------------------------------------------

Цитата drserj ()
Зачастую, в архиве книга имеет не тот мд5, который в базе.


Поясни, приведи пример.


Сообщение отредактировал 1_абрам - Суббота, 08.10.2016, 17:17
 
drserjДата: Суббота, 08.10.2016, 17:58 | Сообщение # 924
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Поясни, приведи пример.


Поясняю, если открыть архив и пересчитать кс - он не будет соответствовать тому кс, который в базе. Объясняется крайне просто - файл был скачан ранее (например, с либруса, тысячники и т д.), потом прошел правку и был перезалит. но у тебя - остался старый файл. Примеров не приведу, ибо специально искать ручками - нонсенс, а писать отдельно программу - ломает smile Возможно, если буду делать сверку - напишу.

Цитата 1_абрам ()
пока вроде бы багов с мд5 не наблюдал.

Конечно не наблюдал, я это отслеживаю и учитываю в программе smile


drSerj
 
1_абрамДата: Суббота, 08.10.2016, 18:05 | Сообщение # 925
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
А какие архивы наиболее надежны в этом смысле?
 
drserjДата: Суббота, 08.10.2016, 20:04 | Сообщение # 926
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
А какие архивы наиболее надежны в этом смысле?


а есть варианты? тысячники лепились еще со времен Ларина... Там же и стали терять актуальность. Я даже больше скажу - в них мусора - половина. Я по этому и перепаковывал. А потом либрус вообще начал книжки править и перевыкладывать под тем же ид...
Актуальны те - которые качаешь онлайн, но гарантия того, что успеешь скачать перед блокировкой - 0. Да и где гарантия, что впоследствии и их не поменяют. Но тут уже - как повезет. Если на флибусте не повторят подвиг либруса с заменой удаленных онлайн книг на другие (а ведь в архивах - старые остались и в итоге база не соответствует архивам) - то прокатит даже то, что кс не совпадает. Хоть книга соответствует действительности...


drSerj
 
1_абрамДата: Суббота, 08.10.2016, 20:40 | Сообщение # 927
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Я имею в виду http://booktracker.org/viewforum.php?f=245  с которого и скачиваю архивы.  Надеюсь, что не повторят.
 
drserjДата: Суббота, 08.10.2016, 20:59 | Сообщение # 928
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Я имею в виду


Ну ты же понимаешь, что первая половина - из либруса со всеми его плюсами и минусами, а вторая - частично. Что бы быть гарантировано уверенным - надо писать софт или скрипт, который разгребет все твои архивы, создаст КС каждого файла, сравнит ее с базой и т д...

Кстати, у тебя какой формат хранения? На %Z - не перевёл всё?


drSerj
 
1_абрамДата: Суббота, 08.10.2016, 21:17 | Сообщение # 929
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Все перевед на %Z, естественно.
 
PFNДата: Суббота, 08.10.2016, 21:19 | Сообщение # 930
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
Что значит облом? Можно подключиться любым mysql-клиентом.

Значит ума не хватает... sad Дело в том, что нигде мне не удалось найти толковой инструкции для этой операции. А то, что прочитал и пробовал - не срабатывает.

Цитата drserj ()
А вообще, вам двоим более интересна именно локальная часть мультилиба, а она, увы, не доработана и не доведена до ума, т.к. это маленькое дополнение к онлайн-библиотекам.

Да она и в этом виде справляется с потребностями пользователей. Боюсь даже представить ее возможности в доработанном виде... smile

Цитата drserj ()
Лично мне, при нынешней цене на носители, не трудно держать пол-терабайта архивов с дубликатами.

А меня это просто раздражает, что висят мусорные файлы не самого лучшего качества (не разбиты по главам, без обложек и т.п.)

Цитата drserj ()
тысячники лепились еще со времен Ларина... Там же и стали терять актуальность. Я даже больше скажу - в них мусора - половина.

Вот!!! Поэтому и корячусь пытаясь освободить свою библиотеку от этого мусора. По МД5 абсолютные дубликаты вычищаются без проблем. А где МД5 разные приходится просматривать самому и выбирать, какой файл удалить, а какой оставить. В принципе и этот процесс можно автоматизировать. Например, оставлять файлы с обложкой. Если оба с обложками, то оставлять с обложкой большего размера и т.д. Может и другие идеи появятся...


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
Форум » MultiLib - Библиотекарь » Version 1.x » Обсуждение работы программы (Баги, проблемы, решения)
Поиск:

Copyright LibRusLib © 2024