Обсуждение работы программы
| |
PFN | Дата: Пятница, 07.10.2016, 22:52 | Сообщение # 916 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата drserj ( ) нет. признака я не знаю. Если фб2-книга сделана корректно в FBE, то у него есть в метаданных раздел <publish-info>, который содержит в себе и издательскую серию: <sequence name="Фантастический боевик" number="59"/> Но это потребует добавления лишнего поля в БД. В крайнем случае пользователь может и самостоятельно заполнять это поле при желании иметь и издательскую серию.
Пробовал из своей программки поключиться к БД, созданнной в Мультилибе... Полный облом Или у меня знаний для этого не хватает, или это вообще невозможно. Наверно - первое... А жаль, получился бы неплохой тандем для вычистки дубликатов.
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
1_абрам | Дата: Суббота, 08.10.2016, 10:56 | Сообщение # 917 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj ( ) нет. признака я не знаю.
А как же http://ssmaker.ru/712cbf3d/Добавлено (08.10.2016, 08:56) ---------------------------------------------
Цитата PFN ( ) Или у меня знаний для этого не хватает, или это вообще невозможно. Наверно - первое... А жаль, получился бы неплохой тандем для вычистки дубликатов.
При использовании формата %Z для локальных архивов дубликаты появиться не могут.
|
|
| |
PFN | Дата: Суббота, 08.10.2016, 12:59 | Сообщение # 918 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата 1_абрам ( ) При использовании формата %Z для локальных архивов дубликаты появиться не могут. Увы, могут. Я несколько дней эксперементировал с МД5 и вот что обнаружил. МД5 отлично находит дубликаты если файлы абсолютно идентичны. Но мне попалось несколько файлов фб2, когда их различие было только в написании одной буквы (Windows и windows). У этих файлов МД5 был разный. Чтобы не быть голословным - вот картинка:
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
1_абрам | Дата: Суббота, 08.10.2016, 15:13 | Сообщение # 919 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата PFN ( ) вы, могут. Я несколько дней эксперементировал с МД5 и вот что обнаружил. МД5 отлично находит дубликаты если файлы абсолютно идентичны.
Так не удивительно. Это разные файлы.
На флибусте недавно начали использовать контрольную сумма книги (это мд5 фб2 без метаинформации):
Контрольная сумма файла (md5): 770f43650adcd5650a41340e9a8b58bb Контрольная сумма книги (md5): bde08fa3d49d479e5f1b9ef0b9b8871c.
Вот по этому параметру можно отследить ваши дубли. Но как прикрутить это к мультлибу непонятно.
|
|
| |
PFN | Дата: Суббота, 08.10.2016, 16:11 | Сообщение # 920 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата 1_абрам ( ) Так не удивительно. Это разные файлы. Не все так просто. Я не стал расписывать, что в других файлах/книгах часто встречал такую ситуацию, кода в результате невнимательной вычитки книги имели место ошибки и это сразу давало другой МД5. Например: "лошадь скакала" и "лошадь скакал а". МД5 будут разные. Поэтому, как ни крути, а без "зоркого" глаза пользователя не обойтись.
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
drserj | Дата: Суббота, 08.10.2016, 16:45 | Сообщение # 921 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата PFN ( ) Пробовал из своей программки поключиться к БД, созданнной в Мультилибе... Полный облом
Что значит облом? Можно подключиться любым mysql-клиентом.
по поводу мд5... Господа, с этим тоже не всё слава Богу... Зачастую, в архиве книга имеет не тот мд5, который в базе. Я этот момент отрабатываю в программе, но, если ориентироваться на реальный мд5 - получится реальный облом. Есть вариант пересчитать реальный мд5 и добавить еще одну таблицу в связке, но это может занять хороший кус времени. Да и смысл это делать имеет только вариант собственной библиотеки, или если загнется (не дай Бог) флибуста и изменений больше не предвидится. Так что, ой...
А вообще, вам двоим более интересна именно локальная часть мультилиба, а она, увы, не доработана и не доведена до ума, т.к. это маленькое дополнение к онлайн-библиотекам.
Споры по дубликатам бессмысленны, ибо каждый определяет для себя это понятие. Лично мне, при нынешней цене на носители, не трудно держать пол-терабайта архивов с дубликатами. Естественно, я не прочту и тысячной части, но, как запасливый хомяк, тяну всё в норку, а вдруххх
drSerj
|
|
| |
drserj | Дата: Суббота, 08.10.2016, 16:51 | Сообщение # 922 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) На флибусте недавно начали использовать контрольную сумма книги (это мд5 фб2 без метаинформации):
это вообще полнейший бред, абсолютно бессмысленный и беспощадный... Вообще, мд5 - это больше определитель целостности файла, но никак не текста. Мы его используем именно для отсеивания физ. дублей, ну и удобно книги равномерно распределять по каталогам, дабы файловая система не захлебнулась, как в случае хранения в одном каталоге тысяч файлов... Если десятки или сотни тысяч - файловая система тупо загнется.
drSerj
|
|
| |
1_абрам | Дата: Суббота, 08.10.2016, 17:20 | Сообщение # 923 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj ( ) поры по дубликатам бессмысленны, ибо каждый определяет для себя это понятие. Лично мне, при нынешней цене на носители, не трудно держать пол-терабайта архивов с дубликатами. Естественно, я не прочту и тысячной части, но, как запасливый хомяк, тяну всё в норку, а вдруххх
Меня тоже дубли совершенно не пугают.
Добавлено (08.10.2016, 15:17) ---------------------------------------------
Цитата drserj ( ) А вообще, вам двоим более интересна именно локальная часть мультилиба, а она, увы, не доработана и не доведена до ума, т.к. это маленькое дополнение к онлайн-библиотекам.
Нет я пользуюсь именно флибустой, и скачиваю время от времени архивы в формате %Z, пока вроде бы багов с мд5 не наблюдал. Все работает нормально.Добавлено (08.10.2016, 15:20) ---------------------------------------------
Цитата 1_абрам ( ) то вообще полнейший бред, абсолютно бессмысленный и беспощадный... Вообще, мд5 - это больше определитель целостности файла, но никак не текста. Мы его используем именно для отсеивания физ. дублей
Я честно говоря не совсем понимаю, где собираются использовать мд5 текста. Это появилось недавно когда при скачивании книг в них изменяется метаинформация.Добавлено (08.10.2016, 15:20) ---------------------------------------------
Цитата drserj ( ) Зачастую, в архиве книга имеет не тот мд5, который в базе.
Поясни, приведи пример.
Сообщение отредактировал 1_абрам - Суббота, 08.10.2016, 17:17 |
|
| |
drserj | Дата: Суббота, 08.10.2016, 17:58 | Сообщение # 924 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Поясни, приведи пример.
Поясняю, если открыть архив и пересчитать кс - он не будет соответствовать тому кс, который в базе. Объясняется крайне просто - файл был скачан ранее (например, с либруса, тысячники и т д.), потом прошел правку и был перезалит. но у тебя - остался старый файл. Примеров не приведу, ибо специально искать ручками - нонсенс, а писать отдельно программу - ломает Возможно, если буду делать сверку - напишу.
Цитата 1_абрам ( ) пока вроде бы багов с мд5 не наблюдал. Конечно не наблюдал, я это отслеживаю и учитываю в программе
drSerj
|
|
| |
1_абрам | Дата: Суббота, 08.10.2016, 18:05 | Сообщение # 925 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| А какие архивы наиболее надежны в этом смысле?
|
|
| |
drserj | Дата: Суббота, 08.10.2016, 20:04 | Сообщение # 926 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) А какие архивы наиболее надежны в этом смысле?
а есть варианты? тысячники лепились еще со времен Ларина... Там же и стали терять актуальность. Я даже больше скажу - в них мусора - половина. Я по этому и перепаковывал. А потом либрус вообще начал книжки править и перевыкладывать под тем же ид... Актуальны те - которые качаешь онлайн, но гарантия того, что успеешь скачать перед блокировкой - 0. Да и где гарантия, что впоследствии и их не поменяют. Но тут уже - как повезет. Если на флибусте не повторят подвиг либруса с заменой удаленных онлайн книг на другие (а ведь в архивах - старые остались и в итоге база не соответствует архивам) - то прокатит даже то, что кс не совпадает. Хоть книга соответствует действительности...
drSerj
|
|
| |
1_абрам | Дата: Суббота, 08.10.2016, 20:40 | Сообщение # 927 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Я имею в виду http://booktracker.org/viewforum.php?f=245 с которого и скачиваю архивы. Надеюсь, что не повторят.
|
|
| |
drserj | Дата: Суббота, 08.10.2016, 20:59 | Сообщение # 928 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Я имею в виду
Ну ты же понимаешь, что первая половина - из либруса со всеми его плюсами и минусами, а вторая - частично. Что бы быть гарантировано уверенным - надо писать софт или скрипт, который разгребет все твои архивы, создаст КС каждого файла, сравнит ее с базой и т д...
Кстати, у тебя какой формат хранения? На %Z - не перевёл всё?
drSerj
|
|
| |
1_абрам | Дата: Суббота, 08.10.2016, 21:17 | Сообщение # 929 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Все перевед на %Z, естественно.
|
|
| |
PFN | Дата: Суббота, 08.10.2016, 21:19 | Сообщение # 930 |
Генерал-майор
Группа: Друзья
Сообщений: 206
Статус: Offline
| Цитата drserj ( ) Что значит облом? Можно подключиться любым mysql-клиентом. Значит ума не хватает... Дело в том, что нигде мне не удалось найти толковой инструкции для этой операции. А то, что прочитал и пробовал - не срабатывает.
Цитата drserj ( ) А вообще, вам двоим более интересна именно локальная часть мультилиба, а она, увы, не доработана и не доведена до ума, т.к. это маленькое дополнение к онлайн-библиотекам. Да она и в этом виде справляется с потребностями пользователей. Боюсь даже представить ее возможности в доработанном виде...
Цитата drserj ( ) Лично мне, при нынешней цене на носители, не трудно держать пол-терабайта архивов с дубликатами. А меня это просто раздражает, что висят мусорные файлы не самого лучшего качества (не разбиты по главам, без обложек и т.п.)
Цитата drserj ( ) тысячники лепились еще со времен Ларина... Там же и стали терять актуальность. Я даже больше скажу - в них мусора - половина. Вот!!! Поэтому и корячусь пытаясь освободить свою библиотеку от этого мусора. По МД5 абсолютные дубликаты вычищаются без проблем. А где МД5 разные приходится просматривать самому и выбирать, какой файл удалить, а какой оставить. В принципе и этот процесс можно автоматизировать. Например, оставлять файлы с обложкой. Если оба с обложками, то оставлять с обложкой большего размера и т.д. Может и другие идеи появятся...
=============================== Приказ, который может быть понят неправильно, обязательно будет понят неправильно
|
|
| |
|