Бета-тестирование
| |
1_абрам | Дата: Четверг, 28.11.2013, 14:53 | Сообщение # 691 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Такую идею хотелось бы обсудить. Есть книжка в приватной библиотеке. Нельзя ли автоматически заполнять всю имеющуюся о ней информацию используя БД флибусты и либгена?
|
|
| |
drserj | Дата: Четверг, 28.11.2013, 15:56 | Сообщение # 692 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Слепил конвертор из каталогов с обычным контентом в фиксированный формата .\xx\yy\md5.zip Обрабатывать только книги с либруса и флибусты, архивы-тысячники не обрабатываются, они игнорируются.
Основные возможности:
- Обработка отдельными каталогами, указанными в настройках библиотеки - Два варианта поиска файлов: - по базе после актуализации - смотрит список книг с пометкой "Скачано" и по этому списку копирует (переносит) файлы
- по списку файлов в каталоге (по идее - медленнее, но реально - не факт) - сканирует каталоги на предмет наличия файлов, пытается найти в базе соответствия (имя файла, букид или мд5 в имени файла), если находит - обрабатывается.
- Возможность либо копирования с переименованием, либо переноса с переименованием. Можно (и нужно) копировать или переносить в другой каталог. Можно просто создать структуру внутри существующего. Почему лучше в другой каталог - проще проконтролировать. Старый потом можно удалить, а новый - переименовать.
- Алгоритм тот же что и в актуализации (кстати, пока писал конвертор - нашел пару неточностей в актуализаторе. поправил). Естественно, после конвертации, если вы делали перенос - в исходном каталоге могут остаться файлы. Это либо файлы, которые программа не смогла распознать, либо файлы, описание которых отсутствует в базе, либо дубли.
Предупреждаю сразу, конвертор не пересчитывает МД5. По этому реальный МД5 внутри архива может не совпасть с тем что в имени файла и в базе. Иначе, как на флибусте, потеряете связь между базой и файлом. Все файлы - zip-архивы. Даже если у вас были неупакованные файлы, конвертор их заархивирует. Если у вас был к файлу книги файл описания - оба добавятся в архив. Главное, что бы имя файла книги и имя файла описания совпадали, а расширение файла описания было .fbd ZIP-архивы не перепаковываются а просто переименовываются. Внутри архива имена файлов остаются оригинальные. Многофайловые архивы (архивы, в которых несколько книг, например, архивы-тысячники) не обрабатываются. Для них будет отдельная программа-конвертор. Эта программа обрабатывает только одиночные книги, накачанные с библиотек.
Какие еще пожелания, предложения, замечания будут к конвертору?
drSerj
|
|
| |
drserj | Дата: Четверг, 28.11.2013, 16:04 | Сообщение # 693 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Есть книжка в приватной библиотеке. Нельзя ли автоматически заполнять всю имеющуюся о ней информацию используя БД флибусты и либгена? А по какому критерию ее искать в базе флибусты/либруса?
Я думаю чуть позже сделать возможность добавления информации о книге из онлайн-библиотеки в приватную. Но это только планы.
drSerj
|
|
| |
1_абрам | Дата: Четверг, 28.11.2013, 16:37 | Сообщение # 694 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj имя файла, букид или мд5 в имени файла
А если в БД несколько файлов с одинаковым именем?
|
|
| |
drserj | Дата: Четверг, 28.11.2013, 18:38 | Сообщение # 695 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) А если в БД несколько файлов с одинаковым именем? Вряд ли, но посмотрю. В любом случае возьмет первое найденное. А по другому - не получится. Тем более, что имеется приоритет - букид, потом имя файла. При любом раскладе ошибки будут, но единичные. Я, например, недавно скачал книгу (новой версией) а в ней - контроль мд5. И тут же нарвался на несоответствие. Причем, это djvu, размер совпадает, а мд5 - нет. Вот и думай, даже мд5 - и то не 100% гарантия. Ее вообще при данном раскладе нет. В обеих библиотеках - полный развал и несхождение. Конвертор просто производит массовую работу. Единичные ошибки (если случайно кто нарвется) можно и ручками поправить. А вот если я сейчас реально пересчитаю МД5 и переименую файлы по правильным хэшам - будет полный п.... Так что, при таких делах - всё что можно - я выжал, остальное - звиняйте. Я вот сижу сейчас и думаю что с тысячниками делать... Вообще жопа полная...
drSerj
|
|
| |
1_абрам | Дата: Четверг, 28.11.2013, 19:06 | Сообщение # 696 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj размер совпадает, а мд5 - нет.
Ну для этого мд5 и существет, иначе бы просто размер сравнивали. А вот, надеюсь, разных файлов с одинаковыми мд5 не бывает.
Добавлено (28.11.2013, 18:06) ---------------------------------------------
Цитата drserj Я вот сижу сейчас и думаю что с тысячниками делать... Вообще жопа полная... А какой процент ущербных (с непр. мд5) файлов на либрусеке и флибусте?
|
|
| |
drserj | Дата: Четверг, 28.11.2013, 19:19 | Сообщение # 697 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Ну для этого мд5 и существет, иначе бы просто размер сравнивали. А вот, надеюсь, разных файлов с одинаковыми мд5 не бывает. Да, но в базе - неправильный мд5!
Цитата 1_абрам ( ) А какой процент ущербных (с непр. мд5) файлов на либрусеке и флибусте?
Для такой статистики мне нужен минимум терабайт свободного места и месяц на просчеты.. Но думаю, что достаточно большой по количеству, а по процентам - не очень. Но, сам понимаешь, судить по процентам - некорректно. Тогда надо уточнять процент того, что тебя интересует а не общий процент. В любом случае я это делать буду, но не сейчас. Сейчас, как минимум, мне надо перевести всю свою библиотеку в новый формат, а это слишком долгий процесс. Начать с того, что перебрать сервер, поставить и настроить линуху, почистить 4 терабайта дерьма, переразбить и последовательно перелить всё с дисков на диски с перераспределением оставшегося, а тогда на освободившемся месте разворачивать всю библиотеку (точнее, три) и проводить анализ. В общем - куча всего
drSerj
|
|
| |
burbond | Дата: Пятница, 29.11.2013, 00:09 | Сообщение # 698 |
Генерал-майор
Группа: Проверенные
Сообщений: 252
Статус: Offline
| Цитата drserj ( ) Слепил конвертор из каталогов с обычным контентом в фиксированный формата .\xx\yy\md5.zip Ух ты-ы-ы... Чего-то я выпал из ритма жизни. А тут, оказывается, такие дела разворачиваются... А конвертор уже встроенный, когда можно испытать? Тогда, наверное, предложения и появятся.
|
|
| |
Alex_noo | Дата: Пятница, 29.11.2013, 00:48 | Сообщение # 699 |
Рядовой
Группа: Пользователи
Сообщений: 14
Статус: Offline
| Цитата drserj ( ) толпа стала дико возражать, типа не хотим менять структуру своего калохранилища. За оценку читателей/пользователей, и их библиотек заодно, спасибо, конечно. На добром слове, так сказать. *мрачно*Добавлено (28.11.2013, 23:42) ---------------------------------------------
Цитата drserj ( ) Рекомендуется к формату по-умолчанию. В отличие от майрулибовского формата - всего 2 уровня вложенности (не считая путей к папкам хранения), не урезается имя файла. http://img440.imageshack.us/img440/7536/4qn8.png -- вам вот эти % ничего не говорят? http://img43.imageshack.us/img43/6164/b3n7.png -- а вот это? Нету никакого формата в MyRuLib, есть только предустановки экспорта! Не знаю, правда, как MRL качает сама - какая тогда структура... не пользуюсь этим...Добавлено (28.11.2013, 23:44) ---------------------------------------------
Цитата drserj ( ) А для чего это - думаю, и так понятно. Для формирования прямой ссылки, дабы не сканировать все подкаталоги на предмет наличия файла по шаблону. Как-будто без архива нельзя хранить пути к файлам в базе...Добавлено (28.11.2013, 23:48) ---------------------------------------------
Цитата 1_абрам ( ) А вот, надеюсь, разных файлов с одинаковыми мд5 не бывает. Бывают. *ласково* Но размер будет сильно-сильно отличаться...
|
|
| |
drserj | Дата: Пятница, 29.11.2013, 10:32 | Сообщение # 700 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата burbond ( ) А конвертор уже встроенный, когда можно испытать? Тогда, наверное, предложения и появятся. Не, отдельный, но требует запущенной программы. Допроверяю и выложу с новой версией.
drSerj
|
|
| |
drserj | Дата: Пятница, 29.11.2013, 10:38 | Сообщение # 701 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата Alex_noo ( ) За оценку читателей/пользователей, и их библиотек заодно, спасибо, конечно. На добром слове, так сказать. *мрачно* Ой, мы-таки проснулись, ядиком поплеваться
Цитата Alex_noo ( )
А кто про экспорт говорил? Разговор про способ хранения контента...
Цитата Alex_noo ( ) Не знаю, правда, как MRL качает сама - какая тогда структура... не пользуюсь этим...
Вот-вот... как всегда, не знаю, но влезу. А разговор, как раз, про 3 уровня при скачке (соответственно и хранении) контента в майрулибе.
Цитата Alex_noo ( ) Бывают. *ласково* Но размер будет сильно-сильно отличаться...
Угу, начиная с одного бита... (ну, учитывая ФС - байта). Отличие, конечно большое. А так же при абсолютно одинаковом размере тоже мд5 могут совпасть. Размер абсолютно не при чем.
drSerj
|
|
| |
1_абрам | Дата: Пятница, 29.11.2013, 11:22 | Сообщение # 702 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj Угу, начиная с одного бита... (ну, учитывая ФС - байта). Отличие, конечно большое. А так же при абсолютно одинаковом размере тоже мд5 могут совпасть. Размер абсолютно не при чем.
Насколько я понимаю вероятность то что md5(X)=md5(Y) при несовпадающих X и Y очень мала, не смог правда найти значение этой вероятности.
|
|
| |
drserj | Дата: Пятница, 29.11.2013, 11:45 | Сообщение # 703 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) Насколько я понимаю вероятность то что md5(X)=md5(Y) при несовпадающих X и Y очень мала, Ну, понятие "мала" - относительно. Я же говорил, проблемы на единичных экземплярах могут быть, это неизбежно при таком неоднозначном бардаке. Пока сам случайно не нарвешься - вычислить очень сложно. А по этому - забиваем на этот вопрос, он малоактуален. Актуальна проблема с отсутствием однозначного идентификатора файла в базе, но решение, которое могло бы удовлетворить всех - пока отсутствует. Так же надо решить проблему с тысячниками, которые на данный момент тоже частично неактуальны. Но это приведет к созданию очередных новых сборок, что тоже не есть хорошо. Впрочем, пока не напишу конвертор и не получу первых статданных - какой процент потерь - не смогу сказать. А в связи с тем, что Ларин начал затыкать дырки в базе новыми книгами - опираться на либрус вообще нереально. Короче, вроде версия работает, конвертор для желающих перейти на новый формат есть. Переделаю кой-че в хелпе и выложу новую версию. А там - будь, что будет
drSerj
|
|
| |
1_абрам | Дата: Пятница, 29.11.2013, 13:38 | Сообщение # 704 |
Генералиссимус
Группа: Друзья
Сообщений: 1207
Статус: Offline
| Цитата drserj Но это приведет к созданию очередных новых сборок В этих сборках уйдет проблема разных букидов у либрусека и флибусты и неправильных мд5. Надо бы подумать о формате для распространения архивов через торенты. Наверно, архивы-тысячники, либо обновления за месяц, внутри архивов файлы \xx\yy\md5.zip .Добавлено (29.11.2013, 12:38) ---------------------------------------------
Цитата drserj опираться на либрус вообще нереально Я отказался от либрусек сразу после появления флибусты.
|
|
| |
drserj | Дата: Пятница, 29.11.2013, 13:58 | Сообщение # 705 |
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Статус: Offline
| Цитата 1_абрам ( ) В этих сборках уйдет проблема разных букидов у либрусека и флибусты и неправильных мд5. Надо бы подумать о формате для распространения архивов через торенты. Наверно, архивы-тысячники, либо обновления за месяц, внутри архивов файлы \xx\yy\md5.zip . Да есть это всё, только веры ему нет...
Цитата 1_абрам ( ) Я отказался от либрусек сразу после появления флибусты.
Не всё есть на флибусте, то что есть на либрусе...
drSerj
|
|
| |
|