LibRusLib
Четверг, 28.03.2024, 18:35
Приветствую Вас Гость | RSS
 
Главная ФорумРегистрацияВход
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Архив - только для чтения
Форум » Архив "MultiLib - Библиотекарь" » Бета-тестирование » Бета-тестирование (Бета-тестирование)
Бета-тестирование
1_абрамДата: Четверг, 28.11.2013, 14:53 | Сообщение # 691
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Такую идею хотелось бы обсудить.
 
Есть книжка в приватной библиотеке.  Нельзя ли  автоматически заполнять всю имеющуюся о ней информацию используя БД флибусты и либгена?
 
drserjДата: Четверг, 28.11.2013, 15:56 | Сообщение # 692
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Слепил конвертор из каталогов с обычным контентом в фиксированный формата .\xx\yy\md5.zip
Обрабатывать только книги с либруса и флибусты, архивы-тысячники не обрабатываются, они игнорируются.

Основные возможности:

- Обработка отдельными каталогами, указанными в настройках библиотеки
- Два варианта поиска файлов:
  •  по базе после актуализации - смотрит список книг с пометкой "Скачано" и по этому списку копирует (переносит) файлы
  •  по списку файлов в каталоге (по идее - медленнее, но реально - не факт) - сканирует каталоги на предмет наличия файлов, пытается найти в базе соответствия (имя файла, букид или мд5 в имени файла), если находит - обрабатывается.


- Возможность либо копирования с переименованием, либо переноса с переименованием.
Можно (и нужно) копировать или переносить в другой каталог. Можно просто создать структуру внутри существующего. Почему лучше в другой каталог - проще проконтролировать. Старый потом можно удалить, а новый - переименовать.

- Алгоритм тот же что и в актуализации (кстати, пока писал конвертор - нашел пару неточностей в актуализаторе. поправил).
Естественно, после конвертации, если вы делали перенос - в исходном каталоге могут остаться файлы. Это либо файлы, которые программа не смогла распознать, либо файлы, описание которых отсутствует в базе, либо дубли.

Предупреждаю сразу, конвертор не пересчитывает МД5. По этому реальный МД5 внутри архива может не совпасть с тем что в имени файла и в базе. Иначе, как на флибусте, потеряете связь между базой и файлом.
Все файлы - zip-архивы. Даже если у вас были неупакованные файлы, конвертор их заархивирует. Если у вас был к файлу книги файл описания - оба добавятся в архив. Главное, что бы имя файла книги и имя файла описания совпадали, а расширение файла описания было .fbd
ZIP-архивы не перепаковываются а просто переименовываются. Внутри архива имена файлов остаются оригинальные.
Многофайловые архивы (архивы, в которых несколько книг, например, архивы-тысячники) не обрабатываются. Для них будет отдельная программа-конвертор. Эта программа обрабатывает только одиночные книги, накачанные с библиотек.



Какие еще пожелания, предложения, замечания будут к конвертору?
Прикрепления: 8924116.jpg (40.1 Kb)


drSerj
 
drserjДата: Четверг, 28.11.2013, 16:04 | Сообщение # 693
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Есть книжка в приватной библиотеке.  Нельзя ли  автоматически заполнять всю имеющуюся о ней информацию используя БД флибусты и либгена?

А по какому критерию ее искать в базе флибусты/либруса?

Я думаю чуть позже сделать возможность добавления информации о книге из онлайн-библиотеки в приватную. Но это только планы.


drSerj
 
1_абрамДата: Четверг, 28.11.2013, 16:37 | Сообщение # 694
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj
имя файла, букид или мд5 в имени файла


  А если в БД  несколько файлов с одинаковым именем?
 
drserjДата: Четверг, 28.11.2013, 18:38 | Сообщение # 695
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
А если в БД  несколько файлов с одинаковым именем?

Вряд ли, но посмотрю. В любом случае возьмет первое найденное. А по другому - не получится. Тем более, что имеется приоритет - букид, потом имя файла. 
При любом раскладе ошибки будут, но единичные. Я, например, недавно скачал книгу (новой версией) а в ней - контроль мд5. И тут же нарвался на несоответствие. Причем, это djvu, размер совпадает, а мд5 - нет. Вот и думай, даже мд5 - и то не 100% гарантия. Ее вообще при данном раскладе нет. В обеих библиотеках - полный развал и несхождение. Конвертор просто производит массовую работу. Единичные ошибки (если случайно кто нарвется) можно и ручками поправить. 
А вот если я сейчас реально пересчитаю МД5 и переименую файлы по правильным хэшам - будет полный п.... Так что, при таких делах - всё что можно - я выжал, остальное - звиняйте.
Я вот сижу сейчас и думаю что с тысячниками делать... Вообще жопа полная...


drSerj
 
1_абрамДата: Четверг, 28.11.2013, 19:06 | Сообщение # 696
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj
размер совпадает, а мд5 - нет.


 
Ну для этого мд5 и существет, иначе бы просто размер сравнивали.  А вот, надеюсь,  разных файлов с одинаковыми мд5 не бывает.

Добавлено (28.11.2013, 18:06)
---------------------------------------------

Цитата drserj
Я вот сижу сейчас и думаю что с тысячниками делать... Вообще жопа полная...

  А какой процент ущербных (с непр. мд5) файлов на либрусеке и   флибусте?
 
drserjДата: Четверг, 28.11.2013, 19:19 | Сообщение # 697
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Ну для этого мд5 и существет, иначе бы просто размер сравнивали.  А вот, надеюсь,  разных файлов с одинаковыми мд5 не бывает.

Да, но в базе - неправильный мд5!

Цитата 1_абрам ()
А какой процент ущербных (с непр. мд5) файлов на либрусеке и   флибусте?


Для такой статистики мне нужен минимум терабайт свободного места и месяц на просчеты.. Но думаю, что достаточно большой по количеству, а по процентам - не очень. Но, сам понимаешь, судить по процентам - некорректно. Тогда надо уточнять процент того, что тебя интересует а не общий процент.
В любом случае я это делать буду, но не сейчас. Сейчас, как минимум, мне надо перевести всю свою библиотеку в новый формат, а это слишком долгий процесс. Начать с того, что перебрать сервер, поставить и настроить линуху, почистить 4 терабайта дерьма, переразбить и последовательно перелить всё с дисков на диски с перераспределением оставшегося, а тогда на освободившемся месте разворачивать всю библиотеку (точнее, три) и проводить анализ. В общем - куча всего smile


drSerj
 
burbondДата: Пятница, 29.11.2013, 00:09 | Сообщение # 698
Генерал-майор
Группа: Проверенные
Сообщений: 252
Репутация: 0
Статус: Offline
Цитата drserj ()
Слепил конвертор из каталогов с обычным контентом в фиксированный формата .\xx\yy\md5.zip

Ух ты-ы-ы... Чего-то я выпал из ритма жизни.  smile А тут, оказывается, такие дела разворачиваются...   А конвертор уже встроенный, когда можно испытать?  Тогда, наверное, предложения и появятся.  smile
 
Alex_nooДата: Пятница, 29.11.2013, 00:48 | Сообщение # 699
Рядовой
Группа: Пользователи
Сообщений: 14
Репутация: 0
Статус: Offline
Цитата drserj ()
толпа стала дико возражать, типа не хотим менять структуру своего калохранилища.
    За оценку читателей/пользователей, и их библиотек заодно, спасибо, конечно. На добром слове, так сказать. *мрачно*

Добавлено (28.11.2013, 23:42)
---------------------------------------------

Цитата drserj ()
Рекомендуется к формату по-умолчанию. В отличие от майрулибовского формата - всего 2 уровня вложенности (не считая путей к папкам хранения), не урезается имя файла.
     http://img440.imageshack.us/img440/7536/4qn8.png -- вам вот эти % ничего не говорят?
    http://img43.imageshack.us/img43/6164/b3n7.png -- а вот это?
    Нету никакого формата в MyRuLib, есть только предустановки экспорта!
Не знаю, правда, как MRL качает сама - какая тогда структура... не пользуюсь этим...

Добавлено (28.11.2013, 23:44)
---------------------------------------------

Цитата drserj ()
А для чего это - думаю, и так понятно. Для формирования прямой ссылки, дабы не сканировать все подкаталоги на предмет наличия файла по шаблону.
    Как-будто без архива нельзя хранить пути к файлам в базе...

Добавлено (28.11.2013, 23:48)
---------------------------------------------

Цитата 1_абрам ()
А вот, надеюсь,  разных файлов с одинаковыми мд5 не бывает.
    Бывают. *ласково* Но размер будет сильно-сильно отличаться...
 
drserjДата: Пятница, 29.11.2013, 10:32 | Сообщение # 700
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата burbond ()
А конвертор уже встроенный, когда можно испытать?  Тогда, наверное, предложения и появятся.
 
Не, отдельный, но требует запущенной программы. Допроверяю и выложу с новой версией.


drSerj
 
drserjДата: Пятница, 29.11.2013, 10:38 | Сообщение # 701
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата Alex_noo ()
За оценку читателей/пользователей, и их библиотек заодно, спасибо, конечно. На добром слове, так сказать. *мрачно*

Ой, мы-таки проснулись, ядиком поплеваться smile

    
Цитата Alex_noo ()
http://img440.imageshack.us/img440/7536/4qn8.png -- вам вот эти % ничего не говорят?     http://img43.imageshack.us/img43/6164/b3n7.png -- а вот это?     Нету никакого формата в MyRuLib, есть только предустановки экспорта!


А кто про экспорт говорил? Разговор про способ хранения контента...

Цитата Alex_noo ()
Не знаю, правда, как MRL качает сама - какая тогда структура... не пользуюсь этим...


Вот-вот... как всегда, не знаю, но влезу. А разговор, как раз, про 3 уровня при скачке (соответственно и хранении) контента в майрулибе.

 
Цитата Alex_noo ()
Бывают. *ласково* Но размер будет сильно-сильно отличаться...


Угу, начиная с одного бита... (ну, учитывая ФС - байта). Отличие, конечно большое. А так же при абсолютно одинаковом размере тоже мд5 могут совпасть. Размер абсолютно не при чем.


drSerj
 
1_абрамДата: Пятница, 29.11.2013, 11:22 | Сообщение # 702
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj
Угу, начиная с одного бита... (ну, учитывая ФС - байта). Отличие, конечно большое. А так же при абсолютно одинаковом размере тоже мд5 могут совпасть. Размер абсолютно не при чем.


 
 
Насколько я понимаю вероятность  то что md5(X)=md5(Y)  при несовпадающих X и Y очень мала,   не смог правда найти значение этой вероятности.
 
drserjДата: Пятница, 29.11.2013, 11:45 | Сообщение # 703
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
Насколько я понимаю вероятность  то что md5(X)=md5(Y)  при несовпадающих X и Y очень мала,

Ну, понятие "мала" - относительно. Я же говорил, проблемы на единичных экземплярах могут быть, это неизбежно при таком неоднозначном бардаке. Пока сам случайно не нарвешься - вычислить очень сложно. А по этому - забиваем на этот вопрос, он малоактуален. Актуальна проблема с отсутствием однозначного идентификатора файла в базе, но решение, которое могло бы удовлетворить всех - пока отсутствует. Так же надо решить проблему  с тысячниками, которые на данный момент тоже частично неактуальны. Но это приведет к созданию очередных новых сборок, что тоже не есть хорошо. Впрочем, пока не напишу конвертор и не получу первых статданных - какой процент потерь - не смогу сказать. А в связи с тем, что Ларин начал затыкать дырки в базе новыми книгами - опираться на либрус вообще нереально. 
Короче, вроде версия работает, конвертор для желающих перейти на новый формат есть. Переделаю кой-че в хелпе и выложу новую версию. А там - будь, что будет smile


drSerj
 
1_абрамДата: Пятница, 29.11.2013, 13:38 | Сообщение # 704
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата drserj
Но это приведет к созданию очередных новых сборок

 
В этих сборках уйдет проблема разных букидов  у либрусека и флибусты и неправильных  мд5.  Надо бы подумать о формате для распространения архивов через торенты.  Наверно,  архивы-тысячники,  либо обновления за месяц, внутри архивов файлы  \xx\yy\md5.zip .

Добавлено (29.11.2013, 12:38)
---------------------------------------------

Цитата drserj
опираться на либрус вообще нереально

 
 
Я отказался от либрусек сразу после появления флибусты.
 
drserjДата: Пятница, 29.11.2013, 13:58 | Сообщение # 705
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата 1_абрам ()
В этих сборках уйдет проблема разных букидов  у либрусека и флибусты и неправильных  мд5.  Надо бы подумать о формате для распространения архивов через торенты.  Наверно,  архивы-тысячники,  либо обновления за месяц, внутри архивов файлы  \xx\yy\md5.zip .

Да есть это всё, только веры ему нет...

Цитата 1_абрам ()
Я отказался от либрусек сразу после появления флибусты.


Не всё есть на флибусте, то что есть на либрусе...


drSerj
 
Форум » Архив "MultiLib - Библиотекарь" » Бета-тестирование » Бета-тестирование (Бета-тестирование)
Поиск:

Copyright LibRusLib © 2024