LibRusLib
Вторник, 19.03.2024, 17:04
Приветствую Вас Гость | RSS
 
Главная ФорумРегистрацияВход
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Форум » Unilib » Проектирование и разработка » Обсуждение проекта (Обсуждение проекта)
Обсуждение проекта
drserjДата: Понедельник, 31.10.2016, 21:26 | Сообщение # 1
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Unilib - программа для создания локальных библиотек.

Unilib представляет собой развитый офлайновый каталогизатор локальной библиотеки с автоматизированной пакетной обработкой импортируемых книг. Программа позволяет производить автоматический отбор книг по критериям, заданным пользователем, отсеивать дубликаты и.т.д.

Особенности Unilib-а:

1) Поддержка нескольких библиотек.
2) Импорт/экспорт личных данных.
3) Возможность обмена данными с другими библиотеками Unilib.

Ориентировочная структура БД

Структура модуля импорта
 
drserjДата: Суббота, 29.04.2017, 15:52 | Сообщение # 181
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Осуществлять поиск дублей уже в самой базе


то есть по мд5 сразу не отсеивать ?????

Цитата 1_абрам ()
Цель (например) - создание подборки еще не оцифрованных книг.


да на здоровье, кто же против-то???

Цитата 1_абрам ()
Каким образом?


ручками... чай SQL знаем smile


drSerj
 
PFNДата: Суббота, 29.04.2017, 18:08 | Сообщение # 182
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
то есть по мд5 сразу не отсеивать

По МД5 отсеивать сразу и без всяких сомнений!!! Это файлы/книги 100% близнецы.
Я имел в виду только дубли у которых МД5 разный, а книга та же самая... и она попадает в базу...
Вот для таких и нужна возможность поиска и полного удаления файла/книги прямо из базы...


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Суббота, 29.04.2017, 20:22 | Сообщение # 183
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Вот для таких и нужна возможность поиска и полного удаления файла/книги прямо из базы...


дык по-умолчанию добавляются только книги, которые fb2 с достаточным описанием, md5 которых отсутствует в базе. Остальные попадают в отсев, откуда их можно принудительно добавить. Ну, по поводу совпадений по названию/автору - тут вопрос интересный. Впрочем, как и вопрос по самим авторам... Эти разночтения в написаниях имен/фамилий, отсутствие отчеств... короче, не знаю...


drSerj
 
PFNДата: Воскресенье, 30.04.2017, 01:30 | Сообщение # 184
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
Ну, по поводу совпадений по названию/автору - тут вопрос интересный. Впрочем, как и вопрос по самим авторам... Эти разночтения в написаниях имен/фамилий, отсутствие отчеств... короче, не знаю...

Именно о таких случаях я и веду речь. Из-за них мне и пришлось писать свою программку...
В Мультилибе можно найти такие дубли и убрать информацию о них из базы, используя поиск..., но удалить этот мусор с диска непосредственно из программы - никак...

Итак:
1. Поиск фактически уже есть... Надо только, чтобы в табличку результатов заносились все книги соответствующие критерию поиска.
2. Нужна возможность сравнить 2 файла/книги (можно табличку, как на моем скрине или что-то подобное)
3. Выбрать лучший... (вкус и цвет...) smile
4. Удалить инфо из базы
5 Удалить файл с диска.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно


Сообщение отредактировал PFN - Воскресенье, 30.04.2017, 01:32
 
drserjДата: Воскресенье, 30.04.2017, 16:39 | Сообщение # 185
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
но удалить этот мусор с диска непосредственно из программы - никак...


он на это не рассчитан..

Цитата PFN ()
Нужна возможность сравнить 2 файла


что сравнивать?


drSerj
 
PFNДата: Воскресенье, 30.04.2017, 19:24 | Сообщение # 186
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
он на это не рассчитан..

Я об этом и говорю... smile 
Поэтому и твержу все время: Сделайте возможность удалять ненужные файлы книг непосредственно с диска...

Цитата drserj ()
что сравнивать?

Ну, хотя бы так...

Прикрепления: 7812209.jpg (147.3 Kb)


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Воскресенье, 30.04.2017, 19:36 | Сообщение # 187
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Ну, хотя бы так...

Так у меня было в моей старой версии.... Правда, свет она не увидела, но на ее основе был создан либруслиб а потом и мультилиб.


Цитата PFN ()
Сделайте возможность удалять ненужные файлы книг непосредственно с диска...


В юнилибе будет... надеюсь smile
Прикрепления: 6684795.jpg (58.8 Kb)


drSerj
 
PFNДата: Понедельник, 01.05.2017, 11:34 | Сообщение # 188
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
Так у меня было в моей старой версии.... Правда, свет она не увидела, но на ее основе был создан либруслиб

Именно из либруслиба я эту идею и почерпнул... Жаль, что этого уже не было в Мультилибе...
На мой взгляд - это самый эффективный способ борьбы с дублями, которые не отсеялись по МД5 и были внесены в базу...

Цитата drserj ()
В юнилибе будет... надеюсь

А уж как я надеюсь... smile
Без этой функции программа очень много теряет в плане самодостаточности.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
drserjДата: Понедельник, 01.05.2017, 11:39 | Сообщение # 189
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
Жаль, что этого уже не было в Мультилибе...


мультилиб заточен под сетевые библиотеки, там эти функции, как-бы, и не нужны...

Цитата PFN ()
Без этой функции программа очень много теряет в плане самодостаточности.


ну не знаю, предпочитаю, пока-что, накапливать а не удалять smile

А насчет удалений и прочих действий - их можно осуществлять только, если контент - единичные файлы (архивы). Многофайловые архивы недопустимы. Очень сложно и долго работать с тысячниками. Попробуй перепакуй...


drSerj
 
drserjДата: Понедельник, 01.05.2017, 18:14 | Сообщение # 190
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Так, небольшие уточнения. Я правильно понял?

Импорт (обработка идет в процессе сканирования)
При сканировании варианты
1. Проверять MD5 и (не) пускать в обработку
2. Проверять имя файла + размер и (не) пускать в обработку
При обработке (в отсев)
1. Проверять MD5 и (не) добавлять в базу
2. Проверять дубликаты (какие параметры?) и (не) добавлять в базу
3. Прохождение через фильтр по пользовательским критериям отбора (каким?)

Контент
1. %Z – структура создается в указанном каталоге. Допускается хранение в нескольких каталогах, но добавляется в один указанный.
2. Имя_файла.zip. Имя файла формируется по шаблону, указанному пользователем, сюда же входит структура каталогов (например ".\И\Иванов Иван\Название книги1.zip". Допускается хранение в нескольких корневых каталогах, но добавляется в один указанный.
3. Не меняется, создан автором с его собственной структурой. Программа сканирует каталог, заносит данные в базу. Привязывается к пути и имени файла.

Удаление книг – только в случае, когда одна книга – один файл. Тысячники не обрабатываются.

какие еще пожелания, уточнения по этим 2м моментам? 


drSerj
 
PFNДата: Вторник, 02.05.2017, 00:11 | Сообщение # 191
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата drserj ()
При сканировании варианты

Оба пункта принимаются без возражений.

Цитата drserj ()
При обработке (в отсев)

Не совсем понятен № 1.
МД5 уже сверялся с базой при сканировании и при совпадении отсеивался.
Какой тогда смысл снова проверять МД5 среди уже допущенных до обработки?

По № 2.
Т.к. это уже идет процесс обработки, то основными критериями могут быть:
- Фамилия и имя автора + Название книги;
- Фамилия и имя автора + Название серии (авторской, а не издательских) + Название книги.

По № 3.
Думаю, что здесь могут быть только тематические критерии, т.е. отбор по жанрам или по форматам файлов (fb2, txt  и т.п.)
Но по форматам файлы можно отобрать еще на этапе сканирования.

Ну, а отбор по языку вам категорически не нравится... поэтому и не предлагаю... smile

Цитата drserj ()
Контент

Все принимается, в т.ч. и политика по удалению книг.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
1_абрамДата: Вторник, 02.05.2017, 11:16 | Сообщение # 192
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата PFN ()
Оба пункта принимаются без возражений.


+1

Я правильно понимаю, что возможны три варианта сканирования: 1, 2,1+2?

Добавлено (02.05.2017, 09:00)
---------------------------------------------

Цитата PFN ()
Не совсем понятен № 1.
МД5 уже сверялся с базой при сканировании и при совпадении отсеивался.
Какой тогда смысл снова проверять МД5 среди уже допущенных до обработки?


+1

Добавлено (02.05.2017, 09:11)
---------------------------------------------

Цитата drserj ()
При обработке (в отсев)


По пункту 2 и 3. А что это за дубликаты. Имеются в виду разные редакции одной и той же книги (разные версии в фб2, разные годы издания и т.п.)?

Добавлено (02.05.2017, 09:14)
---------------------------------------------

Цитата drserj ()
Контент
1. %Z – структура создается в указанном каталоге. Допускается хранение в нескольких каталогах, но добавляется в один указанный.
файла.


А что означает "добавляется в один указанный"? Допускаются ли файлы, содержащие только fbd?

Добавлено (02.05.2017, 09:16)
---------------------------------------------

Цитата drserj ()
Тысячники не обрабатываются.


Я бы их вообще не поддерживал.
 
PFNДата: Вторник, 02.05.2017, 11:37 | Сообщение # 193
Генерал-майор
Группа: Друзья
Сообщений: 206
Репутация: 0
Статус: Offline
Цитата 1_абрам ()
Я правильно понимаю, что возможны три варианта сканирования: 1, 2,1+2?

Да, правильно... 

Цитата 1_абрам ()
По пункту 2 и 3. А что это за дубликаты. Имеются в виду разные редакции одной и той же книги (разные версии в фб2, разные годы издания и т.п.)?

Разные издания, переводы, версии - это для гурманов... smile
Лично для меня достаточно иметь/оставить в базе только один (лучший, по моему мнению) вариант книги.. Почти по Маклауду: "Должен остаться только один..." smile

Цитата 1_абрам ()
Я бы их вообще не поддерживал.

Я бы тоже их убрал, но... автор, как я понял, предпочитает держать весь контент в архивах. Поэтому я дипломатично промолчу...
Достаточно и что, что каждый пользователь может сам выбрать способ хранения контента.


===============================
Приказ, который может быть понят неправильно, обязательно будет понят неправильно
 
1_абрамДата: Вторник, 02.05.2017, 11:48 | Сообщение # 194
Генералиссимус
Группа: Друзья
Сообщений: 1207
Репутация: 0
Статус: Offline
Цитата PFN ()
но... автор, как я понял, предпочитает держать весь контент в архивах


Не, drserj использует %Z.
 
drserjДата: Вторник, 02.05.2017, 12:28 | Сообщение # 195
Генералиссимус
Группа: Администраторы
Сообщений: 4693
Репутация: 30
Статус: Offline
Цитата PFN ()
МД5 уже сверялся с базой при сканировании и при совпадении отсеивался.

Слово (не) подразумевает что либо пускать, либо нет. По этому дубль с мд5 может пройти по первому условию и попасть в отсев с последующим принятием решения, либо отсеестя сразу, либо без вопросов добавится в базу.
Цитата PFN ()
Ну, а отбор по языку вам категорически не нравится
Да мне абсолютно всё равно. То  что лично мне не надо - дык и не буду использовать smile

Цитата 1_абрам ()
Я бы их вообще не поддерживал.
Я бы тоже, но в импорте имеют место быть, и вариант с неизменяемой коллекцией так же подразумевает их использование, но только на R/O

Цитата 1_абрам ()
Я правильно понимаю, что возможны три варианта сканирования: 1, 2,1+2?

не... зачем? вариант по мд5 - точный но долгий, имя+размер - менее точный но быстрый. Зачем проверять мд5+размер+имя ? smile

Цитата PFN ()
Да, правильно... 

Неправильно. см.выше. 

Цитата 1_абрам ()
По пункту 2 и 3. А что это за дубликаты.

Например, одно и то же название одного автора

Цитата 1_абрам ()
добавляется в один указанный

А то и значит, есть несколько корневых каталогов на разных дисках, в которых хранятся книги. Но  какой из них кидать при импорте новые? Правильно, в тот, который указан по-умолчанию.

Цитата 1_абрам ()
Я бы тоже их убрал, но... автор, как я понял, предпочитает держать весь контент в архивах.

Автору больше нечего делать, как медитировать на индикатор поиска по несколько минут на книгу smile Действительно, %Z  - наше всё.


drSerj
 
Форум » Unilib » Проектирование и разработка » Обсуждение проекта (Обсуждение проекта)
Поиск:

Copyright LibRusLib © 2024