Для регистрации необходимо направить следующие данные на почтовый ящик Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
Фамилия
Имя
Отчество
Логин
Благодаря этим характеристикам пользователи системы имеют возможность представлять свои ресурсы в Интернет, включать их в распределенные корпоративные ресурсы, осуществлять непосредственное онлайновое заимствование готовых библиографических описаний из электронных каталогов других библиотек и корпоративных систем.
В системе реализованы все типовые библиотечные технологии, включая технологии комплектования, систематизации, каталогизации, читательского поиска, книговыдачи и администрирования, на основе взаимосвязанного функционирования следующих автоматизированных рабочих мест (АРМ):
АРМ "КОМПЛЕКТАТОР"
АРМ "КАТАЛОГИЗАТОР"
АРМ "АДМИНИСТРАТОР"
Рабочее место специалиста, выполняющего системные операции над базами данных в целом, направленные на поддержание их актуальности, целостности и сохранности.
АРМ "КНИГОВЫДАЧА"
АРМ "ЧИТАТЕЛЬ"
АРМ "КНИГООБЕСПЕЧЕННОСТЬ"
Прайс-лист (с 01.01.2024 г.)
Цены указаны в рублях
Код |
Линейка |
САБ ИРБИС64 |
||||
Windows |
Linux |
Наименование |
Лицензия |
ИТС 12 месяцев |
||
002 |
✓ |
✓ |
ИРБИС-сервер Турбо* |
10 клиентских подключений |
130 000 |
30 000 |
049 |
✓ |
✓ |
1 дополнительное клиентское подключение** |
4 400 |
1 500 |
|
006 |
✓ |
✓ |
без ограничения клиентских подключений |
300 000 |
60 000 |
|
001 |
✓ |
- |
ИРБИС-сервер для Windows* |
10 клиентских подключений |
- |
20 000 |
004 |
✓ |
- |
1 дополнительное клиентское подключение** |
4 400 |
1 500 |
|
005 |
✓ |
- |
без ограничения клиентских подключений |
- |
60 000 |
|
007 |
✓ |
✓ |
АРМ «Каталогизатор ИРБИС64» |
60 000 |
8 500 |
|
008 |
✓ |
✓ |
АРМ «Комплектатор ИРБИС64» |
60 000 |
8 500 |
|
009 |
✓ |
✓ |
АРМ «Книговыдача ИРБИС64» |
60 000 |
8 500 |
|
010 |
✓ |
✓ |
АРМ «Книгообеспеченность ИРБИС64» |
60 000 |
8 500 |
|
040 |
✓ |
✓ |
Комплексное решение АБИС ИРБИС64/128*, *** |
950 000 |
200 000 |
|
041 |
✓ |
✓ |
Комплексное решение Электронная библиотека ИРБИС64/128*, *** |
950 000 |
200 000 |
|
042 |
✓ |
✓ |
Базовый комплект* |
для общеобразовательных школ |
30 000 |
30 000 |
054 |
✓ |
✓ |
для СПО |
40 000 |
40 000 |
|
011 |
✓ |
- |
ИРБИС-Навигатор |
60 000 |
8 500 |
|
012 |
✓ |
✓ |
«Web-ИРБИС64»* |
60 000 |
8 500 |
|
015 |
✓ |
- |
Сервер приложений ИРБИС128 |
- |
60 000 |
|
016 |
✓ |
- |
АРМ «Каталогизатор ИРБИС128» для Windows |
- |
8 500 |
|
017 |
✓ |
- |
АРМ «Книговыдача ИРБИС128» для Windows |
- |
8 500 |
|
018 |
✓ |
- |
АРМ «Сводный каталог ИРБИС128» для Windows |
- |
8 500 |
|
019 |
✓ |
- |
«Электронная библиотека ИРБИС128» |
- |
60 000 |
|
026 |
✓ |
✓ |
«Z-ИРБИС» |
98 000 |
15 000 |
|
020 |
✓ |
✓ |
АРМ «Корректор» |
60 000 |
8 500 |
|
014 |
✓ |
✓ |
«J-ИРБИС 2.0»* |
98 000 |
15 000 |
|
033 |
✓ |
✓ |
СК-SIP2* |
130 000 |
25 000 |
|
034 |
✓ |
- |
ИРБИС RFID ISO OCX |
24 000 |
4 000 |
|
035 |
✓ |
- |
Дополнительная клиентская лицензия ИРБИС RFID ISO OCX |
12 000 |
2 000 |
|
036 |
✓ |
- |
АРМ ИРБИС RFID конверсия |
24 000 |
4 000 |
|
037 |
✓ |
- |
Дополнительная клиентская лицензия АРМ ИРБИС RFID конверсия |
12 000 |
2 000 |
|
038 |
✓ |
- |
АРМ ИРБИС RFID клиент |
24 000 |
4 000 |
|
045 |
✓ |
✓ |
БД полных таблиц УДК |
25 000 |
10 000 |
|
046 |
✓ |
✓ |
БД средних таблиц ББК |
25 000 |
10 000 |
|
047 |
✓ |
✓ |
БД сокращенных таблиц ББК |
6 000 |
2 000 |
|
048 |
✓ |
✓ |
БД таблиц ББК для детских и школьных библиотек |
6 000 |
2 000 |
|
071 |
- |
✓ |
Корпоративная лицензия ИРБИС64*** |
199 000 |
50 000 |
|
073 |
- |
✓ |
1 дополнительное клиентское подключение к корпоративной лицензии |
99 000 |
25 000 |
|
* Предоставляется право установить и запустить один экземпляр программного обеспечения (ПО) на устройстве (аппаратная система (физическая или виртуальная) со встроенным запоминающим устройством, в которой может быть запущено ПО. Каждый аппаратный раздел или стоечный модуль считается устройством). В рамках действующих договоров возможен выбор: - с ИРБИС-сервером Турбо (№№:002, 006) доступны АРМы (№№:007, 008, 009, 010) одновременно под обе операционные системы - Windows и Linux. - с ИРБИС-сервер для Windows (№№:001, 005) доступны АРМы (№№:007, 008, 009, 010) только под операционную систему Windows |
||||||
** 51 клиентское подключение и выше замена на сервер без ограничения клиентских подключений |
||||||
*** Поставка программных продуктов требует предварительного согласования |
Базовый комплект САБ ИРБИС64
Код |
Линейка |
Базовый комплект* |
для общеобразовательных школ (042) |
для (054) |
||
Windows |
Linux |
Наименование |
Состав |
|||
002 |
✓ |
✓ |
ИРБИС-сервер Турбо* |
10 клиентских подключений |
✔ |
✔ |
007 |
✓ |
✓ |
АРМ «Каталогизатор ИРБИС64» |
✔ |
✔ |
|
008 |
✓ |
✓ |
АРМ «Комплектатор ИРБИС64» |
✔ |
✔ |
|
009 |
✓ |
✓ |
АРМ «Книговыдача ИРБИС64» |
✔ |
✔ |
|
010 |
✓ |
✓ |
АРМ «Книгообеспеченность ИРБИС64» |
|
✔ |
|
012 |
✓ |
✓ |
«Web-ИРБИС64»* |
✔ |
✔ |
Комплексное решение АБИС ИРБИС64/128
Код |
Линейка |
Комплексное решение АБИС ИРБИС64/128*,***(040) |
|||
Windows |
Linux |
Наименование |
Состав |
||
006 |
✓ |
✓ |
ИРБИС-сервер Турбо* |
без ограничения клиентских подключений |
✔ |
015 |
✓ |
- |
Сервер приложений ИРБИС128* |
✔ |
|
016 |
✓ |
- |
АРМ «Каталогизатор ИРБИС128» |
✔ |
|
017 |
✓ |
- |
АРМ «Книговыдача ИРБИС128» |
✔ |
|
018 |
✓ |
- |
АРМ «Сводный каталог ИРБИС128» |
✔ |
|
007 |
✓ |
✓ |
АРМ «Каталогизатор ИРБИС64» |
✔ |
|
008 |
✓ |
✓ |
АРМ «Комплектатор ИРБИС64» |
✔ |
|
009 |
✓ |
✓ |
АРМ «Книговыдача ИРБИС64» |
✔ |
|
010 |
✓ |
✓ |
АРМ «Книгообеспеченность ИРБИС64» |
✔ |
|
013 |
✓ |
✓ |
«Web-ИРБИС64 PHP»*, *** |
✔ |
Корпоративная лицензия ИРБИС64
Код |
Линейка |
Корпоративная лицензия ИРБИС64***(071) |
|||
Windows |
Linux |
Наименование |
Состав |
||
049 |
✓ |
✓ |
ИРБИС-сервер Турбо* |
2 клиентских подключения |
✔ |
007 |
✓ |
✓ |
АРМ «Каталогизатор ИРБИС64» |
✔ |
|
008 |
✓ |
✓ |
АРМ «Комплектатор ИРБИС64» |
✔ |
|
009 |
✓ |
✓ |
АРМ «Книговыдача ИРБИС64» |
✔ |
|
010 |
✓ |
✓ |
АРМ «Книгообеспеченность ИРБИС64» |
✔ |
|
026 |
✓ |
✓ |
«Z-ИРБИС» |
✔ |
|
013 |
✓ |
✓ |
«Web-ИРБИС64 PHP»*, *** |
✔ |
|
020 |
✓ |
✓ |
АРМ «Корректор» |
✔ |
С 01.01.2024 г. по 01.12.2024 г. в рамках действующего договора на ИТС возможна замена программных продуктов, поддержка которых прекращается с 01.01.2025 г.:
Код |
Наименование |
|
001 |
ИРБИС-сервер для Windows (10 клиентских подключений) |
замена на ИРБИС-сервер Турбо № 002 |
004 |
ИРБИС-сервер для Windows (1 дополнительное клиентское подключение) |
замена на ИРБИС-сервер Турбо № 049 |
005 |
ИРБИС-сервер для Windows (без ограничения клиентских подключений) |
замена на ИРБИС-сервер Турбо № 006 |
015 |
Сервер приложений ИРБИС128 |
замена на Комплексное решение АБИС ИРБИС64/128 № 040 |
016 |
АРМ «Каталогизатор ИРБИС128» для Windows |
|
017 |
АРМ «Книговыдача ИРБИС128» для Windows |
|
018 |
АРМ «Сводный каталог ИРБИС128» для Windows |
|
019 |
«Электронная библиотека ИРБИС128» |
замена на Комплексное решение Электронная библиотека ИРБИС64/128 № 041 |
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В БИБЛИОТЕКАХ
УДК 025.3:65.011.56
А. И. Бродовский
Создание имидж-каталогов в ГПНТБ России
средствами ИРБИС
Имидж-каталоги – одно из наиболее эффективных средств ретроконверсии карточных каталогов для библиотек с большим ретрофондом (т.е. тем фондом, который не отражен в полноценном электронном каталоге) и представляют собой электронную модель традиционных «бумажных» каталогов, построенную на основе оцифрованных (отсканированных) образов каталожных карточек.
Решения по созданию имидж-каталогов, которые предлагаются в настоящее время большинством разработчиков, не включают автоматического распознавания текстов карточек и строятся на основе, во-первых, индексирования карточных разделителей и, во-вторых, строгого сохранения порядка следования отсканированных образов карточек (т.е. графические файлы должны размещаться в строгом соответствии с порядком расстановки карточек в традиционном каталоге). Если при использовании таких решений за основу берутся традиционные алфавитные каталоги, то тогда в создаваемых имидж-каталогах полностью отсутствует возможность тематического (содержательного) поиска; если же за основу берутся систематические или предметные каталоги – получаются имидж-каталоги, в которых невозможен библиографический поиск (по автору, коллективу и т.п.).
В ГПНТБ России для создания имидж-каталогов использовалось решение, предлагаемое Системой автоматизации библиотек ИРБИС (разработка Ассоциации ЭБНИТ), а именно – ИРБИС Имидж-каталог (который представляет собой специализированную версию ИРБИС64 Полнотекстовые БД – [1, 2]). Это решение строится прежде всего на основе автоматического ("на лету") распознавания текстов каталожных карточек. В качестве программного обеспечения («движка») для технологии распознавания текстов используется OCR-технология фирмы ABBYY. За счет этого:
Но главной отличительной чертой ИРБИС Имидж-каталога является то, что его БД функционирует не отдельно, не как автономная система, а интегрируется в автоматизированные технологии полноценного ЭК, а именно – в технологии АРМов «Каталогизатор» и «Книговыдача» ИРБИС64 [3], что позволяет осуществлять ввод структурированных данных (например, производить роспись экземпляров ретрофонда), корректировку распознанных данных, удаление записей, списание и проверку фонда, бронирование, выдачу, возврат, продление документов и пр.
ИРБИС Имидж-каталог включает три модуля:
Администратор – для создания собственно БД имидж-каталога на основе сканированных образов каталожных карточек (пакетная операция), именно в него встроен "движок" ABBYY;
оригинальный клиент для конечного пользователя имидж-каталога;
Web-шлюз для доступа к имидж-каталогу через Интернет/Интранет.
Дополнительно для ведения БД имидж-каталога могут использоваться АРМы «Каталогизатор», «Комплектатор» и «Книговыдача» ИРБИС64.
Процесс создания имидж-каталога состоит из двух этапов (которые могут выполняться последовательно или параллельно с определенным временным лагом):
Этап сканирования представляет собой сугубо производственную задачу и предполагает наличие специального оборудования, которое позволяет сканировать каталожные карточки с высокой скоростью.
В ГПНТБ России для этих целей использовались высокоскоростные сканеры «Элар скамакс 2600М» и «Kodaki 1440» с производительностью до 30 карточек в минуту. Исходным массивом для создания имидж-каталогов были выбраны служебные алфавитные каталоги.
Каталожные карточки сканировались с двух сторон с разрешением 200dpi в палитре серой шкалы (8-BitGrayScale). В качестве графического формата использовался формат JPEG. Образ одной карточки формировался в виде двух файлов со связанными именами: Qnnnn.JPG– лицевая сторона, Wnnnn.JPG– оборотная сторона (где nnnn– порядковый номер карточки в каталожном ящике). Средний размер файла лицевой стороны карточки – 20–30 Кб, оборотной – 10–20 Кб.
Образы (файлы) карточек из одного каталожного ящика размещались в одной директории (машинного носителя) с именем, совпадающим с алфавитным разделителем ящика (разделители внутри ящиков не использовались). Например: Авербух – Авешникова; Авиаизмерения – Авраам.
Необходимо отметить, что в именах директорий (а следовательно, и в названиях разделителей) нельзя использовать такие символы, как «:», «\», «/», «*», «?», двойные кавычки. Также нельзя использовать символы «точка» и «пробел» в конце названия.
Именно такая система поименования директорий позволяет организовать поиск в имидж-каталоге по разделителям (т.е. создавать буквальную модель традиционного каталога). Необходимость поиска по разделителям (т.е. необходимость такой модели) диктуется следующими соображениями:
1. Процесс распознавания текста карточек не дает абсолютного результата – из-за их плохого состояния или низкого качества печати не весь текст распознается или часть текста распознается неверно, возможны случаи, когда текст карточки вообще не распознается; (следует особо отметить, что рукописные карточки или рукописные пометы на карточках, строго говоря, не распознаются). Это приводит к тому, что при поиске по тексту (т.е. по словам распознанного текста) какие-то карточки не будут находиться. Если не обеспечить поиска по разделителям (в качестве резервного), то плохо распознанные каталожные карточки никогда не будут найдены в имидж-каталоге. Иными словами – от поиска по разделителям в имидж-каталоге можно отказаться только в случае абсолютного качества распознавания (что практически недостижимо).
2. Есть ситуации, связанные прежде всего с библиографическим поиском, когда поиск по разделителям может оказаться более эффективным, чем поиск по словам текста. Например, нужно найти карточку на периодическое издание (журнал) с названием «Жизнь»: поиск по слову «жизнь» в имидж-каталоге достаточно большого объема приведет к очень большой выдаче, в которой будет непросто найти нужную карточку; значительно быстрее она будет найдена по алфавитным разделителям.
3. Обязательно найдутся пользователи (среди них могут быть и читатели, и библиотечные работники), которые по разным причинам захотят действовать «по старинке», т.е. поиску по словам текста предпочтут поиск по карточным разделителям. Нет никаких оснований лишать их такой возможности.
При сканировании карточных каталогов неизбежно возникает вопрос: исключать ли из процесса сканирования каталожные карточки, соответствующие «новым» изданиям, т.е. тем, которые уже отражены в полноценном электронном каталоге. По строгой логике это следовало бы делать, чтобы исключить дублирование данных в имидж-каталоге и электронном каталоге; с другой стороны, процесс отбора каталожных карточек (изъятие «новых» карточек из ящиков перед сканированием и их возврат на прежнее место после завершения процесса) является чрезвычайно трудоемким. В ГПНТБ России для всех каталогов (кроме каталога «Отечественная книга») решили допустить дублирование, чтобы не увеличивать трудоемкость и, следовательно, время выполнения всего процесса сканирования, т.е. «новые» каталожные карточки не исключались из сканирования.
В соответствии со структурой служебных каталогов независимо друг от друга сканировались следующие каталоги (и соответственно – создавались отдельные массивы образов каталожных карточек):
Каталоги |
Кол-во карточек (шт.) |
Объем файлов (Гб) |
«Отечественная книга» |
735 582 |
~124 |
«Отечественная периодика» |
276 777 |
~47 |
«Зарубежная книга» |
634 259 |
~107 |
«Зарубежная периодика» |
399 673 |
~68 |
«Неопубликованные переводы» |
429 567 |
~73 |
Итого: |
2 475 858 |
~419 |
Процесс формирования базы данных имидж-каталога – второй этап работы – представляет собой полностью пакетную обработку (разовую) на компьютере, т.е. не включает никаких ручных операций. Для выполнения этой работы служит АРМ «Администратор» из состава ИРБИС64 Полнотекстовые БД с функцией распознавания. Время выполнения работ определяется объемом исходного массива каталожных карточек и скоростью распознавания одной карточки. Время распознавания одной карточки на компьютере со средними показателями (2 Гб ОЗУ, 2,4 ГГц) – около 1,5–2 секунды (т.е. для распознавания 10 тыс. карточек необходимо примерно 6 часов). В ГПНТБ России оборотная сторона каталожных карточек распознаванию не подвергалась (поскольку в основном содержит рукописные данные служебного характера).
Таким образом в ГПНТБ России созданы пять имидж-каталогов (см. таблицу).
Конечному пользователю (читателю) для работы с имидж-каталогом предлагаются две возможности:
Пользовательский интерфейс оригинального клиентского приложения на основе ИРБИС-Навигатора (общий вид) представлен на рис. 1.
Рис. 1. Общий вид клиентского приложения на основе ИРБИС-Навигатора
для поиска в имидж-каталоге
Основным элементом интерфейса является окно («Я ищу»), куда пользователь вводит поисковый запрос на естественном языке. Результат поиска представляется в порядке убывания релевантности найденных документов (т.е. первыми показываются карточки, которые в наибольшей степени соответствуют запросу). Каждый документ представляется в виде изображения каталожной карточки, где красным цветом подчеркнуты слова текста, соответствующие исходному запросу (рис. 2).
Рис. 2. Результат поиска по имидж-каталогу
Предусмотрена возможность просмотра оборотной стороны каталожной карточки (на которой может находиться дополнительная служебная информация, в том числе инвентарные номера экземпляров).
Принципиальной возможностью является поиск похожих документов, выполняемый, разумеется, автоматически на основе оригинального алгоритма, который состоит из следующих логических операций, или шагов:
Конечный пользователь имеет возможность перейти от любого найденного документа к следующему по порядку: здесь под порядком понимается расположение соответствующих карточек в бумажном каталоге. Эта возможность незаменима в том случае, когда необходимо просмотреть продолжение документа на следующей карточке (т.е. когда библиографическое описание размещено на нескольких каталожных карточках).
Специальная ссылка предусмотрена для формирования электронного заказа на выдачу литературы: пользователь должен отметить соответствующие документы и ввести свои идентификационные данные, при этом он также имеет возможность просмотреть свою личную запись со всеми сведениями о книговыдачах. При достаточно большой выдаче пользователю предлагается возможность уточнить свой запрос, т.е. провести уточняющий поиск среди документов, найденных по последнему запросу.
Для выполнения «традиционного» поиска по алфавитным разделителям служит дополнительное окно («Алфавитный вход в ИМИДЖ-КАТАЛОГ»), куда пользователь может ввести алфавитный ключ (несколько символов или слов) и в результате переходит к последовательному просмотру каталожных карточек из соответствующего ящика.
В качестве дополнительной возможности конечному пользователю может быть предложен поиск по тематическому навигатору, под которым понимается вербальная классификационная система иерархического типа и построенный на ее основе пользовательский интерфейс (навигатор). Использование для поиска тематического навигатора (рис. 3) позволяет, с одной стороны, упростить поиск в случае широких тематических запросов, а с другой – компенсировать известные недостатки поиска с использованием свободной (ненормированной) лексики («шум» и неточность).
Рис. 3. Тематический навигатор
Пользователь имеет возможность осуществлять переходы в соответствии с иерархическими связями классификатора и горизонтальными ссылками типа «смотри также», фрагментировать классификатор и отмечать рубрики, необходимые для поиска.
Для создания такой классификационной системы предлагается специальная структурная модель. Алгоритм поиска по тематическому навигатору состоит в том, что текст запроса формируется не только на основе отмеченных пользователем рубрик классификатора, но и с использованием всех нижестоящих рубрик и связанных с ними ключевых слов («невидимо» для пользователя они присутствуют в структуре классификатора). Такая возможность ИРБИС Имидж-каталога (тематический навигатор) в ГПНТБ России пока не используется.
Интерфейс доступа к имидж-каталогу (через Web-шлюз) на сайте ГПНТБ России представлен на рис. 4. Web-шлюз позволяет реализовать те же функции, что и оригинальный клиент на основе ИРБИС-Навигатора.
Рис. 4. Доступ к имидж-каталогу на сайте ГПНТБ России
Как отмечалось выше, отличительная особенность ИРБИС Имидж-каталога в том, что он позволяет интегрировать технологию ведения баз данных имидж-каталога в среду автоматизированных технологий полноценного электронного каталога, в результате чего обеспечивается возможность выполнения в имидж-каталоге таких работ, как списание и перемещение литературы, книговыдача и др. На рис. 5 представлен интерфейс АРМа «Каталогизатор» (из состава ИРБИС64), с помощью которого можно вести базы данных имидж-каталога в полном объеме автоматизированных технологий ЭК, в частности структурировать описание издания на основе изображения каталожной карточки (если в этом есть необходимость) или проводить корректировку распознанного текста.
Рис. 5. Доступ к имидж-каталогу через АРМ «Каталогизатор»
АРМ «Книговыдача» (рис. 6) позволяет работать с электронными заказами, которые сформированы конечным пользователем имидж-каталога. Заказы читателей представляются в виде образов каталожных карточек соответствующих изданий. Предлагается специальный режим, который позволяет описывать выдаваемый экземпляр издания в момент его выдачи («на лету»). На этой основе можно осуществлять роспись экземпляров имидж-каталога в процессе книговыдачи (а не делать это предварительно в полном объеме в АРМе «Каталогизатор»).
В заключение можно отметить, что создание имидж-каталогов является практически единственным способом ретроконверсии карточных каталогов больших объемов (исчисляемых сотнями тысяч карточек). «Ручная» ретроконверсия методом клавиатурного ввода – даже с применением технологий заимствования – оказывается неприемлемой как по трудоемкости, так и по срокам выполнения.
Единственный «недостаток» имидж-каталогов – серьезные финансовые затраты, связанные с их созданием (хотя можно предположить, что затраты на «ручной» ввод, учитывая его крайнюю трудоемкость, в итоге окажутся сравнимыми с затратами на имидж-каталог). При этом надо понимать, что основная доля затрат при создании имидж-каталога (приблизительно 90%) приходится на решение исключительно производственной задачи – собственно сканирование каталожных карточек.
В этой связи следует сказать, что ГПНТБ России, располагая соответствующими производственными мощностями – высокопроизводительными сканерами и квалифицированным персоналом, готова на договорной основе выполнять работы по сканированию карточных каталогов для других библиотек, а совместно с Ассоциацией ЭБНИТ – по созданию имидж-каталогов «под ключ».
Имидж-каталоги ГПНТБ России доступны через сайт библиотеки по адресу http://library.gpntb.ru/cgi2/irbis64r_img/cgiirbis_64.exe?C21COM=F&I21DBN=TEXT_FULLTEXT&P21DBN=TEXT
Рис. 6. Работа с имидж-каталогом через АРМ «Книговыдача»
Список источников
1. Сбойчаков К. О. Перспективы развития ИРБИС: применение системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний в современной библиотеке // Науч. и техн. б-ки. – 2003. – № 10. – С. 77–83.
2. Бродовский А. И. ИРБИС64 как инструмент создания и ведения полнотекстовых баз данных / Бродовский А. И., Попов Е. В., Сбойчаков К. О. // Там же. – 2005. – № 11. – С. 71–75.
3. Бродовский А. И. Новое поколение системы автоматизации библиотек ИРБИС – ИРБИС64: от электронного каталога к полнотекстовым базам данных / Бродовский А. И., Сбойчаков К. О. // Там же. – 2005. – № 2. – С. 107–111.
Имидж-каталоги являются одним из наиболее эффективных средств ретроконверсии карточных каталогов для библиотек с большим ретрофондом (т.е. тем фондом, который не отражен в полноценном электронном каталоге) и представляют собой электронную модель традиционных “бумажных” каталогов, построенную на основе оцифрованных (отсканированных) образов каталожных карточек.
Решения по созданию имидж-каталогов, которые предлагаются в настоящее время большинством разработчиков, не включают автоматического распознавания текстов карточек и строятся на основе, во-первых, индексирования карточных разделителей и, во-вторых, строгого сохранения порядка следования отсканированных образов карточек (т.е. соответствующие графические файлы должны размещаться в строгом соответствии с порядком расстановки карточек в традиционном каталоге). Если при использовании таких решений за основу берутся традиционные алфавитные каталоги, то в создаваемых в результате этого имидж-каталогах полностью отсутствует возможность тематического (содержательного) поиска; если же за основу берутся систематические или предметные каталоги – то в результате получаются имидж-каталоги, в которых отсутствует возможность библиографического поиска (по автору, коллективу и т.п.).
В ГПНТБ России для создания имидж-каталогов использовалось решение, которое предлагается системой автоматизации библиотек ИРБИС (разработка Ассоциации ЭБНИТ), а именно – ИРБИС Имидж-каталог (который представляет собой специализированную версию ИРБИС64 Полнотекстовые БД – [2]). Данное решение строится, прежде всего, на основе автоматического ("на лету") распознавания текстов каталожных карточек. В качестве программного обеспечения (“движка”) для технологии распознавания текстов используется OCR -технология фирмы ABBYY . За счет этого:
Во-первых, реализуется полнотекстовый поиск (с ранжированием результатов, с учетом близости слов, морфологии и др.), который, включая возможности библиографического поиска для профессионалов, предлагает конечному пользователю возможности полноценного тематического поиска;
Во-вторых, не предъявляются жесткие требования к порядку сканирования и размещения образов карточек. В случае же соблюдения этого порядка полностью реализуется модель “бумажного” поиска по карточным разделителям.
Но главной отличительной чертой ИРБИС Имидж-каталога является то, что база данных имидж-каталога функционирует не отдельно, не как автономная система, а интегрируется в автоматизированные технологии полноценного электронного каталога, а именно – в технологии АРМов Каталогизатор и Книговыдача системы автоматизации библиотек ИРБИС64 [3], что позволяет осуществлять ввод структурированных данных (например, производить роспись экземпляров ретрофонда), корректировку распознанных данных, удаление записей, списание и проверку фонда, бронирование, выдачу, возврат, продление и пр.
ИРБИС Имидж-каталог включает три модуля:
- Администратор - для создания собственно базы данных имидж-каталога на основе сканированных образов каталожных карточек (пакетная операция), именно в него встроен "движок" ABBYY;
- оригинальный клиент для конечного пользователя имидж-каталога;
- Web-шлюз для доступа к имидж-каталогу через Интернет/Интранет.
Дополнительно для ведения БД имидж-каталога могут использоваться АРМы Каталогизатор, Комплектатор и Книговыдача ИРБИС64.
Собственно процесс создания имидж-каталога состоит из двух этапов (которые могут выполняться последовательно или параллельно с определенным временным лагом):
- сканирование карточного каталога;
- формирование базы данных имидж-каталога на основе сканированных образов каталожных карточек, включающее процесс автоматического распознавания их текстов.
Этап сканирования представляет собой сугубо производственную задачу и предполагает использование специального оборудования, которое позволяет осуществлять сканирование каталожных карточек с высокой скоростью.
В ГПНТБ для этих целей использовались высокоскоростные сканеры “Элар скамакс 2600М” и “ Kodak i 1440” с производительностью до 30 карточек в минуту.
В качестве исходных при создании имидж-каталогов использовались служебные алфавитные каталоги. Каталожные карточки сканировались с двух сторон с разрешением 200 dpi в палитре серой шкалы (8- Bit GrayScale ). В качестве графического формата использовался формат JPEG . Образ одной карточки формировался в виде двух файлов со связанными именами: Qnnnn . JPG – лицевая сторона, Wnnnn . JPG – оборотная сторона (где nnnn – порядковый номер карточки в каталожном ящике). Средний размер файла лицевой стороны карточки – 20-30 Кб, оборотной – 10-20 Кб. Образы (файлы) карточек из одного каталожного ящика размещались в одной директории (машинного носителя) с именем, совпадающим с алфавитным разделителем ящика (разделители внутри ящиков не использовались). Например:
Авербух – Авешникова
Авиаизмерения – Аврам
Необходимо отметить, что в именах директорий (а следовательно и в названиях разделителей) нельзя использовать такие символы, как “:”, “\”, “/”, “*”, “?”, двойные кавычки. Также нельзя использовать символы “точка” и “пробел” в конце названия.
Именно такая система поименования директорий позволяет организовать поиск в имидж-каталоге по разделителям (т.е. позволяет создавать буквальную модель традиционного каталога). Необходимость поиска по разделителям (т.е. необходимость такой модели) диктуется следующими соображениями:
- Процесс распознавания текста карточек не дает абсолютного результата, из-за их плохого состояния или низкого качества печати не весь текст распознается или часть текста распознается неверно, возможны случаи, когда текст карточки вообще не распознается; (следует особо отметить, что рукописные карточки или рукописные пометы на карточках, строго говоря, не распознаются). Это приводит к тому, что при поиске по тексту (т.е. по словам распознанного текста) какие-то карточки не будут находиться. Если не обеспечить (в качестве резервного) поиска по разделителям, то плохо распознанные каталожные карточки никогда не будут найдены в имидж-каталоге. Иными словами – от поиска по разделителям в имидж-каталоге можно отказаться только в случае абсолютного качества распознавания (что практически недостижимо);
- Есть ситуации – связанные прежде всего с библиографическим поиском, - когда поиск по разделителям может оказаться более эффективным, чем поиск по словам текста. Например, поиск карточки на периодическое издание (журнал) с названием “Жизнь”: поиск по такому слову как “жизнь” в имидж-каталоге достаточно большого объема приведет к очень большой выдаче, в которой будет непросто найти нужную карточку; значительно быстрее она будет найдена по алфавитным разделителям;
- Обязательно найдутся пользователи – среди которых могут быть и читатели и библиотечные работники, - которые по разным причинам предпочтут действовать “по старинке”, т.е. поиску по словам текста они предпочтут поиск по карточным разделителям. Нет никаких оснований лишать их такой возможности.
При сканировании карточных каталогов неизбежно возникает вопрос: исключать ли из процесса сканирования каталожные карточки, соответствующие “новым” изданиям, т.е. тем изданиям, которые уже отражены в полноценном электронном каталоге. Следуя строгой логике, это следовало бы делать, чтобы исключить дублирование данных в имидж-каталоге и электронном каталоге; с другой стороны – процесс отбора каталожных карточек (изъятие “новых” карточек из ящиков перед сканированием и их обратная вставка после сканирования) является чрезвычайно трудоемким. В ГПНТБ для всех каталогов (кроме каталога “Отечественная книга”) решили допустить дублирование, нежели увеличивать трудоемкость и следовательно - время выполнения всего процесса сканирования, т.е. “новые” каталожные карточки не исключались из сканирования.
В соответствии со структурой служебных каталогов независимо друг от друга сканировались следующие каталоги (и соответственно - создавались отдельные массивы образов каталожных карточек):
Название |
Кол-во карточек (шт.) |
Объем файлов в Гб. |
“Отечественная книга” |
735582 |
~124 |
“Отечественная периодика” |
276777 |
~47 |
“Зарубежная книга” |
634259 |
~107 |
“Зарубежная периодика” |
399673 |
~68 |
“Неопубликованные переводы” |
429567 |
~73 |
Итого: 2475858 ~419
Второй этап работы – процесс формирования базы данных имидж-каталога – представляет собой полностью пакетную обработку (разовую) на компьютере, т.е. не включает никаких ручных операций. Для выполнения этой работы служит АРМ Администратор из состава ИРБИС64 Полнотекстовые БД с функцией распознавания. Время выполнения работ определяется объемом исходного массива каталожных карточек и скоростью распознавания одной карточки. Время распознавания одной карточки на компьютере со средними показателями (2 Гб ОЗУ, 2.4 Ггц) составляет порядка 1.5-2 сек. (т.е. для распознавания 10000 карточек необходимо порядка 6 часов). В ГПНТБ оборотная сторона каталожных карточек распознаванию не подвергалась (поскольку в основном содержит рукописные данные служебного характера).
Таким образом, в ГПНТБ России были созданы пять имидж-каталогов (см. таблицу выше).
Для работы с имидж-каталогом со стороны конечного пользователя (читателя) предлагается две возможности:
- оригинальное клиентское приложение на основе ИРБИС-Навигатора;
- Web -шлюз для доступа к БД имидж-каталога через Интернет/Интранет (т.е. с помощью Web -браузера).
Пользовательский интерфейс оригинального клиентского приложения на основе ИРБИС-Навигатора (общий вид) представлен на рис. 1.
Основным элементом интерфейса является окно (“Я ищу”), куда пользователь вводит поисковый запрос на естественном языке. Результат поиска представляется в порядке убывания релевантности найденных документов (т.е. первыми показываются карточки, которые в наибольшей степени соответствуют запросу). Каждый документ представляется в виде изображения каталожной карточки, в котором красным цветом подчеркнуты слова текста, соответствующие исходному запросу (рис. 2).
Предусмотрена возможность просмотра оборотной стороны каталожной карточки (на которой может находиться дополнительная служебная информация, в т.ч. инвентарные номера экземпляров).
Принципиальной является возможность поиска похожих документов. Поиск по сходству выполняется на основе оригинального алгоритма, который состоит из следующих логических шагов (выполняемых, разумеется, автоматически):
- отбираются все слова текста исходного документа (карточки);
- исключаются незначащие (неинформативные) слова в соответствии с фиксированным списком стоп-слов;
- слова упорядочиваются по возрастанию их частоты встречаемости в общем словаре слов БД имидж-каталога;
- в качестве наиболее информативных берутся первые десять слов упорядоченного списка и на их основе формируется запрос на поиск похожих документов.
Рис.1 – Общий вид клиентского приложения на основе ИРБИС-Навигатора для поиска в имидж-каталоге.
Конечный пользователь имеет возможность перейти от любого найденного документа к следующему по порядку – под порядком понимается порядок следования соответствующих каталожных карточек в бумажном каталоге. Данная возможность незаменима в случае, когда необходимо просмотреть продолжение документа на следующей карточке (т.е. когда библиографическое описание размещено на нескольких каталожных карточках).
Специальная ссылка предусмотрена для формирования электронного заказа на выдачу литературы. Для формирования заказа пользователь должен отметить соответствующие документы и ввести свои идентификационные данные. При этом он также имеет возможность просмотреть свою личную запись со всеми сведениями о книговыдачах.
При достаточно большой выдаче пользователю предлагается возможность уточнить свой запрос, т.е. провести уточняющий поиск среди документов, найденных по последнему запросу.
Для выполнения “традиционного” поиска по алфавитным разделителям предлагается дополнительное окно (“Алфавитный вход в ИМИДЖ-КАТАЛОГ”), куда пользователь может ввести алфавитный ключ (несколько символов или слов), - в результате чего он переходит к последовательному просмотру каталожных карточек из соответствующего ящика.
В качестве дополнительной возможности конечному пользователю может быть предложен поиск по тематическому навигатору. Под тематическим навигатором понимается вербальная классификационная система иерархического типа и построенный на ее основе пользовательский интерфейс (навигатор). Использование для поиска тематического навигатора позволяет, с одной стороны, упростить поиск в случае широких тематических запросов, а с другой стороны, – компенсировать известные недостатки поиска с использованием свободной (ненормированной) лексики (“шум” и неточность). –см. рис. 3.
Рис.2 - Результат поиска по имидж-каталогу.
Пользователь имеет возможность осуществлять переходы в соответствии с иерархическими связями классификатора и горизонтальными ссылками типа “смотри также”, фрагментировать классификатор и отмечать для поиска необходимые рубрики.
Для создания такой классификационной системы предлагается специальная структурная модель. Алгоритм поиска по тематическому навигатору состоит в том, что текст запроса формируется не только на основе отмеченных пользователем рубрик классификатора, но и с использованием всех нижестоящих рубрик и связанных с ними ключевых слов (которые “невидимо” для пользователя присутствуют в структуре классификатора).
Данная возможность ИРБИС Имидж-каталога (тематический навигатор) в ГПНТБ России пока не используется.
Интерфейс доступа к имидж-каталогу (через Web -шлюз) на сайте ГПНТБ России представлен на рис. 4. Web -шлюз позволяет реализовать те же функции, что и оригинальный клиент на основе ИРБИС-Навигатора.
Как отмечалось выше, отличительной особенностью ИРБИС Имидж-каталога является то, что он позволяет интегрировать технологию ведения баз данных имидж-каталога в среду автоматизированных технологий полноценного электронного каталога, в результате чего обеспечивается возможность выполнения в имидж-каталоге таких работ как, списание и перемещение литературы, книговыдача и др. На рис.5 представлен интерфейс АРМа Каталогизатор (из состава ИРБИС64), с помощью которого можно осуществлять ведение базы данных имидж-каталога в полном объеме автоматизированных технологий электронного каталога, в частности – вести структурирование описание издания на основе изображения каталожной карточки (если в этом есть необходимость) или проводить корректировку распознанного текста.
Рис. 3 – Тематический навигатор
АРМ Книговыдача (рис. 6) позволяет работать с электронными заказами, которые сформированы конечным пользователем имидж-каталога. Заказы читателей представляются в виде образов каталожных карточек соответствующих изданий. Предлагается специальный режим, который позволяет описывать выдаваемый экземпляр издания в момент его выдачи (“на лету”). На этой основе можно осуществлять роспись экземпляров имидж-каталога в процессе книговыдачи (а не делать это предварительно в полном объеме в АРМе Каталогизатор).
В заключении можно отметить, что создание имидж-каталогов является практически единственным способом ретроконверсии карточных каталогов больших объемов (исчисляемых сотнями тысяч карточек). “Ручная” ретроконверсия методом клавиатурного ввода – даже с применением технологий заимствования – оказывается неприемлемой как по трудоемкости, так и по срокам выполнения. Единственным “недостатком” имидж-каталогов являются серьезные финансовые затраты, связанные с их созданием (хотя можно предположить, что затраты на “ручной” ввод, учитывая его крайнюю трудоемкость, в итоге окажутся сравнимыми с затратами на имидж-каталог). При этом надо понимать, что основная доля затрат при создании имидж-каталога (приблизительно 90%) приходиться на решение исключительно производственной задачи – собственно сканирование каталожных карточек. В этой связи следует сказать, что ГПНТБ России, располагая соответствующими производственными мощностями – высокопроизводительными сканерами и квалифицированным персоналом, - готова на договорной основе выполнять работы по сканированию карточных каталогоа для других библиотек, а совместно с Ассоциацией ЭБНИТ – выполнять работы по созданию имидж-каталогов “под ключ”.
Имидж-каталоги ГПНТБ России доступны через сайт библиотеки по адресу http://library.gpntb.ru/cgi2/irbis64r_img/cgiirbis_64.exe?C21COM=F&I21DBN=TEXT_FULLTEXT&P21DBN=TEXT
Рис. 4 – Доступ к Имидж-каталогу на сайте ГПНТБ России
Рис. 5 – Доступ к имидж-каталогу через АРМ Каталогизатор
Рис. 6 – Работа с имидж-каталогом через РМ Книговыдача.
Список источников
1. Сбойчаков К.О. Перспективы развития ИРБИС: применение системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний в современной библиотеке // Научные и технические библиотеки – 2003. - № 10. – С. 77-83.
2. Бродовский А.И., Попов Е.В., Сбойчаков К.О. ИРБИС64 как инструмент создания и ведения полнотекстовых баз данных // Научные и технические библиотеки – 2005. - № 11. – С. 71-75.
3. Бродовский А.И., Сбойчаков К.О. Новое поколение системы автоматизации библиотек ИРБИС – ИРБИС64: от электронного каталога к полнотекстовым базам данных // Научные и технические библиотеки – 2005. - № 2. – С. 107-111.