Поисковая технология для легальной торговли информацией в Интернете

 

 

 

 

(Единственным ограничением при доступе к электронным изданиям в Интернете должен быть баланс вашего счета)

 

 

 

 

Валерий Захарченко

 

 

 

 

Чего мне, как пользователю,  не хватает в Интернете?

Мне не хватает свободы. Свободы доступа к нужной и ценной информации. Если я ищу в Интернете, где купить пылесос, то поисковая система вываливает мне тысячи  рекламных объявлений разной ценности. Если я ищу сведения, которые обычно можно найти в библиотечных фондах, то в лучшем случае, мне находят студенческие рефераты или анонсы книг в книжных магазинах. Ничего, кроме раздражения, такой поиск не вызывает. Что-то можно найти на платных сервисах, но возможности поиска, информационная база, система доступа, порядок платежей,  это всё совсем не то, что нужно.

Я хочу  информационное пространство в Интернете, в котором есть всё: любые книги, художественные и научные, любые газеты и журналы, базы популярных данных. Назовите это как угодно: библиотека, поисковая система, инфорынок. Хочу свободно входить в поисковую систему такой библиотеки, искать информацию, читать найденные фрагменты, выводить нужные страницы, рассматривать иллюстрации, читать нужные статьи, перелистывать страницы, скачивать издание в свой личный архив, подписываться на нужные периодические издания, заказывать доставку печатного варианта издания. И ещё много чего хочу, что могут обеспечить дополнительные сервисы. Я хочу свободный рынок информации. Я готов платить, как покупатель, и хочу за свои деньги получить реальный доступ к нужному мне товару без дополнительных  обременительных процедур. Я хочу, чтобы единственным ограничением был баланс моего счета. А все остальное, это проблемы продавца, а не мои.

Всё перечисленное, что я хочу, и хотят сотни миллионов, таких же, как я пользователей Интернета, это постановка задачи. Задачи на разработку информационной технологии и программного обеспечения для рынка электронных изданий и информации вообще.  Конечно, проекты всемирной библиотеки, действующие электронные библиотеки уже есть. Есть, но могу ли я сейчас, за свои деньги, получить в Интернете доступ к нужной информации? Нет, не могу. Для меня, как пользователя, задача не решена. Судя по судебным искам к поисковым системам, для авторов и издателей тоже не решена. Значит, этим технологиям чего-то существенного не хватает, чтобы комплексно решить задачу. Чего не хватает? Попытаюсь сформулировать требования к информационной технологии, которая может помочь решить назревшую проблему распространения электронных изданий.  Отталкиваясь, в основном, от опыта разработки поисковой системы для электронных библиотек “MBD Search Engine”.

 

 

 

 

 

Вы можете представить Интернет без поисковых систем? Я лично не могу. Точно также и глобальная или просто большая электронная библиотека без поисковой системы невозможна. В ней можно искать известную книгу,  но информацию в ней искать невозможно. Невозможно даже подыскать детектив для чтения, как мы, стоя у книжного стеллажа, пролистываем и выбираем книгу. Значит, необходима поисковая система для электронных библиотек.  Поисковая система не как отдельный механизм поиска для собственно электронной библиотеки, а как единая программно информационная среда, полностью управляющая всеми функциями библиотеки. 

Поисковая система должна учитывать специфику поиска в книгах и журналах. Главное, она должна находить не книги целиком, как в большинстве известных поисковых машинах, а отдельные нужные страницы в книгах, перелистывать их в любой последовательности. Это в десятки и сотни раз ускоряет работу системы. Ведь книга или журнал может быть очень объёмным и с ними трудно работать. Потом вам часто нужны только определенные страницы с информацией и совсем не нужна целая книга, например энциклопедия.

Страницы содержат иллюстрации. Поэтому нужно, чтобы система выводила не только отдельные страницы с текстом, но и связанные с ним иллюстрации. Поэтому система должна содержать в индексе или внутренней базе не только тексты всех книг, но и все графические изображения. Должен быть поиск картинок по контексту и вывод их для просмотра вместе с прилегающим текстом.

Поисковая система должна быть совместима с существующим форматом изданий, используемым в издательском и архивном процессе. Сейчас, чтобы получить  электронную версию книги, журнала, газеты, доступную для поиска, их, как правило,  структурируют и разделяют на множество мелких страничек – файлов в формате HTML. Поэтому электронная версия газеты или журнала, это несколько другой продукт. Для массового ввода изданий в поисковую систему, такая технология не годится. Система должна автоматически индексировать файлы формата типа pdf, doc, любого размера, вместе с иллюстрациями.

Важная информация часто содержится в базах данных, которые могут иметь размер в десятки и сотни мегабайт. Например, телефонные базы, легальные данные о предприятиях и прочее. Учитывая важность этой информации, поисковая система должна индексировать и включать в общую информационную базу и эти данные.

Система должна обеспечивать очень быстрый поиск и вывод информации, определяемые в основном пропускной способностью канала связи. Должна искать как по полному тексту документов, так и по формальным признакам: дате, названию, авторам, размеру. Осуществлять поиск по сложным запросам с логическими операторами. Допускать установку ограничения на расстояния между словами запроса, найденными в тексте. Ранжировать найденные документов по нескольким критериям.

Наиболее нужная для пользователя информация, с которой он должен быстро и эффективно работать, используя для обработки специализированные прикладные программы, может находиться не в сети, а в его персональной базе. Точно так же, как есть библиотека общественная, а есть личная с книжным шкафом и книгами в нем.  Поэтому поисковая библиотечная система должна иметь локальную версию, установленную на компьютере пользователя.

 

 

 

 

И, наконец, самая сложная проблема, проблема авторов и издателей.  Очевидно, что авторы и издатели книг, газет, журналов, должны получать деньги за свой труд, иначе писатели перестанут писать, а издатели издавать. Как совместить свободу доступа пользователей ко всем информационным ресурсам с гарантированной оплатой труда авторов и издателей?

Во-первых, наполнение поисковой системы очень разнородно. Одни документы открыты для свободного доступа, другие тщательно отслеживаются издателями. Поэтому авторы или издатели должны иметь полный контроль, над своими изданиями, размещенными в Интернете. Например, в нашей системе «MBD Search Engine», каждый документ, будь то книга, статья или фото из многих миллионов хранящихся в базе, может иметь свои индивидуальные настраиваемые параметры. Автор может сам определить размер выводимого в результате поиска текстового фрагмента, блокировать вывод полноразмерных изображений, запретить  перелистывание полных страниц документов, блокировать загрузку исходного документа, установить стоимость чтения  одной страницы документа, стоимость всего произведения или его части. Полный контроль над своим произведением, размещенным в Интернете!

Другая, ещё более сложная проблема, это защита произведений, легально полученных из сети, от несанкционированного копирования. Если не решить эту проблему, то вся технологическая цепочка теряет смысл. В нашей системе эта проблема решается так. Вся информация в поисковой системе, включая тексты, графику, файлы с исходными документами, зашифрована и может быть расшифрована ключом, состоящим из двух частей. Одна часть, это специфический код данного компьютера, например, серийный номер процессора , другая, разность между базовым ключом и первой частью.   Только сложив две части, специфическую для каждого компьютера и разностный ключ, можно получить базовый ключ, которым можно расшифровать  любую информацию из поисковой системы. На самом деле математически это выглядит гораздо сложнее, но идея именно такая. Данные одни и те же, а ключ для каждого компьютера другой. Копировать любые файлы при таком шифровании бессмысленно.

Абонент электронной библиотеки устанавливает на своем компьютере программу расшифровщик. В частности, это может быть программа локальной версии поисковой системы MBDSE. При регистрации абонент сообщает код своего компьютера. На основе этого кода вычисляется разностный ключ и сообщается пользователю, для ввода в программу. Теперь, любая информация из электронной библиотеки мгновенно и незаметно для пользователя дешифруется  и выдается в браузере, персональной поисковой системе или материнской программе для файла исходного документа.

Зарегистрировавшись в системе и открыв персональный расчетный счет, пользователь получает свободный доступ ко всем материалам библиотеки: книгам, журналам, ежедневным газетам, базам данных. Каждое обращение пользователя, каждая считанная страница информации, статья или книга, учитываются по расценкам установленным автором. Цена высвечивается для пользователя при выводе информации. Общая сумма снимается со счета абонента и перечисляется на счет правообладателя – автора или издателя. Поисковая система и её сервисные программы берут на себя все проблемы расчетов между продавцами и покупателями, авторами и абонентами. Это достаточно гибкая система. Например, в качестве абонента ресурса в Интернете может быть локальная сеть университетской  библиотеки. Для них авторами могут быть установлены другие расценки. В рамках этой системы могут распространяться не только электронные издания, но и зашифрованные файлы с любой информацией, например, видеофильмами или музыкальными  произведениями.

Наша компания МБД Софт предлагает такую технологию. Кто-то предлагает другую. В любом случае, надо понимать, что внедрение технологий коммерческого распространения электронных изданий неизбежно. В ближайшее время эти технологии  должны кардинально изменить рынок книг, периодических изданий, аудио и видео продукции, библиотечное дело.