Документы против сайтов

 
 

Documents vs. Websites


Документы против сайтов

                                  Documents vs. Websites



Документальный контент обладает огромным преимуществом перед сайтами. Новые технологии поиска и хостинга документов открывают важный этап в развитии Интернета.



Первоначально я озаглавил эту статью «Полнотекстовый поиск в Интернете», то есть поиск по полным текстам материалов, размещенных в сети. Но выглядело чересчур специально и малоинформативно, ведь и так всем известно, что интернет поисковики производят полнотекстовый поиск по сайтам. А как же иначе?


Да, по сайтам производят! Но на серверах локальных сетей и Интернета сосредоточен огромный массив информации другого типа. А именно, информационных материалов в печатном формате, обычно в pdf. Это книги, газеты и журналы, служебные документы. Этот массив, как по объёму, так и по качеству оформления и содержания намного превосходит все html сайты вместе взятые.


И как тут обстоит дело с поиском по содержанию? А плохо обстоит. Это очень легко проверить. Возьмите, скопируйте характерную фразу из какого-нибудь известного произведения, книги или журнала и забейте её в поиске в различных поисковиках. Что в результате?


В результате у нас сотни ссылок на текст, содержащий эту фразу. Перейдем по ссылкам и увидим те же сайты, содержащие текст из этого произведения, большой или маленький. Просто текст произведения разрезали на небольшие куски и вставили его в html файлы, которые поисковик и нашел. Но это совсем не похоже на печатный оригинал, потому что формат, расположение материала, художественное оформление, всё другое. Полиграфия это искусство и превзойти его в формате сайта практически невозможно.


А почему нельзя искать и воспроизводить нужные страницы этого произведения в исходном формате? Неужели это так трудно? С небольшими файлами pdf формата некоторые поисковики работают и на поиск и на воспроизведение. Поиск и воспроизведение в файлах любого размера позволяет осуществлять пока только мировой поисковый гегемон, то есть Гугл. Среди тех же тысяч уже виденных нами ссылок, есть одна, начинающаяся со слов books.google. Перейдём по этой ссылке, и вот он, настоящий полнотекстовый поиск: точная копия нужной страницы печатного оригинала с выделенной фразой, которую мы искали и листание страниц в исходном формате. К этому прилагается комплекс сервисов, таких как платный доступ к определенным изданиям и всякие другие, здесь уместные.


Ну а в чем собственно сложность? Почему другие не могут? Почему те же поисковики для сайтов не могут искать и в книгах, ведь всё равно поиск идет по текстам, извлеченным как из сайтов, так и из книг? Прежде всего, потому, что поисковики исторически развивались так, чтобы работать именно с сайтами, содержащими относительно небольшое по размеру текстовое и графическое содержание. В те времена, в период становления Интернета, вычислительные мощности ПК и пропускная способность каналов связи, были настолько низкими, что скорость загрузки сайта была главным критерием в оценке преимуществ используемой информационной технологии.


Кроме небольшого размера, основой сайтов служил и служит до сих пор язык гипертекстовой разметки html, позволяющий компактно размещать информацию в файлах и свободно перемещаться в Интернете от одного информационного объекта к другому. Эта совершенно новая для того времени возможность информационной навигации оказала большое психологическое воздействие на пользователей и способствовала быстрому распространению Интернета.


Сейчас, информационные технологии и их техническая база настолько изменились, что большинство существовавших ограничений уже не актуальны. Большие объёмы информации возможно быстро передавать и воспроизводить не только в html формате с помощью браузеров, но и в других форматах. Гиперссылки возможно легко вставлять практически в любые документы, создаваемые в самых распространенных редакторах.


Тем не менее, документы остались вне зоны действия почти всех поисковых систем интернета. Потому что остались другие ограничения не технического характера. В используемых поисковых технологиях объектом индексирования и поиска является целый и неделимый файл, содержащий страницу сайта или небольшой документ. Обработка большого документа сталкивается в такой технологии с ограниченными возможностями человека по восприятию информации. Если поиск отослал вас к небольшому сайту, то вы посмотрели на него, увидели что нужно и довольны. А если он нашел книгу? Например, справочник или энциклопедию. Что делать пользователю? Повторно искать уже в этой книге? Это уже совсем другая технология, медленная и неэффективная. Пользователю не нужна книга, ему нужна информация, содержащаяся в конкретном месте книги.


Ну ладно, поисковики по сайтам так устроены. Но ведь известно много полнотекстовых поисковых систем, например для электронных библиотек. А библиотеки как раз с книгами и работают. Наше Министерство Образования даже приказ выпустило, чтобы все вузовские ЭБС ( Электронные Библиотечные Системы) были непременно с полнотекстовым поиском. А раз приказ был, то все сразу стали с полнотекстовым поиском. Вот читаю сайт крупнейшего разработчика коллективной ЭБС для вузов: «полнотекстовый поиск может быть только двухуровневым» - то есть сначала вы ищите документ по его реквизитам, таким как название, автор и другие, а найдя его, уже ищите по тексту самого документа. Это всё равно, что искать сайты только по заголовкам, а потом уже просматривать их содержание. Для МинОбра такой поиск может и годится, а для Интернета нет.


Но есть же мощные поисковые системы для локальных баз данных, даже очень больших, которые не только ищут в содержании любых документов, но и анализируют и слова и предложения и смысл и выдают только то что нужно. Например, анализ архивов прессы на предмет, интересующий крупную корпорацию или спецслужбы. Да есть. Но у них нет очереди из миллионов пользователей, желающих мгновенно получить ответ на свой запрос и поэтому, производительность поисковика им не очень важна, тем более, что у них есть деньги на любые, самые мощные серверы. Поэтому этот вариант для массового глобального поисковика тоже не подходит.


Мне скажут, что мощные серверы, обеспечивающие высокую производительность, становятся всё более доступными и это уже не проблема. Может скоро и индекс и даже всю базу данных можно будет засунуть в оперативную память и всё залетает. Да залетает. Но если у вашего конкурента программы работают в десять раз эффективнее и быстрее, то они и на новом оборудовании будут летать в десять раз быстрее, чем у вас. Поэтому на рынке решений для массового пользователя вам делать нечего.


Поисковых систем для сайтов и для документальных баз данных много, но только некоторые из них имеют эффективный алгоритм поиска в сочетании с высоким быстродействием. Программы для такого поисковика, это штучный товар. Его не сделаешь на основе серийных решений, тут не поможет коллектив опытных программистов. Тут нужен творческий подход к самой математической модели поиска и основанному на ней программному комплексу поискового ядра системы. Потом уже, всё это счастье обвешивается прикладными программами и сервисами и получается Яндекс или Гугл или ещё что-то, конкурентоспособное.


В случае с документальным полнотекстовым поиском, ситуация ещё сложнее. Ведь поисковики, со своими программами и тысячами серверов, это только одна часть большого Интернета. Другая, это миллионы серверов с сотнями миллионов сайтов, к которым обращаются поисковики за данными для создания индекса, и к которым они посылают вас за найденной информацией. Это готовая информационная среда для работы поисковых систем. Эта среда также имеет своё сложное программное обеспечение и техническую базу. Поисковые системы интернета не существуют самостоятельно, а только в паре с хостингом, то есть комплексом услуг по предоставлению аппаратно программной среды для создания и размещения сайтов.


Для документальных материалов в формате печатных изданий такой среды изначально нет. Полнотекстовая поисковая система должна дать ссылку на нужное место определенного документа, а браузер должен показать вам эту часть документа. Но на существующих серверах Интернета находятся только файлы с цельным документом и, как правило, нет возможности непосредственно обращаться к нужному месту документа. Также эти файлы непосредственно браузером не воспроизводятся. Поэтому, для документов нужен специальный хостинг, преобразующий документы в нужный формат, обеспечивающий доступ по ссылке к любому конкретному месту любого документа, неважно десять страниц в нем или тысяча. То есть для полнотекстового поиска в документах нужно решать не одну, а две задачи: документального поиска и документального хостинга.


В американском проекте проблема решается за счет создания собственной документальной базы данных, с постраничным доступом, обслуживающей только свой проект, цель которого – монополизация доступа к самым значимым документальным ресурсам, прежде всего книгам, изданным за всю историю человечества. Ни больше, ни меньше! Американцы оценили общее число изданных книг и поставили себе задачу оцифровать их все и загрузить в свою базу данных. Грандиозная задача и на далекую перспективу. Но у меня лично есть сомнения. Ведь если появится конкурирующая технология, а это неизбежно, то она может использовать гугловские труды по оцифровке, для наполнения собственных баз данных.


Я уже много лет занимаюсь документальным поиском. В нашем проекте, находящемся в стадии бета тестирования, мы его называем «Документальный Интернет», подход несколько другой. Мы создаём программно – аппаратную платформу общего пользования, и для документального поиска и для документального хостинга, аналогично хостингу сайтов. То есть это платформа для реализации не своих, точнее не только своих, но прежде всего больших и малых документальных Интернет проектов сторонних пользователей. Выведение на рынок услуг документального хостинга, на основе такой платформы, подкрепленного аппаратным обеспечением в виде специализированных дата центров, может существенно изменить структуру спроса на рынке информационных услуг. Как и насколько, пока трудно прогнозировать. Но, в чем я уверен точно, любая монополия на документальный контент, в этом случае, долго не продержится.


Документальный контент обладает огромным преимуществом перед сайтами. Электронные версии статьи, журнала, книги, даже служебного документа, уже сами по себе являются готовыми объектами для размещения в Интернете, так как уже обладает всеми необходимыми элементами сайта, такими как дизайн, художественное оформление, тексты и иллюстрации, даже гиперссылки. Больше того, они по уровню содержания и оформления намного превосходят сайты. Например, книжная графика давно признана разделом искусства. А рекламный буклет или печатный каталог даже на экране выглядят более привлекательно и информативно, чем сайт. И единственная причина, почему этого не происходит - использование устаревших технологий поиска и хостинга, ориентированных только на сайты.


Тот же рекламный каталог крупной фирмы объёмом в сотни страниц можно опубликовать на документальном портале одним щелчком мыши. Система автоматически разделит его на отдельные страницы, преобразует их в нужные форматы, такие как djvu, jpeg, флэш или html5, извлечет текст из страниц и проиндексирует его, создаст миниатюрное изображение титульного листа для представления на портале, установит уровень доступа, заведёт статистику и много ещё чего. Представьте теперь, во сколько обойдется создание сайта, отображающего все материалы каталога.


Аналогично, исключительная легкость публикации материалов на документальном поисковом портале относится и к любым другим изданиям: книгам, справочникам, журналам, архивам прессы, официальным документам. В нашей экспериментальной системе сейчас возможны несколько вариантов размещения документального контента. Первый – размещение в общей базе данных поисковой системы itizdat.ru, с общим интерфейсом и дизайном. Второй – размещение в одной из тематических баз данных системы, со специализированным интерфейсом и дизайном. Например: «Техносообщество РФ» или «Православный портал». Третий – размещение в базе данных собственного портала, с интерфейсом и дизайном, созданным по заказу, например для издательства или торговой компании, вида: Компания «Youngevity». При этом, все базы данных входят в общую базу поисковой системы. Обработанное содержание этих документов в форматах txt и html доступно для индексирования другими поисковыми системами.


На новой технологической площадке может быть реализовано множество интернет проектов, ранее невозможных. Возникает вопрос - как классифицировать эту документальную технологию? Как альтернативу привычным сайтам? В чем-то да, но скорее уместно назвать её гибридной технологией. И интерфейс, и дизайн и сервисы документальных порталов всё равно делаются на основе html технологии. Просто работа с контентом становится более крупноблочной, где основными блоками служат готовые документы. Ситуацию можно сравнить с переходом программистов на языки высокого уровня, после чего с работой, для которой раньше требовалась целый коллектив программистов, стал справляться один. Несмотря на это, профессия программиста не умерла, а стала одной из самых распространенных. Просто совершенствование технологий расширяет сферу их применения и привлекает в эту область новых работников.


Создание, сопровождение, обслуживание сайтов на основе различных сервисов, это огромная индустрия, в которой заняты десятки, если не сотни миллионов человек по всему миру. И как всякая огромная, сложившаяся индустрия, она обладает огромной инерцией. Также она в штыки встречает и оказывает сопротивление всяким новшествам, способным нарушить сложившийся уклад. Почему? Да потому что всем тем, кто вписался, и так хорошо. Это только тем, кто не пристроен, плохо. Поэтому они и суетятся и чего-то там ищут. А тот же Google, имея документальную технологию, фактически не пускает её в ход, потому что он и так лидер в традиционном поиске. Максимум, на что он решается, это представление своей технологии для крупных библиотечных проектов, работающих под его контролем.


Конечно, можно попытаться придержать новые технологии, но если технологические перемены созрели, то остановить процесс их распространения невозможно. Среди высоких технологий, информационные самые прибыльные и быстрее всего окупаются. Среди них самыми прибыльными являются интернет технологии. А среди интернет технологий, по доходности, и что немаловажно, по информационному воздействию, лидируют поисковые системы.


В результате, например, многие наши операторы связи начали проявлять интерес к облачным технологиям и даже к разработке собственных поисковых систем, которые требуют развития мощных дата центров и как-то ближе сердцу инвестора - видно всё-таки, во что деньги вкладываешь. Но этот рынок уже достаточно плотно занят. И зарубежными и российскими компаниями. Хотя приложив усилия и вложив достаточно денег, можно за счет развития новых сервисов занять долю российского рынка.


Документальные технологии в этом плане гораздо выигрышней. Эта ниша рынка практически не занята. Серверам дата центров всё равно, что обрабатывать, поэтому аппаратная база практически уже есть. Очень больших расходов требует разработка программного обеспечения для новых информационных технологий. И это действительно рискованно. Но если базовое ПО уже разработано, то это многократно снижает риски и требуемые вложения. Потом поисковая система по сайтам, прежде чем начнет работать и приносить прибыль, должна проиндексировать весь охватываемый ею Интернет, что тоже требует больших предварительных вложений и в аппаратуру и в ПО. Документальный проект развивается по мере наполнения баз данных и в течение этого процесса его легко скорректировать и оценить перспективность.


В каких областях использование документального Интернета может дать наибольший эффект? Я вижу несколько основных направлений:

  • Размещение рекламного и информационного контента, который сейчас использует сайты, но для которого больше подходит печатный формат.
  • Различные профессиональные и тематические сообщества, более универсальные по типу материалов, размеру и составу, чем сообщества социальных сетей.
  • Печатная индустрия: книги, газеты, журналы. Сейчас эта отрасль находится на перепутье. Ясно, что бумага, как основной носитель информации не имеет перспектив. Но и существующие технологии Интернета в этой области, не удовлетворяют издателей и читателей.
  • Огромный, лавинообразно нарастающий объём служебной и технической документации. Эффективность использования этой информации играет ключевую роль в деятельности управленческих структур и развитии любых отраслей экономики, будь то медицина или оборонный комплекс.

  • Сейчас на мировом рынке документального контента доминируют американцы. Если не комплексовать и не медлить, то Россия может не только обеспечить собственные потребности, но и потеснить США на одном из самых перспективных и прибыльных рынков.



    Валерий Захарченко ООО «МБД СОФТ», Москва, декабрь 2015г.

     

    © 2008 - 2015 MBD Soft Ltd. All Rights Reserved.