Архивы: по дате | по разделам | по авторам

Интернет: ищущий да найдет

Архив
автор : Игорь Гордиенко   26.11.2002

Окончание, начало см. в #470.

Окончание, начало см. в #470.

Все чего-то стоит

Хочу затронуть тему, о которой и вовсе не говорят, - о сайтах с платным и частично платным контентом. Именно на них сосредоточены те ресурсы, которые составляют ядро информации, накапливаемой нашей цивилизацией. Спор о том, должна ли информация (и программы в том числе) быть платной или бесплатной, по-видимому, рассудила сама действительность: информация имеет стоимость, а потому и цену. Несмотря на популистскую привлекательность позиции сторонников свободного софта и свободных данных, все их затеи выглядят приемлемо только при наличии подпитывающих источников. Искусство может быть свободным, только если есть спрос на него. Это не размышления об экономическом мироустройстве, напротив - это тезис мироустройства космического: всякий разум, формирующий из мнимого хаоса вселенной прикладные структуры, неизбежно поглощает энергию из окружающей среды.

Впервые столкнувшись с сайтом New York Times (см. скриншот на этой странице) в 1996 году, я ничего не понял, да и не смог бы тогда понять. Как впоследствии оказалось, от меня требовалась лишь формальная регистрация. Именно она является необходимым шагом для доступа к массе великолепных сайтов с великолепным содержанием.

Что представляет собой типичная регистрация? Это просто заполнение онлайновой анкеты: имя, фамилия, возраст, пол, адрес, профессия, интересы и т. д. Там всегда просят сказать имя для входа (login) и задать пароль (password). Ну давайте придумаем им этот самый пассворд, который будет что-то для них значить! Нужно все-таки понимать, что всякая информационная система не может работать бессистемно...

Впрочем, дело в другом. После регистрации в замкнутой системе, например в журнале The Economist или в аналитическом аппарате Forrester Research, вам сразу же предоставляется доступ к внутренним поисковым машинам этих информационных систем. И это - правило. А здесь начинаются нюансы, поскольку поисковые механизмы каждой из частных систем устроены по-своему - как угодно. Тут может помочь только ползучая эмпирика. Например, мне пришлось немало поломать голову над поисковыми возможностями при входе в аналитику McKinsey. Однако игра стоила свеч, и это - закон.

Итак, главный вывод: коли обнаружен ресурс, требующий регистрации, обязательно регистрируйтесь. Правило, действующее на 95%. Например, подписавшись на Technology Review, регулярно поставляемое Массачусетским технологическим институтом, вы узнаете, что будет опубликовано в ближайшем номере, который появится «у них» на прилавках недели через две.

Подписные информационные ресурсы, конечно же, обладают совершенно разными свойствами. Вот, к примеру, сайт журнала BusinessWeek - он практически свободен для всех подписчиков, как свободен и сайт Los Angeles Times, Washington Post или BBC. Но есть и те, кто принципиально против бесплатного контента. Некоторое время назад в среде изданий научной прозы разгорелся нешуточный спор, который, правда, так ничем и не кончился: каждый из оппонентов остался при своем мнении 1.

Собственно, ограничение доступа к содержательной части онлайнового издания можно отнести к одной из трех категорий:

  • полностью платное содержание;
  • частично платное содержание;
  • содержание бесплатное, но его объем зависит от ценза заказчика.

В первой категории пребывают журналы специфических наук и направлений, в частности уже названный сакраментальный журнал Natura и такое почетное издание, как National Geographic, основанное тестем Александра Белла 2. В принципе, большинство аналитических источников тоже требуют оплаты за поставку лакомой информации, оставляя в свободном доступе как приманку всякого рода брифы и аннотации, малозначимые и практически не подлежащие цитированию. Но и на том спасибо!

Ко второй группе можно отнести большинство подписных сайтов. Это и The Economist, и Jupiter Media Metrix, и Forrester Research, и McKinsey, и многочисленные сайты аналитических агентств, которые что-то предлагают свободно, но большую часть продают.

Последняя категория - просто «богатенькие», те, кто и на бумажном контенте все отрабатывает: Forbes, Wired, Red Herring, Fortune и как ни странно, мы с вами. Иной раз к освобождению контента ведут очень простые объективные обстоятельства, как это случилось с энциклопедическим издательством Britannica 3.

В оценке доступности контента нельзя впадать в крайности: сегодня он может быть недоступен, а завтра уже свободен. Например, если позарез нужны публикации кого-то из авторов Natura, следует пойти на поисковые машинки и задать в качестве ключевых слов имена авторов статей. Успех (знаю из собственного опыта), как правило, обеспечен: найдутся на их персональных или университетских сайтах все нужные материалы, вероятно, более полные, нежели те, что опубликованы в международных платных мануалах.

Но бывают и другие примеры. В июне прошлого года я зашел на сайт известной всему миру Association for Computing Machinery (ACM), старейшего свободного объединения специалистов и организаций, связанных с вычислительной, то бишь компьютерной техникой. Зарегистрировался, завел вход, задал пароль, все чин чином. И попал в чудесный архив изданий журнала Communications of the ACM - с самого первого номера, датированного ноябрем 1957 года! Нужно было бы немедленно все это богатство скачать, без сна, без отрыва, столько, сколько было бы сил. Но слаб человек... Когда же я снова заглянул на сайт ACM (в октябре того же года), чудес уже не было - всё спрятали за «железной стеной» платной поштучной подписки (подробнее о деятельности ACM смотрите по ссылке 4). Еще один совет: коль что-то полезное обнаружено, хватайте его немедленно.

Cosa nostra

Когда речь заходит о наших родных интернетовских ресурсах, я не вполне понимаю, о чем идет речь. Но подозреваю, что:

  • о дебильной кодировке KOI-8, возникшей потому, что белл-лабовские и стэнфордские мастера как-то не задумались (смешно в те годы было об этом задумываться!) о внедрении символов кириллицы в их тогдашнее, конца 1960-х - начала 70-х годов, детище Unix и не предусмотрели дополнительного бита в стандартном байте, оставив один из них под служебные цели;

  • о группе деятелей, пытающихся из псевдопатриотических (а скорее - частно-интриганских) мотивов обозначить некий «Рунет» (хотя домен .ru ничем не отличается от прочих национальных доменов, например .to, отнесенного к островам Тонга. Хочу заметить, что немалое число российских ресурсов базируется в самом большом домене .com.);

  • о том, что правительства большинства развитых стран закрыли персональные сайты своих президентов - это должность, а не обличье голливудского шоумена! А у нас президентский сайт не так давно с помпой открыли!

Я привожу в таблице сводную информацию лишь по «ихним» поисковым машинам, поскольку аналогичных данных по нашим ресурсам найти просто не удалось. Обнаружил только, что у Rambler индексировано примерно 70 миллионов документов (сравните с более чем тремя миллиардами у Google?), а Yandex о своих достижениях умалчивает. Прочие ресурсы «Рунета» настолько мелкотравчаты или же затравлены, что о них и говорить не стоит. Отмечу еще одну черту, которая характерна не только для российских поисковых инструментов, но и для более мощных глобальных представителей: комбинированное состояние каталога и текстовой поисковой машины. Что бы это значило? Только одно: попытка приукрасить ресурс и немножко подзаработать на платном размещении в каталоге ссылок на некоторые сайты.

А потом, если посмотреть в таблицу, обнаружится, что Google ищет по нашим русскоязычным информационным ресурсам не хуже, чем... Да и Altavista это делала куда как неплохо еще с 1996 года. Хотя на сайте Rambler сказано, что эта компания существует с момента встречи друзей аж в 1991 году. Но в те времена и протокол http еще не был публично освоен, а народ общался главным образом через разные BBS и сеть FIDO.

Пыжиться может каждый, но ресурсы уровня Google и Altavista уникальны, другие им не чета. Причины, как всегда, весьма приземленные и банальные: без должных инвестиций невозможно управлять информацией, хоть это и виртуальная сущность (а скорее всего именно потому, что эта сущность виртуальна и встроена в тело нашего мира).

Есть веские причины подозревать, что люди, которым Интернет не нужен профессионально, органически не способны понять экстерриториальность этого феномена. Отсюда всякого рода «Рунеты», положения о декларировании «интеллектуальной собственности» при пересечении границ, проблемы с «утечкой мозгов» и прочая ахинея. Как радикальный способ снова обречь страну на информационную изоляцию, можно рассматривать лишь принудительное обрубание всех опорных каналов, приходящих в наши просторы извне. Но, господа, тогда придется городить другой Интернет - со своими серверами доменных имен, со своими опорными каналами и прочим хозяйством. И кто потянет такое дело? Да и что это будет: новый Xanadu или очередной Рунет?

В общем, знаменитая фраза незабвенного Михаила Самуэлевича Паниковского: «Пилите, Шура, пилите...», и по сей день весьма актуальна.


1 (обратно к тексту) - Я говорю о полемике между издательствами журналов Nature, Science, Cell и их противниками - группой издательских компаний (The Scientist, Discovery и др.) научной тематики, свободно предлагающих свой контент. (И. Гордиенко. «Быть умным, свободным, богатым?»//«Инфобизнес» #161 от 08.05.01).
2 (обратно к тексту) - И. Гордиенко. «Александр Белл: говорить, слышать и летать!» («КТ» #187 от 10.03.97).
3 (обратно к тексту) - И. Гордиенко. «Britannica Online Free. Жизнь заставила» («КТ» #323 от 09.11.99, с.15).
4 (обратно к тексту) - И. Гордиенко. «Новая песня о старом» («Инфобизнес» #156 от 27.03.01).

Заповеди, замечания, советы, приемчики

  • Прежде чем начать поиск информации, следует все тщательно обдумать. Что именно? Какие ассоциации и комбинации терминов могут быть связаны с целью поиска, каков список сопутствующих понятийных категорий, - в общем, нужно пофилософствовать. Попытайтесь сформулировать запрос так, чтобы избежать употребления уж очень общих слов, союзов и предлогов и т. п.

  • Не следует задавать поиск по словам «машика» или «potatoe» - лучше тщательно выверите написание слова, особенно когда составляете запрос на чужом для вас языке. Вообще, контроль правописания в запросах обязателен: слишком это дорогое удовольствие - писать неправильно!

  • Употребление заглавных и строчных букв может оказаться важным - разные поисковые инструменты могут по-разному их интерпретировать. Встречаются противоречивые рекомендации: кто-то советует употреблять заглавные во всяком подобающем случае, кто-то считает, что машины не воспринимают заглавные и все преобразуют в строчные. Потому поинтересуйтесь о подобных особенностях конкретных поисковых инструментов.

  • Следует учитывать смысловой контекст, в котором употребляются ключевые слова и термины. Запрос должен быть выражен максимально точно и доходчиво. Например, первичный поиск в системе newman.ru обеспечивается заданием замечательной ключевой фразы «windows xp pro», но после нахождения якобы поставщиков товара, предлагающих самые соблазнительные условия, следует пойти на их сайты, узнать телефоны, созвониться и выяснить детали продажи того или иного вида этого самого продукта. Уверяю, это дело непростое и порой обескураживающее. Сами попробуйте!

  • При выборе подходящего метода и инструмента для поиска нужно определиться: какая зона будет исследована - вся Сеть или отдельные сайты, задавать ли запрос на естественном языке или запрашивать поиск по ключевым словам, на каком языке составлен запрос, к какой стране или географическому региону относится цель поиска, есть ли намерение провести уточненный поиск, полезно ли использовать метамашины, возможен ли поиск на специализированных ресурсах...

  • Сначала пройдитесь по предметным каталогам, а потом, после первичного знакомства с предметной областью поиска, обратитесь к специализированным ресурсам. Этот подход неизбежен, если нет возможности четко сформулировать предмет поиска. Кстати, пользоваться каталогом Yahoo полезно при поиске хронологий тех или иных процессов. Например, если хочется узнать, что же все-таки произошло и происходит с компанией Amazon.

  • Если находится хоть что-то полезное, что, возможно, пригодится позже, обязательно сделайте закладку. Самый неорганизованный, самый неказистый, самый длинный файл с закладками все равно окажется простейшим и наиболее удобным способом доступа к обнаруженным информационным ресурсам. Сам грешил тем, что не делал закладок. Теперь с этим покончено: как приятно иной раз в свободное время посмотреть этот самый замечательный файл, в котором, как в зеркале, отражаются прожитые дни и ночи!

  • Результаты поиска рекомендуется документировать, сохраняя их в файлах. Если исследовательский процесс прервется, всегда можно будет возвратиться в нужную точку. Кроме того, иной раз полезно просмотреть то, что было обнаружено, сидя в офлайне, спокойно и без тягостного ощущения безвозвратно утекающих из кармана денежек. Кстати, некоторые поисковые машины позволяют сохранять результаты наших поисков в собственных базах или на сайтах. Обычная практика сохранения найденных документов чревата быстрым замусориванием жестких дисков. Рецепта против этой напасти пока не найдено. Тут каждый остается воином-одиночкой и сам остригает давно забытые охвостья.

  • Несмотря на то, что деятельность популярных каталогов и поисковых машин обеспечивают мощнейшие серверы и даже синхронизованные сети серверов, в часы повышенной нагрузки на Интернет лучше обратиться к менее известным ресурсам. Скорость поиска во многом зависит от времени дня - бывают суточные, недельные и сезонные флуктуации пиковой загрузки серверов поисковых машин. Гадать здесь трудно, поскольку когда у нас ночь, то в Калифорнии самый разгар дня. Впрочем, летом все отдыхают, кроме Австралии и Новой Зеландии. А кое-кто отдыхает постоянно...

  • Минута день бережет. Всегда нужно знакомиться с содержанием сайта, пусть даже случайно обнаруженного.

  • Хоть это и муторно, но все же не лишне хоть раз побывать в разделах «Помощь» и «Приемчики для поиска» (Search Tips) используемых поисковых машин. Может оказаться, что шаблоны (wildcards) вроде «*» или «&» здорово облегчат поиск.

  • На многих поисковых машинах есть возможность уточненного поиска (иногда она встроена в опцию «Помощь»). В полях уточненного поиска обычно приводятся разного рода грамматические и логические формообразования, задаются домены поиска, временные характеристики документов: дата создания, дата последнего изменения, другие атрибуты.

  • Полезно отобрать и освоить несколько поисковых решений: каждое из них эффективно для той или иной задачи. У каждой поисковой машины свои правила задания запросов. У каждого предметного каталога своя уникальная структура и свой словарь-индексатор.

  • Если поиск вообще не дал результатов, нужно сразу выяснить, в чем ошибка: либо в написании слов или терминов, либо неправильна сама конструкция запроса. Если и первое и второе верно, примените другой инструмент поиска. Следует помнить, что поисковые машины индексируют только бесплатные ресурсы, а платный контент требует особых подходов.

  • Практика - путь к точности. По мере ведения все новых и новых поисков у каждого вырабатываются свои собственные навыки и чутье, формируется набор любимых инструментов. После этого стоит задуматься о другом: а нужно ли стрелять по воробьям из пушек? Нужно ли обращаться к Google, чтобы узнать, где в Москве продается цифровой фотоаппарат Canon по минимальной цене? Не проще ли пойти на price.ru, newman.ru или pricegrabber.ru? Очень скоро каждый «следопыт» понимает, что для поиска информации по конкретному предмету в конкретном национальном или географическом секторе Интернета (например, российском) есть свои специальные поисковые машины.

  • Некоторые из поисковых машин (например, Altavista) обладают возможностью последовательных уточнений, то есть итеративного поиска в результатах. Не упускайте эту возможность - так вы обеспечите быстро сходящийся процесс.

  • Не забывайте и о том, что базы данных, принадлежащие поисковым машинам, почти наверняка частично устарели. И тогда, обращаясь к ссылкам на сайты, не удастся получить желаемую информацию - может быть, она уже удалена, а может, обновлена. Такое часто случается при поиске прошлых новостей, то есть попытках вспомнить день вчерашний, что тесно переплетается с рассуждениями мудрого Екклесиаста.

  • Тот, кто обращается к онлайновым поисковым машинам, скоро обнаруживает в их свойствах раздражающую смесь требований весьма высокого профессионализма при формулировании запросов и примитивности получаемых результатов. Альтернативой могут быть устанавливаемые на локальном компьютере программные решения. Скажем, Altavista может пройтись по очень большому массиву данных в онлайне в считанные секунды, но поскольку в этой системе задать уточненный (advanced) поиск не так-то просто, многие программные разработки типа Copernic или WebFerret оказываются куда как приятнее.

  • При исследованиях и поиске информации в Интернете не следует забывать о таких достаточно архаичных, но все еще активных структурах, как конференции или группы новостей (например, Usenet), а также о том, что существует немало ресурсов для поиска электронных адресов, просто адресов и контактной информации - как в отношении корпораций, так и частных лиц. К слову сказать, после долгих лет разлуки мне удалось обнаружить координаты моего приятеля, уехавшего в начале 1990-х в США, именно через справочник электронных адресов BigFoot.

  • По возможности поиск нужно проводить в спокойной обстановке, способствующей сосредоточенности. Лучше всего искать информацию с утра, хорошо выспавшись (или проспавшись). Но, конечно, чаще всего это приходится делать ad hoc. Есть и другая рекомендация: начинать и заканчивать день поиском информации. Только постоянная практика поможет приобрести навыки, чутье и быть в контакте с нужной информацией.

  • Предостережения любителям Интернет-серфинга: чем дальше, тем опаснее становится бездумное бегание по тропинкам и сайтам Интернета. Иной раз можно найти что-то очень полезное или интересное, но можно такой плагин подцепить (даже не вирус и не троян), что выковырять его не поможет никакой Касперский. Это из моей собственной практики. Мало ли чего какая-нибудь Macromedia учудит...

  • Поисковых машин великое множество. Нет ни малейшего смысла давать их уточненные характеристики, да это и невозможно. Только часть из них представлена на сайте Search Engines, еще рекомендую портал Galaxy, а уж тем, кто серьезно интересуется поисковыми ресурсами, советую посетить сайт www.searchengineshowdown.com, напичканный таким количеством сведений и аналитики, что хватит защитить не одну докторскую.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.