Что делать программисту в России? Уехать за кордон, уйти в бизнес… А можно хорошо подумать, забить нишу в Интернете – и стать №1. Дмитрий Крюков подумал…прошел год – и его Twin Peaks гордо возвышается над остальной российской Сетью… Именно 8 октября, в день первой годовщины «Рэмблера» (http://www.rambler.ru) – и свой день рождения его создатель покинул логово в дальнем Подмосковье, чтобы добраться до офиса «Планеты».
«В прошлом году, когда мы собрались на мой юбилей, решили, что это будет и день рождения «Рэмблера», потому что я запустил его за два дня до этого.»
-Ваша роль в этом деле?
««Рэмблер» – проект компании «Стек», коей я являюсь совладельцем. Мы занимаемся сервис-провайдерством на юге московской области. Серпухов, Подольск. Моя основная работа в компании – я системный администратор, руководитель всех сетевых служб. У нас достаточно большая уже сеть, покрывает несколько районов.…
«Ситуация была следующей. Бизнес, конечно, идет, но не теми шагами, которые мы хотели. Мы участвуем во многих грантовых проектов – и по одному из грантов летом прошлого года приезжали американские специалисты и проанализировали нашу работу и выдали целый талмуд рекомендаций, какой мы дложны видеть нашу компанию к 2001 году. Мне, в частности, говорилось, что мы должны сделать больший крен в сторону информационных услуг, в отличие от технических, которые преобладали на 98%. Стали чесать репу. Смысл был следующий: проблемы русификации существуют. Пока эти огромные монстры отсканируют наше пространство, пройдут годы, десятки лет. Я до сих пор нахожу ссылки на свой старый сайт, который давно уже не существует. Если ты заранее ограничиваешь территориально себя, ты имеешь большую мобильность, хотя, как показывает опыт, с бурным ростом Интернета у нас эта мобильность теряется. У меня сейчас цикл обхода сайтов составляет два месяца, три месяца. А как будет на следующем проходе – вообще сказать не могу…
«В подчинении у меня был всего один человек. Когда народу много, силы распыляются, и качество страдает. Решил: ничего не остается, как самому. И вот, к осени разразился первым пробным вариантом – он дорабатывается до сих пор.»
-Тяжело ли написать поисковую систему?
«Вопрос, конечно интересный. Прежде, чем начинать чего-то писать, нужно проанализировать, что есть. Оказывается, из свободно доступного, нет ничего, за исключением Harvest. Достаточно неплохая поделка для студентов, но сделана с расчетом, что у тебя миллионы ресурсов, что в наших условиях неприемлемо. Поэтому пришлось отказаться. Я поизучал способы, как они строят эти системы. Была альтернатива: либо это система управления базами данных (СУБД), либо – специализированная система. Оценив быстроту работы различных вещей, я решил, что это все-таки должна быть специализированная система. У нее есть все атрибуты СУБД, за исключением того, что она не может быть универсальной, она может быть применима только к Паутине, к HTML и к текстовым неструктурированным документам.
«Ох, я никому не пожелаю, если кто-нибудь захочет создать нечто подобное, я скажу: трижды-четырежды задумайтесь, прежде чем делать. Во-первых, дело действительно очень трудоемкое. Я работаю с 10 утра и до двух-трех. Сейчас уже легче, но нужно отдавать себе отчет, что написанием дело не кончается– почему я говорю, что нужно 10 раз подумать, делать это или нет. Технические аспекты реализации в России очень будут сильно влиять. Мы до сих пор приучены на писюках работать и не знаем, что такое достаточно серьезные машины.
-А насколько серьезные машины в вашем распоряжении?
«Средней серьезности. Учитывая, что мы не являемся богатой компанией, я строил распределенную систему – не из одной машины, их там пять у меня. Каждая несет свои функции. Среди них две «Альфы» 260 МГц. Одну нам подарил консорциум, в рамках которого мы выполняли одну из работ, одну мы пробрели сами… Она пришла нам из Америки с Windows NT, в наших условиях мне пришлось загрузить на нее юниксоподобную систему, но не родной диджиталовский, потому что за него надо платить достаточно дорого, а Linux.
«А дальше – разработка этой прикладной системы – она пишется стандартными средствами на языке Си. Для того, чтобы система была работоспособной, требуется, чтобы отдельно работала поисковая часть, а накопительная – отдельно – на одной машине, иначе ни одна машина не справится с двумя такими задачами. Они соединены по сети, взаимодействуют друг с другом. Третья выполняет роль WWW-выдачи имиджей, а четвертая – она уже собственно к поисковой системе не имеет отношения, это счетчики.»
-«Рэмблер» состоит из поисковой системы и Top 100…
Это вещи достаточно независимые, хотя в ближайшем будущем – у меня сейчас один программист работает над созданием классификатора, но мы не хотим делать как все, тем более сущестуют такие гранды, как Yahoo, – а хотим увязать, чтобы он был грамотно иерархически построен, но в то же время был бы увязан с Top 100.»
-От подобия AltaVista вы эволюционируете в сторону Yahoo?
«Ну да. Хотя в результате это будет некий конгломерат того и другого.»
-Кто это финансировал?
«Целиком финансировала все наша компания. Более того, она продолжает этим заниматься. Сейчас наступил момент, когда мы из того, что получаем, можем выплатить зарплату, и чуть-чуть остается на амортизацию железок. Но о прибыли вообще пока речи не идет.»
-А популярность бешеная…
«Это верно. Но рекламодатель пока активно не идет. Ну что такое 2000 баксов в месяц?»
Но, тем не менее, вы заняли очень хорошую нишу, которая заработает, если люди станут вкладывать деньги.
«Совершенно верно. Наша компания идет на расходы, подразумевая, что если такое время придет, – еще год назад мы об этом говорили с моим компаньоном, исполнительным директором Сергеем Лысаковым, – я ему сказал: «Это должно сюда прийти, поэтому давай спокойно пойдем на эти траты. На худой конец, у нас останется вариант^ кому-нибудь спокойно ее продать. Этот вариант все время существует – и нам предлагают. Цена, правда, не такая, как мы хотели, тем более мы и не собираемся продавать. Поэтому мы смотрим в будущее с достаточным оптимизмом.»
-Теперь вопрос сугубо личный и практический: прав ли я в выборе поисковых систем? Практически все – через AltaVista, для некоторых вещей – Yahoo… При том, что Top 100 я пользуюсь очень активно. В чем я проигрываю, когда не ищу Рэмблером?
«По любому поисковому слову я скажу, в чем вы проигрываете, а в чем выигрываете. Если вы ставите себе задачу сделать достаточно изощренный запрос – с языком, которым обладает AltaVista, это, безусловно, вне конкуренции. Здесь мы никак не можем с ними конкурировать. Если вас интересует запрос попроще, но по сочетанию многих русских слов, то здесь, вообще говоря, мы выигрываем, потому что имеем больше русских документов. На сегодняшний день – 1.6 млн. русских документов. Насколько я знаю, у AltaVista – 30 миллионов по всему миру. Нельзя сказать, что Россия является тридцатой частью всего Интернета. Дай бог, чтобы она сотой являлась. Это показатель, что количество документов у меня должно быть больше. Здесь вы проиграете.»
Результаты теста по самой заезженной в русской Сети группе: на запрос «Аквариум & Гребенщиков»: AltaVista выдала 69 ссылок в Windows-1251 плюс 35 в КОИ, «Рэмблер» – 404 во всех кодировках…
-Вы хотите сказать, что русские ресурсы индексируются у вас больше, чем у AltaVista?
«Безусловно.»
-А какие еще тонкости с русским?
«Ну мы-то русские люди. Мы хорошо знаем беспорядок, который хранится вокруг кодировок. Существует два сайта, один – только Windows, другой – только КОИ. Как же с них собирает AltaVista? Когда вы вводите запрос, вы должны написать сначала в кодировке Windows – найдете документы с одного сайта. Потом – еще раз написать в КОИ-8 – найдете документы с другого сайта. У нас же – одним запросом вы получаете весь список, но с указанием: этот документ – в КОИ-8, этот – в Windows.»
-А падежные флексии?
«Тут существуют разные подходы. Некоторые российские поисковые системы – «Апорт», «Яndex»– они упорно эту технологию двигают. Возможно, мы тоже сделаем такую штуку – но, могу пояснить свое отношение. Человеку неинтересно, если он извлечет 80000 ссылок – он все равно по ним не пройдет. А такая вещь объективно тому способствует. У них получится 80000 ссылок там, где у меня получится 5000 – но люди довольны и моими 5000 ссылок, потому что они отражают то, что они хотели. Тем не менее, сделав маленький реверанс в их сторону, мы воплотили у себя использование метасимволов: Если вы в конце слова поставили звездочку – значит, произвольное продолжение. Это отчасти компенсирует их «шел-ходил» и.т.д. Пока в этом направлении я двигаться не очень хочу, и так документов слишком много появляется. Моя главная задача, чтобы он как можно точнее находил. Не как можно больше, а как можно точнее.»
-Перейдем к Top100… Какой был бы рейтинг поисковой системы Рэмблер, если бы она участвовала в Rambler Top100?
«Я даже не стал ставить себе скрытый счетчик. Я все равно могу это оценить по логам… Первый, разумеется! На машине, на которой крутятся счетчики, в день происходит 500000 хитов. Из них счетных – 300000, 200000 – заходы, ну и картинки. Где-то в районе 100000 реальных посетителей. Если самые ведущие, «Анекдоты» Димы Вернера получают 12000-15000, то можно себе представить. Почти что порядок разницы. Ну это естественно: все же приходят смотреть.
« Поисковая система была сделана, но известности у нее пока нет. Внимание надо привлечь. А внимание надо привлечь прежде всего к имени. Остальное приходит само, если все сделано правильно и хорошо. Когда становится известно имя Rambler, люди начинают интересоваться, а что он еще может. «А вот, он может искать.» – «А давай посмотрим, чего он ищет.» – «Да ничего, достаточно неплохо ищет». И сделали себе закладочку. И где-то в начале весны, когда технические аспекты поисковой системы были решены, а запал остался, поизучав опыт зарубежных коллег, я обнаружил WebsideStory: http://www.websidestory.com. – и подумал: «Вообще говоря, вещь неплохая. Это прототип».
«Мы заведомо сказали: ограничиваемся Россией, странами Содружества и зарубежными сайтами, которые имеют отношение к России. Иначе никакого ресурса не хватит. Сначала это были примитивные, как и у них, счетчики, нагрузочка была маленькая. Все шло хорошо. Но, нагрузки стали резко расти. Пришлось модифицировать программное обеспечение. Сейчас 2500-2600 участников. Кто-то приходит, кто-то уходит. Неуклонный рост чуть-чуть опережает развитие Интернета в России. Возможно, это связано с тем, что рост веб-сайтов опережает рост самого Интернета. Рост – по-моему явно больше, чем рост провайдерских компаний. Существуют майкрософтовские поделки, под Unix достаточно легко ставить сервер. Почитал книжки – и уже много людей считают себя хорошим веб-мастером.»
-Каковы основные вехи в истории Top100.
«Надо сказать, я благодарен Евгению Пескину. На ROL он поставил счетчик одним из первых. К тому времени участником был только мой сайт, сайт моего друга – и практически все. И тут – Евгений написал, что с какими-то положениями правил он, может быть, не согласен, мы их согласовали и я ему пояснил, что это означает – и в этот же день он поставил счетчик. На следующий день было 60 участников – как только увидели ROL. И дальше – покатилось, как только крупные все вошли – вошел «Гласнет», вошел «Демос»... Я посчитал это своей победой и понял, что он будет жить. А до этого сомневался, что кому-то это будет нужно.»
-Но Top 100 – это не только счетчик, но и статистика.
«Сам Евгений в письме мне написал, что «вы, вообще говоря, можете занять нишу независимой экспертизы». На что я ответил, что, честно говоря, этого бы и хотелось. Просто не знал, насколько это получится. И поэтому был очень ему благодарен за то, что он включил себя, не испугался, что мы маленькая компания с каналом 256Кбит. Вот это, считайте, и веха. Дальше пошло само – вверх, вверх, вверх.»
-Недавно были у вас трения с людьми из «Нетскейта». Объясните, что им не понравилось.
«Мне трудно судить. Я могу только высказать только предположения. «Рэмблер» – вещь достаточно известная. В мире пишущих людей в Интернете существует конкуренция – это тоже не секрет. Чем больше ты кого-то известного можешь схватить, ведь мертвую собаку-то не бьют, – я так понимаю, что это просто борьба за популярность, только и всего. В общем, я не в обиде. Я отмечал в прошлый раз, что мне не понравилась вот эта выходка с «Чаепитием».
-А что там было?
«Носик и компания все свои подробные суждения на эту тему высказали на этом сайте (http://chaepitie.ml.org) Там ничего нового не было, за исключением того, что был сделан дизайн под рэмблеровский Top100. Вот это меня возмутило. Это некий способ существования для такой категории. Я не считаю, что он самый худший. Меня такой способ не касается, у меня другая направленность работы. На самом деле я не высказал никакой обиды к Носику и всей команде. Более того, не могу сказать, что это сыграло положительную или отрицательную роль. Наблюдался примерно тот же рост количества участников. Никакого влияния на саму работу оно не вызвало. Может быть, больше людей стало смотреть»
-Почему ваш счетчик растет быстрее, чем счетчик, скажем, Мухаммеда Мукита?
«Счетчик счетчику рознь. Все они работают через имидж. На самой заре люди стали говорить, что счетчик сильно расходится со статистикой в меньшую сторону. Я людям объяснял. Люди сказали: сделай так, чтобы всякий раз, когда я сходил и вернулся назад, он посчитал, что я вернулся. Для этого в HTTP-протоколе существуют средства: выдается некий специальный заголовок, что данный документ (счетчик) нельзя кэшировать – ни прокси-серверам, ни локальным проксимам. И счетчик стал показывать ситуацию ближе, хотя и не так, как если человек анализирует по логам.»
-Ваш счетчик ближе к истине?
«Безусловно, ближе, чем Websidestory. С другой стороны, я сам не очень рад: это увеличивает трафик и нагрузку. Я смотрю со своей, технической точки зрения. Сейчас с этим будет полегче. Мы договорились со своим сервис-провайдером – «Релкомом», что перенесем счетчики на российскую опорную сеть. Это их добрая воля. Мы туда поставим очень мощную отдельную машину, которой хватит. Мы осознаем, что слишком резко пошла вверх популярность Top 100. Мы даже не успели отследить эту ситуацию.»
-Есть ли неточности в статистике по заходам, которую он показывает?
«Да. Во-первых, он не отражает заходов чисто текстовыми браузерами, например, Lynx. У многих стоят отключенные картинки. Разумеется, у нас бывают технические проблемы. Сейчас уже нет. До этого мы пытались оживлять полуумирающие машины. Было принято стратегическое решение: нечего пороть горячку, это надо делать отдельно, три недели назад мы все перенесли – с тех пор проблем быть не должно, за исключением скорости ответа.
«Еще неточности? Ну, например, та же самая накрутка, как сделали эти господа. Участвовали в этой компании Носик, Тема Лебедев, исполнителем программы – скрипта накрутки был Уманцев, и еще какая-то девушка была упомянута в качестве подающей кофе. Вещь очень простая и отслеживается сразу Нужно с периодом в 30 секунд спрашивать URL счетчика какой-то страницы. Каждая страница характеризуется своим счетчиком.. Сейчас я сделал автомат, там сразу видно, что соотношение уникальных сайтов к количеству хитов будет очень маленьким. Даже если ты – сервис-провайдер, и у тебя 10 машин вокруг, ты все равно по-другому не сделаешь, если сильно задерешь счетчик. Я уже говорил: если тебе хочется подделать нужно сделать умнее. Такие варианты тоже возможны. Они говорят, что сделали это для того, чтобы показать, что это возможно.»
-Возбраняется ли вашими правилами, если у меня идет накрутка на локальной копии, когда я правлю страницу в онлайне?
«Я не думаю, что этого стоит опасаться, ведь все же смотрят свои страницы, как ты ни крути, их нужно отлаживать. Мы совершенно спокойно на эти вещи смотрим. Другое дело, если у сайта было вчера 15 хитов, позавчера – 15, а сегодня – 8000, это сразу подозрительно.»
-А если он очень хорошо проанонсирован?
«В любом случае, кривая будет – «шляпа Наполеона». Могу сказать, как инженер.»
-Какая статистика получается по нашему Интернету в целом?
Совершенно очевидно, что Интернет используется больше для досуга, чем в качестве рабочего инструмента. Тенденция какая: сейчас поделили на группы. Существуют группы: развлекательная, Интернет-сервисы, – зная, что Вы будете спрашивать, я взял и просто просуммировал. Оказалось, что они примерно равны, и развлечения даже выигрывают. Из этого я сделал вывод: пока Интернетом пользуются скорее как игрухой. Это достаточно печально: ведь ресурсов тьма русскоязычных.»
-Значит, меньше денег, чем могло бы быть?
«Совершенно верно. Меня не очень устраивает, что к Интернету здесь относятся не очень серьезно.»
-Хотел услышать рекомендации, в какие графы лучше добавлять свои сайты?
«Классификация выгодна всем. Значительно больше ваш шанс появиться ближе к верху. Больше шанс, что на ваш сайт посмотрят. Есть общий рейтинг, мы его не отменяли. После того, как мы ввели классификацию, мы дали возможность через кнопочку “Modify” помимо «для взрослых» или не «для взрослых» указать категорию. По умолчанию – «прочие». Мы не цензоры, чтобы определять, кто вы такой, откуда ваш сайт. Как недавно заметил тот же Носик, ему такая идея симпонировала, потому что будет видно: «а этот парень не в свои сани влез». Хотя меня это мало волнует.»
-А что все-таки заставило организаторов «Чаепития» вернуться в Top 100?
«Думаю, они хотели, чтобы существовали классификации, потому что хочется доказать, что ты лучший в своем классе, – ну, человек тщеславный. На самом деле я не считаю, что в этом есть что-то плохое: без тщеславия прогресса не будет. Есть некая обоснованность с их точки зрения. Их количество никогда не будет приравнено к «России-он-лайн», потому что они в разных весовых категориях. А здесь есть «масс-медиа».
-А почему нельзя масштабировать счетчик?
«Чисто техническая проблема. Можно было изначально подготовить десяток лейбаков, но это не было сделано.
-На «Гласнете» банер стоит долларов 50 в месяц…
«У нас тоже существует прейскурант. Он выше. Я с банерами работаю достаточно давно, с тех пор, как заработала поисковая система. Практика показывает: банер всегда эффективен, если он наверху. Банер более эффектиквен, если он один. Проводились сравнения. Дальше, в зависимости от того, что изображено на банере, можно говорить о том, где он эффективнее: на странице поиска, в головной или на странице Top100. Вещи, которые могут быть интересны специалисту, например, продажа компьютеров в Москве, я порекомендовал засунуть туда, где веб-мастера крутятся… Ребята согласились – были очень довольны. Существует и другой вид сервиса. Мы продаем банеры под ключевые слова. Эта услуга несколько дороже, чем обычная. У нас уже сейчас есть заказчики. В России я не встречал, чтобы это где-то еще существовало.
-А у кого банеры размещают активнее: на «Рэмблере» или на «Рекламе.Ру»?
«С тех пор, как «Реклама.Ру» опубликовала свою статистику, я оценил, что сейчас Рэмблер со своими возможными показами в день эквивалентен всей «Рекламе.Ру». Сколько они могут в день, столько может и Рэмблер. Это вещи одного порядка. У меня где-то 60000 банеров в день. Купленных – значительно меньше. Остальное – на обмен и на спонсорство. Мне нравятся некоторые сайты, например, Kenga (http://www.kenga.ru).
-Ближайшие планы на будущее?
«Об этом сейчас уже можно сказать, – мы открываем первый филиал, планируем создать сеть филиалов, которые могут мобильно свою территорию сканировать. По договоренности с ними, мы получаем от них мобильные индексы. В скором времени, недели две-три, первый должен заработать, сейчас уже опытная эксплуатация ведется.»
Остается пожелать Дмитрию быстрых машин, которые переварят любой запрос. А в своей нише он придумает еще немало интересного.