На прошлой неделе пять интернет-компаний обвинили «Яндекс» в недобросовестной конкуренции на рынке интернет-рекламы. Сайт объявлений Avito, база объявлений о недвижимости ЦИАН, сервис Profi.ru, онлайн-кинотеатр ivi.ru и онлайн-карты 2ГИС заявили, что «Яндекс» в поисковой выдаче отдает приоритет собственным сервисам. Для этого используются так называемые колдунщики — так в «Яндексе» называют результаты поиска не во всем интернете, а в сервисах самого «Яндекса». Колдунщики отвечают на поисковые запросы пользователя прямо на странице с результатами поиска и якобы смещают сторонние сервисы дальше, что уменьшает их посещаемость.
Как указывают недовольные «Яндексом» компании, с помощью колдунщиков на запрос «купить авто» поисковик выводит на первые строки выдачи ссылки сервиса auto.ru, принадлежащего самому «Яндексу», а на запрос «смотреть фильмы онлайн» — ссылки на «Яндекс.Видео». По запросам о недвижимости поисковик показывает колдунщиков «Яндекс.Недвижимости», о поиске специалистов — «Яндекс.Услуг», об онлайн-картах — «Яндекс.Карт». Авторы записки жалуются, что «Яндекс» тем самым не позволяет пользователям видеть предложения конкурентов. По статистике 35% всех кликов приходится на первую ссылку в поисковой выдаче, на вторую — около 15%, дальше этот показатель только снижается и к десятой ссылке составляет всего около 2%. Поэтому попадание не только на первую страницу поисковой выдачи, но и на высокое место на ней способно серьезно влиять на онлайн-бизнес.
ЦИАН подсчитал, что из-за колдунщиков «Яндекса» сервис потерял 15–20% трафика. Исходя из этих оценок и учитывая, что аудитория ЦИАНа составляет около миллиона уникальных пользователей в день и более десяти миллионов в месяц, получается, что сайт недополучает около 200 тыс. посетителей ежедневно. Правда, «Яндекс.Недвижимость» даже с помощью колдунщиков пока не смогла стать лидером на рынке объявлений недвижимости, ее аудитория — восемь миллионов пользователей в месяц. В 2ГИС оценили свой ущерб в 50% трафика (аудитория ресурса — 29,2 млн пользователей в месяц). Учитывая, что доходы многих компаний напрямую зависят от посещаемости, недополученная ими чистая прибыль может составлять десятки миллионов рублей.
В конце июня с подобными обвинениями, только уже не в формате записки, а в виде жалобы в ФАС, выступил сервис «Кассир.ру»: в компании утверждали, что «Яндекс» использует свое доминирующее положение и продает билеты с помощью виджета «Яндекс.Афиши» в поисковой выдаче, а другим игрокам рынка такой возможности не дает.
В «Яндексе» в ответ на все обвинения утверждают, что использование колдунщиков не ограничивает конкуренцию. По словам представителя компании, эти виджеты не имеют преимущества перед органической поисковой выдачей и не понижают результаты других компаний. «Яндекс» также поспешил «перевести стрелки»: мол, так же себя ведут и сами жалующиеся на компании, да и другие поисковые системы не лучше. Справедливость, по мнению российского гиганта, наступит, если все конкурирующие сервисы в своей поисковой выдаче будут показывать сервисы «Яндекса». Но экономической выгоды такого шага для компаний не просматривается. По мнению независимых сервисов, разросшиеся поисковые платформы все сильнее захватывают интернет, и эту проблему нужно решать.
Результаты нашего эксперимента показали, что по запросу «смотреть фильм чернобыль 2019» первая ссылка ведет на сайт с пиратским видео, а уже на второй строке появляется «Кинопоиск» (был куплен «Яндексом» в 2013 году), который предлагает сразу же в поисковике начать смотреть трейлер к сериалу. При этом ссылка на «Кинопоиск» снабжена специальной синей галочкой «Сервис Яндекса», которая повышает степень доверия пользователей к этому источнику (в Instagram и Twitter аналогичные синие галочки используются для обозначения верифицированных аккаунтов знаменитостей и СМИ). Сайт «Амедиатеки» расположен в середине первой страницы поиска, с — ближе к концу. По запросу «журнал эксперт адрес» первый результат поиска — виджет «Яндекс.Карт», а ссылки на 2ГИС на первой странице поисковой выдачи нет вовсе.
Поисковое доминирование
Еще несколько лет назад «Яндекс» активно боролся с Google за российский рынок интернет-поиска. В 2015 году российский поисковик подал жалобу в ФАС на Google из-за того, что американская компания запрещала Android-разработчикам предустанавливать на мобильные устройства приложения конкурентов. Google сопротивлялся и подавал встречные иски, но «Яндекс» выиграл. В 2017 году в Google официально согласились, что «Яндекс» может предустанавливать свои приложения на устройства на базе Android.
За победой по антимонопольному иску последовал стремительный рост «Яндекса» на российском рынке. В сентябре 2018 года «Яндекс» впервые обошел американского конкурента по доле поисковых запросов на устройствах Android в России. С тех пор российской компании удалось обогнать Google по этому показателю: в июне 2019 года на долю «Яндекса» пришлось 52,7% поисковых запросов российских пользователей Android, а на долю Google — всего 46%. Параллельно с борьбой за долю на рынке поисковых систем компания активно развивала собственные сервисы — во всех пользователь регистрируется с помощью своего аккаунта в «Яндексе», что позволяет максимально персонализировать сервисы. Сегодня россияне не только ищут информацию в «Яндексе», но и ездят на «Яндексе», заказывают еду у «Яндекса», смотрят кино на «Яндексе». Сервисами компании пользуются 108 млн пользователей — три четверти населения России.
Создатель «Яндекса» Аркадий Волож называет компанию «российской Кремниевой долиной» — настолько активно она участвует в новых технологических проектах. Но несмотря на расширение продуктовой линейки «Яндекса», большую часть выручки компания по-прежнему зарабатывает на своем поисковике и портале yandex.ru — 104,3 млрд рублей по итогам 2018 года. Именно поэтому для пользователей «Яндекс» в первую очередь остается «российским Google».
В поисках манипуляций
Дональд Трамп высказывается против Google еще со времен предвыборной гонки 2016 года. Тогда еще кандидат в президенты США, Трамп утверждал, что поисковик выдавал преимущественно негативно окрашенные новости и статьи о нем, а позитивно окрашенные, наоборот, опускал вниз в поисковой выдаче. Известно также, что, если ввести в поисковике Google слово idiot, сервис выдаст фотографию Трампа. В компании, правда, утверждают, что вручную результаты поиска по картинкам не регулируются, а основываются на полностью объективных факторах. Генеральному директору Google Сундару Пичаи пришлось даже объяснять неловкую ситуацию на слушаниях в судебном комитете палаты представителей Конгресса США. «Каждый раз, когда вы вводите ключевое слово, мы в Google сравниваем его с копиями миллиардов страниц в нашем индексе и ранжируем их более чем по 200 параметрам, таким как актуальность, новизна, популярность, то, как они используются другими людьми, — рассказал Пичаи. — Исходя из этого в любой момент времени мы стараемся ранжировать и находить лучшие результаты поиска по этому запросу. А потом внешние оценщики оценивают их в соответствии с объективными ориентирами. И именно так мы следим за тем, чтобы процесс проходил успешно».
Различные компании обвиняют Google в недобросовестной конкуренции (вернее, о конкуренции речи фактически не идет, ведь Google принадлежит порядка 90% европейского и американского рынка интернет-поиска, а каждую секунду с помощью Google производится 63 тыс. поисковых запросов). Так, в 2002 году сайт Search King подал в суд на Google за то, что поисковик понизил его ранжирование. Суд отклонил иск Search King и множество других аналогичных исков. Однако иск 2010 года, поданный рекомендательным сервисом Foundem, был удовлетворен. Британская компания пожаловалась, что Google намеренно понизила ее ранжирование. В Google привычно всё отрицали, но в 2017 году европейский суд приговорил Google к уплате штрафа в размере 2,7 млрд долларов.
Недавно журнал The Economist провел эксперимент. Через браузер с пустой историей поиска и с помощью специально написанной программы сотрудники журнала на протяжении всего 2018 года осуществляли поиск в Google по 31 поисковому запросу. Результаты эксперимента показали, что Google не отдает явного предпочтения левым или правым сайтам: в выдаче появляются в основном центристские ресурсы, которым доверяют их читатели. Исследование The Economist показало, что Google оценивает сайты не по идеологическому принципу, а по принципу виральности статей: пользователи больше кликают на наиболее привлекательные заголовки и тем самым повышают ренкинг сайтов, на которые они переходят.
Однако следует учитывать, что результаты исследования релевантны только для браузера с отсутствующей или предварительно очищенной историей поиска. Если же известно, что пользователь чаще читает статьи с правым уклоном, то Google продолжит предлагать ему подобные статьи. На это же указывает и Гэбриел Вайнберг, основатель поисковой системы DuckDuckGo, сфокусированной на конфиденциальности пользователей. «Google манипулирует результатами поиска и новостями на основании тех данных о пользователях, которые есть у компании, — считает Вайнберг. — Фильтрация и цензурирование результатов поиска и новостей создают информационный пузырь, который отражает и усиливает идеологические разногласия». Исследование, проведенное DuckDuckGo, показало, что Google выдает разные результаты поиска разным пользователям, которые проводят поиск по одним и тем же запросам, основываясь на истории посещений в браузере. В Google на исследование компании Вайнберга ответили, что в случае с новостями играет роль также фактор времени — ведь актуальные новости появляются каждую секунду.
Этот (бес)человечный алгоритм
Ежегодно Google обновляет свой поисковый алгоритм несколько тысяч раз. В основном это мелкие «улучшающие» изменения, которые происходят в реальном времени, часто несколько раз в день. Компания объявляет только о крупных обновлениях несколько раз в год. В Google говорят, что сначала проводятся оценки точности поиска, эксперименты тестировщиков и проверка на небольшой выборке реальных пользователей и только потом внедряются изменения. Порой обновления могут серьезно влиять на целые сегменты бизнеса. Например, в 2018 году алгоритм был обновлен таким образом, что существенно изменилось ранжирование сайтов компаний, специализирующихся на медицине, фитнесе и здоровом образе жизни. Для сайта RealSelf, интернет-сообщества для пациентов и врачей, изменения оказались критическими: органический трафик резко снизился, и компании пришлось сократить штат на 14% (36 сотрудников).
В сердце поиска Google находится алгоритм PageRank, который Сергей Брин и Ларри Пейдж создали еще в 1990-е годы. Это первый и самый известный алгоритм компании среди многих других. Сегодня в Google используют множество алгоритмов, каждый из которых оценивает контент по множеству критериев. Например, большое значение имеет уникальность изображений на страницах, частота их обновления и т. п. В Google постоянно работают над тем, чтобы выявлять автоматически сгенерированный и непопулярный контент и понижать его в поисковой выдаче. В последние годы в компании активно работают над внедрением в свои системы технологии машинного обучения, проводится непрерывный анализ запросов пользователей со всего мира. Разработчики постоянно добавляют новые критерии оценки значимости информации, меняют существующие, а компания держит все это в строгом секрете, повторяя, что делается это для «улучшения качества поиска».
Алгоритмы поиска Google с самого начала были эффективны, что и позволило компании набрать вес. Приблизиться по качеству поиска к Google оказалось крайне сложно, поэтому постепенно компания прочно срослась с самим понятием интернета. По сравнению с существовавшими в 1990-х годах методами поиска Yahoo и Lycos алгоритм Google PageRank добавил инновацию: логика алгоритма базируется на ранжировании релевантности веб-страницы на основании количества и качества страниц, с которыми она связана. Каждый раз, когда тот или иной сайт дает ссылку на другой сайт, он тем самым оценивает его и, соответственно, повышает его значимость. Алгоритм PageRank анализирует все кросс-ссылки, и, когда мы публикуем ссылку или просто переходим по ней, мы увеличиваем базу знаний Google и делаем алгоритм еще умнее. Получив огромную долю на рынке, Google приобрел качественно новые возможности для обучения своих алгоритмов, что усложняет позиции конкурентов.
С момента своего создания PageRank научился анализировать не только количество ссылок на сайты, но и множество других факторов — в Google не публикуют данные о них, однако известно, что всего их около 200. Маркетологи, которые работают с поисковыми механизмами Google, опытным путем выяснили, какие факторы влияют на Page Rank сайта, — это, например, ключевое слово в начале доменного имени, срок регистрации домена, количество контента на сайте, скорость загрузки страницы. Однако даже разработчики из Google, как правило, не имеют прямого доступа к алгоритму PageRank. Например, программист Пол Янг рассказывает, что, хотя его работа и связана с поиском Google, он ни разу не видел алгоритма ранжирования страниц. «Алгоритм ранжирования страниц — лишь небольшая часть поисковой платформы. Код большей части платформы открыт для всех сотрудников компании», — объясняет Янг. Таким образом, даже если разработчики хотели бы повлиять на поисковую выдачу, им бы это не удалось.
Алгоритм PageRank поддерживается и ручным трудом десяти тысяч сотрудников — так называемых оценщиков. В отличие от бездушных алгоритмов оценщики могут проанализировать, насколько фактологически верна та или иная информация. Оценщики работают не непосредственно в Google, а в компаниях-подрядчиках, например в Appen и Lionbridge. Как правило, оценщики получают 12–15 долларов за час работы. В Google утверждают, что оценщики анализируют сайты не с идеологической точки зрения, а только проверяют, насколько им можно доверять. Ручная оценка не влияет напрямую на поисковую выдачу Google. Выставленный оценщиком низкий рейтинг не приведет к запрету или прямому понижению ренкинга этой страницы. В компании говорят, что данные, генерируемые оценщиками, используются для улучшения алгоритмов поиска Google.
В отличие от Google, который практически ничего не рассказывает об обновлениях своего поискового алгоритма, «Яндекс», наоборот, публикует подробные отчеты о каждом крупном изменении в своем блоге. Последние несколько лет российская компания старается повышать качество контента в поисковой выдаче, чтобы пользователи на свой запрос не получали бессмысленный текст, созданный для SEO-продвижения сайта. Так, в 2015 году начал работать алгоритм «Минусинск», который понижает ранжирование сайтов, для продвижения которых используются SEO-ссылки. А в 2017 году появился алгоритм «Баден-Баден», который понижает положение переоптимизированных сайтов в выдаче. В «Яндексе» подчеркивают, что алгоритмы работают автоматически и люди на поисковую выдачу никак не влияют.
Робот вместо журналиста?
Чем больше информации индексируется поисковыми системами, тем сложнее становятся механизмы анализа и обработки данных. Все большую роль получают системы автоматической генерации информации, в первую очередь новостной. Ловушка для авторов контента и владельцев сайтов уже не только в необходимости побороть алгоритмы поисковиков. Мало выйти в лидеры поисковой выдачи, необходимо конкурировать с другими авторами, среди которых все больше роботов. Необходимость публиковать информацию на опережение, одновременно на многих ресурсах, оптимизировать текст для индексации поисковыми системами и соблюдать стандарты и структуру — вот лишь некоторые причины, подстегивающие рост автоматической генерации новостей.
Хотя первые автоматические новости появились еще полвека назад в прогнозах погоды, а технологии генерации естественного языка развиваются с 1950-х годов, особое внимание технологии получили недавно. За последние пять лет автоматическое создание новостей прошло путь от мелких экспериментов до глобального явления — сегодня ежегодно десятки тысяч новостных статей пишутся роботами. Технологии поставляют компании из США, Германии, Китая. Активно работают в этой области компании Arria, Applied Semantics, Automated Insights и Narrative Science, причем это не медиакомпании и занимаются они не столько журналистикой, сколько проблемами обработки естественного языка в целом.
Исследования в области машинного обучения алгоритмов для генерации и анализа текстов становятся все более доступными. Так, в июне американские ученые Джозеф Баллок и Мигель Луэнго-Орос опубликовали результаты эксперимента, в рамках которого всего за 13 часов они создали генератор политических речей на базе более семи тысяч текстов выступлений в ООН с 1970 по 2015 год. Для проведения эксперимента ученые потратили всего восемь долларов на облачные вычисления Amazon Web Services. В результате эксперимента ученым в 90% случаев удалось получить качественные, практически неотличимые от созданных человеком тексты. Как указывают авторы, при незначительном редактировании эти тексты можно публиковать.
Математический рейтинг вебстраницы (PageRank) для простой сети, выраженный в процентах. Вебстраница C имеет более высокий рейтинг, чем страница E, хотя ссылок на C меньше, чем на Е, но одна из ссылок на C исходит из более важной страницы B и, следовательно, имеет более высокое значение. Если условно считать, что веб-пользователь, который находится на случайной странице, имеет 85%-ную вероятность выбора случайной ссылки на текущей странице, и 15%-ную — перехода на любую другую страницу в интернете, то вероятность перехода к странице E с других ссылок равна 8,1%.
В идеале один и тот же алгоритм способен создавать тысячи новостных сюжетов на определенную тему, делать это быстро, дешево и, возможно, с меньшим количеством ошибок, чем любой человек. Если это произойдет, то значительная часть создания контента перейдет в руки роботов, что приведет к сокращению рабочих мест в новостных редакциях. Associated Press, одно из крупнейших и авторитетных новостных агентств, начало автоматизировать публикацию своих ежеквартальных отчетов о корпоративной прибыли. Ведущие медиакомпании, такие как Forbes, New York Times, Los Angeles Times и Washington Post, уже начали автоматизацию своего новостного контента. Пока это касается в основном материалов финансового характера: робот легко может отслеживать появление актуальных биржевых данных и в стандартизированном виде создавать новость по теме. Bloomberg News стали одними из первых в этой нише, их система Cyborg самостоятельно выпускает тысячи статей по финансам.
Подобные алгоритмы, как ни странно, воспринимаются многими авторами позитивно: машина теперь выполняет всю черновую работу, а осмысление собранных и обработанных данных уже дело человека. Бояться нечего, речи о полноценной замене журналистов роботами пока не идет, а авторы переходят на более высокую ступень в цепочке создания добавленной стоимости. В то же время сократить армию журналистов-рерайтеров и копирайтеров, переписывающих одни и те же новости, новые алгоритмы вполне способны. Алгоритмы могут использовать одни и те же данные, чтобы рассказывать истории на разных языках и под разными углами, тем самым персонализируя их в соответствии с предпочтениями читателей.
Подстегнуть новую технологию способен прогресс в машинном переводе с иностранных языков. Это направление с каждым годом прогрессирует, и компьютеры уже способны переводить типовые куски информации не хуже человека. Роботы-журналисты в перспективе дадут еще одно преимущество — смогут генерировать новости по запросу, оперативно создавая сюжеты в ответ на вопросы читателей или по итогам анализа комментариев к статьям.
В то же время наводнение роботизированными сюжетами и так перегруженного информацией интернета приведет к целому ряду кризисов. Во-первых, такая журналистика существенно увеличит количество доступных новостей, что усложнит для читателей поиск наиболее актуального контента. Во-вторых, автоматизированные и персонализированные новости лишь углубят проблему искажения информационной картины, что происходит сегодня на примере поисковых сетей. Это, возможно, будет способствовать фрагментации общественного мнения даже по простым вопросам. В-третьих, злоупотребления со стороны лиц, контролирующих медиа, могут создать совершенно новые инструменты управления массами.
Все идет к тому, что платформы будут усиливать доминирование в интернете, все больше давая пользователям персонализированный контент. Таким образом, поведение пользователя будет замыкаться в рамках одной доминирующей системы и на себе самом. Дробление таких платформ, по-видимому, возможно лишь либо законодательным образом, либо после появления новых конкурентных компаний, чей уровень сервиса будет превосходить платформы. Однако развитие технологий машинного обучения требует массового притока данных, и владельцы миллиардной аудитории здесь в выигрыше, поэтому война с платформами уже проиграна и независимый интернет все больше уходит в тень. Тем не менее развитие технологий обработки естественного языка чревато появлением качественных персонализированных фейков, что в перспективе способно подорвать олигополию массовых сервисов. Первые ростки кризиса уже стали заметны на примере недавних проблем Facebook, и претензии к «Яндексу» — лишь часть этого глобального процесса.