Понимание поисковых запросов лучше, чем когда-либо прежде
Если за 15 лет работы над поиском Google я и узнал кое-что, так это то, что любопытство людей бесконечно. Мы видим миллиарды поисковых запросов каждый день, и 15 процентов этих запросов - это те, которые мы не видели раньше - поэтому мы создали способы выдачи результатов для запросов, которые мы не можем ожидать.
Когда такие люди, как вы или я, открывают Поиск, мы не всегда уверены в том, как лучше сформулировать запрос. Мы можем не знать, какие слова использовать, или как что-то писать по буквам, потому что часто мы приходим в Поиск, как раз для того, чтобы что-то узнать - у нас не обязательно есть знания для того, чтобы сделать типичный запрос.
По сути, поиск - это понимание языка. Наша задача - выяснить, что вы ищете, и получить полезную информацию из Интернета, независимо от того, как вы пишете или комбинируете слова в своём запросе.
Несмотря на то, что мы продолжали улучшать наши возможности понимания языка на протяжении многих лет, мы иногда всё ещё не совсем понимаем эти особенности, особенно когда запросы сложны или написаны разговорным языком.
Фактически, это одна из причин, по которой люди часто используют «сленговые словечки», вводя слова, которые, по их мнению, мы поймём, но на самом деле они не являются настоящими поисковыми запросами, которые может определить система.
Благодаря последним достижениям нашей исследовательской группы в области понимания языка, которые стали возможными благодаря машинному обучению, мы значительно улучшили понимание запросов, что стало самым большим скачком вперед за последние пять лет, и одним из самых больших скачков в истории Поиска.
Как модели BERT применяются в Поиске.
В прошлом году мы разработали и получили открытый исходный код метода нейронной сети для предварительной подготовки к обработке на естественном языке (NLP), который называется двунаправленным представлением кодировщика от трансформаторов, или, как мы его называем, BERT, для краткости. Эта технология позволяет каждому обучать свою собственную современную систему ответов на вопросы.
Этот прорыв стал результатом исследования Google о преобразователях : моделях, которые обрабатывают слова по отношению ко всем другим словам в предложении, а не по порядку. Таким образом, модели BERT могут учитывать полный контекст слова, рассматривая слова, которые идут до и после него, что особенно полезно для понимания цели поисковых запросов.
Но не только достижения в программном обеспечении могут сделать это возможным: нам также потребовалось новое оборудование. Некоторые из моделей, которые мы можем построить с помощью BERT, настолько сложны, что расширяют границы того, что мы можем сделать с использованием традиционного оборудования, поэтому впервые мы используем новейшие облачные TPU для предоставления результатов поиска и быстрого получения более актуальной информации.
Понимание принципов ваших запросов
Итак, это содержит много различных технических деталей, но что всё это значит именно для вас?
Что ж, применяя модели BERT как к ранжируемым, так и к отобранным фрагментам в Поиске, мы можем гораздо лучше справляться с задачей поиска полезной информации. Фактически, когда дело доходит до результатов ранжирования, BERT поможет Поиску лучше понять каждый десятый запрос в США на английском языке, и мы со временем перенесём это на бóльшее количество языков в разных странах.
В частности, для более длинных, более диалоговых запросов или поисков, где предлоги, такие как «для» и «к», имеют большое значение, Поиск сможет понять контекст слов в вашем запросе. Вы можете искать с помощью таких фраз, которые кажется вам естественными.
Чтобы запустить эти улучшения, мы провели много тестов, чтобы убедиться, что изменения на самом деле более полезны. Вот несколько примеров, демонстрирующих наш процесс оценки, которые демонстрируют способность BERT понять цель вашего поиска.
[ середина текста содержит примеры только для английского языка, и это не является критически важным для русскоязычных читателей, поэтому, если вам это, всё-таки, интересно, то данные примеры можно почитать в оригинальной статье в блоге 👈 ]
Улучшение поиска на нескольких языках
Мы также применяем BERT, чтобы сделать поиск лучше для людей по всему миру.
Мощной характеристикой этих систем является то, что они могут извлекать уроки из одного языка и применять их к другим. Таким образом, мы можем взять модели, которые учатся на улучшениях английского языка (языка, на котором существует подавляющее большинство веб-контента), и применить их к другим языкам. Это помогает нам лучше выдавать релевантные результаты на многих языках, на которых предлагается поиск.
Для избранных фрагментов мы используем модель BERT для улучшения рекомендуемых фрагментов в двух десятках стран, где эта функция доступна, и наблюдаем значительные улучшения в таких языках, как корейский, хинди и португальский.
Поиск не является решённой проблемой.
Независимо от того, что вы ищете или на каком языке говорите, мы надеемся, что вы сможете отказаться от некоторых ключевых слов, распознаваемых сегодня системой, и выполнить поиск так, как вам кажется удобным.
Но вы все равно время от времени ставите Google в тупик. Даже с BERT мы не всегда понимаем это правильно. Если вы ищите «какой штат находится к югу от Небраски», лучшим предположением BERT будет ответ : «Южная Небраска». ( Если у вас есть ощущение, что его нет в Канзасе, то вы правы - южнее Небраски только Канзас.)
Понимание языка остаётся постоянной проблемой, и это побуждает нас продолжать совершенствовать Поиск. Мы всегда стремимся стать лучше и работаем, чтобы найти смысл и самую полезную информацию для каждого запроса, который вы вводите в поиск
Комментариев нет:
Отправить комментарий