Посты с тагом поисковые системы
|
01 декабря 2007
|
Несколько лет назад, Яндекс анонсировал поиск по запросам, задаваемым на «человеческом» языке. По лексически несложным вопросам поисковый сервис начал выдавать вполне релевантные результаты. Особенно это стало заметно при поиске определений различных терминов (по крайней мере, по субъективным ощущениям). Изначально такая возможность мне показалась не более чем забавным дополнением к сервису, потому что сложно было представить, кто станет забивать в поисковик вопросы типа «Кто такой адмирал Иван Федорович Крузенштерн?», по какой-то иной причине, чем ради разлечения. Как оказалось, напрасно. Большая часть людей, которые ищут в интернете в первый раз (или в сто первый, но не хотят при этом заморачиваться «компьютерной херомантией»), формулируют запросы безумно неэффективно. И простой вопрос вроде «что такое…» или «где найти…» — еще не самый тяжелый случай.
Этот пост я решил написать для улучшения (в локальных масштабах) ситуации с пониманием основ техники поиска по вебу. Некоторое время назад я переводил статью с описанием расширенных возможностей поиска в Google (ее можно найти на paradigm.ru и на Хабре). Так вот, текущий текст — это сиквел-наоборот по отношению к той статье, расчитанный на более массовую аудиторию менее подготовленных пользователей. В большинстве случаев, любые предложения прочитать инструкцию, вместо того, чтобы приставать с вопросами, воспринимаются как личное оскорбление. Поэтому здесь я постараюсь доходчиво и сжато описать наиболее простые и при том значимые способы повышения эффективности поисковых запросов.
- Первое, что необходимо, это умение грамотно сформулировать название искомого предмета. Под словом «грамотно» подразумевается максимально точно и однозначно. Без соблюдения этого условия поисковик скорее всего выдаст не то, что вы хотели. Например, если нужно найти инструкцию для телефона, бесммысленно формулировать вопрос в как «мне нужна инструкция для моего телефона, а то я свою где-то потерял и никак не могу найти». Эффективный запрос в таком случае должен содержать максимально точное название искомого премета: «иснтрукция Panasonic KX-TG8225».
- Исключайте из запроса лишние слова, оставляя только значимые. Очень часто запросы формулируют в виде вопросительных предложений. Умные поисковики уже давно научились распознавать такие запросы, автоматически выделяя из них значимые слова. Например, задав Яндексу вопрос «Что такое дискурс?», на первой странице можно будет увидеть ссылки на соответствующие статьи в словарях и страницу Википедии.
/2007/12/yandex-search.png)
То же относится к любым другим несложным по структуре вопросам. Тем не менее, добавляя в запрос слова, не имеющие прямого отношения к предмету поиска, всегда увеличивается вероятность неправильной интерпретации такого запроса поисковой машиной, что приведет к снижению точности поиска.
- Определяйте точное написание слов и фраз, когда необходимо найти конкретный текст. Часто возникает потребность отыскать не просто материалы на заданную тему, а конкретный текст по его фрагменту. Например, для идентификации книги по цитате из нее, или песню, которую только что услышал на радио и запомнил из нее только пару строк. В таких случаях, во-первых, нужно выбирать цитаты, которые заведомо редко встречаются в текстах. Во-вторых, нужно отключить поиск словоформ, заключив цитату в кавычки. Такой прием действует на всех распространенных поисковиках одинакого, сообщая сервису, что искать нужно конкретную фразу, а не набор заданных слов, последовательность и склонение которых может меняться.
При необходимости, можно приводить сразу несколько цитат, заключив каждую в отдельные кавычки. Чем цитата длиннее и сложнее, тем релевантнее будут результаты поиска (прада слишком длинная цитата может не дать результата вообще, поэтому не стоит переусердствовать). Стоит еще отметить, что пунктуация в закавыченных запросах значения не имеет, и это удобно. Пример: по запросу «When we dance, angels will run and hide their wings» Яндекс и Гугл однозначно находят искомую песню.
- Последовательность слов в запросе имеет значение. Если не требуется искать конкретные фразы, как в предыдущем случае, лучше всего выстраивать слова запроса в соответствии с их весомостью. То-есть в порядке значимости при идентификации искомых фрагментов текста, а не так, как этого требует грамматика.
- Используйте поиск по конкретным сайтам. Часто бывает, что встроенной поисковой системой не получается найти нужный контент на каком-нибудь форуме или в блоге. В таком случае, вместо того чтобы опускать руки, можно воспользоваться сторонними сервисами. На всех развитых поисковиках есть возможнсоть уточнить поисковый запрос, задав конкретный сайт, на котором нужно искать. Поисковые скрипты, встраиваемые в различные CMS, часто не умеют работать со словоформами (особенно это касается неанглийских языков), поэтому использование внешних сервисов будет эффективнее. Кроме того, отчеты Яндекса и Гугла оформлены, как правило, удобнее и функциональнее, чем отчеты большинства встроенных систем поиска.
- Если нет уверенности, что поисковик разбирается в морфологии, можно составлять запросы, используя только корни нужных слов, отбрасывая приставки и окончания. При этом нужно выбирать такие слова, «упрощенная» форма которых не будет совпадать с другими, неинтересующими вас словами. Эта рекомендация так же относится к встроенным поисковым системам.
Любые дополнения приветствуются в комментах.
Ссылки по теме:
| |
17 июля 2007
|
(Данная статья перенесена из старого блога на paradigm.ru)
Листая lifehacker.com, я наткнулся на интересную статью о том, как можно более эффективно использовать поисковый сервис Google. В принципе я не ожидал встретить в ней чего-то принципиально нового для себя, тем не менее после прочтения результаты превысили мои ожидания. Думаю, эта статья может оказаться полезной для многих (ко мне чуть ли не каждый день обращаются люди с вопросами, которые можно решить элементарным поиском за две минуты).
Ниже я привожу перевод текста на русский язык, слегка дополненный от себя. В частности, примеры из англоязычного оригинала заменены более «жизненными», т.к. на мой взгляд прямой перевод выглядел бы несколько нелепо. Кроме того, я не стал переводить преамбулу, т.к. считаю ее излишней: те, кто заинтересован в повышении эффективности поисковых запросов в Google не нуждаются в объяснении того, что такое Google. Да и дифирамбы этому сервису посвящать как-то излишне, учитывая их доходы. Поэтому перейдем сразу к содержательной части:
- Один из нескольких (логическое ИЛИ). По-умолчанию Google ищет страницы, которые содержат все слова из поискового запроса, но если требуется выдать и те, которые содержат хотя бы одно слово из заданного множества, можно воспользоваться логическим оператором ИЛИ. Ему соответствует символ «|» (по-английски он именуется pipe symbol). Пример:
молоко|огурцы|селедка.
- Кавычки. Если вам необходимо найти определенную фразу дословно, можно использовать кавычки. Пример:
"Hotel California" (аналогичный запрос без кавычек вернул бы не только ссылки на все упоминания одноименной песни, но и на множество сайтов тур-операторов и гостиниц).
- Исключение (логическое НЕ). Для того, чтобы исключить из результата поиска те страницы, которые содержат определенное слово, в поисковом запросе необходимо использовать символ «-». Пример:
linux distrib download -suse (запрос вернет ссылки на страницы для скачивания различных дистрибутивов Linux, за исключением Suse).
- Похожие слова. Для того, чтобы Google искал слова, похожие на заданное, используйте символ «~» (тильда). Будут найдены синонимы и слова с альтернативными окончаниями. Пример:
~hippo (по запросу будет так же найдено, например, слово hyppopotamus). Примечание: у автора перевода есть некоторые подозрения на то, что оператор работает только с английским языком. Если кто-то может его обоснованно развеять — просьба сделать это в комментариях.
- Маски. Символ «*» можно использовать как маску — условное обозначение произвольного количества любых символов. Это может быть полезно, например, если вы пытаетесь найти текст песни, но не можете при этом точно вспомнить слова. Или отыскать сайт, домен которого запомнился только отчасти. Пример:
welcome to the hotel * such a lovely place; *pedia.org.
- Расширенный поиск. Если вы забыли какой-либо из перечисленных операторов, всегда можно воспользоваться формой расширенного поиска.
- Определения. Используйте оператор
define: для быстрого поиска определений. Пример: define:Ктулху (запрос выдаст ссылку на страницу из Википедии).
- Калькулятор. Одной из полезных и при этом малоизвестных возможностей Google является вычисление арифметических выражений. Во многих случаях это быстрее, чем использование программы калькулятора. В выражениях можно использовать операторы +, -, *, /, ^ (степень), sqrt (квадратный корень), sin, cos, tan, ln, lg, exp (ex), скобки и много чего еще. Пример:
sqrt(25 * 25) * 768.
- Числовые интервалы. В Google существует еще одна малоизвестная возможность — поиск числовых интервалов, которые можно задавать с помощью крайних значений, разделенных последовательностью из двух точек. Пример:
Букер 2004..2007.
- Поиск на заданном сайте. С помощью оператора
site: можно ограничить результаты поиска определенным веб-сайтом. Именно эта возможность обычно используется при установке поисковых форм Google на сторонних ресурсах. Пример: seagate barracuda site:ixbt.com.
- Ссылки извне. С помощью оператора
link:, можно найти страницы, которые ссылаются на заданный URL. Оператор можно использовать не только для главного адреса сайта, но и для отдельных страниц. Оператор не дает гарантии, что в результате поиска будут перечислены абсолютно все страницы. Пример: link:paradigm.ru.
- Вертикальный поиск. Вместо того, чтобы искать заданные слова во всем вебе, можно ограничить поиск какой-либо одной определенной сферой. В Google входит множество поисковых сервисов, позволяющих находить интересующую информацию в блогах, новостях, книгах, и многих других категориях:
- Кино. Для поиска названий фильмов удобно использовать оператор
movie:. Пример: movie:One Flew Over the Cuckoo's Nest.
- Музыка. Оператор music: ограничит результаты поиска контентом, который тем или иным образом связан с музыкой. Пример:
music:Depeche Mode 101.
- Преобразователь единиц измерения. Google можно использовать для быстрого преобразования метров в ярды, килограммов в фунты,
литров в джоули. Для этого используется абсолютно естественный для человеческого понимания синтаксис. Пример: 16 tons in pounds. Update: по тому же принципу можно выполнять преобразования между суммами в различных валютах. Например: 15 Ruble in USD. Курсы валют Google узнаёт из Citibank N.A.
- Числовые шаблоны. Алгоритмы Google умеют распознавать тип числовых данных по шаблону их ввода. К сожалению, большинство этих шаблонов соответствуют только американским стандартам. В частности можно искать:
- региональные телефонные коды;
- номера автомобилей (US, как не сложно догадаться, only);
- инвентарные номера Федеральной Комиссии Коммуникаций FCC (так же US only);
- UPC (универсальные товарные коды, применяемые в США);
- регистрационные номера Федерального авиационного агентства (США);
- номера патентов (США);
- биржевые котировки (нужно использовать символы акций) и прогноз погоды на пять дней вперед.
- Типы файлов. В случае, если вы хотите искать, например, только документы в формате PDF, Word или Excel, можно использовать оператор
filetype:. Полный список поддерживаемых форматов на момент написания данного текста: Adobe Reader PDF (.pdf), Adobe Postscript (.ps), Autodesk DWF (.dwf), Google Earth (.kml, .kmz), Microsoft Excel (.xls), Microsoft PowerPoint (.ppt), Microsoft Word (.doc), Rich Text Format (.rtf), Shockwave Flash (.swf). Пример: stroustrup c++ language filetype:pdf. Update: Для выбора типа искомых файлов так же можно использовать оператор ext:.
- Местоположение слова. По-умолчанию Google ищет заданный текст внутри содержимого страниц. Но если есть необходимость искать в некоей определенной области, можно использовать такие операторы как «inurl:» (поиск внутри URL), «intitle:» (поиск в заголовке страницы), «intext:» (поиск в тексте страницы), и «inanchor:» (поиск в тексте ссылок).
- Кэшированные страницы. При поиске устаревших страниц и страниц, контент которых был обновлен, может помочь поиск в кэше поисковой машины. Для этого предназначен оператор
cached:. Update: Существует так же близкий по смыслу оператор cache:, с помощью которого можно сразу получать страницы из кэша по их URL. Этой возможностью в принципе можно пользоваться как своеобразным бэкапом видимых для Google веб-страниц: даже если страница будет удалена со своего сайта, на Google может остаться ее копия.
- Ответ на главный вопрос жизни, вселенной и всего такого. Google знает ответ даже на этот сакраментальный вопрос (если он будет записан по-английски в нижнем регистре).
- Поиск лиц. У поисковика картинок есть интересная (и, на сколько мне известно, пока официально недокументированная) возможность — выделять из всего множества найденных изображений лица. Для того, чтобы этим воспользоваться, необходимо добавить к URL результата поискового запроса дополнительный GET-параметр
imgtype=face. Пример: http://…/images?q=Audrey+Tautou&imgtype=face
- Информация о сайте. С помощью оператора
info: можно получить известную Google информацию об указанном сайте. Пример: info:habrahabr.ru.
- Похожие сайты. С помощью оператора
related: Google может выдать список сайтов, которые считает похожим на заданный. Пример: related:flickr.com.
- Способы представления. Помимо стандартного представления результатов поиска, существуют ещё два экспериментальных, которые можно активировать с помощью оператора
view:. Первый из них — timeline предназначен для отображения различных хронологических событий и может наглядно представить распределение результатов поиска на временной оси. Пример: George Washington view:timeline (результатом подобного запроса будет некое подобие биографии, материалы которой собраны с множества ресурсов Сети).
Второй способ отображения — map удобен для поиска по картам. При его выборе, в отчёте с результатами поиска сразу открывается фрейм с картой, на которой указателями помечено то, что нашел Goolge. Пример: fifth avenue ny view:map. С русским (да и любым неанглийским языком), как не сложно догадаться, сервис пока не дружит. Кроме того, релевантность поиска по картам оставляет желать лучшего (хотя бы потому что запрос Saint Petersburg view:map поставил Москву, Павловск и Петродворец выше искомого города с четко заданным названием).
За более детальным описанием синтаксиса Google, можно обратиться к одному из следующих источников:
Обсуждение статьи на Хабре: http://habrahabr.ru/blog/google/17477.html
| |
|
|