Использование системы полнотекстового поиска Sphinx
Владельцы многих сайтов устанавливают на свой сайт опцию поиска. Это помогает пользователям найти нужную информацию на сайте в считанные секунды. В этой статье мы расскажем, как работает полнотекстовый поиск в Sphinx Search.
Что такое полнотекстовый поиск
Существует несколько типов поиска:
Рассмотрим подробнее последний тип. Первые программы полнотекстового поиска сканировали содержимое каждого документа в базе. Это занимало очень много времени и вычислительной мощности.
В основе же современных алгоритмов поиска лежит индекс. Все слова и буквосочетания из документов загружаются в индекс (этот процесс называется индексацией). И, когда пользователь вводит свой поисковый запрос, поиск происходит по этому индексу, а не содержимому документов. Поисковик принимает запрос от клиента и ищет совпадения в индексе, опираясь на связь запроса с документом.
Поисковик начинает проверку совпадений с первого символа, чтобы сузить область поиска. Затем он добавляет последующие символы и передаёт результаты, сортируя их по точности.
СРОЧНО Удали Эту ПАПКУ на своем АНДРОИДЕ. Как за 1 минуту увеличить память на своем телефоне.
Такая система значительно повышает скорость поиска нужных документов. В то время, как индекс 10 000 документов может быть опрошен в пределах миллисекунд, последовательный просмотр каждого слова в 10 000 больших документов мог бы занять часы.
Что такое Sphinx
Sphinx (SQL Phrase Index) — это система полнотекстового поиска, которая разработана Андреем Аксёновым и впервые выпущена в 2001 году. Изначально Сфинкс была системой с открытым кодом, но начиная с версии Sphinx 3 стала проприетарной — создатели закрыли исходный код.
Sphinx написана на языке C++ и способна интегрироваться в популярные СУБД (например, PostgreSQL или MySQL). Также в ней есть API для популярных языков веб-программирования.
API или Application Programming Interface — это перечень способов, которыми одна программа может взаимодействовать с другой. Он включает в себя действие, которое можно выполнить, входные и выходные данные. Благодаря API код сайта получает массив идентификаторов тех записей, которые нашлись по поисковому запросу. Затем идентификаторы сопоставляются с теми, которые указаны в базе данных сайта.
В Сфинкс существуют официальные API. Они созданы для следующих языков:
Также сообщество разработало API для .NET и Elixir.
Какие преимущества есть у Sphinx
Sphinx как поисковая машина имеет следующие преимущества:
- Высокая скорость индексации. В Sphinx она достигает 10–15 мегабайт в секунду на каждое ядро процессора.
- Высокая скорость поиска. Когда вы вводите поисковый запрос, Sphinx ищет совпадения с запросом в индексе со скоростью обработки 150–250 запросов в секунду на каждое ядро процессора с 1 000 000 документов.
- Высокая масштабируемость. Поисковая машина может обрабатывать 50 000 000 запросов в день на кластер с 3 000 000 000 документов.
- Распределённый поиск. Sphinx позволяет задействовать несколько машин в сети для обработки запроса.
- Несколько полей полнотекстового поиска в документе. По умолчанию доступно 32 поля.
- Несколько дополнительных атрибутов для каждого документа, например, string (строка) или timestamp (дата и время в UNIX-формате).
- Использование стоп-слов на случай, если нужно убрать некоторые слова из поисковой выдачи.
- Однобайтовые кодировки и распространённая UTF-8.
- Морфологический поиск. Sphinx имеет встроенные модули для английского, русского и чешского языка. Также можно настроить модули для французского, испанского, португальского, итальянского, румынского, немецкого, голландского, шведского, норвежского, датского, финского и венгерского.
- ODBC-совместимые базы данных. ODBC (Open Database Connectivity) — это протокол, который разработала компания Microsoft. Он позволяет подключить БД к внешнему источнику данных, например Microsoft Access к SQL Server. Базы данных, которые поддерживают этот функционал, называются ODBC-совместимыми.
Где применяется система полнотекстового поиска Sphinx
Поисковая машина Sphinx используется для создания поиска по сайту или определённой странице. Он встроен в CMS:
- 1С-Битрикс,
- HostCMS,
- LiveStreet,
- Umi.CMS.
Для WordPress и Yii2 можно установить плагин. После этого поиск станет доступным.
На основе кода Sphinx созданы новые ветки ПО, которые называются форками. Так в 2017 году члены первоначальной команды разработки Sphinx разработали форк под названием Manticore.
Manticore — это бесплатная база данных с открытым кодом, которая создана специально для поиска. Это ответвление можно считать полноценным продолжением Sphinx, так как авторы сохранили первоначальные возможности и усовершенствовали их. Вот что добавили в Manticore:
- пакеты Docker и официальные репозитории YUM и APT,
- API для Go и JavaScript,
- интерактивные курсы, в которых описан функционал для пользователей,
- интеграцию в MySQL/MariaDB FEDERATED engine и ProxySQL,
- синхронную репликацию. Репликация — это процесс, когда изменения в одной копии объекта синхронизируются с остальными копиями. Когда эта синхронизация происходит за одну транзакцию, репликация называется синхронной.
- бесплатный анализ кода и прочее.
Тем не менее, Sphinx остаётся значимым ПО среди поисковых машин. Эта система поддерживается хостингом REG.RU, поэтому вы можете добавить её на своём сайте.
Надеемся, что статья оказалась для вас полезной и помогла понять, как работает полнотекстовый поиск в Sphinx.
Источник: www.reg.ru
Что знает провайдер о своих клиентах и видит ли историю браузера?
Разбираемся, видит ли провайдер поисковые запросы и какая информация ему доступна.
Кто такой провайдер и что он точно знает
Для начала давайте разберемся, что такое «провайдер» и какая информация ему доступна в любое время.
Итак, это так называемый поставщик услуг связи. То есть МТС, Мегафон, Ростелеком — все они являются провайдерами. Пользователь заключает с ними договор, согласно которому компания предоставляет человеку доступ к Сети, телефонной связи или цифровому телевидению — а зачастую ко всему сразу в виде пакета услуг.
Именно поэтому у провайдера всегда есть доступ к вашим личным данным, которые вы указали во время покупки выбранных услуг. Это ваш номер телефона, ФИО, домашний адрес и паспортные данные.
Но может ли поставщик связи видеть то, что люди делают в интернете? Для ответа на этот вопрос надо иметь небольшое представление о том, как вообще работает связь. Если объяснить этот процесс простыми словами, то во время работы в интернете все запросы сначала попадают на сервер провайдера. В свою очередь, он обрабатывает их и передает в глобальную Сеть — то есть на сервер сайта, к которому обращается пользователь. Также эта схема работает в обратном порядке — все ответы проходят через провайдера.
Видит ли провайдер, какие сайты я посещаю?
Если ответить кратко — да, видит, но не следит за этим денно и нощно. Да и данные о посещенных сайтах провайдер сохраняет не в виде списка URL, а в так называемых логах — они содержат IP-адреса серверов, которые посещал пользователь. Также доступ к трафику регулируется целым набором законов. Так, согласно постановлению РФ № 445, провайдер обязан хранить поисковые данные своих клиентов за последние 30 дней (хотя конкретный объем трафика в этом документе не указан и зависит от загрузки провайдера в определенный период).
А в соответствии с пунктом 1.1 Федерального закона от 07.07.2003 N 126-ФЗ (ред. от 05.12.2017) «О связи» оператор обязан предоставить доступ к данным о трафике государственным органам РФ по соответствующему запросу.
По своему личному желанию работники провайдера не будут сидеть и следить, смотрите ли вы на котиков в Инстаграм или качаете пиратский фильм. Но если к ним обратятся, например, сотрудники ФСБ, то они обязаны будут дать им доступ к вашим логам. Несложно догадаться, что история браузера обычного мирного пользователя никому не нужна — только если он занимаются незаконной деятельностью или каким-то образом привлек внимание спецслужб.
А теперь давайте разберем более конкретные вопросы.
Может ли провайдер отслеживать трафик через HTTPS?
Если использовать зашифрованное соединение HTTPS, провайдер сохранит только IP-адрес сервера, на который вы зашли, время соединения и объем переданных и полученных данных (трафик). Увидеть в логах название конкретной страницы сайта или ее содержимое с таким шифрованием не получится.
Видит ли провайдер поисковые запросы?
Нет, не видит, потому что все приличные поисковики используют протокол HTTPS, с которым содержимое страниц будет недоступно даже провайдеру.
В случае с незащищенным соединением HTTP оператор сохраняет те же самые данные. Однако, так как это открытый протокол, то провайдер (да и не только он — а любой достаточно продвинутый пользователь или злоумышленник) может получить доступ к URL и названиям страниц, которые вы открыли, истории поиска и даже той информации, которую вы использовали на конкретном сайте (переписке, загруженным файлам и так далее). Но опять же — самому провайдеру эти данные ни к чему, он действует в рамках законодательства и сохраняет логи только ради возможного запроса со стороны правоохранительных органов.
Что видит провайдер при использовании VPN?
Этот вопрос интересует всех любителей заблокированных сайтов и торрентов. Также советуем почитать, что такое VPN и как это работает.
При использовании VPN провайдер видит, что вы отправляете шифрованный трафик на определенный адрес. При необходимости у него получится проверить этот IP и узнать, что сервер находится где-то в Швейцарии и используется для VPN. А вот отследить, какие страницы вы посетили внутри виртуальной сети, провайдер не сможет — по крайней мере, если вы все правильно настроили. Да и использовать VPN в России официально не запрещено.
То же самое происходит и при использовании браузера Tor. Однако если VPN-сервис создает соединение через один сервер (и большой трафик на один IP-адрес может вызвать подозрение), то программа Tor постоянно меняет сервера в процессе работы. Провайдер также может проанализировать IP-адреса и понять, что вы что-то ищете в Tor, но не получит доступ к конкретным URL и поисковым запросам.
При этом по закону № 149-ФЗ «Об информации, информационных технологиях и о защите информации» владельцам анонимайзеров нельзя предоставлять доступ к сайтам, заблокированным на территории РФ. Также хостинг-провайдерам и операторам поисковых систем запрещено размещать в Сети ссылки на «программно-аппаратные средства доступа к информационным ресурсам, информационно-телекоммуникационным сетям, доступ к которым ограничен».
Федеральные органы исполнительной власти, осуществляющие надзор в сфере коммуникационных технологий и связи, могут отправить нарушителям запрос на ограничение доступа к запрещенным ресурсам. И по федеральному закону № 155-ФЗ «О внесении изменений в Кодекс Российской Федерации об административных правонарушениях», если оператор продолжит предоставлять доступ к этим самым заблокированным сайтам и приложениям, то оштрафовать за их использование могут даже физических лиц:
Неисполнение оператором поисковой системы обязанности по прекращению на территории Российской Федерации выдачи по запросам пользователей указанной поисковой системы сведений о доменном имени и об указателях страниц сайтов в сети «Интернет», доступ к которым ограничен на основании соответствующего решения Московского городского суда, или копий заблокированных сайтов,
-влечет наложение административного штрафа на граждан в размере от 3000 до 5000 рублей;
-на должностных лиц — от 30 000 до 50 000 рублей;
-на юридических лиц — от 500 000 до 700 000 рублей.
Федеральный закон № 155-ФЗ, пункт 2.
Таким образом — фактически, VPN в России разрешено. Но использовать его для работы с заблокированными ресурсами нельзя. В реальности же отследить применение анонимайзеров практически невозможно — и если вы не являетесь владельцем крупного торрент-сервиса, волноваться вам не о чем.
Режим «инкогнито» спасет от слежки провайдера?
Режим «Инкогнито» есть во всех программах для серфинга — Google Chrome, Mozilla Firefox, Яндекс… Но он нужен только для того, чтобы браузер не сохранял историю поиска. Так как вы все равно используете соединение, которое предоставил провайдер, логи в режиме «Инкогнито» будут записываться в обычном порядке.
Знает ли провайдер мой MAC-адрес?
Да, эта информация никак не шифруется и доступна операторам в полном объеме. Зачастую потому, что MAC-адрес устройства используется непосредственно для подключения к Сети — и провайдеру необходимо его знать. Другое дело, что вы можете поменять MAC-адрес роутера или компьютера вручную — но это может привести к проблемам с соединением.
- Беспроводная зарядка: вредна ли она для аккумулятора смартфона?=«content_internal_link»>
- Смартфоны с экраном 120 Гц: шаг вперед или просто маркетинг? =«content_internal_link»>
Источник: ichip.ru
Окончания ключевых слов не обрабатываются в соответствии с лексическими правилами, т.е. к примеру слова «БЕЛОРУССКИЙ», «БЕЛОРУССИИ» – разные ключевые слова. Поэтому лучше использовать в качестве ключевых слова без окончаний, т.е. например «БЕЛОРУСС». Регистр не имеет значения. Количество ключевых слов – неограниченно.
Все условия поиска в одном запросе логически умножаются. К примеру, если производится поиск ключевого слова «Zippo» одновременно по двум полям «Поиск в заголовках» и «Поиск в комментариях», то чтобы объявление было найдено, ключевое слово «Zippo» должно присутствовать и в заголовке объявления, и в его описании. Поэтому для таких случаев необходимо создавать два отдельных запроса. Первый запрос должен производить поиск в поле «Поиск в заголовках», а второй – в поле «Поиск в комментариях» (см. рисунок).
В настройках это будет выглядить следующим образом :
Ключевое слово AvitoDo для поиска объявлений на ручной модерации avito.ru, подробнее.
Ключевое слово AvitoDo:: для поиска неактивированных объявлений avito.ru, подробнее.
4. Набор дополнительных элементов управления аналогичен критериям поиска для данной категории на сайте АВИТО. При поиске в категории «Автомобили с пробегом» набор элементов дополняется следующими:
а) «Годы выпуска» и «КПП» – позволяют установить дату производства и тип коробки передач. Данные поля являются не обязательными и заполняются при необходимости;
б) «Состояние» – переключатель позволяет выбрать техническое состояние автомобиля – битое, небитое или любое;
В других категориях это такие дополнительные элементы управления поиском, как «Вид товара», «Тип товара», «Количество комнат» и т.д. Более подробно дополнительные элементы управления поиском в разделах «Квартиры» и «Комнаты» рассмотрены в описании к обновлению 2.56, включая, поиск по полю «Метро, р-н или улица».
Пример настройки поиска в других разделах
В других разделах настройка производится аналогично. В следующем примере поиск настраивается на неопубликованные объявления в подразделах персональные компьютеры, ноутбуки и комплектующие к ПК.
Отображение объявлений в результатах поиска
В том случае, если активен Фильтр II, фильтрация объявлений происходит в обычном порядке – сначала применяются условия выборки объявлений в настройках запроса к [avito.ru (до опубликования)], (т.е. настройки, выбранные в окне «AVITO.RU – Поиск объявлений до опубликования»), а затем уже применяются настройки Фильтра II.
Таблица с основными результатами мониторинга, в которой отображаются объявления с сайта [avito.ru (до опубликования)] показана на следующем рис.:
Для таких объявлений используются следующие новые обозначения:
1) заголовки объявлений оканчиваются многоточием, см. рис.:
2) Если с момента выхода объявления еще не прошло более 30 минут, в результатах анализа используется надпись «Еще не опубликовано на сайте (без анализа)», при этом сама надпись выделяется серым фоном (так же, как новые объявления в графе «Время»), см. рис.:
3) В строке состояния отображается время, прошедшее с момента выхода объявления, см. рис.:
4) Если с момента размещения объявления прошло уже более 30 минут, в результатах анализа надпись «Еще не опубликовано на сайте (без анализа)» меняется на «Размещено более 30 мин назад (без анализа)», см. рис.:
5) Анализ объявлений с [avito.ru (до опубликования)] не проводится – анализ возможен только для традиционных http-запросов к [avito.ru] или [avito.ru (битые)]. Рекомендуется использовать традиционные http-запросы.
Это связано с тем, что, во-первых, объявления до опубликования не будут добавляться в базу истории объявлений (т.к. нет телефона), во-вторых, запросы к [avito.ru (до опубликования)] позволяют находить только новые объявления (т.е. без объявлений с изменившимися ценами) и, в-третьих, это обеспечивает работоспособность программы в том случае, если отображение неопубликованных объявлений станет невозможным (гарантировать работу этой функции в постоянной перспективе невозможно, т.к. доступ к индексации объявлений на сайте поисковыми системами может быть ограничен, а программа edrom использует специальные алгоритмы, аналогичные алгоритмам поисковой системы google для индексации неопубликованных объявлений).
- Комментарии [ 189 ]
Источник: edrom.ru
Телеграм-боты для пробива и поиска информации
Недавние разоблачительные публикации известного оппозиционера Алексея Навального всколыхнули волну небывалого интереса общественности к теневому бизнесу, связанному с услугами пробива. То, что почти любые данные у нас продаются и покупаются, — не секрет, но, говорят, кое‑что можно разузнать и вовсе бесплатно у ботов в «Телеграме». Сегодня я расскажу про лучшие Telegram-боты для пробива и поиска информации.
Большинство ботов Telegram, выполняющих по запросу пользователя поиск и выдачу персональных данных, работают по схеме OSINT, то есть опираются на открытые источники, для чего эксплуатируют API различных служб и интернет‑ресурсов. Другие используют слитые базы данных, но такие сервисы, во‑первых, не всегда функционируют стабильно, а во‑вторых, испытывают проблемы с актуализацией информации: любая утекшая в паблик база со временем устаревает и, разумеется, не обновляется.
Незаконный сбор персональной информации — это нарушение закона «О персональных данных» и других законов РФ. Также подобные действия могут образовать состав преступления по статье 137 УК РФ «Нарушение неприкосновенности частной жизни». Ни автор, ни редакция не несут ответственности за любые последствия использования приведенных в этой публикации сведений, которые представлены здесь исключительно ради информирования читателя.
Монетизируются подобные боты либо за счет донатов, либо за счет рекламы, или же админы ограничивают количество бесплатных запросов, после чего бот начинает просить денег за каждую следующую выдачу. Иногда — если админы ну очень жадные — используются все методы сразу.
Люди ищут персональную информацию по разным причинам. Кто‑то пытается таким образом отыскать своих отравителей должников или симпатичную соседку по подъезду с большими и красивыми си… ними глазами. Кто‑то разыскивает прямые контакты блогеров или владельцев пабликов либо пытается из чистого любопытства посмотреть посты в закрытых профилях соцсетей своей бывшей.
Еще можно по номеру машины отыскать мобильный телефон подрезавшего вас на дороге водятла, позвонить ему, назвать по имени‑отчеству и вежливо попросить объяснений. Некоторые «гонщики» в такие моменты почему‑то немного смущаются. В общем, причины могут быть разными, а средство одно: условно‑бесплатные Telegram-боты или услуги пробива, до сих пор широко рекламируемые в даркнете.
Telegram-боты для пробива и поиска информации
Очевидно, что не все боты одинаково полезны. Некоторые просят денег, но в ответ либо не находят актуальную информацию, либо отдают откровенную туфту. Другие вроде бы работают, но настолько странно, что достоверность предлагаемых ботом данных остается сомнительной. Чтобы вы не тратили драгоценное время и деньги на поиск жемчужин в куче органических удобрений, ваш любимый сайт spy-soft.net протестировал наиболее популярные боты Telegram для пробива и прямо сейчас поделится с вами полученными результатами. Погнали!
Get Contact
Тот самый легендарный бот, сыгравший немаловажную роль в нашумевшем расследовании. Бот показывает, как именно записан номер мобильного телефона в адресной книге других абонентов. Информацию железяка черпает с мобильных устройств абонентов, установивших приложение Get Contact, поэтому, если на телефонах ваших друзей эта программа не установлена, никаких данных вы не получите. В день бот позволяет отправить не больше трех телефонных номеров.
Не знаю, с чем именно связано это досадное явление — с нарушением в логике сервиса или с внезапным наплывом клиентов, но пользоваться сейчас Telegram-ботом Get Contact — бесполезная трата времени.
«Глаз Бога»
Еще один популярный бот, упоминавшийся в ряде недавних журналистских публикаций. Бот обладает довольно‑таки обширным набором функций: поиск по имени в простом текстовом формате, по номеру автомобиля, по номеру телефона, по адресу электронной почты, по названию юридического лица или ИНН.
Тест показал, что номер мобильника по госномеру авто Quick_OSINT_bot находит неправильно, по телефонному номеру выдает в основном регион оператора и имя, под которым абонент записан в телефонных книгах, а также имя, которым он подписывается на досках бесплатных объявлений.
Весьма познавательные результаты получаются при поиске по адресу email: бот возвращает учетки с таким адресом в различных соцсетях, никнеймы, номер мобильного, имя и фамилию (не всегда корректно), а также связанные с этим мылом пароли из слитых баз.
Бот позволяет выполнить несколько бесплатных запросов в сутки, после чего начинает клянчить денег: 0,1 доллара за каждый отчет или предлагает оформить подписку.
Himera
Бот, по слухам, подключен к системе проверки контрагентов Unirate24, и он платный. Самый дешевый тариф с ограничением на количество поисковых запросов стоит 1199 рублей. Бот позволяет искать информацию по ФИО, номеру телефона, номеру автомобиля, адресу электронной почты, а также данным юридического лица. Найти он может сведения о прописке гражданина, записи о нарушении им закона, данные о родственниках.
По слухам, этот Telegram-бот неплохо справляется с поиском по Москве и области, а вот с регионами могут возникнуть проблемы: там находится не все и не всегда. Значительная часть инфы по юрлицам есть в свободном доступе. Но в целом бот может быть полезен для проверки контрагентов, потенциальных деловых партнеров или, скажем, при найме мутного кандидата на работу в золотохранилище вашего личного банка.
TeleSINT
Бесплатный бот, позволяющий найти по нику, в каких группах в «Телеге» состоит тот или иной пользователь. Теоретически эта информация может рассказать вам что‑то о моральном облике интересах и увлечениях интересующего вас персонажа.
Значительный недостаток этого бота заключается в том, что он показывает участие юзера только в открытых публичных группах, а вот закрытые паблики (то есть самое интересное!) остаются вне его поля зрения.
«Архангел»
Бот, активно рекламировавшийся в сентябре 2020 года на хакерских форумах. По слухам, он подключен к информационно‑аналитической системе Solaris, используемой пробивщиками‑профессионалами. База позволяет искать данные по ФИО, серии и номеру паспорта, фамилии и году рождения, по ИНН, СНИЛС, по адресу, номеру телефона или автомобиля.
Стоимость одного запроса «Архангелу» до недавних пор составляла 250 рублей, но после известных событий бот отключили, и сейчас он выдает сообщение о «временных технических работах». Остается надеяться, что проблемы там действительно временные.
GetFB
Бот работает очень просто: по введенному номеру мобильного телефона в международном формате (+7XXXAAABBCC) GetFB находит зарегистрированную на этот телефон страничку в Facebook. Денег за свою работу бот не просит и работает отменно.
Mailsearchbot
Бот ищет по слитым базам пароли, соответствующие адресам электронной почты, логинам или номеру телефона. Бесплатно бот показывает только часть обнаруженных паролей, а за полной версией отправляет на сторонний сайт, где посетителю с ходу предлагают оплатить подписку.
Мои эксперименты показали, что боты для поиска персональных данных в целом могут быть полезны, но с небольшими оговорками:
- большинство из них — платные, и качество поиска информации там все равно среднее, выдачу придется верифицировать и перебирать вручную;
- есть пара бесплатных вариантов с ограничением на количество запросов, но в выдаче присутствует высокий процент шлака.
Даже несмотря на то, что большинство ботов использует одни и те же источники информации, для уточнения данных лучше применять сразу несколько инструментов — это повысит релевантность поиска и качество результатов. Тем не менее для серьезного расследования без услуг профессиональных пробивал все равно не обойтись: они имеют доступ к актуальным служебным базам различных государственных и коммерческих организаций, вернее, связь с сотрудниками, которые, в свою очередь, могут обращаться к этим базам.
Боты могут подсказать направление поиска и расширить набор исходных данных, но в качестве полноценного инструмента для пробива персональных данных они вряд ли сгодятся.
Источник: cpamax.ru