Презентация Как, используя Lucene, построить высоконагруженную систему поиска разнородных данных онлайн

На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему Как, используя Lucene, построить высоконагруженную систему поиска разнородных данных абсолютно бесплатно. Урок-презентация на эту тему содержит всего 20 слайдов. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.

Презентации » Технологии » Как, используя Lucene, построить высоконагруженную систему поиска разнородных данных

Просмотр ВСЕЙ презентации! ЖМИТЕ

Оцените презентацию от 1 до 5 баллов!

Смотреть онлайн
Скачать

Тип файла:

ppt / pptx (powerpoint)
Всего слайдов:

20 слайдов
Для класса:

1,2,3,4,5,6,7,8,9,10,11
Размер файла:

253.25 kB
Просмотров:

55
Скачиваний:

0
Автор:

неизвестен

Слайды и текст к этой презентации:

№1 слайд

Содержание слайда: Как, используя Lucene, построить высоконагруженную систему поиска разнородных данных

№2 слайд

Содержание слайда: Одноклассники в цифрах Что у нас есть: 100 млн пользователей; 3.3 млн групп; ..... 4.1 млн пользователей онлайн; В секунду: 250. тыс. страниц, 50мс, 70Гбит/с; 6 тыс. сообщений и комментариев; 1.5 тыс. поисковых запросов.

№3 слайд

Содержание слайда: Зачем нам понадобились свои поисковые системы? Пользователь не всегда знает, как именно регистрировался искомый друг На сайте были огромные каталоги групп и сообществ Планировались новые сервисы, которым понадобится поиск Как правило, человек ищет то, что уже есть у кого-то из его друзей

№4 слайд

Содержание слайда: Почему Lucene? Поиск по MS SQL базе был крайне медленным На Java написано 99% нашего кода, поэтому Sphinx даже не смотрели Apachе Lucene/Solr поддерживаются большим сообществом и хорошо себя зарекомендовали Уже был опыт использования Solr Быстрый поиск других поисковых Java-проектов результатов не дал

№5 слайд

Содержание слайда: Как устроен Lucene?

№6 слайд

Содержание слайда: Требования к системе индексов Отказоустойчивость и масштабируемость Высокая производительность поисковых серверов Гибкое индексирование Возможность сбора дополнительной информации перед индексацией Возможность анализа готового индекса

№7 слайд

Содержание слайда: Что нас не устроило в Solr Solr: сервер использует только один процессор репликация индексов на bash-скриптах http - это дорого и медленно сложно модифицировать Но Lucene нас устраивает, поэтому пишем свой сервер

№8 слайд

Содержание слайда: Архитектура

№9 слайд

Содержание слайда: Требования к поисковой системе Отказоустойчивость Использование социального графа Эффективность Простое изменение и расширение функциональности Сбор статистики по пользователям Высокая пропускная способность

№10 слайд

Содержание слайда: Как работает поисковая система

№11 слайд

Содержание слайда: Проблемы: работа с индексом Lucene активно читает файлы во время поиска Пробовали: Диск с FSDirectory и NIODirectory RamDrive с FSDirectory и NIODirectory Lucene RamDirectory Собственный UnsafeDirectory Победил: HeapDirectоry файлы как byte[] в хипе

№12 слайд

Содержание слайда: Проблемы: ThreadLocal кэши Долгий GC из-за уймы мелких объектов в хипе Причины: Lucene использует ThreadLocal кэши для некоторых объектов Jboss Remoting на каждое соединение содает поток, а их тысячи Первое решение: Пул для выполнения запросов Второе решение: Делая другую оптимизацию, убрали эти кэши

№13 слайд

Содержание слайда: Проблемы: медленные хранимые поля Медленная работа с хранимыми полями Причина: При считывании хранимого поля создается много мусора и производятся ненужные операции Решение: Считывать значение в нужный тип сразу из byte[] Результат: На порядок быстрее стали операции с хранимыми полями Время GC упало в 2 раза

№14 слайд

Содержание слайда: Распознавание полей Поиск пользователей идет по следующим полям: имя и фамилия, город, страна, интервал возростов Друга можно искать, вводя известные данные: «илья широков 30» «илья широков москва» «илья широков 25-30 россия»

№15 слайд

Содержание слайда: Поиск по возрасту Стандартные решения: Добавление всех подходящих терминов Префиксные термины для снижения количества терминов в запросе Запрос к FieldCache Фильтр результатов Наше решение: Возраст хранится ввиде даты: yyyymmdd Запрос по текстовым полям оборачивается в фильтрующий запрос, который проверяет отбраные документы по хранимому полю

№16 слайд

Содержание слайда: Поиск музыки В базе есть: артисты; альбомы; композиции не сортированые музыкальные композиции Три точности совпадения: точное; все слова из запроса; некоторые слова из запроса Поиск всегда идет по всем видам документов От точности совпадения зависит поведение UI На место в выдаче влияет рейтинг документа С индекса собираются всевозможные топы

№17 слайд

Содержание слайда: Индексация музыки Все храним в одном индексе У каждого документа: в id зашит его тип (артист; альбом; композиция; файл) тип как отдельное поле рейтинг как параметр индексации рейтинг как хранимое поле Текстовые поля: по отдельности необходимые комбинации 2 представления текста: оригинал + фонетика

№18 слайд

Содержание слайда: Поиск музыки Пробовали: Отдельный запросы для каждого типа Повторные запросы с меньшей точностью Настройка оценщика веса для результата Решение: Запрос состоит из комбинаций: точность + поле данных Для каждой комбинации есть интервал значений весов Вес из подзапроса нормализуется в интервал комбинации Если документ отвечает запросу, сразу вычисляем его тип и добавляем в соответствующий коллектор

№19 слайд