Подробное описание документа
Жердева М. В.
Стемминг и лемматизация в Lucene. NET / Жердева М. В., Артюшенко В. М. // Лесной вестник. - 2016. - Т. 20, № 3. -
В данной статье рассмотрены механизмы стемминга и лемматизации. Под стеммингом понимают приближенный эвристический процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг основан на правилах морфологии языка и не требует хранения словаря всех слов. Под лемматизацией понимается преобразование слова в словарный вид или лемму. Данный метод используется в алгоритмах поисковиков при индексировании интернет-страниц. Процесс дает возможность хранения данных страницы набором слов в индексе для удобной схематизации файлов. Это позволяет ускорить индексацию и сформировать более четкий ответ на поисковый запрос, так как сокращенную форму слова поисковик анализирует быстрее. Выделена цель стемминга и лемматизации. Показано применение стемминга и лемматизации в библиотеке полнотекстового поиска Lucene.Net. Lucene.Net – это перенесенный с платформы Java поисковый движок Lucene. Lucene – это высокопроизводительная, масштабируемая библиотека для полнотекстового поиска. Полнотекстовый поиск относится к процессу поиска документов, информации в документах или метаданных о документах. Lucene позволяет добавлять возможности поиска в различные приложения. Главной особенностью библиотеки является то, что требуется малый объем памяти, наличие ранжированного поиска, возможность одновременного поиска и обновления индекса, поиск, основанный на «полях». Lucene в настоящее время и на протяжении уже несколько лет является самой популярной свободной библиотекой полнотекстового поиска. Предложена идея модификации алгоритма полнотекстового поиска Lucene.Net для быстрого и релевантного поиска ключевых слов.