Обработка текста в поисковых системах

on

Объемы цифровой информации значительно выросли в последние годы. Расширились возможности коммуникационных средств взаимодействия между носителями цифровых данных. Значительному социальному кругу людей открылся доступ к глобальным и локальным компьютерным сетям. Стала актуальной задача поиска необходимой пользователю информации на распределенных носителях сети. В таких условиях возник спрос на программные реализации продуктов, организующих поиск необходимой информации в сети по запросу, сформулированному пользователем. Реализация подобных возможностей возлагается на поисковые системы (ПС). Кроме того, растет спрос на специалистов в данной области. Как следствие, возникла необходимость в разработке образовательного контента по вопросам реализации ПС и алгоритмам, используемым в них. В компьютерной сети информация чаще всего представляется в виде файлов. Скорость доступа к ним зависит от носителя информации и коммуникационных свойств сети. Как правило, она достаточно низка в сравнении со скоростью доступа к файлам внутри одного узла сети. В силу высоких требований пользователей к быстрому получению ответов на запросы к ПС необходимо оптимизировать алгоритмы поиска путем создания поисковых образов документов на стороне ПС. Такой подход ускоряет скорость поиска в ПС. Большинство существующих ПС сводит поиск по всем файлам сети к поиску информации, представленной на естественном языке. Информация ищется по ее имени или текстовому описанию на естественном языке. В свою очередь, обработка текста на естественном языке в ПС производится в процессе создания поискового образа документа при его индексации. Словарь и грамматические правила естественного языка не всегда бывают формализованы. Подходы к решению задач с нечеткими данными и не формализуемыми алгоритмами решения являются предметом искусственного интеллекта. Качество и скорость поиска в ПС во многом зависит от качества ее индексного файла. Индекс является промежуточным звеном между коллекцией документов, по которым ПС осуществляет поиск, и поисковым механизмам. Индексом в ПС является база данных поисковых образов документов, полученная 4w