Дисциплина посвящена впоросам получения информации из коллекций текстовых документов (корпусов текстов и электронных библиотек), основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественно языковых текстов различной природы в норме и патологии. В рамках дисциплины осуществляется работа с практическими системами. Дисциплина является продолжением курса «Интеллектуальный анализ данных».
В дисциплине рассмотрены такие темы как «Предобработка текста: токенизация, удаление «стоп-слов», лемматизация», «Интеллектуальный анализ текста: стемминг и нормализация текста», «Латентно-семантический анализ текста: мешок слов и векторные пространства слов», «Поиск, сбор и обработка лингвистических данных: процедуры кластеризации, классификации данных, информационный поиск», «Практические системы ИАТ»