2015/01/02 15:54:08
Не спалось, придумал еще одно расстояние между документами. Возможно, такое уже есть, не знаю.

1) Составляем список всех уникальных слов в базе документов минус стоп-слова.

2) Нумеруем слова

3) Для каждого документа создаём битовый вектор, бит[номер_слова] = 1 если в документе есть слово, иначе 0.

4) При классификации неизвестного документа составляем список слов, составляем битовый вектор

5) Для каждой пары (вектор документа, вектор из базы) считаем число несовпадающих бит. Это и есть дистанция.

Назову эту метрику "Расстояние Мудинштейна". Понятия не имею, как будет работать, надо будет проверить как нибудь. Но считаться должно быстро.

UPD. все украдено до нас, как всегда.
43 посетителя, 11 комментариев, 76 ссылок, за 24 часа