Последние несколько дней (вообще-то учитывая выходные/праздники - то недель) я изучаю тему с анализом текстов - определение языка текста, выделение значимых слов и т.д. Поиск обычно приводит так или иначе к стеммингу Портера - алгоритму, который был придуман еще в 1980 году (ага, я в том году перед первым классом Олимпиаду-80 смотрел летом по телеящику :) ); а может и раньше, а сформулирован в 80-м.. не суть важно, смысл в том, что в результате применения к слову определенных правил получаем основу слова (не корень в лингвистическом смысле), которую храним для поиска/анализа.
Как обычно все, что находится - перепечатывание из пустого в порожнее какого-то кода на php, хотя реализация есть на многих языках на сайте то-ли автора, то-ли сочувствующих ему; там же есть и текстовый документ с описанием собственно алгоритма. Там же где-то есть и реализации для разных языков, включая русский, но я пока не дошел, понять бы, как все работает для начала :)
Собственно чтобы понять я перевел себе этот текст, вдруг кому-то еще пригодится - будет лежать тут.