?

Log in

No account? Create an account

Предыдущий пост | Следующий пост

Доверяй, но проверяй

Иногда я предпочитаю считать статистику вручную, даже если речь идет о готовом корпусе с соответствующими функциями. (Конечно, если это не миллионные объемы.)

Например, в nltk есть встроенная функция hapaxes(). Казалось бы, по описанию (the words that occur once only) это то, что нужно, чтобы получить список гапаксов в конкретном тексте. Проблема в том, что эта функция считает и возвращает словоформы, а не леммы. В результате в список гапаксов попадает одно и то же слово в разном падеже, что гапаксом в лингвистическом смысле не является.

Комментарии

Календарь

Сентябрь 2019
Вс Пн Вт Ср Чт Пт Сб
1234567
891011121314
15161718192021
22232425262728
2930     

На странице

Разработано LiveJournal.com