Lempi (right_to_cry) wrote,
Lempi
right_to_cry

Доверяй, но проверяй

Иногда я предпочитаю считать статистику вручную, даже если речь идет о готовом корпусе с соответствующими функциями. (Конечно, если это не миллионные объемы.)

Например, в nltk есть встроенная функция hapaxes(). Казалось бы, по описанию (the words that occur once only) это то, что нужно, чтобы получить список гапаксов в конкретном тексте. Проблема в том, что эта функция считает и возвращает словоформы, а не леммы. В результате в список гапаксов попадает одно и то же слово в разном падеже, что гапаксом в лингвистическом смысле не является.
Tags: лингвистика, понедельник начинается в субботу
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments