?

Log in

No account? Create an account

Предыдущий пост | Следующий пост

Доверяй, но проверяй

Иногда я предпочитаю считать статистику вручную, даже если речь идет о готовом корпусе с соответствующими функциями. (Конечно, если это не миллионные объемы.)

Например, в nltk есть встроенная функция hapaxes(). Казалось бы, по описанию (the words that occur once only) это то, что нужно, чтобы получить список гапаксов в конкретном тексте. Проблема в том, что эта функция считает и возвращает словоформы, а не леммы. В результате в список гапаксов попадает одно и то же слово в разном падеже, что гапаксом в лингвистическом смысле не является.

Комментарии

( 4 мысли — Поделиться мыслью )
nd_hito
7 апр, 2019 07:47 (UTC)
Да, согласна, что корпусные данные лучше перепроверить руками. В наших корпусах детской речи постоянно что-то вылезает.
nd_hito
20 апр, 2019 05:55 (UTC)
Например, какая-то форма не так закодирована, и ее невозможно найти по грамматическому запросу. Или по запросу начальной формы. Конкретный пример: мне нужны были формы местоимения "весь". Я искала через начальную форму - "весь". Потом стала проглядывать корпус, и оказалось, что слово "всё" в значении "закончилось" иногда задаётся как форма от "местоимения весь", а иногда как "частица всё или наречие всё". И эти варианты надо было выбирать из корпуса отдельно.
right_to_cry
21 апр, 2019 09:19 (UTC)
А, такое повсеместно встречается, да.
( 4 мысли — Поделиться мыслью )

Календарь

Сентябрь 2019
Вс Пн Вт Ср Чт Пт Сб
1234567
891011121314
15161718192021
22232425262728
2930     

На странице

Разработано LiveJournal.com