ilyachalov (ilyachalov) wrote,
ilyachalov
ilyachalov

ЖЖ 2020: автоматические категории

В прошлом (2019-м) году разработчики ЖЖ реализовали автоматическую категоризацию новых постов во всех журналах. Статья в справке: «Вопрос № 435. Что такое категория записи?»

Что это такое? Как оно работает? Как только автор публикует в своем журнале новый пост, «система интеллектуального анализа текстов, построенная на базе статистическо-лингвистических методов анализа русского языка с элементами машинного обучения» анализирует текст поста и присваивает ему одну или несколько тематических категорий из ограниченного списка.

Кроме этого бот lj_frank_bot оставляет скрытый комментарий к посту, в котором перечислены присвоенные посту категории. Автор поста при желании может открыть комментарий бота и оставить к нему свой комментарий, в котором можно написать замечания к работе автоматической системы категоризации, после чего эти замечания, возможно, когда-нибудь будут учтены при настройке системы категоризации.

В некотором количестве стилей ЖЖ (но не во всех) присвоенные посту категории видны на странице поста сверху. Также в некотором количестве стилей ЖЖ имеется виджет «Категории», который можно показывать в колонке виджетов (но его можно и скрыть). Этот виджет можно настроить списком или облаком. Если виджет настроен списком, то можно отсортировать его по алфавиту или по популярности, и можно отрегулировать максимальное количество показываемых в виджете категорий.

Если в стиле ЖЖ видны категории поста, то автор поста может удалить любую из присвоенных посту категорий, нажав на крестик справа от названия категории. В справке ЖЖ утверждается, что удаление неправильных категорий поможет обучению системы категоризации.

Ошибки и недочеты системы категоризации. В целом система работает неплохо. Но ошибки есть. Например, система шарашит все мои посты про библиотеку классов в категорию «Литература». Видимо, реагирует на слово «библиотека». Похоже, системе известно только одно значение этого слова — «собрание книг». А значения «собрание функций» или «собрание классов», использующиеся в программировании, ей неизвестны.

Кроме этого, из-за того, что количество категорий ограничено, в списке категорий отсутствуют многие темы. Например, нет категории «Программирование». Есть только более общая категория «IT» (информационные технологии). Думаю, следовало бы эту категорию подробить на более мелкие. Хотя можно догадаться, что для тех целей (полагаю, это продажа рекламы), которые преследуют администраторы ЖЖ, нужны именно такие тематически укрупненные категории.
Tags: ЖЖ, Инструмент
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments