نبذة مختصرة : Предложен алгоритм тематического моделирования ученых по научным специальностям на основе их интересов в профилях в Google Scholar. Алгоритм использует перечень научных специальностей из системы классификации наук ANZSRC. Информационным ресурсом для тематического моделирования является база категоризированных научных публикаций из системы Dimensions. Интересы из профилей ученых используются как поисковые запросы для Dimensions, сервисы которой выдают распределения релевантных документов по специальностям. Для уменьшения информационного шума эти распределения проходят несколько этапов обработки. Сравниваются результаты тематического моделирования на основе профильных интересов в Google Scholar и категоризированного списка авторских публикаций в Dimensions по метрике Чекановского с учетом схожести специальностей. Для тестовых ученых выявлена высокая согласованность результатов тематического моделирования при различной исходной информации.
The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications from Dimensions. Interests from researchers’ profiles are used as search queries to Dimensions that outputs distributions of documents over categories. To reduce information noise these distributions are taken through a few stages of processing. The article also compares the results of topic modeling based on interests from Google Scholar profiles and based on a categorized list of publications from Dimensions. The comparison is done using modified Czekanowski metric that takes into account the similarity between categories. The results of comparing the topic modeling outputs based on different information sources show a good match.
Запропоновано алгоритм тематичного моделювання науковців за науковими спеціальностям на основі їх інтересів у профілях у Google Scholar. Алгоритм використовує перелік наукових спеціальностей із системи класифікації наук ANZSRC. Інформаційним ресурсом для тематичного моделювання є база категоризованих наукових публікацій із системи Dimensions. Інтереси з профілів науковців використовуються як пошукові запити для Dimensions, сервіси якої видають розподіли релевантних документів за спеціальностями. Для зменшення інформаційного шуму ці розподіли проходять декілька етапів оброблення. Порівнюються результати тематичного моделювання на основі профільних інтересів у Google Scholar і категоризованого списку авторських публікацій у Dimensions за метрикою Чекановського з урахуванням спорідненості спеціальностей. Для тестових науковців виявлено високу узгодженість результатів тематичного моделювання за різної початкової інформації.
No Comments.