نبذة مختصرة : L'apprentissage semi-supervisé a toujours été un sujet brûlant dans l'apprentissage automatique. Il utilise un grand nombre de données non étiquetées pour améliorer les performances du modèle. Cet article combine la stratégie de co-formation et la forêt aléatoire pour proposer un nouvel algorithme de régression semi-supervisée : un modèle de régression forestière aléatoire semi-supervisée basé sur la co-formation et le regroupement avec l'entropie d'information (E-CoGRF), et l'applique à l'évaluation de la gravité des symptômes de dépression. L'algorithme hérite des caractéristiques d'ensemble de la forêt aléatoire et se combine bien avec le co-entraînement. Afin d'équilibrer la précision et la diversité des forêts aléatoires de co-entraînement, l'algorithme propose une stratégie de regroupement des arbres de décision. De plus, l'entropie de l'information est utilisée pour mesurer la confiance, ce qui évite les entraînements répétés inutiles et améliore l'efficacité du modèle. Dans l'application pratique de l'évaluation de la gravité des symptômes de la dépression, nous recueillons des données cognitivo-comportementales sur les conflits émotionnels en fonction du trouble affectif dépressif. Et sur cette base, la construction des fonctionnalités et le prétraitement de normalisation sont effectués. Enfin, le test est réalisé sur 35 patients dépressifs marqués et 80 patients dépressifs non marqués. Le résultat montre que l'algorithme proposé obtient MAE (erreur absolue moyenne) = 3,63 et RMSE (erreur quadratique moyenne) = 4,50, ce qui est meilleur que les autres algorithmes de régression semi-supervisée. La méthode proposée résout efficacement les difficultés de modélisation causées par des échantillons étiquetés insuffisants et a une valeur de référence importante pour le diagnostic de la gravité des symptômes de la dépression.
El aprendizaje semi-supervisado siempre ha sido un tema candente en el aprendizaje automático. Utiliza una gran cantidad de datos sin etiquetar para mejorar el rendimiento del modelo. Este documento combina la estrategia de co-entrenamiento y el bosque aleatorio para proponer un nuevo algoritmo de regresión semi-supervisada: un modelo de regresión de bosque aleatorio semi-supervisado basado en el co-entrenamiento y la agrupación con entropía de la información (E-CoGRF), y lo aplica a la evaluación de la gravedad de los síntomas de depresión. El algoritmo hereda las características de conjunto del bosque aleatorio y se combina bien con el coentrenamiento. Con el fin de equilibrar la precisión y la diversidad de los bosques aleatorios de coentrenamiento, el algoritmo propone una estrategia de agrupación para los árboles de decisión. Además, la entropía de la información se utiliza para medir la confianza, lo que evita entrenamientos repetidos innecesarios y mejora la eficiencia del modelo. En la aplicación práctica de la evaluación de la gravedad de los síntomas de depresión, recopilamos datos cognitivos conductuales de conflicto emocional basados en el trastorno afectivo depresivo. Y sobre esta base, se lleva a cabo la construcción de características y el preprocesamiento de normalización. Finalmente, la prueba se realiza en 35 pacientes con depresión etiquetados y 80 sin etiquetar. El resultado muestra que el algoritmo propuesto obtiene MAE (Mean Absolute Error) = 3.63 y RMSE (Root Mean Squared Error) = 4.50, que es mejor que otros algoritmos de regresión semi-supervisados. El método propuesto resuelve eficazmente las dificultades de modelado causadas por muestras etiquetadas insuficientes y tiene un valor de referencia importante para el diagnóstico de la gravedad de los síntomas de depresión.
Semi-supervised learning has always been a hot topic in machine learning. It uses a large number of unlabeled data to improve the performance of the model. This paper combines the co-training strategy and random forest to propose a novel semi-supervised regression algorithm: semi-supervised random forest regression model based on co-training and grouping with information entropy (E-CoGRF), and applies it to the evaluation of depression symptoms severity. The algorithm inherits the ensemble characteristics of random forest, and combines well with co-training. In order to balance the accuracy and diversity of co-training random forests, the algorithm proposes a grouping strategy to decision trees. Moreover, the information entropy is used to measure the confidence, which avoids unnecessary repeated training and improves the efficiency of the model. In the practical application of evaluation of depression symptoms severity, we collect cognitive behavioral data of emotional conflict based on the depressive affective disorder. And on this basis, feature construction and normalization preprocessing are carried out. Finally, the test is conducted on 35 labeled and 80 unlabeled depression patients. The result shows that the proposed algorithm obtains MAE (Mean Absolute Error) = 3.63 and RMSE (Root Mean Squared Error) = 4.50, which is better than other semi-supervised regression algorithms. The proposed method effectively solves the modeling difficulties caused by insufficient labeled samples, and has important reference value for the diagnosis of depression symptoms severity.
لطالما كان التعلم شبه الخاضع للإشراف موضوعًا ساخنًا في التعلم الآلي. يستخدم عددًا كبيرًا من البيانات غير المسماة لتحسين أداء النموذج. تجمع هذه الورقة بين استراتيجية التدريب المشترك والغابة العشوائية لاقتراح خوارزمية انحدار جديدة شبه خاضعة للإشراف: نموذج انحدار عشوائي للغابات شبه خاضع للإشراف يعتمد على التدريب المشترك والتجميع مع إنتروبيا المعلومات (E - CoGRF)، ويطبقها على تقييم شدة أعراض الاكتئاب. ترث الخوارزمية خصائص المجموعة للغابات العشوائية، وتجمع بشكل جيد مع التدريب المشترك. من أجل تحقيق التوازن بين دقة وتنوع التدريب المشترك للغابات العشوائية، تقترح الخوارزمية استراتيجية تجميع لأشجار القرار. علاوة على ذلك، يتم استخدام إنتروبيا المعلومات لقياس الثقة، مما يتجنب التدريب المتكرر غير الضروري ويحسن كفاءة النموذج. في التطبيق العملي لتقييم شدة أعراض الاكتئاب، نقوم بجمع البيانات السلوكية المعرفية للصراع العاطفي بناءً على الاضطراب العاطفي الاكتئابي. وعلى هذا الأساس، يتم بناء الميزة وتطبيع المعالجة المسبقة. أخيرًا، يتم إجراء الاختبار على 35 مريضًا بالاكتئاب مصنفين و 80 مريضًا بالاكتئاب غير مصنفين. تظهر النتيجة أن الخوارزمية المقترحة تحصل على MAE (متوسط الخطأ المطلق) = 3.63 و RMSE (خطأ الجذر التربيعي) = 4.50، وهو أفضل من خوارزميات الانحدار شبه الخاضعة للإشراف الأخرى. تعمل الطريقة المقترحة على حل صعوبات النمذجة الناجمة عن عدم كفاية العينات الموسومة بشكل فعال، ولها قيمة مرجعية مهمة لتشخيص شدة أعراض الاكتئاب.
No Comments.