Passer au contenu principal
Legal Lens

Analyse des Big Data du Registre du Commerce de Roumanie

Stefan-Lucian Deleanu

⚠️
Les analyses présentées n'ont pas une précision de 100 %, car les informations originales, extraites de BERC (format PDF ou JSON), ne sont pas dans une forme qui garantit une telle précision. Par exemple, la nature variable des formats dans BERC fait que Bucarest a été mal numérisé en raison du format distinct de l'acte d'enregistrement dans cette analyse.

Nous invitons tous les intéressés à lire la déclaration de non-responsabilité pour des détails clairs.

De plus, toute personne souhaitant obtenir une copie des résultats statistiques ou des informations supplémentaires peut en faire la demande à : office@incorpo.ro.

Introduction

Incorpo.ro est une société LawTech dédiée à l'automatisation et à la simplification des tâches juridiques complexes. Notre objectif est d'éliminer la paperasserie et de rationaliser les processus fastidieux, aidant ainsi les gens à économiser des ressources précieuses.

Dans le cadre de cet objectif, nous avons développé un robot logiciel capable de corriger les dossiers et d'identifier les erreurs avant leur envoi au Registre du Commerce. Moins d'erreurs signifie une admission plus rapide des dossiers, et donc des clients satisfaits.

Pour entraîner le modèle à comprendre le comportement des registrateurs, ainsi que les motifs juridiques et extra-juridiques (coutumiers) de retard, une analyse approfondie des données existantes a été nécessaire.

Dans cet article, nous présenterons la méthodologie utilisée pour analyser les big data de l'activité du Registre du Commerce de Roumanie, les résultats clés obtenus et les implications pour l'amélioration du processus d'enregistrement des sociétés commerciales.

Données et processus de collecte

Les données utilisées dans cette analyse proviennent du Bulletin électronique du Registre du commerce, une source publique contenant des informations d'intérêt général sur les sociétés commerciales et les enregistrements effectués. L'utilisation de ces données à des fins déclarées, à savoir informer le public sur le fonctionnement du Registre en tant qu'institution d'intérêt public, respecte les dispositions légales et éthiques.

Le processus de collecte de données a impliqué le téléchargement des bulletins électroniques pour l'année 2024 et l'extraction des informations pertinentes à l'aide de techniques de web scraping et de traitement de documents PDF.

Méthodologie d'analyse

L'analyse des données collectées a été réalisée à l'aide de scripts Python qui ont traité les informations extraites et généré des visualisations suggestives des principaux indicateurs de performance. Parmi les aspects étudiés figurent :

  1. Rapidité du traitement des dossiers au niveau du județ
  2. Pourcentage de dossiers acceptés, rejetés et ajournés par județ
  3. L'efficacité des registrateurs individuels, mesurée par le nombre d'entrées traitées, les jours travaillés et la productivité moyenne quotidienne/horaire
  4. Fréquence des types de résolutions en fonction de l'heure de la prononciation
  5. Les raisons les plus fréquentes de rejet des dossiers, identifiées par des techniques de traitement automatique du langage naturel (TALN) et de clustering

Présentation des résultats clés

Rapidité du traitement des demandes

Un indicateur clé de l'efficacité du Registre du Commerce est la rapidité avec laquelle les demandes d'enregistrement des sociétés commerciales sont traitées. Notre analyse a révélé que, dans la plupart des départements, les demandes sont résolues dans un délai de 1 à 3 jours ouvrables, un intervalle remarquable par rapport à d'autres institutions publiques en Roumanie.

Le graphique ci-dessus illustre la distribution des délais de traitement pour le comté de Bucarest, soulignant que la plupart des décisions sont prises au cours des 5 premiers jours suivant le dépôt de la demande.

Pourcentage de dossiers acceptés, rejetés et ajournés

Un autre aspect important est la répartition des décisions prises par le Registre du commerce en fonction du résultat final : admission, rejet ou report. Notre analyse a montré que, en moyenne, plus de 93 % des demandes déposées sont admises, directement ou après un report.

Le graphique ci-dessus présente la situation des dossiers pour tous les comtés, mettant en évidence la forte proportion de demandes acceptées et les pourcentages relativement faibles de rejets et de reports.

Efficacité des registrateurs individuels

Notre analyse a également examiné les performances individuelles des registrateurs, mesurées par leur charge de travail et leur productivité moyenne. Les résultats ont montré que, bien qu'il existe des différences entre les registrateurs, la plupart traitent un nombre important de demandes et maintiennent un rythme de travail soutenu.

Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
Les plus productifs enregistreurs du registre du commerce, période 01.01.2024-01.07.2024 (nombre moyen de dossiers résolus par jour actif - avec un seul enregistrement - échantillonné)
Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
Les plus productifs enregistreurs du registre du commerce, période 01.01.2024-01.07.2024 (nombre moyen de dossiers résolus par jour actif - avec un seul enregistrement - échantillonné)
📊
Le registrateur le plus efficace identifié est Ovidiu Bugeag, qui a traité 4257 entrées en 105 jours ouvrables, avec une moyenne de 40,54 entrées par jour et 5,07 entrées par heure.

Au contraire, les enregistreurs tels que : Maria-Cornelia Măglașu, qui ne traite que 3,64 dossiers par jour, soit 0,46 dossier par heure de travail.

Note : Les données sont d'intérêt public, mais nous invitons les registres à fournir une réponse s'ils souhaitent clarifier la situation.

Ces résultats suggèrent que, bien qu'il y ait place à amélioration, la plupart des registrateurs s'acquittent de leurs tâches avec professionnalisme et efficacité.

💡
C'est remarquable, cependant, que Plusieurs enregistreurs ont un total de 30 à 60 jours de travail, ce signifie qu'ils sont peut-être au début de leur carrière, en congé de maternité ou confrontés à d'autres problèmes qui réduisent leur productivité.

Nous avons adapté l'analyse pour calculer une moyenne sur le nombre de jours travaillés, en ne prenant pas en compte les jours où il n'y a eu aucune solution d'un enregistreur (c'est pourquoi il y a un minimum de 1 dossier par jour travaillé sur l'enregistreur), qui est cependant une solution qui peut perdre des personnes qui ne travaillent pas réellement.

Fréquence des types de résolutions par heure

Une analyse intéressante a examiné la distribution des types de résolutions (admission, rejet, report) en fonction de l'heure à laquelle elles ont été prononcées. Les résultats ont mis en évidence certains modèles, tels qu'une fréquence plus élevée de reports dans les premières heures de la matinée et une concentration des admissions entre 10h00 et 15h00.

Le graphique ci-dessus illustre ces tendances pour la municipalité de Bucarest, suggérant des opportunités potentielles d'optimisation des horaires de travail et de la répartition des ressources.

💡
De plus, il est louable que les gens travaillent même avant l'horaire prévu, à 6 heures ou 7 heures, ce qui est une surprise positive et qui se manifeste dans de nombreux comtés.

Il est évident que de nombreux employés travaillent au-delà de leurs horaires de travail réguliers, et les résultats se traduisent par des performances supérieures à la moyenne en tant qu'institution.

Raisons de rejet des demandes

En utilisant des techniques de traitement du langage naturel et de clustering, nous avons analysé les textes des décisions de rejet pour identifier les motifs les plus fréquemment invoqués par les registrateurs. Les résultats ont mis en évidence des aspects tels que le manque de documents justificatifs, le non-respect des exigences légales concernant l'objet de l'activité ou la dénomination de la société, ainsi que des erreurs de forme dans la rédaction des demandes.

T-SNE (Clustering optim de sillhouette plus coud - 87 clusters) - décisions de report de registres ORC

La visualisation t-SNE a pour but d'afficher dans quelle mesure les différentes catégories de retard sont distinctes et dans quelle mesure le modèle a été efficace pour les catégoriser.

D'après l'image, il semble que des clusters très évidents se forment, ce qui est un bon signe. Ci-dessous, les motifs agrégés et les clusters sont interprétés à l'aide de modèles d'IA pour traiter les motifs communs de tous les membres des clusters.

Analyse des raisons les plus courantes de retard (Résumé)
Analyse des raisons les plus courantes de retard (Résumé)

Interprétation et implications

Nos résultats soulignent un niveau global d'efficacité et de professionnalisme dans les activités du Registre du commerce par rapport à d'autres institutions publiques en Roumanie.

Les délais de traitement des demandes sont raisonnables et le taux élevé d'acceptation suggère la précision et la conformité du processus d'enregistrement.

Cependant, l'analyse a également identifié certaines opportunités d'amélioration, telles que :

  1. Optimisation de l'allocation des ressources et du programme de travail en fonction du modèle observé des résolutions sur des intervalles horaires
  2. Offrir des conseils et un soutien supplémentaires aux demandeurs pour réduire les erreurs fréquentes dans la rédaction des demandes
  3. Clarification de domaines actuellement interprétés de manière conventionnelle, plutôt que sur la base de normes claires :
    1. Rejet en raison de la durée indéterminée du mandat de l'administrateur (Il devrait être remplacé par une période supplétive de 3 ans, cf code civil)
    2. Absence de motivation claire dans certaines situations pour les rejets, ceux-ci étant dépourvus de fondements juridiques.
    3. Dileme CAEN (Les entrepreneurs sont tenus de déclarer qu'ils ne vendent pas d'armes ou de munitions et qu'ils n'ont pas l'intention de se livrer à des activités pour lesquelles ils n'ont pas d'autorisations.)

      Les déclarations sont équivalentes à une déclaration « ne commettrai pas d'infraction » et sont en grande partie dépourvues d'effet juridique dans les faits.

Conclusions

L'analyse des big data de l'activité du Registre du Commerce de Roumanie, réalisée par l'équipe d'Incorpo.ro, a offert une perspective précieuse sur l'efficacité et les défis de cette institution clé de l'écosystème des affaires roumain. En utilisant des techniques avancées de traitement des données et des méthodes de visualisation, nous avons réussi à identifier à la fois les points forts et les opportunités d'amélioration.

Nos résultats soulignent l'importance d'investir continuellement dans des solutions technologiques innovantes, telles que l'automatisation des processus et l'application de l'intelligence artificielle, pour améliorer davantage l'efficacité et la qualité des services fournis par le Registre du commerce.

D'un autre côté, nous considérons que les efforts solides des registrateurs doivent être récompensés, et il serait irrationnel du point de vue économique de payer un modèle standard dans le cas des surperformeurs.

Sans analyser mathématiquement les données, il ressort clairement des graphiques que le travail en dehors des heures de bureau est une habitude des registrateurs de la plupart des comtés, les registrateurs de Botoşani résolvant même à 22h-23h, avec une fréquence relativement élevée.

Nous pensons que le Registre du commerce est un bon exemple des défauts du système de rémunération dans le secteur public, où les performances sont découragées. Nous reviendrons avec une analyse plus détaillée pour détailler le taux de rémunération horaire, proportionnellement au nombre de dossiers traités, afin de mettre en évidence les défauts du système actuel et le potentiel d'un changement législatif qui permettrait de promouvoir les efforts soutenus de la majorité des registrateurs.

Plus de 60 % des registrateurs traitent plus de 25 dossiers par jour, ce qui signifie qu'ils traitent les dossiers en moyenne plus rapidement qu'un toutes les 19 minutes, ce qui est une bonne moyenne.

D'un autre côté, nous devons veiller à ce que l'effort ne devienne pas exorbitant et que la vitesse nécessaire pour respecter les normes d'analyse ne réduise pas l'efficacité des diligences des registrateurs.

Nous espérons que cette analyse fournisse une base solide pour des discussions constructives et des actions concrètes dans la direction de l'optimisation des activités du Registre du commerce, au bénéfice de l'environnement des affaires roumain et de l'économie dans son ensemble.

Nous invitons les personnes à analyser et à consulter les informations détaillées fournies dans le référentiel GitHub, où vous trouverez de nombreux graphiques pour chaque comté, concernant le taux d'admission, les heures de travail, etc.

Pour tout droit de réponse (le cas échéant), les demandes concernant le jeu de données et toutes autres questions, veuillez nous contacter à l'adresse suivante :

office@incorpo.ro
+40786833325

Disclaimer, Informations sur les erreurs potentielles, etc.

À la demande indirecte d'une personne qui a répondu à la publication, j'ai décidé de donner un meilleur exemple de la manière dont l'analyse a été effectuée, d'où proviennent les données et ce qu'elles révèlent en fait :

  1. Nous avons obtenu ces informations à partir du bulletin électronique du registre du commerce., que nous avons utilisé pour nos analyses. Nous avons pris tout de l'année 2024, de tous les comtés du pays, jusqu'au 01.07.2024.
  2. J'ai extrait le texte de chaque document et j'ai utilisé des expressions régulières. il a été prouvé qu'il extrait efficacement les informations de la plupart des documents gérés par le registre du commerce, environ 90 %. REGEX représente un moyen de rechercher des "règles" dans le texte, par exemple en disant au programme de lire tout ce qui vient après "Registraire du registre du commerce, [ICI EST LE NOM]".
  3. Nous avons calculé le nombre de solutions de rejet ou d'acceptation dans lesquelles les noms des registrateurs sont apparus, et avons agrégé les informations.Certaines ont été réalisées avec OCR et ont perdu leur sémantique, j'ai donc post-filtré les informations affichées.
    Filtres post-traitement :
    1. Un minimum de 30 jours différents au cours desquels des anomalies ont été identifiées, donc si des anomalies existent, elles devraient persister pendant 30 jours calendaires distincts. Cela nous permet également d'exclure les nouveaux employés et toute autre personne qui, pour d'autres raisons, n'a pas le même rendement. On ne peut pas condamner un débutant pour travailler plus lentement.
    2. Nous avons essayé, dans une large mesure, d'unir les noms communs, lorsque nous les avons trouvés. Par la suite, suite à une critique raisonnable de M. Alex Marin, nous avons également agrégé sur la base de la similarité des noms, pour éliminer les situations où le même nom est présent, sous différentes formes, dans différents endroits. Par exemple : une lettre erronée, l'absence de diacritiques, l'absence de "-" dans le nom.

Risques légitimes : La correspondance de regex sur le texte présente un certain degré d'imprécision dans le contexte où les règles sous-jacentes à l'identification des solutions ne sont pas suffisantes pour capturer toutes les informations. Par exemple, même maintenant, il existe des différences majeures dans ce que révèle le jeu de données de Bucarest, en raison de la non-utilisation du modèle standard par les registres de Bucarest.

Accusations de mauvaise foi, paiements de "polite", vengeance, etc.: L'analyse a été effectuée en interne pour identifier les raisons les plus fréquentes de retard, une raison qui me semble personnelle et de bonne foi et contre laquelle je ne vois aucune critique viable.

Parmi les dizaines de registres analysés en Roumanie, je ne connais pas la plupart d'entre eux et n'ai aucun problème avec aucun d'entre eux. Enfin, même si les scores ont une marge d'erreur de +/- 10 %, ils sont bons dans l'ensemble. Ils montrent une efficacité élevée, que j'ai d'ailleurs soulignée dans l'article.

Enfin, si nous étions de mauvaise foi, je ne pense pas que nous aurions publié des exemples positifs, et surtout pas sous la marque que nous voulons construire comme étant basée sur la bonne foi, la confiance et la compétence.


Demande de réexamen + résultat

Parce qu'une nouvelle vérification de l'analyse des données a été demandée, en particulier en ce qui concerne les enregistreurs du Registre du Commerce, nous avons procédé à cette vérification afin d'identifier d'éventuelles incohérences majeures dans les résultats.

Optimisations de la robustesse du processus d'analyse :

Nous avons apporté une série d'améliorations au processus de collecte et de traitement des données :

  1. Optimisation du processus d'enregistrement des données grâce à la mise en place d'un système de feux de circulation (verrouillage mutex) pour prévenir les conditions de course et les incohérences causées par l'accès concurrentiel aux fichiers.
  2. Prolongation de la période d'analyse jusqu'au 04.07.2024, en effectuant un crawl de tous les bulletins publiés, y compris ceux qui n'étaient pas auparavant disponibles, garantissant ainsi une couverture exhaustive des données.
  3. L'inclusion dans le corpus des données relatives à la municipalité de Bucarest, par la modification des expressions régulières (regex) utilisées pour l'extraction des informations, éliminant ainsi l'omission initiale de cette entité administrative traitée séparément des comtés. Nous supposons que c'est là que résident la plupart des modifications des résultats de l'analyse - l'analyse précédente n'incluant pas la municipalité de Bucarest.
  4. Amélioration du processus d'identification des noms de départements en utilisant un algorithme de recherche floue (fuzzy string matching) pour permettre une correspondance plus flexible et gérer les variations dues au traitement OCR ou aux écarts par rapport à la norme de rédaction.
  5. La mise en œuvre de la gestion des variations de nom des registrateurs (par exemple, "John Doe" et "Doe John" sont traités comme la même personne) en appliquant un algorithme de recherche triée sur le nom, ainsi que la recherche floue mentionnée précédemment.

Analyses Secondaires Différentes :

À la fin de l'analyse, après avoir appliqué ces améliorations, nous avons procédé à une analyse comparative des résultats afin d'identifier les erreurs potentielles de la première analyse. Ainsi :

  • En ce qui concerne les jours ouvrés, la différence moyenne était de -2,0 jours et la médiane de 7,0 jours, avec une variation allant de -91 à 13 jours. Cette variation suggère que, bien que pour certains registrateurs il y ait eu des changements significatifs (par exemple, Georgeta Pacuraru avec une diminution de 91 jours), l'impact global a été modéré.
  • En ce qui concerne le nombre de dossiers traités, la moyenne a été de 292,43 dossiers, et la médiane de 348,5 dossiers, avec une variation allant de -678 à 863 dossiers. Ces valeurs indiquent des ajustements incrémentiels pour la plupart des registrateurs, à l'exception de cas tels que Daniela Oprișan, qui a enregistré une augmentation de 863 dossiers traités.
  • La productivité quotidienne a enregistré un changement moyen de 2,61 dossiers par jour et un changement médian de 2,35 dossiers par jour, variant de -7,11 à 14,94 dossiers par jour. Ces chiffres suggèrent que, bien que certains registrateurs aient connu des améliorations significatives (par exemple, Ioana Cătălina Florea avec une augmentation de 14,94 dossiers par jour), pour d'autres, les changements ont été négatifs (par exemple, Mihaela Vicol avec une diminution de 7,11 dossiers par jour).
  • La productivité horaire a connu une moyenne de 0,33 dossiers par heure et une moyenne de 0,29 dossiers par heure, avec des variations allant de -0,89 à 1,87 dossiers par heure. Ces valeurs indiquent des ajustements relativement mineurs pour la plupart des enregistreurs.
  • En ce qui concerne les changements dans le classement, une amélioration médiane de 3,0 positions a été enregistrée, ainsi qu'une amélioration moyenne d'environ 1 position (-1,07). Bien qu'il y ait eu quelques réarrangements, ils n'ont pas été importants dans l'ensemble, et la plupart des registres ont conservé des positions relatives similaires.

En conclusion, la réanalyse a montré que, bien que les améliorations apportées aient affiné les résultats et amélioré la précision de l'étude, elles n'ont pas entraîné de changements fondamentaux dans les conclusions initiales. L'analyse initiale semble avoir été, dans l'ensemble, solide et équitable, et les ajustements opérés ont consolidé les constatations sans les altérer de manière significative.

Nous pensons que cet effort de re-vérification et d'amélioration de l'analyse démontre notre engagement envers la précision, la transparence et la réactivité aux commentaires que nous recevons.

Les résultats de cette étude, ainsi révisés, offrent une image encore plus détaillée et étayée de l'activité des registrateurs du Registre du Commerce.

Clasements mis à jour (à l'heure) :

Vérification - Top 10 - 01.01.2024-03.07.2024 (y compris la municipalité de Bucarest) - Dossiers par heure
Vérification - Bottom 10 - 01.01.2024-03.07.2024 (y compris la municipalité de Bucarest) - Dossiers par heure

Engagement de transparence

Étant donné qu'il y a eu plusieurs critiques concernant la procédure apparemment opaque de l'analyse, nous avons décidé de publier le code utilisé dans l'analyse ci-dessous, afin d'accroître la transparence du processus. Nous avons également joint les fichiers utilisés dans l'analyse ainsi que les informations préliminaires de la nouvelle analyse.

GitHub - Incorporo/analyse-big-data-onrc
Contribuez au développement d'Incorpo/analiza-big-data-onrc en créant un compte sur GitHub.