跳过到主要内容
法律透镜

罗马尼亚商业登记处的大数据分析

Stefan-Lucian Deleanu

⚠️
所提供的分析并不具有100%的准确性,因为从BERC(PDF或JSON格式)提取的原始信息并不以保证这种准确性的形式存在。例如,BERC格式的多样性导致布加勒斯特的扫描效果不佳,正是由于该分析中注册结尾的独特格式。

我们邀请所有感兴趣的人阅读免责声明以获取详细信息。

任何想要统计结果副本或更多信息的人都可以联系我们,通过以下方式请求: [email protected].

介绍

Incorpo.ro 是一家 LawTech 公司,致力于自动化和简化法律领域的复杂任务。我们的目标是消除繁文缛节,提高效率,节省时间,从而帮助人们节省宝贵的资源。

在这一目标下,我们致力于开发一个软件机器人,能够在将文件发送给商业注册处之前,纠正和识别文件中的错误。更少的错误意味着更快的文件录入,从而让客户更加满意。

为了训练模型理解注册机构的行为,以及推迟注册的合法和非法的(习惯法)原因,需要对现有数据进行深入分析。

在本文中,我们将介绍用于分析罗马尼亚商业注册处大数据的方法论、关键结果及其对提高公司注册流程效率的影响。

数据收集日期和流程

该分析使用的数据来自《电子商业登记处公报》,这是一个包含有关商业公司及其登记的公共信息的公共来源。根据法律和道德规定,使用这些数据来实现其声明的目的,即向公众通报登记处作为公共利益机构的功能,是符合法律和道德的。

数据收集过程涉及下载 2024 年的电子公报,并使用网络抓取和 PDF 文档处理技术提取相关信息。

分析方法

数据分析通过 Python 脚本完成,这些脚本处理了提取的信息并生成了关键绩效指标的直观可视化效果。调查的内容包括:

  1. 处理县一级文件的快速性
  2. 每个州的批准、拒绝和推迟的文件百分比
  3. 个人注册机构的效率,通过处理的条目数量、工作日以及平均每日/每小时生产力来衡量
  4. 根据发表时间的分辨率频率
  5. 通过自然语言处理 (NLP) 和聚类技术识别出的最常见的拒绝文件的原因

关键结果的展示

处理请求的快速性

商业注册机构的效率的一个重要指标是处理公司注册申请的速度。我们的分析表明,在大多数县,申请可以在1-3个工作日内处理完毕,这与其他罗马尼亚公共机构相比是一个显著的优势。

上图显示了布加勒斯特县处理时间分布的情况,突显了大多数决定在提交申请后的前5天内做出。

文件通过、被拒绝和推迟的百分比

另一个重要的方面是根据最终结果(批准、拒绝或推迟)对商业注册处做出的决定进行分析。我们的分析表明,平均而言,超过93%的申请被直接批准或在推迟后批准。

上图显示了所有州的档案情况,突出了被接受的申请比例很高,而被拒绝和推迟的比例相对较低。

个人注册代理的效率

我们的分析还研究了注册机构的个人表现,通过工作量和平均生产力来衡量。结果表明,尽管存在注册机构之间的差异,但大多数机构处理了大量申请,并保持了稳定的工作节奏。

Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
2024年1月1日至2024年7月1日期间,注册商注册处最有效的注册人 (每天解决的文件夹数量 - 单个记录 - 样本)
Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
2024年1月1日至2024年7月1日期间,注册商注册处最有效的注册人 (每天解决的文件夹数量 - 单个记录 - 样本)
📊
最有效的注册机构是 奥维迪乌·布盖亚格处理了 4257 个条目,用了 105 个工作日,平均每天 40.54 个条目,每小时 5.07 个条目。

在另一端,有注册机像 玛丽亚-科尔内利亚·马格拉苏处理文件的数量仅为每天 3.64 份,即每小时 0.46 份。

注意: 数据是公开的,但我们邀请注册机构在他们希望澄清情况时提供一个回应的机会。

这些结果表明,尽管有待提高,但大多数注册机构以专业和高效的方式履行职责。

💡
这是值得注意的, 多个注册商在30-60天内总共工作这可能意味着他们处于职业生涯的早期阶段,正在休产假,或者有其他问题影响他们的生产力。

我们已经调整了分析方法,以计算在工作日数上的平均值,而不考虑注册表在有0解决方案的日子里(这就是为什么每个工作日至少有一个注册表文件),但这可能会丢失那些真正不工作的人。

根据小时的频率类型分辨率

有趣的分析研究了根据发音时间分布的解决方案类型(接纳、拒绝、推迟)。结果突显了一些模式,例如上午早期推迟频率更高,而接纳集中在10:00至15:00之间。

上图显示了布加勒斯特市的这些趋势,表明了优化工作时间和资源分配的潜在机会。

💡
此外,人们甚至在工作时间之前,在上午 6 点或 7 点就开始工作,这是一个积极的惊喜,并且在相当多的县都表现出来。

很明显,许多人都在超时工作,这体现在机构平均以上的表现上。

拒绝申请的原因

通过自然语言处理和聚类技术,我们分析了拒绝决定的文本,以识别注册机构最常引用的原因。结果突出了诸如缺乏支持文件、不遵守有关业务对象或公司名称的法律要求以及申请书中的形式错误等方面。

T-SNE (聚类优化轮廓加肘部 - 87 个聚类) - 推迟注册器 ORC 的决定

t-SNE 可视化显示了不同延迟类别之间的区分程度以及模型对它们的分类效率。

根据图像,可以解释为正在形成一些非常明显的聚类,这是一个好迹象。下面是聚合的图案,以及用人工智能模型理解聚类,以处理所有聚类成员的共同图案。

分析拖延的最常见原因(摘要)
分析拖延的最常见原因(摘要)

解释和含义

我们的分析结果表明,与罗马尼亚的其他公共机构相比,商业注册机构在效率和专业水平方面整体表现良好。

处理申请的时间很合理,高比例的批准决定表明注册过程是正确和合规的。

然而,分析也发现了一些改进的机会,例如:

  1. 根据时间间隔观察到的解决方案模式,优化资源分配和工作时间表
  2. 为申请人提供额外的指导和支持,以减少申请书撰写中常见的错误。
  3. 澄清目前根据习惯而不是明确规则解释的一些领域:
    1. 拒绝理由:管理员任期未定(应根据民法典替换为3年的补充期限)
    2. 在某些情况下,缺乏明确的拒绝理由,这是没有法律依据的。
    3. 字符串在原始语言中: “CAEN的困境(初创企业必须声明他们不销售武器或弹药,并且他们不会从事未经授权的活动。)”

      声明与“不犯法”声明等效,实际上大多没有法律效力。

结论

Incorpo.ro 团队对罗马尼亚商业注册处的大数据分析为我们提供了宝贵的见解,让我们了解到该机构在罗马尼亚商业生态系统中效率和面临的挑战。通过先进的数据处理技术和可视化方法,我们能够识别出它的优势和改进机会。

我们的成果凸显了持续投资于创新技术解决方案的重要性,例如流程自动化和人工智能的应用,以进一步提高贸易登记处的效率和服务质量。

另一方面,我们认为注册机构的努力应该得到回报,在经济上,对表现优异者进行标准化付费是不合理的。

没有对数据进行数学分析,从图表中可以明显看出,在大多数县的注册人员中,超时工作是一种习惯,在博托沙尼县,注册人员甚至在晚上10点到11点之间工作,频率相对较高。

我们相信,商业注册机构是一个很好的案例,说明了公共部门的薪酬制度存在缺陷,无法鼓励表现。我们将提供一份详细的分析报告,说明按小时支付薪酬,根据完成文件数量按比例支付薪酬,以突出当前制度的缺陷,并展示立法变化可以促进大多数注册机构持续努力的潜力。

超过 60% 的注册人员每天处理超过 25 个文件,这意味着他们平均每 19 分钟解决一个文件,这是一个不错的数据。

另一方面,我们必须小心,以免努力变得过分昂贵,并且为了符合分析标准所需的速度会降低注册机构仔细审查的效率。

我们希望这项分析能为建设性的讨论和具体行动提供一个坚实的基础,从而优化商业注册机构的运作,造福罗马尼亚的商业环境和整体经济。

我们邀请人们查看 GitHub 仓库中的扩展信息,其中包含每个县的接入率、工作时间等多个图表。

对于反馈权利(如果适用)、数据集请求或其他疑问,请联系我们:

[email protected]
+40786833325

免责声明、关于潜在错误的信息等

对于某位间接要求回应的人,我们决定以更具体的例子来解释分析过程、数据来源以及它们实际上揭示了什么:

  1. 我们从公司注册处的电子公报中获取了这些信息。我们使用了 2024 年的数据进行分析。我们从 2024 年的所有县收集数据,直到 2024 年 7 月 1 日。
  2. 我从每个文档中提取了文本,并使用了正则表达式。 已经证明能够有效地从商业登记处管理的大多数文件中提取信息,约90%。正则表达式是一种在文本中搜索“规则”的方法,例如通过指示程序读取“商业登记处登记员,[这里是名字]”之后的所有内容。
  3. 我们计算了拒绝或接受解决方案中注册机构名称出现的次数,并汇总了信息。由于一些是通过OCR生成的,因此它们失去了语义,我们对显示的信息进行了后处理过滤。
    字符串的原始语言:
    1. 至少有 30 天的不同时间段,因此如果有任何异常,应该在 30 个不同的日历日中持续存在。这样我们就可以排除新员工和其他可能出于其他原因而表现不佳的人。你不能因为一个新手工作速度慢而谴责他。
    2. 我们尽最大努力将常见名称合并,并在发现后根据 Alex Marin 先生的合理批评,根据名称相似性进行聚合,以消除同一名称以多种形式出现在多个位置的情况。例如:拼写错误、缺少 diakritik 或名称中缺少“-”。

合法的风险: 正则表达式匹配文本时,由于基本规则不足以捕获所有信息,可能会出现上下文不准确的问题。例如,由于布加勒斯特注册处没有使用标准模板,布加勒斯特数据集目前存在重大差异。

关于恶意、不诚实支付、“礼貌”报复等指控字符串的原始语言:

在罗马尼亚注册公司的总数量中,经过分析识别出所有在罗马尼亚的注册公司,我不认识大多数人,对任何人都没有意见,最后,即使分数有±10%的误差,总体上仍然很好。这表明了很高的效率,我在文章中已经非常强调了这一点。

最终,如果我们怀有恶意,我相信我们不会发布积极的例子,更不会在我们想要建立的品牌上发布,这个品牌是以诚信、信任和专业能力为基础的。


重新评估请求 + 结果

由于数据分析需要重新验证,尤其是与商业注册机构的注册有关,我们进行了此验证,以识别结果中的任何重大不一致。

优化分析过程的稳健性:

我们对数据收集和处理流程进行了多项改进:

  1. 通过实施交通信号灯系统(互斥锁),优化数据保存过程,以防止由于对文件的并发访问而导致的竞争条件和不一致。
  2. 扩展分析期至 2024 年 7 月 4 日,通过抓取所有已发布的消息,包括以前不可用的消息,确保数据的全面覆盖。
  3. 通过修改用于提取信息的正则表达式,在语料库中包含布加勒斯特市的数据,从而纠正最初遗漏该行政实体(与县区别对待)的错误。 我们假设大多数分析结果的变化都来自这里——之前的分析没有包括布加勒斯特市。
  4. 通过模糊搜索算法改进县名称识别过程,以实现更灵活的匹配,并处理因光学字符识别或编写偏差引起的变化。
  5. 通过应用排序名称搜索算法,结合前面提到的模糊搜索,实现对注册代理名称变体的管理(例如,“John Doe”和“Doe John”被视为同一人)。

不同的主体分析:

在分析结束时,在应用这些改进后,我们通过对结果进行比较分析来识别第一个分析中潜在的错误:

  • 关于工作日,平均差异为 -2.0 天,中位数差异为 7.0 天,变化范围在 -91 到 13 天之间。这种变化表明,虽然对一些注册机构来说,变化很大(例如,Georgeta Pacuraru 减少了 91 天),但总体影响是适度的。
  • 在处理的档案数量方面,平均变化为 292.43 份档案,中位数为 348.5 份档案,变化范围从 -678 份到 863 份档案。这些数字表明大多数注册机构的增量调整,但像 Daniela Oprișan 这样的注册机构却记录了 863 份处理的档案数量的增长。
  • 每日生产力平均变化为每天 2.61 份文件,中位数变化为每天 2.35 份文件,从 -7.11 份到 14.94 份文件不等。这些数字表明,尽管一些注册机构取得了显着改进(例如,Ioana Cătălina Florea,每天增加 14.94 份文件),但其他人却出现负面变化(例如,Mihaela Vicol,每天减少 7.11 份文件)。
  • 每小时生产力平均变化0.33个档案,每小时中位数变化0.29个档案,变化范围为-0.89到1.87个档案。这些值表明大多数注册人员的调整相对较小。
  • 在排名变化方面,中位数提高了 3.0 位,平均提高了约 1 位(-1.07)。尽管有一些重新排序,但总的来说没有实质性变化,大多数注册机构保持了大致相同的相对位置。

結論重申,雖然對研究的方法進行了改進,精細化了結果並提高了準確性,但這些改進並沒有對最初的結論產生根本性的影響。最初的分析看起來總體上是堅固和公平的,所做的調整鞏固了研究結果,而沒有顯著地改變它們。

我们相信这一重新验证和改进分析的过程表明了我们对准确性、透明度和对所收到意见的回应的承诺。

经过修订的研究结果为贸易登记处注册机构的活动提供了更详细、更合理的图片。

最新排名(每小時更新):

审查 - 十大 - 2024.01.01-2024.03.07(包括布加勒斯特市) - 每小时文件夹
审查 - 底部 10 - 01.01.2024-03.07.2024(包括布加勒斯特市) - 每小时文件夹

透明承诺

由于人们对分析过程缺乏透明度提出了批评,我们已经采取行动,公开了用于分析的代码,以提高流程的透明度。我们还附上了分析中使用的文件以及新分析的初步信息。

GitHub - Incorporo/analiza-big-data-onrc
通过在 GitHub 上创建账户来为 Incorporo/analiza-big-data-onrc 的开发做出贡献。
Stefan-Lucian Deleanu
网站 Facebook 克卢日-纳波卡,罗马尼亚