未名企鹅极客 | “呼吸血液肾内科”如何标准化数据处理?发表时间:2021-04-29 17:51 随着药企对广阔市场的不断探索,越来越多的“挂牌科室”标准化数据处理成为必须面对的问题。未名企鹅的极客专家找到了「随机森林模型」处理的高效方式,针对不同地域、不同层级医疗机构的不同“挂牌科室”进行统一标准化处理,以国家卫健委公布的专业为基础,在未名企鹅行业库制定一套【标准科室】,更好的服务基层和患者。 那么这种【标准科室】是如何产生的呢? 首先,收集有助于我们做决策的关键词,将它们作为特征,若包含该词则特征值为1,反之为0. 决策流程图,实际上就是一颗很大的「决策树」,因此我们用示例数据训练一颗决策树,然后用它来预测标准科室。 我们训练若干棵决策树,由他们构成一片森林。作预测时,森林中的每棵树都提供一个预测结果,然后将得票最多的结果作为最终的预测结果,这种模型被称为「随机森林」。 采用这种方式可以给90%以上的科室名称提供一个标准化结果,准确率高于90%。 效果较「决策树模型」提高了很多。 ![]() 「随机森林模型」价值点: “科室标准化”仅是未名企鹅众多技术探索创新之一。未名企鹅希望采用这种学术研究的精神和广泛交流的开放态度,传递未名企鹅探索领先技术应用的文化,展现为行业做贡献的初心。
文 / Zero 编辑 / Crystal 欢迎CIO交流 |