未名企鹅极客 | “呼吸血液肾内科”如何标准化数据处理?

发表时间:2021-04-29 17:51作者:未名企鹅


随着药企对广阔市场的不断探索,越来越多的“挂牌科室”标准化数据处理成为必须面对的问题。未名企鹅的极客专家找到了「随机森林模型」处理的高效方式,针对不同地域、不同层级医疗机构的不同“挂牌科室”进行统一标准化处理,以国家卫健委公布的专业为基础,在未名企鹅行业库制定一套【标准科室】,更好的服务基层和患者。



那么这种【标准科室】是如何产生的呢?


1、构建数据集

首先,收集有助于我们做决策的关键词,将它们作为特征,若包含该词则特征值为1,反之为0.


2、构建 决策树模型
决策树是当今最强大机器学习算法之一,可以执行分类和回归任务。

决策流程图,实际上就是一颗很大的「决策树」,因此我们用示例数据训练一颗决策树,然后用它来预测标准科室。


3、随机森林模型 进行优化
如果你随机向几千个人询问一个复杂问题,然后汇总他们的回答。在许多情况下,你会发现,这个汇总的回答比专家的回答还要好,这被称为群体智慧。

我们训练若干棵决策树,由他们构成一片森林。作预测时,森林中的每棵树都提供一个预测结果,然后将得票最多的结果作为最终的预测结果,这种模型被称为「随机森林」。


采用这种方式可以给90%以上的科室名称提供一个标准化结果,准确率高于90%


效果较「决策树模型」提高了很多。




「随机森林模型」价值点:



1、精准学术推广定位
科室标准化之后,可以准确提供医院和医生画像,再不会面对浩如烟海的“挂牌科室”不知所措。
2、模型优化性能提高
数据的预处理、降维和示例数据不断增多,使模型性能持续优化。
3、降低成本提高效率


【标准科室】是通过训练好的模型自动化完成的,避免了人工的低效和差错,提高了任务的效率和精准度。

“科室标准化”仅是未名企鹅众多技术探索创新之一。未名企鹅希望采用这种学术研究的精神和广泛交流的开放态度,传递未名企鹅探索领先技术应用的文化,展现为行业做贡献的初心。

文 / Zero

编辑 / Crystal


欢迎CIO交流

关于“呼吸血液肾内科”如何标准化数据处理,如果您有经验想要分享,欢迎关注未名企鹅公众号,订阅极客栏目,或者点击文末左下角“阅读原文”给我们留言提出您的需求建议。

关于未名企鹅
     
未名企鹅以“连接健康”为使命,致力于提供生命健康领域的大数据产品和解决方案,帮助客户实现数据驱动的业务增长。

未名企鹅中的“未名”代表北大,寓意人文精神,生命健康领域正是体现人文关怀的产业;“企鹅”象征科技,未名企鹅的创始团队毕业于北大,技术力量来自腾讯,公司以未名企鹅命名是希望以人文情怀加上科技力量来推动生命科学行业数字化发展。

未名企鹅,数 · 智 · 未来


分享到: