自然语言处理

目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大。

更新日志

  • V1.1.2
    2020-12-1 15:00
    版本更新:
    1. 迭代遗传大数据预训练模型
    2. 更新医学综合诊断底层模块
  • V1.1.1
    2020-9-1 17:00
    版本更新:
    1. 增加中英文底层联通功能
    2. 增加底层中英文实体融合功能
  • V1.1.0
    2020-6-1 11:10
    版本更新:
    1. 更新NER模型,优化查询接口
    2. 更新基因字典库6万条记录
  • V1.0.3
    2020-3-1 10:30
    版本更新:
    1.更新100万字符精标注模型
  • V1.0.2
    2019-12-3 10:30
    版本更新:
    1.新增标准遗传学语料237万字
  • V1.0.1
    2019-11-18 11:10
    版本更新:
    1.新增医疗专业词条18万条
  • V1.0.0
    2019-11-4 11:10
    项目上线:
    1.支持预训练及微调
    2.安全字典维护
    3.语料库建立

平台介绍

以计算机为载体,对自然语言文本进行处理,使其获得与外部进行交流的能力。将专业性较高的医学文献、书籍作为训练语料,针对专业医疗领域内的,对含有非常见词、专业术语、或模糊描述的医学描述文本进行研究。主要涵盖:医疗专业分词、命名实体识别、文本分类、医学问答系统。

数据支撑

  • 条件随机场(ADF辅助训练)
  • BERT模型
  • BI-LSTM+CRF