所有项目

CQA系统设计与实现

社区问答(community question answering, CQA)在近些年得到了广泛关注,随着百度知道、知乎、搜狗问问、Stack Overflow等社区问答网站的出现,越来越多的人选择网络社区来获取答案。CQA与一般QA任务的不同在于问题和答案是开放领域的,通常较长,包含多个句子,文本不是结构化的,且含有大量噪音。一般的CQA系统构建步骤如下:a)用搜索引擎比如Lucene先离线构建问题-答案对的索引;b)在线收到query后,初步召回一组候选答案构成的集合;c)用文本匹配算法和排 …

不良药物反应抽取评测

该评测主要对药品说明书中进行不良药物反应的实体抽取和关系抽取两个子任务,其中实体抽取以BiLSTM-CRF为主要模型,并融合了词向量和字向量作为表征;关系抽取针对标注语料少的问题,采用了对抗噪声的方法作为数据增强的手段。

人工智能建设项目——运维知识子任务

该项目针对的场景是客服为用户进行运维工作后,针对已形成的工单,从中获得按照故障原因以及解决措施的形式的运维知识,并且结构化表示运维知识以形成一个运维知识库;即该项目分为两部分,一部分是运维知识挖掘系统,另一部分是运维知识库的构建。

会议场景自动摘要系统

该项目应用在多人会议场景,主要通过会议整体内容提炼以及各发言者主要观点总结,形成篇幅较短但涵盖主要信息的生成式会议摘要。通过阅读摘要能够在短时间内形成对会议内容以及个人观点的大体认知,有效提高了多人协作过程中理解和沟通的效率。系统整体建立在无监督的基础上,主要通过大规模预训练语言模型在资源相对丰富的新闻摘要数据集上进行微调后,迁移至会议场景进行生成式摘要任务。考虑到场景之间的差异,通过自监督方法对生成的摘要进行风格迁移,使之具备更佳的可读性。设计了发言者画像库,用于收集和使用代表性的个人发言,以 …

在线教育场景下的智能客服系统

在线教育场景下通过人机对话的方式来完成特定的任务,主要包括以下三个方面:自然语言理解(NLU):包括领域识别、意图识别、槽位提取三个子模块。通过领域识别的输出触发不同的场景,由意图识别和槽位提取将自然语言转换成系统可以理解的结构化表示。对话管理(DM):包括对话状态追踪和对话策略两个部分。对话状态追踪根据用户输入的结构化表示和历史对话信息,更新当前的对话状态;对话策略模块根据当前的对话状态和用户输入的结构化表示进行决策,输出系统回复的结构化表示。自然语言生成(NLG):将系统输出的结构化表示转化 …

基于搜索引擎的问答系统

利用实体识别和关系抽取技术,从百度搜索返回的候选结果中抽取答案实体返回。可识别预定义的10种关系。项目中的关系抽取采用了TextCNN、SVM和模板匹配三种模型,并根据模型的置信度进行了集成。

多源多模态频谱知识图谱

针对各种无线通信技术构建频谱知识图谱。知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。知识图谱技术与各行业的深度融合已经成为一个重要趋势。该知识图谱将被用于实际信号的仿真,分离和识别。

多轮机票预订查询对话系统

以机票的预订以及查询为任务背景,构建的特定任务的多轮对话系统。其主要模块分为自然语言处理(NLU),对话管理(DM),自然语言生成(NLG),机票知识库,并通过PIPELINE的形式进行连接构成整个系统。其中NLU模块中的意图识别、实体识别;DM模块中的策略决策,均采用当前最新的神经网络模型得到,同时也为模型的泛化,提供可能。

学员培训模拟用户对话系统

该项目的落地场景为保险行业销售员培训系统,其中本项目的对话系统担任模拟客户的角色,通过和真实学员的对话交互来对学员的语言表述进行打分,借此提高保险销售学员的业务能力。整体对话系统采用经典管道结构,分为自然语言理解、对话管理和自然语言生成三个部分。其中自然语言处理除了基本的实体意图识别还加入了多意图识别的考量,对话管理部分采用分流程分阶段控制对话的规则设定。在项目后期,整体会加入情感分析,即学员的表达中蕴含的情感因素也会成为打分的评分点。

工单对话摘要项目

该项目针对场景是用户与客服进行电话咨询,系统通过用户与客服之间的多轮对话通过摘要的方法生成相应的用户提出的问题以及客服给出的诊断以及解决方案的自然语言文本作为该次会话的工单记录。