基于机器学习和模式识别的理论和方法解决文本处理问题,如文本分类、信息检索、信息抽取和倾向判断等。1997年起开始从事模式识别与机器学习领域研究,2003年起专门从事文本数据的机器学习研究;主持参加2004年以来的TREC、TAC、863和COAE等相关评测,多次取得单项和综合成绩第一名;负责构建一系列原型系统;以主要成员参与多项国家自然科学基金、863项目和国家科技重大专项等;发表论文包括ACL、AAAI、SIGIR等顶会论文近10篇,SCI索引期刊论文10多篇,EI索引论文50多篇。
网络中包含各种有用信息,瓶颈是怎样自动获取它们。长期的研究方向是让计算机能够自动理解文本的内容,并主动为人们提供各种服务。与人的能力相比,机器的能力还有很大的提升空间。但在目前的情况下让机器全面超越人,这还是非常困难的。
当前主要的研究问题是: 以实体或者事件为中心来组织和整理文本中的内容,以解决信息抽取、信息检索、文本分类和倾向判断等问题。主要采用的理论和方法就是表示学习理论和复杂网络理论。表示学习(Representation Learning,或者Feature Learning,或者Learning Representations)”中的深度学习(Deep Learning)在图像和语音处理中获得卓越的效果。表示学习理论尚处于研究的初级阶段,常用方法主要有“概率模型”、“自动编码”和“流形学习”等。本实验室的郭军教授基于复杂网络提出的激活力模型对于挖掘和表示各个因素以及之间的关联关系有良好效果,因此将其应用于表示学习理论框架下将会更好地解决文本内容抽取和表示的问题。
副教授、硕士生导师, 2006.7-现在
北京邮电大学信息与通信工程学院
讲师, 2003.7-2006.7
北京邮电大学信息工程学院
博士研究生/博士, 2000.9-2003.7
北京邮电大学信息工程学院
硕士研究生/硕士, 1997.9-2000.6
大连理工大学信息工程学院
本科生/学士, 1993.9-1997.7
大连理工大学电子系