<%@ page contentType="text/html; charset=GB2312" %> 教育部科技发展中心  
繁 体
 
当前位置: 首页 >> 高校最新鉴定成果简介 >> 按任务来源分类 >> 国家自然科学基金(NF)
双语表现力语音合成与应用
来源: 教育部科技发展中心  发布时间: 2007-12-26  点击数:
成果名称:双语表现力语音合成与应用
申请单位:清华大学  香港中文大学
鉴定编号:鉴字[教NF2007]第016号
鉴定日期:2007.11.26
学 科:14计算机
成果简介: 
  本项目全称为“双语表现力语音合成与应用”,可以根据输入文本的情感语义信息,输出具有丰富表现力的普通话和广东话的合成语音;生成具有和语音一致口型动作的虚拟说话人,并根据文本情感语义信息生成多种表情脸像、头部动作,使得可视语音合成效果更为自然生动。
项目研究内容涉及以下理论技术:文本分析与处理、多语种语音合成、虚拟说话人合成、表现力语音特征提取分析、表现力语音合成、可视韵律分析合成、说话人表情合成、音视频双模态联合建模。
系统的研究成果原创性强,达到国际先进水平,对当前国内视听觉信息的认知研究有很大的促进作用,成果可以推广到其他语言和方言。具体体现如下:
  一、课题组收集了丰富的自然对话语料,首次用三维情感模型(PAD)描述汉语语音表现力特征,通过对文本的风格、语义重点的预测,建立了面向语义概念,以PAD描述的文本表现力置标方法。
  二、研究了语音声学特征与情感的相关性,提出了声学特征分析的逐步回归算法,建立了面向情感语音变换的综合声学模型,有效降低了变换语音与目标情感语音的感知差异。 
  三、分析了说话人头部运动规律,提出了基于PAD模型统计参数的头动生成算法,实现了文本语义重点、韵律结构驱动的可视化韵律,并分析了面部器官与表情变化的相关性,提出了局部表情参数(PEP),构建了PEP与人脸动画参数组的相关函数,创建了三维情感模型PAD参数与PEP的定量映射模型,实现了文本驱动的虚拟说话人表情脸像生成。
  四、分析了发音过程中脸像与语音的协同关系,用动态贝叶斯网络刻画音视频间的特征相关性和时序相关性,提高了表现力语音、表情脸像的同步与表现效果。
  五、课题组将语义概念、感知属性、声学特征和表情脸像生成等技术集成到系统中,实现了汉语普通话和广东话的高表现力可视语音合成。
本项目旨在进行汉语双语表现力合成语音的相关研究,并将其研究成果嵌入到多模态的口语对话系统中,进一步增进人机交互过程的和谐性,推动有表现力的可视语音合成技术的发展,为建立未来和谐人机语音交互环境提供理论基础和技术支持。研究成果可以直接应用在人机对话,信息服务,游戏娱乐,语言教育等多种领域,具有重大的理论价值和广泛的应用领域,具有可观的经济社会效益。

 


打印】【 发送给朋友】【关闭
客户服务信箱  Tel:010-62514689,62514697  Fax:010-62514678  京ICP备:05004627号
2007 版权所有:教育部科技发展中心  未经书面许可  不得转载本站信息
Produced By HZCMS协同内容管理系统 内容管理专家 publishdate:2008/09/23 15:29:25