
数据简介
Hindi (印地语),是印度的主要官方语言之一。据统计,印度国内以Hindi为母语的人数超过1.8亿,以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地,使用Hindi的人数也高达数百万。随着印度的国际地位日益提升,Hindi的影响力也在逐渐增大。为了提高语音识别引擎对Hindi的识别准确度,我公司制作了印地语语音识别数据库。
该数据库是采集印度新闻完成。总共15个小时,7000多句,每句9秒以内,语音对应文本数据,以女性发音为主。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。我们选择了人们在日常交流中涉及最多的领域,包括新闻、工作、运动、购物、新闻、食物、电影等25个最常见的话题。在可选的25个话题中自由挑选自己感兴趣的话题,共7.6G文件。该数据库由Hindi的母语使用者进行人工转写和标注,并经过了严格的质量检验。该数据库包含一个SAMPA印地语发音词典,并由我们的印地语语言学家进行了校对。
样例展示
-
आंध्र प्रदेश के तिरुमाला स्थित भगवान वेंकटेश्वर के प्रसिद्ध तिरुपति बालाजी मंदिर को
इतिहास में पहली बार बंद करने का फैसला लिया गया है।
अब सभी शिक्षण संस्थानों और होटलों को
विदेशियों के बारे में चौबीस घंटे के भीतर सरकार को जानकारी देनी होगी।