腾讯云智聆口语评测使用限制-教育服务解决方案

音频文件规范

腾讯云智聆口语评测(Smart Oral Evaluation,SOE)在流式或非流式评测下都需要开发者按以下格式上传音频数据。注意:1. 需要满足音频属性,如有不一致,可能导致评估不准确或失败。2. 比特率的控制模式推荐使用 CBR,固定码率。

音频文件格式 音频压缩格式 采样率(sample rate) 声道(channels) 位深(bit depth) 比特率(bit rate)
pcm pcm 16kHz 单声道 16bit 256kbps以上
wav pcm
mp3 MP3 32kbps以上
speex speex 24kbps以上

流式数据包规范

流式分片序号(SeqId)取值范围为 1~3000 的整数。

评测时长规范

最长支持300s的评测时长。

语言规范

英文:美式发音,参考剑桥词典。中文:普通话。

评估文本规范

RefText 转换标准

单词类型 组成元素 内部转换 示例
普通单词 a-z,0-9的组合 不转换 apple
单词缩写 包含一个”‘”的单词 不转换 it’s
常见组合词 由”-“连接的两个单词 对常见组合词不转换;对 OOV 组合词,单词模式不转换,其他模式拆分为两个单词 bye-bye
整数 数字序列 0 – 99 转换为对应单词,其他转换为数字序列 23→twenty three123→one two three
浮点数 包含一个”.”的数字序列 分别将整数和小数部分转换为数字序列,小数点转换为”point” 1.23→one point two three
数字组合词 包含”-“的数字序列 去除”-“转换为纯数字序列 86-130→eight six one three zero
序数词 1st – 99th 转换为对应的单词 1st→first
时间 小时+”:”+分钟 按照英语顺序读法转换 09:00→nine o’clock09:05→nine o five09:40→nine forty

RefText 文本过滤规则

1. 我们支持 GBK 编码集内的所有文本,并对下述符号进行了过滤(即 RefText 中可以出现下述符号,且不会影响评测结果):
~﹜﹚'=+″々°ˇ〕&─℃﹩"`】﹙/〖’﹨[=﹣﹟′”*『#』%‖〔¥:¨〈—-「〉」#*〗( 〃>+﹝【‘“·^.&﹦…$﹤﹞%])(()~_——-$”﹪﹥﹢﹡﹠﹑﹛ˉ</’、。?!,;:?!,;﹐﹒﹔﹕﹖﹗.》《注意:个别评测模式下,上述符号可能会影响评测结果。当出现冲突时,以上方表格“评测文本要求”一列中的描述为准。2. 不支持当前评测模式以外的语言(如日、韩语等),不支持填写开发语言(如前端语言)。3. {}仅在可支持语法格式中使用,不能单独使用。4. | 仅在可支持模式中生效。

评测文本组成

评测文本组成主要是由 命令块 + 评测文本 + 发音块 组成。命令块可在部分模式实现附加模块开关。发音块可在部分模式实现指定发音。分割符可在部分模式实现分割多组文本评测。除了特定语法格式和转换标准之外的其他字符,标点符号均会被过滤。评测文本均不区分大小写。

类型 语法格式 说明 支持模式 示例
发音描述块 单词/汉字{::pron{p1,p2..},{p3,p4..}..} 指定发音,定义单词发音。发音单元为智聆音素/拼音。需要将国际音标通过音素映射表转换为智聆音素。 英文:单词,单词实时,单词⾳素诊断,句⼦模式。中文:单词,单词实时,单词⾳素诊断,句⼦,句子多分子,段落,情景,拼音模式。 happy{::pron{hh,ae,p,iy}} every山{::pron{shan1}} 水
单词{::ipapron{p1,p2..},{p3,p4..}..} 指定国际音标,定义单词发音。发音单元为IPA(国际音标)。 英文:单词,单词实时,单词⾳素诊断,句⼦模式。 orange{::ipapron{‘ɔ,r,ɪ,n,dʒ}}
{“wordList”:[{“word”:单词/汉字,”pron”:[[p1,p2],[p3,p4]]}]} 音素结构,定义单词发音。发音单元为智聆音素/拼音。 英文:单词、单词实时、单词⾳素诊断、句⼦模式。中文:单词,单词实时,单词⾳素诊断,句⼦,句子多分子,段落,情景,拼音模式。 {“wordList”:[{“word”:”spout”,”pron”:[[“s”,”p”,”ao”,”t”]]}]}{“wordlist”: [{“word”: “钢”,”pron”: [[“gang1”]]},{“word”: “镚儿”}]}
命令描述块 {::cmd{F_IPA=true}} + 单词 开启⾳素到国际⾳标转换功能 英文:单词,单词实时,单词⾳素诊断,句⼦,句子多分支模式。 {::cmd{F_IPA=true}}orange
{::cmd{F_P2L=true}} + 单词 开启⾳素到字⺟映射功能 英文:单词,单词实时,单词⾳素诊断,句⼦,句子多分支模式。 {::cmd{F_P2L=true}}hello
{::cmd{F_TDET=true}} + 汉字/拼音 开启声调检测功能 中文:句子,拼音模式。 {::cmd{F_TDET=true}}shui1{::cmd{F_TDET=true}}水
{::cmd{F_PUNC=true}} 开启加标点功能 英文:自由说。中文:自由说。 {::cmd{F_PUNC=true}}
分隔符 单词/汉字 | 单词/汉字 将文本用 | 划分为多组文本。多组文本关系为或 英文:段落,情景,句子多分支,单词实时。中文:段落,情景,句子多分支,单词实时。 by bus | by intercity train
候选单词数组 @@{::words{a},{b}…} 定义对多组相似文本的简写形式 英文:情景模式。中文:情景模式。 by @@{::words{bus}, {intercity train}}
重音检测 有重音的单词 检测是否为重音 英文:单词,单词纠错。 orange
原始单词 阿拉伯数字 将通过转换标准为单词的数字,显示为原始数字 英文:单词,句子,段落,情景模式。 7

注意:发音描述块只能选择其中一种进行使用。当音素到字母映射与音素到国际音标转换或发音描述块一起使用时,音素到字母映射功能可能会失效。默认返回智聆音素。即使指定国际音标,也需要开启⾳素到国际⾳标转换功能,才会返回国际音标。

拼音说明

1. 采用数字拼音的标注方式,拼音标注时用1、2、3、4标识一声、二声、三声、四声,目前不支持轻声。例如 shān 使用 shan1 表示。2. 拼音之间用空格区分,例如:sh an1 shan1 算作3个拼音。3. 支持声母、韵母+音调、声母+韵母+音调。韵母 ü 用 v 代替。4. ü 需要使用 v 代替。当l,n 与 üe 拼读,需要使用 u,例如:nue1。

主题词与关键词文本格式

类型 语法格式 说明 支持模式 示例
普通文本 主题词 英文:段落,情景模式。中文:段落,情景模式。 bus
分隔符 | ⽤于划分不同主题词 英文:段落,情景模式。中文:段落,情景模式。 bus | bike
分隔符 # ⽤于划分不同主题词组 英文:情景模式。中文:情景模式。 bus # bike
命令块 {::cmd{F_UKEY=true}} ⽤于指定负向主题词 英文:情景模式。中文:情景模式。 {::cmd{F_UKEY=true}}bike






腾讯云官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

发表评论