标注规范及标准
一.简单介绍
针对给定的语音片段,人工判断其是否为有效语音,对于有效语音,给出其中语音的起止时间段、标准的文本标注以及语音本身的相关属性,对于无效语音直接抛弃。
二.操作步骤及方法
1. 首先登录网址:http://123.56.137.109:1800/,用给定的账号和密码登录;
2. 登录进去之后,选择申请任务,在项目名称下面选择“艾芮特团队”的任务,然后同意保密协议,就进入工作页面开始工作;
3. 工作界面如下:
4.操作顺序分为五步:
① 首先判断声音的有效性,如果有效的话,再继续进行下面步骤;
如果声音无效,选择无效(选中“无效声音”后,自动下一句)。
② 在上图1所示波形中,通过鼠标拖拽的方式,标记出有效声音的起止时间点(切着音频切);对有效声音进行“性别,口音,底噪(红线内是否有连续噪音)、儿童音”四种属性的标记;
③ 两条红色竖线内的音频即为需要转写的音频段(有效音频),转写内容写到下面文本框内,句中可以有标点,句尾必须有标点;
④ 文本确认OK后,红线内需要加标签的地方加标签;
⑤ 标记完毕后,点击“保存继续下一句”
⑥ 点击1 of 150 处的箭头的话,本句的标注结果是不保存的,只是浏览
⑦ 做到每个任务包第150句点击保存,波形图的右上方会显示“提交”按钮,点击即可提交任务,手里的任务不提交无法申请新的任务,一个任务24小时后会被回收请按照提交。
三. 文本标注规范
不能丢字漏字,不能写错别字,有口音的不改字,语气词不能省略并且不能出现错别字。
a) 录音转写的第一要求
忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊。”。
a) 口音问题
由于口音或个人习惯导致的音变,按普通话标注音录入。多音字或者生活中有不同发音的字,也按照普通话标注音录入。例如,“办公室”的“室”,有人说成“shi3”,有人说成“shi4”,都要录成“办公室”
b) 数字
数字符号应完全按照其读音转写成对应的汉字,例如:”5256”->”五千二百五十六”,”2004”->”二零零四”或”两千零四”,”19%”->”百分之十九”等。其中“1”转“一”或者“幺”,根据真实发音录入。
c) 英文单词或作为单词发音的缩写词
对于英文单词,或者作为单词发音的缩写词,如果其发音是按照一个单词来发音的,请直接转写,注意字母间要加空格。
例如,“hello”、“G D P”等。
Eg:您的Q Q邮箱是多少?遇到说网址的@要写@。
d) 标点符号
只采用‘,’ 、‘。’、‘?’和‘!’ 。句尾需要加标点。
像‘《’、‘》’、‘“’、‘”’等标点应去除。
e) 专有名词
所有的专有名词,包括人名、地名等,详细规范说明如下:
§ 人名
对于熟知的知名人士的名字或地名,必须用该知名人士的名字来转录。
例如,“郭德纲的相声很不错”,就不能转录成“郭德刚”。
“阿里巴巴邀请白举纲参加来往活动”,不能是“白句刚”。
而对于泛泛的名字,则都要用最常见的文字来标记。
例如,用“王小明”,不用“王晓明”,更不能用“王潇铭”(这个太偏僻了)。
§ 中国的地名
与人名的转录规则类似。
§ 机构名称
与人名的转录规则类似。
f) 儿化音
需要把“儿”这个字标注出来。
例如,“这个小孩儿”(当此语音的儿化音很明显的时候)。
g) 填充语气词
填充语气词是指示说话者说话中的犹豫,或者说话者在思考下面该说什么时,用来保持发音连贯所使用的词,例如’呃’,’唔’,’呵’,‘嗯’等。语气词应该基本带有口字旁。
ei诶,唉; ai 哎
四.标签(都是标红线内的部分)
[noi]:红线内的突发噪音 |
[sil]:大于1秒的停顿,包括安静和嘈杂 |
[~]:听不懂的个别字词和重叠音,加在句子中间听不懂的位置 |
切音的时候能写出来的可以直接写出来。多人说话,不影响主音人说话,按照第一个人的属性设置。
注意: |
规范说明 |
1.时间点不用预留,切着语音写截取就行 |
2.标签只标红线内的 |
3.句尾必须有标点 |
4. 标签(红线内的内容) 5. 遵守一个原则,写出来的语句就是保准正确的。 6. 只有1-3个字,不成词语也不成句子的无效,整段都是“喂喂喂喂”的也无效
|