泛领域标注规范及标准
一.简单介绍
本音频内容是客服对话电话语音数据。利用工具,对语音进行标注。标记时间戳,隔开一个一个的语音段,然后对每个语音段,分别标注说话人身份、文本内容、说话人性别和情绪。
注意只转写实实在在的人讲话的声音,视频、电视里面的讲话声音不用转写。但是根据数据类型来判断。夹杂在主持人讲话中的开头或者中间的一些视频播音片段,无效不转写;如果整段音频都是视频类语音,比如电视剧等,就可以全部转写。
二.操作步骤及方法
1. 首先登录网址:http://182.92.174.146:5500/,登录界面如下图,用给定的账号和密码登录;
2. 登录进去之后,选择申请任务,选择项目名称的任务,然后同意保密协议,就进入工作页面开始工作;
3. 工作页面如下图所示,具体的切分标注步骤如下:
1) 首先,框1是音频的播放区域,如果没有勾选播放分区模式,点击音频波形,音频会从点击的位置开始播放。如果勾选播放分区模式,音频会从本段的起始位置开始播放;
2) 然后判断音频是否有效,如果无效选择无效,判断无效原因即可,如果有效再继续标注文本框2中属性;
3) 其次,在文本框4中转写文本,并在需要的时候添加文本框3中的标签,本段转写完毕点击保存按钮,切分标注好的段落会显示在文本框5中;(编辑文本是播放暂停的快捷键是Alt+m,常用这个会事半功倍哦)
4) 最后,整段音频都切分标注完毕,点击右上角的提交按钮即可。
三.切分标注的标准
3.1 时间戳标记
a) 根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界,拖动鼠标即可添加。
b) 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过15s,但断句也不要太散太短。
c) 一个语音段应该包含一个或多个完整的句子。例如“我想去吃饭”不能被分割为“我想去”和“吃饭”。
d) A说完改成B说后,在A和B之间要分割(一个语音段只能包含一个说话人)
e) 在进行语音切分过程中,有效语音前、后应尽量保留一定静音部分(一般不得少于20ms),注意切分时边界位置尽量准确,一般不应切到有效语音上。两段之间如存在静音,应为前后段保留一定静音。在连续语音中放置边界时,若无明显停顿,切分标记要放在中间,不要伤害有效语音,即不要贴着音频切。
一个人的语音为一个段落,不同说话人之间要分开,每个段落前后留不少于20ms(20ms其实很短就是为了不要切到语音上)的停顿不要贴着音频切。
1.:两段间小于等于5秒,停顿平分到前后段落
2.:两段间停顿大于5秒,中间多余停顿部分无效且添加相应标签
f) 只有一个字表示应答的,如语音没有overlap(重叠),则单独分割成独立语音段(如:嗯、哦、对);如有overlap,则标记主说话人语音,并在存在overlap的段落加overlap标记
3.2文本标注规范
a) 录音转写的第一要求
忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊”。
g) 口音问题
由于口音或个人习惯导致的音变,按普通话标注音录入。多音字或者生活中有不同发音的字,也按照普通话标注音录入。例如,“办公室”的“室”,有人说成“shi3”,有人说成“shi4”,都要录成“办公室”
h) 数字
数字符号应完全按照其读音转写成对应的汉字,例如:”5256”->”五千二百五十六”,”2004”->”二零零四”或”两千零四”,”19%”->”百分之十九”等。其中“1”转“一”或者“幺”,根据真实发音录入。
i) 英文单词或作为单词发音的缩写词
对于英文单词,或者作为单词发音的缩写词,如果其发音是按照一个单词来发音的,请直接转写,注意字母间要加空格。英文单词小写格式,字母大写且空格。
例如,“hello”、“G D P”P P T Q Q 等。hello kitty
Eg:您的Q Q邮箱是多少?遇到说网址的@要写@。
如果出现拼音拼读的,将声母韵母分开转写声母+下划线_+py+字,如,胜利,转写为:sh_py eng_py胜l_py i_py利
j) 标点符号
只采用‘,’ 、‘。’、‘?’和‘!’ 即只能使用逗号,句号,问号,感叹号。
句尾需要加标点且句尾标点不要是逗号。
k) 专有名词
所有的专有名词,包括人名、地名等,详细规范说明如下:
§ 人名
对于熟知的知名人士的名字或地名,必须用该知名人士的名字来转录。
例如,“郭德纲的相声很不错”,就不能转录成“郭德刚”。
“阿里巴巴邀请白举纲参加来往活动”,不能是“白句刚”。
而对于泛泛的名字,则都要用最常见的文字来标记。
例如,用“王小明”,不用“王晓明”,更不能用“王潇铭”(这个太偏僻了)。
§ 中国的地名
与人名的转录规则类似。
§ 机构名称
与人名的转录规则类似。
l) 儿化音
需要把“儿”这个字标注出来。
例如,“这个小孩儿”(当此语音的儿化音很明显的时候)。
m) 填充语气词
填充语气词是指示说话者说话中的犹豫,或者说话者在思考下面该说什么时,用来保持发音连贯所使用的词,例如’呃’,’唔’,’呵’,‘嗯’等。语气词应该基本带有口字旁。
ei诶,唉ai 哎
3.3 数据标注标记
a) 标注中使用的标记:
l (noise) 噪声。
u 说话人发出的突发噪声:
由说话者发出的噪声可能有以下5种,分别对应呼吸声、咳嗽声、笑声、喷嚏声和其他由嘴唇发出的声音。
u 录音及电信系统引起的噪声
包括电话按键音、电话忙音、录音系统的其他噪音等,都是通信系统主动发出的声音(但没有人或机器的说话声),而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。
u 背景发出的突发噪声:
此处的背景发出的噪声专指由非说话人(背景)发出的具有突发性的噪声。如出现在说话声之间的掌声、关门声、汽车鸣笛声、狗叫声等。
n 持续的音乐声
u 唱歌声(有歌词和旋律)
u 哼唱(没有歌词,但有旋律)
u 口哨声
u 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音
乐和歌声
u 包括持续时间较长的彩铃声
l (unk) 为无效文本内容。
n 难以理解的段落
有时音频文件的某一部分很难或不能理解其对应的文本,例如由声音不清晰或者方言发音造成的难以理解的语音。
n 听不懂的外语发音
n 方言
l (sil) 如出现明显停顿,则标记停顿标签,建议5秒。
l (~)用波浪号表示语句中存疑的个别字词。
l (overlap)语音重叠
关于ovelap标签的使用:overlap用于两个或几个人说话重叠时,转写出主要说话人的语音内容,选中重叠的部分,点击添加overlap标签,
这时在语音前后会出现两个标签,也就是两个标签中间的部分是重叠语音段(这个语音段是主要说话人的语音内容)
b) 段落属性标记:
l 有效性:筛选阶段对音频进行有效性筛选;如果是无效语音,则后面的标记就不用考虑了。
l 说话人身份:客户1,客户2等依次类推;
l 性别:[F]/[M];
l 口音:有口音/无口音; 按照有无明显口音为标准
l 背景噪音(底噪):整个音频有连续性背景噪音/整个音频无连续性背景噪音,包括敲打键盘声音、其它人声音、电视背景音、汽车声音等; 按照是否明显判定。
l 起止时间: 拖动鼠标进行截取
l 情绪:正面/平静/负面.
l 异常音:是;否。比如音量截幅,设备持续杂音等,都属于异常情况。
l 说话方式:正常;不正常。比如大声喊叫,洋腔怪调等,都属于不正常的说话方式。
l 说话人类型:正规播报;口语播报。一般都选择口语播报,类似于新闻联播的选择正规播报。
c) 标点符号:只能使用逗号,句号,问号,感叹号。
3.4 说话人身份
说话人层中标注该段语音的说话人的身份。在选择说话人身份时
1.正常的客服客户对话,正常选择客服客户;
2.主持人和采访者的对话,主持人选择客服,采访者选择客户;
3.不能分辨客服,客户,也不是在主持人访谈的,就统一选择客户。
第一个出现的客服讲话,选客服1,第二个出现的选择客服2,以此类推;第一个出现的客户讲话选客户1,第二个出现的客户选客户2,以此类推。
常见问题解析:
1. 断句
根据语义和说话人身份分段,每段不超过15秒,并且每段只包含一个说话人,不能把一句话分成两半,尽量保证语义完整。但也不要切分的过细,一个人说话不超过15秒的可以放在一段。
2. 标签
noise和底噪的区别
noise是短促突发的噪声,底噪是背景持续存在的噪声
noise和sil的区别
大于五秒的停顿需要单独成段,选无效,根据是否有背景噪音来选noise或者sil
unk和~的区别
这两个都可以代表听不清听不懂的字或者词。不同点是小于5个字的话直接用~来代替;如果大于五个字的话就需要单独成段,选无效标unk了。
unk不会和文本混在一起用也就是5个字以上听不懂单独成段,选用标签unk。
3. 文本
不能丢字漏字,不能写错别字,有口音的不改字,语气词不能省略并且不能出现错别字。
无效的没有15秒的时间限制,只要是无效的比如持续20秒的噪音可以放在一起。
本次注意:
1.方言严重听不清的无效
2.多人说话重叠部分能分清主次的写主要说话人加overlap,分不清主次的无效
3.能明确是客服客户对话的标客服和客户,要不第一个人标客户一,第二个人标客户二,以此类推
4.整个包大部分是音乐,方言还很严重,只能听清三五个字的,整包无效即可
5.回声和人说话重叠部分无效,单纯的回声也不用转写直接无效,大家注意哈