登陆网址babel.magicdatatech.com/processmore/index.php
用谷歌浏览器,鼠标拖动截取分段,内容右键,选择噪音符号
注意事项:
1最开始可能有用户说的口令,“爱数智慧采集”,如果说口令的时候有其他说话内容叠加,那么直接标注口令。
2不要断句太散,如果句子中有一个字听不懂的,请联系前后语境,推测出最可能的字,尽量整句标注)
3如果数据本身有文字,那么文字之间的空格,不用删除,忽略。
4系统提示音,类似“欢迎致电中国移动”,应该根据规范在文本前面加¥,正确的标注格式是:“¥欢迎致电中国移动”,因为这部分是机器音,所以忽略说话人编号。客服和用户分别用1,2标注。
一 时间边界定位:
• 用鼠标选中波形,即为要标注的一段时间边界,此时会自动跳出对应的编辑框
如果需要左右调动时间边界,则用鼠标放置在时间边界上,出现左右箭头后,按住鼠标拖动时间线,进行左右调动。
图中的红蓝方框即为选中一段需要标注的时间边界。
• 听音,在整段电话语音的基础上,根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界。即,一段标注框内,即为一段标注的话。
• 不能有任何的说话人说话声、噪音没有被时间边界框住,即有声音的地方,都需要用时间边界框起来,然后标注相应的说话文本或符号,只有相对静音可以不做截取处理。
图示的地方,红框框住的地方有明显波形,有明显声音,却没有用时间边界框起来,这是不允许出现的错误。
•
• 此处主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区)。标注时请按照实际情况选择。
• 关于说话人的选择,客服标注奇数,用户标注偶数;
• 如果第三个人的情况:
点击“+”号,即可添加。
• 编辑框内需要标注的是该句对应的文字[文本层,需要根据语意打中文标点(逗号,问号,句号,顿号,感叹号)],如果是汉语交谈,则只能用简体汉字。对于语音中的数字部分需根据发音情况转换为对应的汉字,例如“27”→“二十七”;“我的电话是2381832”→“我的电话是二三八幺八三二(与发音相同)”。
• 编辑框内正常语音的标注
• 如果此语段为某一个人的汉语对话语音,请在标注时间边界后,选择对应的1或者2,编辑框内输入相应的文本。
• 如果此语段为两个人交叉语音,关于重叠(交叉)的语音,即对于某个人的一句话未完,另一个人的一句话已经开始的情况:请在波形上标注时间边界,编辑框内标注“+”(在编辑框内点击右键即可出现)
对于叠加,必须是真实的。不能将大段的听不清语音和叠加混在一起。叠加段内的非叠加部分,前后最多不得超过1个字。
• 在整个语音中,需根据说话人的变换来增加时间边界(不同说话人分段标注)。
• 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过8s,但断句也不要太散太短。根据标注经验,每个自然语言段平均在5-6秒左右即可。
• 单字或者两个字的叠加(如:好,嗯,行,好的),声音较小,不影响主要说话人内容,那么可以不标叠加,直接写主要说话人的内容就行了。
• 英文:(英文都是小写)
【单词】对于语音中简单的英文单词,在能听懂的情况下,直接标出即可。
例如:“网址是三w点sina点com”;
“二三八幺八三二at qq点com”(不要写这个@)
“请以井号键结束”;(不要写这个#)
【字母】每个字母中间用空格隔开。
例如:单词读音,g o o d则表示字母读音;
例如:我的编号是f m s幺三二;
• 语气词
除了“诶”其他的语气词都是带口字旁的汉字标注。如果发音是表示应答的“嗯”,统一都用“嗯”,不要用“恩”或者“厄”。比如哦,啊,诶等.
噪音是指非说话人的突发的声音,所有此类标注都是中括号与语音内容的组合,¥是放在句首,其他的噪音符号都需要单独截取标注。
1 听不懂的字,标注[*]
• 听不清的长句
• 方言
• 大段的英文句子
• 拿着话筒和其他人说话
2 笑声:[LAUGH]。
3 由说话人发出的干扰浊音:[SONANT]
• 咳嗽声
•
• 打喷嚏
• 清嗓子
4 系统提示音,即系统播出的语音提示:¥系统自动播放的语音内容,而非说话人的语音内容(不用管说话人)
例如:¥欢迎致电我公司现在由一号客服代表为您服务
5 明显的静音段(大于500ms)(一句话中没有超过0.5秒的不要断开,尽量完整完整,不要把已经完整的话段的太散!)
6 各种垃圾声音(大于500ms):[ENS]
1) 连续的拍桌子
2) 连续的敲击声
3) 持续的各种环境噪音
7 持续的音乐声:[MUSIC]
• 唱歌声(有歌词和旋律)
• 哼唱(没有歌词,但有旋律)
• 口哨声
• 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音乐和歌声
• 口哨声
• 包括持续时间较长的彩铃声
8 录音及电信系统引起的噪声:[SYSTEM]
包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等,都是通信系统主动发出的声音,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。
一般会用的噪音符号:+,[*],[ENS],[SONANT],[LAUGH],[MUSIC] ,¥,[SYSTEM]
所有的噪音符号,在编辑框内右键即可出现哦
标注10分钟请点击一次临时保存,并刷新网页!
易错归纳:
1 爱数语音智慧采集,这个是用户说的,说话人是偶数;
2 “¥为保证通话质量有录音,尽情谅解”等的系统播报音,因为是机器音,所以不用管说话人(只要是系统播报音都不用管说话人,平台默认是说话人1);
3 客服标注奇数,用户标注偶数系统提示音不用管,(1说话人标注反的很多;2 同一个客服,一会儿是1,一会儿又是3的问题);
4 过于短暂的截取(像这种处理方式:把16段和17段合并,然后标注“嗯”即可!);
5 听错的情况,多前后联系,根据语音标注,而不是标注同音字;
6 叠加:叠加的没有单独截取出来处理;
7 不同说话人截取在一起标注内容的错误;
8 规范里面颜色特别说明的标点符号,没有标注(标点符号基本没有看到有人标注的);
9 数据没有标注完毕提交上来了;
10A文字中可以加适当的标点符号,句尾不需要加标点符号。
10 B标注的数据,A质检,验收发现,质检只是过了一个形式,没有实际作用,没有质量把关;
11 返修的数据都有反馈意见,请全部检查修改!
12 此项目含有标注信息,请在此基础上修改。
问题
1:在客服与客户音频中,爱数智慧语音采集这句口令,如果出现在句首那么录音人应该标注1 还是 2?
客服标1客户标2
问题2:爱数智慧语音采集这句口令如果与别的语音叠加了,怎么办?
直接标:爱数智慧语音采集
问题3:接近直线或者接近静音的噪音要不要标注?
不需要
问题4:叠加是否需要单独操作???
如果:客服说, 你好有什么需要帮助。客户说了一句,你好,这个你好与客服的帮助叠加了,声音大小差不多,具体应该怎么办?
单独截取,标+
问题5:系统的智能语音怎么标注,请详细说明?
句首标¥把系统音转写成文字
问题6:客服应该标注录音人几,客户标注录音人几,系统声音标注几。
客服1客户标2,系统音标1
问题7:如果客服说 爱数智慧,后面是5秒的系统声音,第六秒客户说语音采集正好与第六秒的系统声音叠加,应该怎么处理?
先转写客服说的爱数智慧,再把系统音截取出来前面加¥把文字转写出来,叠加单独截取出来标语音采集,如果是其它内容叠加标+