中文校对语音标注规范优化版
操作系统: 操作系统是 XP以上系统都可以。
浏览器: 请使用360浏览器IE浏览器、搜狗浏览器
步骤:
(1)打开 文本,进行浏览器相关设置
(2) 登录网址: http://182.48.116.149:8891
(3) 输入用户名及密码
登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出)
(4) 点击“标注中”查看任务
含新任务和被打回任务
(5) 在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注
使用说明:
1) 做完一句,直接点击 “下一句”, 系统自动保存,做完最后一句,点击“保存”按钮。
2) 临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置;
3) 当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。
4) 每人有一次修改机会,共可提交2次。
(5) 在任务统计中,查看验收结果
快捷键:
键盘上的 ,可播放选中部分的声音。
键盘上的 和 可实现上一句和下一句的切换。
注: 文本正确率:95% 其它(无效+性别)正确率:95%
注:一定不要多字、漏字!!
类别 | 分类 | 定义 |
男 | ||
性别 | 女 | |
童声 | 童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。 | |
其他 | 没有人声,或者男女混声的统一规为其他 |
注:女生之间的对话性别是女,男生同理;只有男女相混的对话是其他
无效:
1、主体人声音的前面、或后面、或中间:有一段安静或噪声等非人声 ,长度在2秒以上(宽条是0.3秒)。
【注意整句无人声的不是无效】
2、声音是转格式转错的。
无效语音,直接打勾,文本不用修改。
3.全英文的句子听不懂标无效
有效:其它都是有效
2.3修改文本
标注文本,目的是把耳朵听到的“普通话或带口音的普通话”标成普通话文本,严重听不懂的“方言”,可标注#
2.3.1标注#的情况
(1)听不懂、听不清的词或方言标注# (2)英语语句中,听懂的单词标注出来,听不懂的标注# (3)除英语外其他国语言标#,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标# (4)粤语标注# (5)噪音标注# (6)遇到拼音标注#,如“阿啵呲嘚”等拼音 (7)整句无人声,只有噪音,不超过2S的标#,如一个人整句咳嗽声 |
注:
#可以代表一个字不清楚或者几个字不清楚;
一句话中可以出现最多两个#,但不能 同时 ## 这种形式出现;
最多可以 #文本# 这种形式出现;
2.3.2姓名问题
(1)姓:必须标注正确,确定是有这个姓 (2)名字:名字可以打同音字 |
2.3.3地名问题
(1)省市等较大地名必须查清楚,不能出现错字:如浙江省无锡宜兴市
(2)较小的地名,如村镇以及道路、小区等可标注同音字。 |
2.3.4数字问题
(1)听到的阿拉伯数字写成汉字,如“一二三四五”或“幺二三四五” |
2.3.5儿化音问题
(1)带儿话音的,可以写出“(儿)”字,并且加括号;或者直接不打儿化音,皆可。
|
2.3.6语气词问题
(1)注意口语的字:口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。
(2)口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊” |
2.3.7英语相关问题
(1)单词:英语单词,整个单词要小写。如“happy”
(2)字母:说字母的写成字母,要写成大写。如“A B C ”。注意:QQ、MSN,是字母发音,要写成大写。
注:英文单词发的不标准,如能听出是哪个单词,就写单词。 整句都是英文句子的情况: l 一句话中发音不清楚的单词,标#,发音清楚的单词必须写出单词 l 整句英文都听不清楚时,标为无效,不要整句标为#。 l 英文用中文谐音写出来的,算错。如:black 写成 布莱克 算错 l 一些地名,人名按英文读的,需要写英文,如:I am gonging to shanghai 不能写成“上海” l 其他国语言,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#
|
2.3.8混音问题
混音包括3类: 1、当前电话通话的两个人同时说话,相混 2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混
混音部分的标注方法: (1)如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。(不要出现一个音对应两个字) 例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。
(2)如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。 例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#。
(3)如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。 如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。 3:增加#的情况 l 人声中出现突然间的大噪音且与人声不相混,包括铃声、叮声、咳嗽、扑话筒、有大的音乐背景等,写1个#。 l 人声前边或后面出现一片乱乱的小声说话、持续的背景噪音,写#和不写#都可以。 注意:安静的静音处,不能写#。
|
2.3.9 标注页面蓝条与黄条使用
蓝条和黄条的功能有3个: (1)尺子,表示0.3秒,可以用于量取2秒判断无效。 (2)选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时,建议分段选中去听,写下文本,正确率会提高。 (3)确定#在哪儿出现。 |
标准普通话与带口音的普通话对照表:
类别 | 定义 | 特例 | 举例说明 |
无口音 | 拼音、声调都正确 | ||
轻口音 | 拼音对,声调不对 | n和l不分; n和ng不分; z/c/s和zh/ch/sh不分 属于轻口音 | 那个,发音:la4 ge5(标准na4 ge5 ) |
电信,发音:dian4 xing4(标准dian4 xin4) 平时,发音:pin2 shi2(标准ping2 shi2) | |||
政治,发音:zeng4 zi4(标准zheng4 zhi4) 刚才,发音:gang1 chai2(标准gang1 cai2) | |||
重口音 | 拼音不对 (n和l不分;n和ng不分;z/c/s和zh/ch/sh不分)除外 | 湖南,发音是 fu2 nan2(标准hu2 nan2) 歌曲,发音是guo1 qu3(标准ge1 qu3) |