海天瑞声long8-语音转写规范及标准

泛领域标注规范及标准

一．简单介绍

本音频内容是客服对话电话语音数据。利用工具，对语音进行标注。标记时间戳，隔开一个一个的语音段，然后对每个语音段，分别标注说话人身份、文本内容、说话人性别和情绪。

注意只转写实实在在的人讲话的声音，视频、电视里面的讲话声音不用转写。但是根据数据类型来判断。夹杂在主持人讲话中的开头或者中间的一些视频播音片段，无效不转写；如果整段音频都是视频类语音，比如电视剧等，就可以全部转写。

二．操作步骤及方法

1. 首先登录网址：http://182.92.174.146:5500/，登录界面如下图，用给定的账号和密码登录；

2. 登录进去之后，选择申请任务，选择项目名称的任务，然后同意保密协议，就进入工作页面开始工作；

3. 工作页面如下图所示，具体的切分标注步骤如下：

1) 首先，框1是音频的播放区域，如果没有勾选播放分区模式，点击音频波形，音频会从点击的位置开始播放。如果勾选播放分区模式，音频会从本段的起始位置开始播放；

2) 然后判断音频是否有效，如果无效选择无效，判断无效原因即可，如果有效再继续标注文本框2中属性；

3) 其次，在文本框4中转写文本，并在需要的时候添加文本框3中的标签，本段转写完毕点击保存按钮，切分标注好的段落会显示在文本框5中；（编辑文本是播放暂停的快捷键是Alt+m，常用这个会事半功倍哦）

4) 最后，整段音频都切分标注完毕，点击右上角的提交按钮即可。

三．切分标注的标准

3.1 时间戳标记

a) 根据语义和停顿时间等因素，在音频信号中每一句话的句首和句尾分别添加时间边界,拖动鼠标即可添加。

b) 如果同一说话人说话时间较长，则应根据其语义来增加时间边界，每个时间段的长度最多不能超过15s，但断句也不要太散太短。

c) 一个语音段应该包含一个或多个完整的句子。例如“我想去吃饭”不能被分割为“我想去”和“吃饭”。

d) A说完改成B说后，在A和B之间要分割（一个语音段只能包含一个说话人）

e) 在进行语音切分过程中，有效语音前、后应尽量保留一定静音部分（一般不得少于20ms），注意切分时边界位置尽量准确，一般不应切到有效语音上。两段之间如存在静音，应为前后段保留一定静音。在连续语音中放置边界时，若无明显停顿，切分标记要放在中间，不要伤害有效语音,即不要贴着音频切。

一个人的语音为一个段落，不同说话人之间要分开，每个段落前后留不少于20ms（20ms其实很短就是为了不要切到语音上）的停顿不要贴着音频切。

1.：两段间小于等于5秒，停顿平分到前后段落

2.：两段间停顿大于5秒，中间多余停顿部分无效且添加相应标签

f) 只有一个字表示应答的，如语音没有overlap（重叠），则单独分割成独立语音段（如：嗯、哦、对）；如有overlap，则标记主说话人语音，并在存在overlap的段落加overlap标记

3.2文本标注规范

a) 录音转写的第一要求

忠实地按照音频录音念什么就转写成什么的原则，如真实发音为“我们去哪哪里啊”，“哪”字有重复，就要忠实地录成“我们去哪哪里啊”。

g) 口音问题

由于口音或个人习惯导致的音变，按普通话标注音录入。多音字或者生活中有不同发音的字，也按照普通话标注音录入。例如，“办公室”的“室”，有人说成“shi3”,有人说成“shi4”，都要录成“办公室”

h) 数字

数字符号应完全按照其读音转写成对应的汉字，例如：”5256”->”五千二百五十六”，”2004”->”二零零四”或”两千零四”，”19%”->”百分之十九”等。其中“1”转“一”或者“幺”，根据真实发音录入。

i) 英文单词或作为单词发音的缩写词

对于英文单词，或者作为单词发音的缩写词，如果其发音是按照一个单词来发音的，请直接转写，注意字母间要加空格。英文单词小写格式，字母大写且空格。

例如，“hello”、“G D P”P P T Q Q 等。hello kitty

Eg：您的Q Q邮箱是多少？遇到说网址的@要写@。

如果出现拼音拼读的，将声母韵母分开转写声母+下划线_+py+字，如，胜利，转写为：sh_py eng_py胜l_py i_py利

j) 标点符号

只采用‘，’ 、‘。’、‘？’和‘！’ 即只能使用逗号，句号，问号，感叹号。

句尾需要加标点且句尾标点不要是逗号。

k) 专有名词

所有的专有名词，包括人名、地名等，详细规范说明如下：

§ 人名

对于熟知的知名人士的名字或地名，必须用该知名人士的名字来转录。

例如，“郭德纲的相声很不错”，就不能转录成“郭德刚”。

“阿里巴巴邀请白举纲参加来往活动”，不能是“白句刚”。

而对于泛泛的名字，则都要用最常见的文字来标记。

例如，用“王小明”，不用“王晓明”，更不能用“王潇铭”（这个太偏僻了）。

§ 中国的地名

与人名的转录规则类似。

§ 机构名称

与人名的转录规则类似。

l) 儿化音

需要把“儿”这个字标注出来。

例如，“这个小孩儿”（当此语音的儿化音很明显的时候）。

m) 填充语气词

填充语气词是指示说话者说话中的犹豫，或者说话者在思考下面该说什么时，用来保持发音连贯所使用的词，例如’呃’，’唔’，’呵’，‘嗯’等。语气词应该基本带有口字旁。

ei诶，唉ai 哎

3.3 数据标注标记

a) 标注中使用的标记：

l (noise) 噪声。

u 说话人发出的突发噪声：

由说话者发出的噪声可能有以下5种，分别对应呼吸声、咳嗽声、笑声、喷嚏声和其他由嘴唇发出的声音。

u 录音及电信系统引起的噪声

包括电话按键音、电话忙音、录音系统的其他噪音等，都是通信系统主动发出的声音（但没有人或机器的说话声），而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。

u 背景发出的突发噪声：

此处的背景发出的噪声专指由非说话人（背景）发出的具有突发性的噪声。如出现在说话声之间的掌声、关门声、汽车鸣笛声、狗叫声等。

n 持续的音乐声

u 唱歌声（有歌词和旋律）

u 哼唱（没有歌词，但有旋律）

u 口哨声

u 可能是别人唱歌、演奏，也可能是背景的电视、收音机发出的音

乐和歌声

u 包括持续时间较长的彩铃声

l (unk) 为无效文本内容。

n 难以理解的段落

有时音频文件的某一部分很难或不能理解其对应的文本，例如由声音不清晰或者方言发音造成的难以理解的语音。

n 听不懂的外语发音

n 方言

l (sil) 如出现明显停顿，则标记停顿标签，建议5秒。

l (~)用波浪号表示语句中存疑的个别字词。

l (overlap)语音重叠

关于ovelap标签的使用：overlap用于两个或几个人说话重叠时，转写出主要说话人的语音内容，选中重叠的部分，点击添加overlap标签，

这时在语音前后会出现两个标签，也就是两个标签中间的部分是重叠语音段（这个语音段是主要说话人的语音内容）

b) 段落属性标记：

l 有效性：筛选阶段对音频进行有效性筛选；如果是无效语音，则后面的标记就不用考虑了。

l 说话人身份：客户1，客户2等依次类推;

l 性别：[F]/[M];

l 口音：有口音/无口音; 按照有无明显口音为标准

l 背景噪音（底噪）：整个音频有连续性背景噪音/整个音频无连续性背景噪音，包括敲打键盘声音、其它人声音、电视背景音、汽车声音等; 按照是否明显判定。

l 起止时间：拖动鼠标进行截取

l 情绪：正面/平静/负面.

l 异常音：是；否。比如音量截幅，设备持续杂音等，都属于异常情况。

l 说话方式：正常；不正常。比如大声喊叫，洋腔怪调等，都属于不正常的说话方式。

l 说话人类型：正规播报；口语播报。一般都选择口语播报，类似于新闻联播的选择正规播报。

c) 标点符号：只能使用逗号，句号，问号，感叹号。

3.4 说话人身份

说话人层中标注该段语音的说话人的身份。在选择说话人身份时

1.正常的客服客户对话，正常选择客服客户；

2.主持人和采访者的对话，主持人选择客服，采访者选择客户；

3.不能分辨客服，客户，也不是在主持人访谈的，就统一选择客户。

第一个出现的客服讲话，选客服1，第二个出现的选择客服2，以此类推；第一个出现的客户讲话选客户1，第二个出现的客户选客户2，以此类推。

常见问题解析：

1．断句

根据语义和说话人身份分段，每段不超过15秒，并且每段只包含一个说话人，不能把一句话分成两半，尽量保证语义完整。但也不要切分的过细，一个人说话不超过15秒的可以放在一段。

2．标签

noise和底噪的区别

noise是短促突发的噪声，底噪是背景持续存在的噪声

noise和sil的区别

大于五秒的停顿需要单独成段，选无效，根据是否有背景噪音来选noise或者sil

unk和~的区别

这两个都可以代表听不清听不懂的字或者词。不同点是小于5个字的话直接用~来代替；如果大于五个字的话就需要单独成段，选无效标unk了。

unk不会和文本混在一起用也就是5个字以上听不懂单独成段，选用标签unk。

3．文本

不能丢字漏字，不能写错别字，有口音的不改字，语气词不能省略并且不能出现错别字。

无效的没有15秒的时间限制，只要是无效的比如持续20秒的噪音可以放在一起。

本次注意：

1.方言严重听不清的无效

2.多人说话重叠部分能分清主次的写主要说话人加overlap，分不清主次的无效

3.能明确是客服客户对话的标客服和客户，要不第一个人标客户一，第二个人标客户二，以此类推

4.整个包大部分是音乐，方言还很严重，只能听清三五个字的，整包无效即可

5.回声和人说话重叠部分无效，单纯的回声也不用转写直接无效，大家注意哈

上一篇:泛涵语音标注规范-Latest

下一篇:海天瑞声shortA-语音转写规范及标准

推荐文章

户型图家具标注规则和视频教程

户型图家具标注规则和视频教程下载视频点击视频右下角三个点多看几次教程规则下载标注规则更新430.docx问题总结.docx1、如果能直接通过外观观察确认家具的类别、大小及其数量，需要准确标注；在能通过外观观察确认家具的存在、形态及其数量的前提下，如果能通过相互关系（如沙发茶几的搭配）确认的家具，需要标注准确类别。反之（如阳台遮阳伞下不确定数量、形态的家具），则不标注。2、如果遇到局部遮挡的已确认类别的非主要家具（如被餐桌遮挡的餐椅），可以自己推测标出其大小及范围。3、如果不能准确确定类别的，或者可能有歧义的“非主要”家具，那么可以不标。4、如果无法标注的家具在这个区域内是主要家具，那么这个区域可以整体留白不用标注（包括家具及空间）。5、如果遇到异形家具，根据具体的家具进行标注： a)餐桌为圆形，那么舍弃椅子，用一个接近餐桌面积的矩形标注餐桌即可。 b)沙发为L形，那么拆开为两个矩形进行标注。 c)柜子为不规则形状，拆开为多个矩形拼接标注。 6、空间标识标记的前提是四面环墙，除了客厅餐厅。下面的衣帽间空间用途就是错误的。7. 关于窗户，大部分是按基础图示表示，但是因为数据底图种类繁多，导致画法不一定相同。这个时候，要看一下阳台窗、卧室普通窗、飘窗和墙体的对比，如果有明显不一样可以区分，而且相应的窗户在这个位置合理。就可以标注了。如果落地窗和普通窗难以区分，那么都标普通窗也是可以的。具体情况具体分析，不明白请截图过来一起讨论。标注流程（调整包括调整墙体门窗、家具位置方向大小、选定空间用途）具体家具床类：顶端贴墙，箭头指向床尾方向。床尾凳：方向和对应床方向一致。榻榻米：榻榻米一般三面贴墙，箭头指向唯一不贴墙方向。床头柜：和床的方向相同。沙发：靠墙的贴墙标记，不靠墙的按底图位置标记，方向由靠背指向坐垫方向。如果是L型沙发则用两个沙发矩形拼接，如果是弧形沙发则外包矩形。茶几：面向主沙发（即人使用方向)。其他小茶几或者边桌考虑它储物空间的位置朝向，原理和斗柜、衣柜相同。各种柜子如斗柜衣柜装饰柜橱柜阳台收纳柜书柜等：贴墙且方向指向拉门或者开抽屉方向。储物间符号不明的柜子按衣柜标注。餐桌餐椅：餐桌朝向有餐椅的方向，餐椅逐个画出且方向指向餐桌。适当画出餐椅被餐桌遮挡部分。玄关柜和鞋柜和餐边柜区分：鞋柜比较窄小低矮，玄关柜通常较高较宽。如果柜子嵌在门口墙壁里大多数是玄关柜；如果柜子较小且上面有摆件则大多是鞋柜。如果在餐桌旁边一般是餐边柜。如果只有一个柜子既符合餐边柜又符合鞋柜玄关柜，那么优先鞋柜玄关柜。空调：立式与悬挂，方向箭头指向通风口。空调器外机ac 不用标。立式大多数在客厅，悬挂大多数在卧室。橱柜：先选中橱柜分类按照底图用矩形拼接出橱柜形状，然后分别选择灶台和水槽在橱柜矩形上层对应标记。有烟道的注意不要覆盖烟道。烟机：一般形态为覆盖在灶台上的或者虚线或者实线的矩形。冰箱：一般在橱柜旁边，箭头指向开门那一面。浴缸：浴缸一般三面贴墙，箭头指向唯一不贴墙方向。淋浴：标记隔断内区域或者没有隔断的标注人体活动范围，注意必须贴墙。浴缸淋浴旁边如果有平台类结构，拉长标记覆盖。卫浴柜和水槽：卫生间里面的洗手池一般标卫浴柜，阳台和橱柜上的水槽标水槽。坐便器：第一个可能是在水箱是放了些东西，所以只是坐便器；第二个后面是平台或者墙体包围管道，所以要标墙。不标墙的话就成了坐便器离墙有距离，不合理。总体原则按图标。圆形家具：外接矩形标记。绿植：盆栽外包矩形标记，如果以一片绿植形态出现则标记该区域。飘窗上绿植需要标记。洗衣机：一般在阳台，也有少数在卫生间等地方。入户花园可以标注为阳台。一些不易区分的图像（不完全，只是一些举例）：空调淋浴书柜其他户型1.主要户型区域外的房间不需要标注并且删掉。 2.主要户型之外的楼梯、电梯可以不标。3.如果出现两户型图并列在一张纸上；没家具少家具；比例尺有问题(看下面判定方法)；图片变形；重复图片；明显是拍照拍出来的；立体图；不是户型图的其他图；清晰度实在不高；有大面积斜墙的图片等，麻烦上报id给我们删掉，不然这些也是不算数的。4.比例尺判定一是从家具角度，标注图上hight或width不现实的，比如双人床长2.5m，宽1m。（只是举例子）二是从户型图精确度角度，横纵比例差太多，在其中一条比例尺设定完成后比对一下第二个比例尺，另一条差值范围超过20%则不合格。（动图给你们发过）5.没有比例尺的图片，用界面上的比例尺测量床的长度为2000或者柜子厚度600。总结一下：3、4为了判定图片是否合格，在合格基础上看1、2选择可以标注的部分，然后用5来设定比例尺。（当然以上五点是少部分情况）细节（有待补充）最关注的地方：方向、范围、类别，相互之间的配合。不允许出错的地方：同上容易出错的地方：忽视已经识别好的户型不加修改。

热门文章

滴滴语音标注规则要求及视频教程

一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址：http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”，并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况，即可标注为无效语音：1）说话人声音极小，小到几乎听不到。2）整段语音均为静音。3）整段语音均为噪声、音乐声、导航音、广播等。4）整段语音只有一个字，或是同一个字重复出现。如：“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。（注意：“哇噻”属于特例，单独出现时也是无效的。）5）背景噪声大于说话人声音，或噪声与说话人声音几乎一样大。6）整句都是方言、外语。方言是指发音与普通话区别较大的地方话，如：粤语、上海话等。7）语音中出现地点、地名、街道名等方位词，但是地图中搜索不到。8）语音中有大于等于两个人说话，除主说话人以外，其余人的声音清晰可辨。9）语音中有大于等于3个字听不清楚。 2. 语音文本标注1）语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致，不能多字、少字。a) 除空格、占位符号、以外，标注文本不允许使用标点符号，不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来，重复了几次就标记几个。如发音为：我是北北京人；“北”字有重复现象。转写文本应为：我是北北京人c) 儿化音不需要标注出“儿”字。如发音为：我在/zher4/。转写文本应为：我在这d) 语音中提及地名、街道名、车牌号等内容，转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词，需要准确转写。可根据读音在地图中查找，确实存在该地点则进行准确标注，搜不到则无效；f) 语音中确实听不清楚的个别单字，用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中，最多只能有两组【~】符号。若有三个字或更多听不清楚，则标注为无效。（见“语音有效性标注”第8条）g) 语音中不涉及地名、专名的部分，若发音清晰但文字不确定，可以用同音字标注，要求标注用字的声韵调与实际发音完全一致。如发音为：我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式，注意区分“一”和“幺”、“二”和“两”，按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词，如“呃、啊、嗯、哦、唉、呐、呢”等，要按照正确发音进行转写。语气词除了“了、不”没有口字旁，其他基本上都有口字旁。注意：语气词“唉”、“诶”不分的，统一用“唉”。 3.语言情况标注1）语音中全部内容均为中文，请选择“中文”。2）只要语音中含有英文，不论是单个字母还是单词、不论出现的数量有多少，都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如：SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格。例如：我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如：我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如：我的车牌号的京A三六七八5、特殊字：对于OK这一类常用词，默认为一个单词，尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女，不论是成人还是儿童，都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性？答：短句只要有大于或等于两个不重复的音节，即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音，但能听懂，需要标注吗？答：口音但不影响理解的，音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的，可以使用【~】，大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则，标记为无效。 3. 标注时有的口音能听懂，是按听的音来标注还是按普通话来标注，标注需要符合现实逻辑吗？答：一般情况下口音按实际发音来标注。以下情况请特别处理：常用词语和专有名词需按现实逻辑标注（如：发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等） 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆？答：转写的文本要和语音实际读法完全一致。若读为yi1，则写一；读为yao1，则写幺。同理，“二”、“两”、“俩”；“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快，有时候听起来像三个字又像两个，是不是都能判断合格？答：短音频且内容无法听清的情况下，标记为无效。长音频中很小的一部分，无法确定内容时，参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快，能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答：判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗？答：整段只有导航音，标记为无效。只有一部分出现导航音的时候，看声音大小，如果与说话人音量接近或者大于说话人声音，标记为无效。注意：如果一句话里面只说了几个字方言，其他都是带口音的普通话，不要直接标无效，那全方言的字按听到的音来标，比如：说的是上海话gege，就标成“葛个”，而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写；全方言无效关于地点、地名、街道名等方位词，这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰，但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来，但依旧视为无效。二、关于英文转写原规范为：英文字母要转写成大写字母。细化：1、遇到英文单词和英文字母都需要用英文大写形式表现。例如：SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格。例如：我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如：我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如：我的车牌号的京A三六七八5、特殊字：对于 OK 这一类常用词，默认为一个单词，尽管是拼读成字母发音的。对于无从适配上述规则的，我们及时向海瑞提出。三、噪音符号这部分，这部分依旧不用添加。四、关于标普、方普、方言如何转写 1、标普：就是普通话，我们是一定要转写的。 2、方普：就是方言普通话，例如广州人说普通话，上海人说普通话，天津人说普通话等等，这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说：我现在湖南（fu2声 lan2声）长沙市中心你来接我一下他说的是“fu lan”我们正常书写成“湖南”即可。 3、方言：直接视为无效即可，例如：粤语、上海话、江苏话等等。

友情链接: