数据标注还能更快!谷歌发布图像标注机器学习辅助工具

基于深度学习的现代计算机视觉模型,其性能主要取决于的大量已标注的可用训练数据集,例如 Open Images 数据集。然而,如何获得高质量的训练数据,成为计算机视觉发展的主要瓶颈。如在无人驾驶、机器人和图像搜索之类的应用中,使用的一些像素级目标预测任务,比如语义分割任务,格外的需要更大更好的数据集。事实上,传统的手工标注工具需要标注人仔细点击图像中每个对象的边界,用来划分图像中的目标,这项工作非常乏味:COCO+Stuff 数据集中标注单个图像就需要大概 19 分钟,而标记整个数据集甚至需要 53000 个小时!


左图| COCO 数据集中的一张图片; 右图|左图的像素级语义分割结果。(来源:Image credit)


谷歌的研究人员设计了一种机器学习驱动的工具,将在 2018 年 ACM 多媒体会议的“ Brave New Ideas ”环节展示,可以用于标注图像数据中每个目标的轮廓和背景,将其应用在标注分类数据上,可以让标记数据集的生成速度提高至传统方法的 3 倍。


该方法被谷歌称之为流体标注(Fluid Annotation),从强语义分割模型的输出开始,人工标注者可以使用用户界面,通过机器辅助方法进行编辑修改。谷歌开发设计的界面允许标注者选择要改正的内容和顺序,让他们能集中精力去处理机器尚未理解和标注的图像。


图 | 对 COCO 数据集中的图像使用流体标注的可视化界面。(来源:gamene)


为更准确的对图像进行标注,谷歌首先通过预训练的语义分割模型(Mask-RCNN)来处理图像。这一过程会生成约 1000 个图像分割区域及其标签和置信度。置信度最高的分割区域用来初始化标签,呈现给标注者。


然后标注者可以:


(1)从机器生成的候选分类标签中为当前区域选择标签。(2)对机器未覆盖到的目标添加分割区域。机器会识别出最可能的预生成区域,标注者从中选择分割效果最好的一个。(3)删除现有分割区域。(4)改变重叠区域的深度顺序。


Demo 链接:

https://fluidann.appspot.com(PC 平台可用)


图 |使用传统人工标注工具(中列)和流体标注工具(右列)在 COCO 数据集的三张图像上比较标注结果。虽然使用人工标注工具时,目标的边界一般更准确,但同一对象的标注有时会存在差异,其主要是因为人类标注者通常对某一确定目标的类别有不同意见。图片来源:sneaka(上),Dan Hurt(中),Melodie Mesiano(下)。


在让图像标注变得更快、更容易这个问题上,流体标注工具的出现只是第一步。未来团队的目标是改进对目标边界的标注,进一步利用人工智能提升界面运行速度,最终可以处理以前无法识别的类别,让数据收集变得越来越高效和快捷。

推荐文章

泛领域标注规范及标准一.简单介绍本音频内容是客服对话电话语音数据。利用工具,对语音进行标注。标记时间戳,隔开一个一个的语音段,然后对每个语音段,分别标注说话人身份、文本内容、说话人性别和情绪。注意只转写实实在在的人讲话的声音,视频、电视里面的讲话声音不用转写。但是根据数据类型来判断。夹杂在主持人讲话中的开头或者中间的一些视频播音片段,无效不转写;如果整段音频都是视频类语音,比如电视剧等,就可以全部转写。二.操作步骤及方法1. 首先登录网址:http://182.92.174.146:5500/,登录界面如下图,用给定的账号和密码登录;2. 登录进去之后,选择申请任务,选择项目名称的任务,然后同意保密协议,就进入工作页面开始工作; 3. 工作页面如下图所示,具体的切分标注步骤如下:1) 首先,框1是音频的播放区域,如果没有勾选播放分区模式,点击音频波形,音频会从点击的位置开始播放。如果勾选播放分区模式,音频会从本段的起始位置开始播放;2) 然后判断音频是否有效,如果无效选择无效,判断无效原因即可,如果有效再继续标注文本框2中属性;3) 其次,在文本框4中转写文本,并在需要的时候添加文本框3中的标签,本段转写完毕点击保存按钮,切分标注好的段落会显示在文本框5中;(编辑文本是播放暂停的快捷键是Alt+m,常用这个会事半功倍哦)4) 最后,整段音频都切分标注完毕,点击右上角的提交按钮即可。  三.切分标注的标准3.1 时间戳标记a) 根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界,拖动鼠标即可添加。b) 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过15s,但断句也不要太散太短。c) 一个语音段应该包含一个或多个完整的句子。例如“我想去吃饭”不能被分割为“我想去”和“吃饭”。d) A说完改成B说后,在A和B之间要分割(一个语音段只能包含一个说话人)e) 在进行语音切分过程中,有效语音前、后应尽量保留一定静音部分(一般不得少于20ms),注意切分时边界位置尽量准确,一般不应切到有效语音上。两段之间如存在静音,应为前后段保留一定静音。在连续语音中放置边界时,若无明显停顿,切分标记要放在中间,不要伤害有效语音,即不要贴着音频切。一个人的语音为一个段落,不同说话人之间要分开,每个段落前后留不少于20ms(20ms其实很短就是为了不要切到语音上)的停顿不要贴着音频切。1.:两段间小于等于5秒,停顿平分到前后段落2.:两段间停顿大于5秒,中间多余停顿部分无效且添加相应标签f) 只有一个字表示应答的,如语音没有overlap(重叠),则单独分割成独立语音段(如:嗯、哦、对);如有overlap,则标记主说话人语音,并在存在overlap的段落加overlap标记3.2文本标注规范a) 录音转写的第一要求忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊”。g) 口音问题由于口音或个人习惯导致的音变,按普通话标注音录入。多音字或者生活中有不同发音的字,也按照普通话标注音录入。例如,“办公室”的“室”,有人说成“shi3”,有人说成“shi4”,都要录成“办公室”h) 数字数字符号应完全按照其读音转写成对应的汉字,例如:”5256”->”五千二百五十六”,”2004”->”二零零四”或”两千零四”,”19%”->”百分之十九”等。其中“1”转“一”或者“幺”,根据真实发音录入。i) 英文单词或作为单词发音的缩写词对于英文单词,或者作为单词发音的缩写词,如果其发音是按照一个单词来发音的,请直接转写,注意字母间要加空格。英文单词小写格式,字母大写且空格。例如,“hello”、“G D P”P P T Q Q 等。hello kittyEg:您的Q Q邮箱是多少?遇到说网址的@要写@。如果出现拼音拼读的,将声母韵母分开转写声母+下划线_+py+字,如,胜利,转写为:sh_py eng_py胜l_py i_py利j) 标点符号只采用‘,’ 、‘。’、‘?’和‘!’ 即只能使用逗号,句号,问号,感叹号。句尾需要加标点且句尾标点不要是逗号。k) 专有名词所有的专有名词,包括人名、地名等,详细规范说明如下:§ 人名对于熟知的知名人士的名字或地名,必须用该知名人士的名字来转录。例如,“郭德纲的相声很不错”,就不能转录成“郭德刚”。“阿里巴巴邀请白举纲参加来往活动”,不能是“白句刚”。而对于泛泛的名字,则都要用最常见的文字来标记。例如,用“王小明”,不用“王晓明”,更不能用“王潇铭”(这个太偏僻了)。§ 中国的地名与人名的转录规则类似。§ 机构名称与人名的转录规则类似。l) 儿化音需要把“儿”这个字标注出来。例如,“这个小孩儿”(当此语音的儿化音很明显的时候)。m) 填充语气词填充语气词是指示说话者说话中的犹豫,或者说话者在思考下面该说什么时,用来保持发音连贯所使用的词,例如’呃’,’唔’,’呵’,‘嗯’等。语气词应该基本带有口字旁。ei诶,唉ai 哎3.3 数据标注标记a) 标注中使用的标记:l (noise) 噪声。u 说话人发出的突发噪声:由说话者发出的噪声可能有以下5种,分别对应呼吸声、咳嗽声、笑声、喷嚏声和其他由嘴唇发出的声音。u 录音及电信系统引起的噪声包括电话按键音、电话忙音、录音系统的其他噪音等,都是通信系统主动发出的声音(但没有人或机器的说话声),而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。u 背景发出的突发噪声:此处的背景发出的噪声专指由非说话人(背景)发出的具有突发性的噪声。如出现在说话声之间的掌声、关门声、汽车鸣笛声、狗叫声等。n 持续的音乐声u 唱歌声(有歌词和旋律)u 哼唱(没有歌词,但有旋律)u 口哨声u 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音乐和歌声u 包括持续时间较长的彩铃声l (unk) 为无效文本内容。n 难以理解的段落有时音频文件的某一部分很难或不能理解其对应的文本,例如由声音不清晰或者方言发音造成的难以理解的语音。n 听不懂的外语发音n 方言l  (sil) 如出现明显停顿,则标记停顿标签,建议5秒。l (~)用波浪号表示语句中存疑的个别字词。l (overlap)语音重叠关于ovelap标签的使用:overlap用于两个或几个人说话重叠时,转写出主要说话人的语音内容,选中重叠的部分,点击添加overlap标签,这时在语音前后会出现两个标签,也就是两个标签中间的部分是重叠语音段(这个语音段是主要说话人的语音内容) b) 段落属性标记:l 有效性:筛选阶段对音频进行有效性筛选;如果是无效语音,则后面的标记就不用考虑了。l 说话人身份:客户1,客户2等依次类推;l 性别:[F]/[M];l 口音:有口音/无口音; 按照有无明显口音为标准l 背景噪音(底噪):整个音频有连续性背景噪音/整个音频无连续性背景噪音,包括敲打键盘声音、其它人声音、电视背景音、汽车声音等; 按照是否明显判定。l 起止时间: 拖动鼠标进行截取l 情绪:正面/平静/负面.l 异常音:是;否。比如音量截幅,设备持续杂音等,都属于异常情况。l 说话方式:正常;不正常。比如大声喊叫,洋腔怪调等,都属于不正常的说话方式。l 说话人类型:正规播报;口语播报。一般都选择口语播报,类似于新闻联播的选择正规播报。c) 标点符号:只能使用逗号,句号,问号,感叹号。  3.4 说话人身份说话人层中标注该段语音的说话人的身份。在选择说话人身份时1.正常的客服客户对话,正常选择客服客户;2.主持人和采访者的对话,主持人选择客服,采访者选择客户;3.不能分辨客服,客户,也不是在主持人访谈的,就统一选择客户。第一个出现的客服讲话,选客服1,第二个出现的选择客服2,以此类推;第一个出现的客户讲话选客户1,第二个出现的客户选客户2,以此类推。 常见问题解析:1. 断句根据语义和说话人身份分段,每段不超过15秒,并且每段只包含一个说话人,不能把一句话分成两半,尽量保证语义完整。但也不要切分的过细,一个人说话不超过15秒的可以放在一段。2. 标签noise和底噪的区别noise是短促突发的噪声,底噪是背景持续存在的噪声  noise和sil的区别大于五秒的停顿需要单独成段,选无效,根据是否有背景噪音来选noise或者sil unk和~的区别这两个都可以代表听不清听不懂的字或者词。不同点是小于5个字的话直接用~来代替;如果大于五个字的话就需要单独成段,选无效标unk了。unk不会和文本混在一起用也就是5个字以上听不懂单独成段,选用标签unk。  3. 文本不能丢字漏字,不能写错别字,有口音的不改字,语气词不能省略并且不能出现错别字。无效的没有15秒的时间限制,只要是无效的比如持续20秒的噪音可以放在一起。本次注意:1.方言严重听不清的无效2.多人说话重叠部分能分清主次的写主要说话人加overlap,分不清主次的无效3.能明确是客服客户对话的标客服和客户,要不第一个人标客户一,第二个人标客户二,以此类推4.整个包大部分是音乐,方言还很严重,只能听清三五个字的,整包无效即可5.回声和人说话重叠部分无效,单纯的回声也不用转写直接无效,大家注意哈  

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。