数据标注还能更快！谷歌发布图像标注机器学习辅助工具

基于深度学习的现代计算机视觉模型，其性能主要取决于的大量已标注的可用训练数据集，例如 Open Images 数据集。然而，如何获得高质量的训练数据，成为计算机视觉发展的主要瓶颈。如在无人驾驶、机器人和图像搜索之类的应用中，使用的一些像素级目标预测任务，比如语义分割任务，格外的需要更大更好的数据集。事实上，传统的手工标注工具需要标注人仔细点击图像中每个对象的边界，用来划分图像中的目标，这项工作非常乏味：COCO+Stuff 数据集中标注单个图像就需要大概 19 分钟，而标记整个数据集甚至需要 53000 个小时！

左图| COCO 数据集中的一张图片；右图|左图的像素级语义分割结果。（来源：Image credit）

谷歌的研究人员设计了一种机器学习驱动的工具，将在 2018 年 ACM 多媒体会议的“ Brave New Ideas ”环节展示，可以用于标注图像数据中每个目标的轮廓和背景，将其应用在标注分类数据上，可以让标记数据集的生成速度提高至传统方法的 3 倍。

该方法被谷歌称之为流体标注（Fluid Annotation），从强语义分割模型的输出开始，人工标注者可以使用用户界面，通过机器辅助方法进行编辑修改。谷歌开发设计的界面允许标注者选择要改正的内容和顺序，让他们能集中精力去处理机器尚未理解和标注的图像。

图 | 对 COCO 数据集中的图像使用流体标注的可视化界面。（来源：gamene）

为更准确的对图像进行标注，谷歌首先通过预训练的语义分割模型（Mask-RCNN）来处理图像。这一过程会生成约 1000 个图像分割区域及其标签和置信度。置信度最高的分割区域用来初始化标签，呈现给标注者。

然后标注者可以：

（1）从机器生成的候选分类标签中为当前区域选择标签。（2）对机器未覆盖到的目标添加分割区域。机器会识别出最可能的预生成区域，标注者从中选择分割效果最好的一个。（3）删除现有分割区域。（4）改变重叠区域的深度顺序。

Demo 链接：

https://fluidann.appspot.com（PC 平台可用）

图 |使用传统人工标注工具（中列）和流体标注工具（右列）在 COCO 数据集的三张图像上比较标注结果。虽然使用人工标注工具时，目标的边界一般更准确，但同一对象的标注有时会存在差异，其主要是因为人类标注者通常对某一确定目标的类别有不同意见。图片来源：sneaka（上），Dan Hurt（中），Melodie Mesiano（下）。

在让图像标注变得更快、更容易这个问题上，流体标注工具的出现只是第一步。未来团队的目标是改进对目标边界的标注，进一步利用人工智能提升界面运行速度，最终可以处理以前无法识别的类别，让数据收集变得越来越高效和快捷。

上一篇:数据标注，人工智能背后的人工产业

下一篇:数据标注这份工作，不是你想做就能做

推荐文章

爱数智慧客服对话标注规则范本及要求

登陆网址babel.magicdatatech.com/processmore/index.php用谷歌浏览器，鼠标拖动截取分段，内容右键，选择噪音符号注意事项：1最开始可能有用户说的口令，“爱数智慧采集”，如果说口令的时候有其他说话内容叠加，那么直接标注口令。2不要断句太散，如果句子中有一个字听不懂的，请联系前后语境，推测出最可能的字，尽量整句标注）3如果数据本身有文字，那么文字之间的空格，不用删除，忽略。4系统提示音，类似“欢迎致电中国移动”，应该根据规范在文本前面加￥，正确的标注格式是：“￥欢迎致电中国移动”，因为这部分是机器音，所以忽略说话人编号。客服和用户分别用1,2标注。一、开始标注语音文件一时间边界定位：• 用鼠标选中波形，即为要标注的一段时间边界，此时会自动跳出对应的编辑框如果需要左右调动时间边界，则用鼠标放置在时间边界上，出现左右箭头后，按住鼠标拖动时间线，进行左右调动。图中的红蓝方框即为选中一段需要标注的时间边界。• 听音，在整段电话语音的基础上，根据语义和停顿时间等因素，在音频信号中每一句话的句首和句尾分别添加时间边界。即，一段标注框内，即为一段标注的话。• 不能有任何的说话人说话声、噪音没有被时间边界框住，即有声音的地方，都需要用时间边界框起来，然后标注相应的说话文本或符号，只有相对静音可以不做截取处理。图示的地方，红框框住的地方有明显波形，有明显声音，却没有用时间边界框起来，这是不允许出现的错误。二文件标注：• • 此处主要标注语音文件的一些全局信息，包括说话人性别信息和语种信息（方言区）。标注时请按照实际情况选择。• 关于说话人的选择，客服标注奇数，用户标注偶数；• 如果第三个人的情况：点击“+”号，即可添加。• 编辑框内需要标注的是该句对应的文字[文本层，需要根据语意打中文标点（逗号，问号，句号，顿号，感叹号）]，如果是汉语交谈，则只能用简体汉字。对于语音中的数字部分需根据发音情况转换为对应的汉字，例如“27”→“二十七”；“我的电话是2381832”→“我的电话是二三八幺八三二（与发音相同）”。 • 编辑框内正常语音的标注• 如果此语段为某一个人的汉语对话语音，请在标注时间边界后，选择对应的1或者2，编辑框内输入相应的文本。• 如果此语段为两个人交叉语音，关于重叠（交叉）的语音，即对于某个人的一句话未完，另一个人的一句话已经开始的情况：请在波形上标注时间边界，编辑框内标注“+”（在编辑框内点击右键即可出现）对于叠加，必须是真实的。不能将大段的听不清语音和叠加混在一起。叠加段内的非叠加部分，前后最多不得超过1个字。• 在整个语音中，需根据说话人的变换来增加时间边界（不同说话人分段标注）。• 如果同一说话人说话时间较长，则应根据其语义来增加时间边界，每个时间段的长度最多不能超过8s，但断句也不要太散太短。根据标注经验，每个自然语言段平均在5-6秒左右即可。• 单字或者两个字的叠加（如：好，嗯，行，好的），声音较小，不影响主要说话人内容，那么可以不标叠加，直接写主要说话人的内容就行了。 • 英文：(英文都是小写)【单词】对于语音中简单的英文单词，在能听懂的情况下，直接标出即可。例如：“网址是三w点sina点com”；“二三八幺八三二at qq点com”（不要写这个@）“请以井号键结束”；（不要写这个#）【字母】每个字母中间用空格隔开。例如：单词读音，g o o d则表示字母读音；例如：我的编号是f m s幺三二；• 语气词除了“诶”其他的语气词都是带口字旁的汉字标注。如果发音是表示应答的“嗯”，统一都用“嗯”，不要用“恩”或者“厄”。比如哦，啊，诶等.三编辑框内噪音的标注噪音是指非说话人的突发的声音，所有此类标注都是中括号与语音内容的组合，￥是放在句首，其他的噪音符号都需要单独截取标注。1 听不懂的字，标注[*]• 听不清的长句• 方言• 大段的英文句子• 拿着话筒和其他人说话 2 笑声：[LAUGH]。 3 由说话人发出的干扰浊音：[SONANT]• 咳嗽声• • 打喷嚏• 清嗓子 4 系统提示音，即系统播出的语音提示：￥系统自动播放的语音内容，而非说话人的语音内容（不用管说话人）例如：￥欢迎致电我公司现在由一号客服代表为您服务 5 明显的静音段（大于500ms）（一句话中没有超过0.5秒的不要断开，尽量完整完整，不要把已经完整的话段的太散！） 6 各种垃圾声音（大于500ms）：[ENS] 1）连续的拍桌子 2) 连续的敲击声 3) 持续的各种环境噪音 7 持续的音乐声：[MUSIC]• 唱歌声（有歌词和旋律）• 哼唱（没有歌词，但有旋律）• 口哨声• 可能是别人唱歌、演奏，也可能是背景的电视、收音机发出的音乐和歌声• 口哨声• 包括持续时间较长的彩铃声 8 录音及电信系统引起的噪声：[SYSTEM]包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等，都是通信系统主动发出的声音，而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。一般会用的噪音符号：+，[*]，[ENS]，[SONANT]，[LAUGH]，[MUSIC] ，￥，[SYSTEM]所有的噪音符号，在编辑框内右键即可出现哦标注10分钟请点击一次临时保存，并刷新网页！易错归纳：1 爱数语音智慧采集，这个是用户说的，说话人是偶数；2 “￥为保证通话质量有录音，尽情谅解”等的系统播报音，因为是机器音，所以不用管说话人（只要是系统播报音都不用管说话人，平台默认是说话人1）；3 客服标注奇数，用户标注偶数系统提示音不用管，（1说话人标注反的很多；2 同一个客服，一会儿是1，一会儿又是3的问题）；4 过于短暂的截取（像这种处理方式：把16段和17段合并，然后标注“嗯”即可！）； 5 听错的情况，多前后联系，根据语音标注，而不是标注同音字；6 叠加：叠加的没有单独截取出来处理；7 不同说话人截取在一起标注内容的错误；8 规范里面颜色特别说明的标点符号，没有标注（标点符号基本没有看到有人标注的）；9 数据没有标注完毕提交上来了；10A文字中可以加适当的标点符号，句尾不需要加标点符号。10 B标注的数据，A质检，验收发现，质检只是过了一个形式，没有实际作用，没有质量把关；11 返修的数据都有反馈意见，请全部检查修改！12 此项目含有标注信息，请在此基础上修改。问题1：在客服与客户音频中，爱数智慧语音采集这句口令，如果出现在句首那么录音人应该标注1 还是 2？客服标1客户标2 问题2：爱数智慧语音采集这句口令如果与别的语音叠加了，怎么办？直接标：爱数智慧语音采集问题3：接近直线或者接近静音的噪音要不要标注？不需要问题4：叠加是否需要单独操作？？？如果：客服说，你好有什么需要帮助。客户说了一句，你好，这个你好与客服的帮助叠加了，声音大小差不多，具体应该怎么办？单独截取，标+ 问题5：系统的智能语音怎么标注，请详细说明？句首标￥把系统音转写成文字问题6：客服应该标注录音人几，客户标注录音人几，系统声音标注几。客服1客户标2，系统音标1问题7：如果客服说爱数智慧，后面是5秒的系统声音，第六秒客户说语音采集正好与第六秒的系统声音叠加，应该怎么处理？先转写客服说的爱数智慧，再把系统音截取出来前面加￥把文字转写出来，叠加单独截取出来标语音采集，如果是其它内容叠加标+

热门文章

滴滴语音标注规则要求及视频教程

一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址：http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”，并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况，即可标注为无效语音：1）说话人声音极小，小到几乎听不到。2）整段语音均为静音。3）整段语音均为噪声、音乐声、导航音、广播等。4）整段语音只有一个字，或是同一个字重复出现。如：“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。（注意：“哇噻”属于特例，单独出现时也是无效的。）5）背景噪声大于说话人声音，或噪声与说话人声音几乎一样大。6）整句都是方言、外语。方言是指发音与普通话区别较大的地方话，如：粤语、上海话等。7）语音中出现地点、地名、街道名等方位词，但是地图中搜索不到。8）语音中有大于等于两个人说话，除主说话人以外，其余人的声音清晰可辨。9）语音中有大于等于3个字听不清楚。 2. 语音文本标注1）语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致，不能多字、少字。a) 除空格、占位符号、以外，标注文本不允许使用标点符号，不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来，重复了几次就标记几个。如发音为：我是北北京人；“北”字有重复现象。转写文本应为：我是北北京人c) 儿化音不需要标注出“儿”字。如发音为：我在/zher4/。转写文本应为：我在这d) 语音中提及地名、街道名、车牌号等内容，转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词，需要准确转写。可根据读音在地图中查找，确实存在该地点则进行准确标注，搜不到则无效；f) 语音中确实听不清楚的个别单字，用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中，最多只能有两组【~】符号。若有三个字或更多听不清楚，则标注为无效。（见“语音有效性标注”第8条）g) 语音中不涉及地名、专名的部分，若发音清晰但文字不确定，可以用同音字标注，要求标注用字的声韵调与实际发音完全一致。如发音为：我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式，注意区分“一”和“幺”、“二”和“两”，按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词，如“呃、啊、嗯、哦、唉、呐、呢”等，要按照正确发音进行转写。语气词除了“了、不”没有口字旁，其他基本上都有口字旁。注意：语气词“唉”、“诶”不分的，统一用“唉”。 3.语言情况标注1）语音中全部内容均为中文，请选择“中文”。2）只要语音中含有英文，不论是单个字母还是单词、不论出现的数量有多少，都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如：SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格。例如：我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如：我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如：我的车牌号的京A三六七八5、特殊字：对于OK这一类常用词，默认为一个单词，尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女，不论是成人还是儿童，都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性？答：短句只要有大于或等于两个不重复的音节，即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音，但能听懂，需要标注吗？答：口音但不影响理解的，音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的，可以使用【~】，大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则，标记为无效。 3. 标注时有的口音能听懂，是按听的音来标注还是按普通话来标注，标注需要符合现实逻辑吗？答：一般情况下口音按实际发音来标注。以下情况请特别处理：常用词语和专有名词需按现实逻辑标注（如：发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等） 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆？答：转写的文本要和语音实际读法完全一致。若读为yi1，则写一；读为yao1，则写幺。同理，“二”、“两”、“俩”；“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快，有时候听起来像三个字又像两个，是不是都能判断合格？答：短音频且内容无法听清的情况下，标记为无效。长音频中很小的一部分，无法确定内容时，参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快，能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答：判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗？答：整段只有导航音，标记为无效。只有一部分出现导航音的时候，看声音大小，如果与说话人音量接近或者大于说话人声音，标记为无效。注意：如果一句话里面只说了几个字方言，其他都是带口音的普通话，不要直接标无效，那全方言的字按听到的音来标，比如：说的是上海话gege，就标成“葛个”，而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写；全方言无效关于地点、地名、街道名等方位词，这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰，但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来，但依旧视为无效。二、关于英文转写原规范为：英文字母要转写成大写字母。细化：1、遇到英文单词和英文字母都需要用英文大写形式表现。例如：SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格。例如：我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如：我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如：我的车牌号的京A三六七八5、特殊字：对于 OK 这一类常用词，默认为一个单词，尽管是拼读成字母发音的。对于无从适配上述规则的，我们及时向海瑞提出。三、噪音符号这部分，这部分依旧不用添加。四、关于标普、方普、方言如何转写 1、标普：就是普通话，我们是一定要转写的。 2、方普：就是方言普通话，例如广州人说普通话，上海人说普通话，天津人说普通话等等，这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说：我现在湖南（fu2声 lan2声）长沙市中心你来接我一下他说的是“fu lan”我们正常书写成“湖南”即可。 3、方言：直接视为无效即可，例如：粤语、上海话、江苏话等等。

友情链接: