数据标注,人工智能背后的人工产业

人工智能指由人制造出来的机器所表现出来的智能,我们通常所说的人工智能是指通过普通计算机程序的手段实现的人类智能技术。同时人工智能也代表研究这样的智能系统是否能够实现,以及如何实现的科学领域。

所以人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大,就是通常意义下的人工系统,即人力之所为。但是关于什么是“智能”,就问题比较多了。这涉及到其它诸如意识(consciousness)、自我(self)、心灵(mind),包括无意识的精神(unconscious mind)等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能必要元素的了解也很有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。

总体来说,人工智能是一门边缘学科,属于自然科学和社会科学的交叉。因此,涉及到十余门学科,涵盖物理学哲学和认知科学、逻辑学、数学、统计学、心理学、计算机科学、控制论、决定论、不确定性原理、社会学、犯罪学、智能犯罪等众多学科。

目前普遍观点是人工智能在智能控制、机器人学、自动化技术、语言和图像理解、遗传编程、法学信息系统、娱乐、医学等领域得到大范围应用。但是,人工智能的规模化、成熟化应用需要海量的数据作为支撑,可以这样说,数据的质量在一定程度上决定了人工智能的“智能“化程度。

 

那么,光鲜亮丽的“人工智能”背后的“数据标注”到底是怎么回事?龙猫给您解答。

首先得说清楚“机器学习”、“深度学习”和“人工智能”之间的关系,很多人对这几个概念的边界并不清楚。其实要分清楚这几个概念也简单,机器学习:一种实现人工智能的方法,所以机器学习是站在人工智能背后的男人。深度学习:一种实现机器学习的技术,那么,深度学习应该就是机器学习的得意门生。那么,这里面又有“数据标注”什么事呢?

通俗来讲,机器学习可以分成下面几种类别:

无监督学习:无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络(GAN)、聚类。

监督学习:监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。监督学习和非监督学习的差别就是训练集目标是否人标注。他们都有训练集且都有输入和输出。

半监督学习:介于监督学习与无监督学习之间。

增强学习:增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。

因此,高质量的数据集对于监督学习来说可以是至关重要的,而数据集就是数据标注的产出成果。

数据标注一般来说可以分为分类标注、标框标注、区域标注、描点标注和个性化标注等几类。

分类标注:就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。比如说有一张图,我们就可以对他有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。

标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。行人识别。

区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。

描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。

其他标注:标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。

可以这样说,数据标注就是建造“人工智能”这座大厦的搬运工,参天大厦的一砖一瓦都可以说离不开数据标注的功劳。但同时正像是大厦一样,外表光鲜靓丽,谁也不会去关注背后的“砖瓦”。

一般来说,做人工智能的企业都离不开数据标注。就像房地产公司也离不开工程队一样,所以,有能力的企业会自己招聘数据标注人员。但是,其实数据标注已经形成了好多规模化的众包公司。

 

这样只需要企业提供相应的要求,甚至连数据集都可以交由众包公司去完成收集。因此,“大量经过训练的可扩展标注员+具有AI经验的项目经理+严苛的QC质检流程=快速获得优质标注数据”。其中项目经理的职责就是负责对接客户的需求,澄清一些可能混淆的地方,并且把标注文档简单化,易于标注员理解,然后组织整个标注流程包括培训标注员+筛选合格的标注员+员工激励等。

把数据标注交由众包公司的话,就会面临一些其他问题,对于甲乙方最关注的问题就是数据标注的质量问题。继续之前的比喻,房地产的工程队也质量层次不齐,市场鱼龙混杂。但是一个好的房地产公司会通过各种遴选标准筛筛选出符合起需求的工程承包商,同样,例如百度、阿里、腾讯等大型人工智能企业,也有自己长期合作或者扶持数据标注众包公司。

        位于中原大地的郑州点我科技旗下的找标注网致力于做数据标注行业的信息交流、资源分享、数据需求方与数据提供方的咨询中间服务的综合性一站式平台,同时也将继续不断的关注技术更新,适配新的需求,在推进数据服务领域取得更大进步的同时,也将反哺其标注系统的完善,为全球AI企业提供更优质的数据服务。

推荐文章

态度是根本现阶段数据标注主要依靠人力来完成,百万级的数据标注对于标注员来说是一个不小的压力。尤其是复杂的标注任务,合格率低、时间跨度大等因素对于标注员来说需要有强大的心理承受能力。如何缓解标注员这种焦躁的心情就显得尤为重要。对此行业有一套自己的经验方法:行业态度:我们以无人驾驶为例:上百年来BBA引领着整个汽车行业。在汽车整体产业里中国汽车品牌一直处于跟随阶段,核心技术的缺失导致国产汽车始终处于劣势。但是AI给了中国汽车品牌新的契机,中国汽车品牌在全新的起点与BBA同时起跑。赛道完成超车将一举改变中国汽车品牌劣势地位,全新的国产汽车将会驰骋在世界的每个角落。以蔚来汽车、小鹏汽车等国内全新汽车品牌为例,核心技术的突破以及AI应用的延伸,我们将翘首以待中国汽车品牌的崛起。行为态度:还以如人驾驶为例,我们标注的数据将会在AI场景中应用。如果因为标注质量的问题,将会直接影响无人驾驶的行车轨迹甚至是驾驶的安全。我们每一次鼠标的点击都是对AI的一次哺育。AI就像是个孩子,我们要用最精细的心态来呵护他,因为他的成长将会改变我们的未来。格局决定高度,标注任务必须要精细,因为我们的标注员在做的是一个足以改变格局的事情,我们没有理由懈怠。我们在从事的是AI服务行业,我们提供的AI数据将会直接运用到AI场景,这是一种责任。技术是核心标注不只是人力叠加的工作,而是一种技术输出手段。在做标注工作时需要有一款操作简单易用的标注工具,这样才会更好的完成标注任务需求。AI企业对于数据标注是多样化的,任何场景下的任何事物都有可能成为标注需求。拥有一个强大的标注技术平台将会保证标注质量的同时,提升整个标注效率。标注工具:长期以来重视技术和研发,拥有核心技术标注平台,在数据标注领域积累了丰富的经验。汇集:绘制工具、编辑工具、放大缩小工具、标注列表工具、随时批注工具、事例图参考工具等强大标注工具,可实现点、面、不规则多形态的数据标注需求,具备对任何数据进行标注。与此同时,在研发更加智能和便捷的标注技术,在未来,会使数据标注更加高效。审查是关键一些AI企业在交谈中透露,之前的一些标注企业提交的数据参差不齐,无法运用到深度学习中去。返工、二次返工的经历时有发生。在数据标注行业,审查一直是一个非常重要的环节。每一个项目都将会经历“人员培训、标注测试、正式标注、人工审核、交叉抽查”五个近似苛刻的不同阶段才会交付到客户手中。  逐一审查:需要指出的是在人工审核阶段,要求审核员对每一个数据做到逐一审核,不放过任何一条数据。而在交叉抽审阶段,任何一点的数据不匹配都将会打回重新审核提交。在数据标注行业,有一个好的态度、一个好工具以及一个严格的章程制度,数据标注效率和质量才会大大提升。郑州点我科技坚持开放共赢的姿态拥抱数据服务行业,愿同整个数据服务行业携手,共同推进数据服务发展进程。

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。