“数据标注”今天,那些人工智能背后“人工”正在回家

5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。

但今天,「甲子光年」却想说一个关于人工智能“从未被讲出”的故事,写一群时代大幕后的“隐形者”——标数据的人。

智能时代滚滚巨轮之下,一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据,正是出自这些学历不高,每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。



「甲子光年」采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。

他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下,数据量越大,质量越好,算法模型就表现越好。可以说,数据决定着整个人工智能行业的发展态势。

但标注工作本身是一个劳动密集型工种,收入并不高。随着技术的进一步发展,未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今,父辈手里的铁铲变成了年轻人的鼠标、键盘,但和父辈一样,他们仍是边缘者。在这个除夕,他们也像父辈一样踏上了归乡的旅途,不仅是从城市回到乡村,也是从科技前线回到古老的火炉前。

小志从贵阳坐了四小时的大巴回到山区家中,第一件事就是将钱塞到母亲手里;

犇犇给父亲买了新的电动剃须刀;

何军家在河南周口,打算把钱都存着娶媳妇,过年期间就要见几个相亲对象;

小袁想再挣点钱后换一副助听器,现在这个他已戴了好多年,把他不断长大的耳蜗磨出了新新旧旧的伤……

我们无法预判他们的命运,但选择讲出他们的故事。这些科技进步背后的“无名者”值得一次认真的注视。

数据折叠

人工智能的世界里,存在不为人知的“数据折叠”:

一边是炫酷的科技、神奇的智能应用;一边是大量人工每天重复地生产机器学习的“食物”——标注好的数据。

北京和贵阳,是数据标注世界里的两座“双子星”城市。北京聚集了大量人工智能公司;贵阳近年来着力发展“大数据战略”,已拥有相对完整的数据服务产业生态。

2017年,仅北京中关村大数据产业规模就超过700亿元;贵阳2017年的大数据产业及其关联产业规模总量超过1500亿元。AI行业的总规模也在持续增加,根据麦肯锡2017年4月发布的一份报告,到2025年,AI应用的总市场可能达到1270亿美元。

但标注数据的人,生活在这些巨额数字之外,拿着不高的工资,活动在“第二空间”。

从三里屯驱车1小时,行驶30公里,就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班,学生总数300多人,高峰时期,有120多人参与数据标注的兼职项目。

标注工作室占满了某栋教学楼二层的5个房间,150台电脑前坐着一群十八九岁的学生,正盯着电脑屏幕给图片拉框。他们流程化地操作鼠标——这些枯燥的工作,最终将用于热闹炫酷的无人驾驶项目。

从做数据标注的教室窗口向外望,可以看到北邮的教一,那里有国际学院和计算机专业学生专用的机房。

兼职标数据的培训班学员一个月的收入在2000元左右。如果全职做,人均工资约4000到5000元。而坐在教一的未来算法工程师,刚毕业时,起薪就可能达到30万元/年。

BasicFinder旗下某数据工厂

培训班学员参与的标注项目,采用了目前数据标注行业的主流模式之一——“外包”。

某数据标注主管告诉「甲子光年」,AI数据标注的外包市场2011年开启,2015年真正开始,2016年下半年出现收缩,2017年又有了新一轮的爆发。

外包盛行,是因为人工智能的发展需要大量人力对非结构的数据进行加工,以用于机器学习。而创业团队和巨头公司,为了集中精力研发或保持团队的高学历占比,很少完全自建数据标注团队。

外包江湖门派众多、良莠不齐。

从业者是这样打招呼的,“你是发包方还是外包方?”

BAT、人工智能创业公司,学术团体,以及政府、银行等机构都可能成为发包方。BAT和人工智能公司需求最大,学术团体次之,政府、银行等传统机构的需求最小但有不断增长的趋势。某数据标注主管告诉「甲子光年」,他目前所接触到的上述三类业务需求的比例为7:2:1。

某数据标注公司负责人透露,商汤、旷视这类大的人工智能公司,一年在数据上的支出有数千万。

在“外包方”一端,有 “众包”和“工厂”两种模式。前者是把任务通过平台转接给网民,如“百度众包”、“京东众智”、“龙猫数据”;后者是自己经营团队,对整个流程进行控制,如贵阳梦动科技经营了一个500人的“数据工场”;BasicFinder与二十来家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。

许多机构在众包和自营工厂两方面都有涉足,众包平台上也有许多以团队为单位接单的“公会”。

算法公司和人才多集中在北深杭等科技核心区域,而作为一个“劳动密集型”的中低收入行业,数据标注人员散落三四线城市。

在距离贵阳市中心50公里的百鸟河数字小镇,有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职“盛华职业学院”的学生。

位于贵阳的“数据工场”

他们很珍惜这个接近“白领”的兼职机会,1月能挣到1500元,经济上足以自立,省点还可以补贴家用,相比其他兼职选择:去餐厅辛苦端盘子或顶着风雨送外卖,数据标注相对轻松且体面。

盛华学院大数据专业老师,同时也是贵阳梦动科技人工智能服务部总监的曹珊告诉「甲子光年」,她曾带着七个学生来北京某人工智能公司参加图像标注培训,通过后可留下来实习,但竞争激烈,五十九人只留十个,其中不少是北京本地学校的竞争者。最终,这7位来自贵阳的同学都留了下来。

这些年轻的数据标注者,一头连着最前沿的科技,一头连着他们正在回去的家乡——那里往往是贫困、闭塞的所在,是科技的影响力最微弱的“第三空间”。

小志是曹珊的学生,数据工厂腊月二十七才放假,小志坐了四小时大巴回到山区的家里,父母都务农,身体也不好,家里除了房子和田,唯一像样的财产是一头牛。

进高职前,小志甚至都没碰过电脑,唯一会的操作是按开关键。电脑极大地打开了他的世界,但也让他一度沉迷游戏。最严重的时候,课不上了,数据不标了,觉也不睡了。

曹珊为此和小志长谈了多次,目前小志的生活渐渐步入正轨,成了数据标注的小组长,手里带着十多个同学。

但未来工作前途的不可预期,相对低的收入,较大的家庭负担,仍然是这些年轻人无法摆脱的苦恼。

父辈的积累相当顽固,无论是财富、声望,还是贫穷和负担。

父辈与我:从建筑工地到“智能工地”

犇犇的人生在某种程度上,是对父亲的继承。

他是西安某数据标注工作室的标注员,犇犇和他所在的工作室代表了数据标注行业的另一种典型模式“小作坊”。

今年26岁的犇犇,先后做过厨师、进过工厂、推广过数种数字货币,但没有一份工作做得长久。

犇犇父亲在他这个年纪时,是镇上棉纺站的一名工人。2005年棉纺站关门,下岗后的父亲去甘肃当过两年钻井工人,此后一直在做建筑。

直到2017年12月初,犇犇还不知道数据标注这个工种。

当时他接到灵的一个电话,邀请他一起做数据标注工作室。灵和犇犇曾一起推广数字货币,行情最好时,一笔交易能拿两万提成。但好好的币,玩着玩着没了,他们的这次合作铩羽而归。

经历上一次失败后,灵又杀进数据标注领域,很快,她组建了15人规模的工作室,团队成员都跟犇犇一般大,氛围很好,他们常常一边标数据,一边聊天,时间并不难熬。

最难受的是眼睛。从早上九点到晚上六点,工作内容就是盯着屏幕给图片拉框。拉框要求十分精细,偏差丝毫都不行。犇犇眼睛干涩时,会起身去楼道抽烟。

犇犇所在的工作室

眼睛的难受熬熬就能过去,更愁人的是工资不高。

犇犇笑着说,入不敷出啊。他在供一套郑州的房子,每个月要还4700的房贷,而工资撑死就五六千。

在犇犇看来,这份工作也没什么前途:“跟电子厂一样,多做多得。”

犇犇的梦想是在全国开很多养老院,因为小时候的邻居是独居的七十岁老人,“没人养很可怜”。

但开养老院对现在的犇犇来说太难了,他养自己都难。

数据标注的晋升之路只有两条,每条都是窄门:

要么进数据公司,爬完标注员-标注组长-数据经理-数据总监这个链条,层层打怪升级;要么进人工智能公司当数据标注员,然后凭借超人毅力自学技术曲线救国。

前一条路不需要学历,但是千百人过独木桥,且依旧是在数据标注圈子里打转;后一条路能真正学到东西,但对学历有要求。

犇犇只有高中学历,连高考都没参加。因为不愿再读书,他跟父亲起过很大争执,父亲深知打工有多苦。高三的那个暑假,犇犇也去体验了一把:跟着父亲去工地上搬砖。

现在,他成了一名“智能工地”上的新型“搬砖者”。

对科技、社会和自身的关系,如今犇犇有清醒的认知:“人工智能就像是一个孩子,标注好的图片就像是孩子的食物,而我们就是制作食物的人,最苦最累的我们做了,成名的只是那些制造孩子的人。”犇犇说。

两代人的命运在此重叠。

农民工一砖一瓦垒起了实体城市的高楼;数据标注者一框一线搭建起了算法的智能。前者是城市的边缘者,高楼起来了,他们仍是边缘者;后者是科技世界的边缘者,机器变聪明了,他们还是边缘者。

犇犇会最终栖居在数据标注这份工作上吗?他给的答案是不确定的,他不知道这份工作是否不出几年就被取代,也不知道自己是否就此乖乖认命。

中国有五千多万的农民工以建筑为生,到了五六十岁还在工地上忙碌。数据标注的市场才刚打开,「甲子光年」从从业者口中得知,截止2018年年初,以数据标注为生的全职标注员规模达近十万,这个数字未来会继续增长,未来将达数十万。数字标注也将成为新生代农民工的聚集地。

野蛮生长,坑与机会并存

相比聚光灯之下的人工智能科技公司,数据标注行业是个在暗处的行业,存在大量灰色地带。

作为一个劳动密集型行业,进入门槛并不高,压低“成本”、“薄利多量”,就成了许多团队的竞争手段。

许多公司招的标注员都是没有交五险一金的临时工。7、8万的启动资金,就可以在四五线小城组起一个“工作室”。

AI公司也倾向压低成本——某数据标注公司主管告诉「甲子光年」,部分人工智能公司对数据标注的重视不够,过分压低预算,把项目外包给一些不靠谱的团队;这些团队做不完、做不了,又会把任务转包给另一些小团队,或重新找到大的数据标注公司,使质量和交期都无法保证。

“低价竞争和行业不规范导致的层层外包是行业的噩梦。”京东众智平台的负责人李工告诉「甲子光年」。

对小团队来说,外包直接折损了利润。

做过室内装修的何军,在2017年底投入十万积蓄作为启动成本,在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划,就是“争取接到一手项目”。

“利润其实不高”,何军一边抖着腿,一边掰着手指头细细算账,“你看啊,一个拉框平均4分钱,一个员工一天能做大约4500个,一共180块。过关率90%,再除去审核的成本,再给每个标注员每天发110元左右的工资,平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本,第二个月勉强持平。

“开年就去跑工商注册,然后一家家联系大公司,得接到一手项目,给员工的多发点工资,现在太低了。”何军说。

小团队只能接二手甚至是好几手的项目,一手项目就像江湖传说,听过没见过。

处境相似的赵聪也特别想接到一手项目。他是2017年10月入场的标注者,自己攒了三个人的团队兼职做数据标注。“我们的项目都是从小公司手里接的,连发包方的名字都不知道”,赵聪说,“利润很低”,三个人,三个月,三个项目,每人也就获得了一千块收入。

大平台也反感层层外包,因为这严重扰乱行业秩序。

“数据标注看起来门槛很低,但其实管理的门槛并不低。价格、产能、交期和质量都要兼顾。很多小团队,拿到的项目自己消化不了,最后又会找到我们。”BasicFinder的杜霖说。

而针对一些特定的复杂任务,还需要进行足够的培训,有的培训期需要1到3个月。在理解客户需求、保证数据的多样性、随机性上,许多小团队也欠缺必要的能力。

层层外包,对数据标注员的直接影响是:摊薄了收入,钱被中间环节分掉:一手的项目在谁手上,价格多高,会经历多少层级,每层有多少利润,都是谜。

还有另一个角色在搅乱这趟浑水——代理人。

代理人说白了就是拉项目跑活儿的人,关系户,是中国人情社会里长出的变量。一些小公司会高薪养代理人,以期打通关键节点。

赵聪无奈地说,“靠关系吃饭的社会”,最末端的标注者最缺这种关系资源。

杜霖认为,这个行业经历了早期的疯狂生长,最终一定会经历一番洗牌,变得更为规范化、透明化。届时质量会取代成本,成为需求方最优先考虑的变量:

“人工智能公司的本质需求是能找到靠谱团队。大家最后都会明白,背着抱着一边沉,想省的钱都省不掉,要保证质量,就是一分钱一分货。 ”

大浪淘沙,有两类机构会最终留下来:注重质量及服务的中小型数据标注公司,以及自有整套数据技术的平台。

而犇犇、何军以及赵聪都有可能被行业清洗出去。

还有5年,只有5年

经营小工作室的何军已经开始紧张了,他听说算法升级后,将不再需要大量人工标注。由于对技术动向缺乏把握,他时常处于一种对未来的不安之中。

杜霖则认为,至少在5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智能的大规模落地引来一波爆发式增长。

首先,人工智能行业本身的发展,将进一步带动数据标注行业。目前能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域,未来,随着AI深入更多垂直行业,新需求将不断出现。

何军告诉「甲子光年」,前些天就出现了一个他没见过的标注内容,北航的学生找上门来,要对“积云”进行标注。杜霖也跟「甲子光年」分享,他们做过一个很有意思的标注项目——标注指甲区域,因为客户要做美甲机器人。


其次,在现有的主流“有监督学习”的算法模型下,为了让算法有更高的准确率,数据不嫌多。Google的技术大牛Jeff Dean曾在一次公开课上展示一个海量数据的训练结果,如下图所示:横轴代表数据规模,纵轴代表准确率,蓝线是深度神经网络算法,绿线是传统训练方法。

可以看到,蓝线的准确率和数据规模及质量持续成正比,并没有出现趋于平滑的拐点,这说明深度学习对数据有源源不断的需求。


第三,从感知智能到认知智能的跨越,需要的数据维度会更大,这可能催生更精细的数据标注需求——如对一段对话数据的标注,不仅要知道对话内容、语义,可能还需要标注谈话者身份、情绪变化等。

杜霖告诉「甲子光年」,人工智能公司的总支出中,目前有20%-30%用于数据,现阶段大陆市场数据采集及标注的规模保守估计有五十亿。一个参考是,新三板上市公司数据堂2016年的营收达到了9680万元人民币。

京东众智平台的负责人李工对未来也很乐观,他认为,包括采集、标注、清洗等流程的数据市场未来将达上百亿。

但这一切都是基于“有监督学习”这个大前提。行业的一个变量是,如果算法从“有监督学习”升级为无监督学习、强化学习或迁移学习,数据标注需求将大大减少。

技术进步和跃升自有其规律,目前无监督学习等新算法仍然只是学界的探索,尚不能用在大规模的商业落地中。

杜霖判断,新的革新性算法,至少5年内都不会出现。Novumind创始人吴韧此前接受「甲子光年」专访时则认为,深度学习加大数据就是人工智能的“way to go”,较难出现颠覆性的其他路径。

5年,对公司来说是一个可以布局、掉头的“窗口期”。京东众智的李工告诉「甲子光年」,他们应对变化的策略是轻运营和“产品化”,着力研发加速AI落地速度的Pre-A.I.产品,并同时研发平台技术,做到“数据与流程分离架构”。数据标注本身不是他们的核心战略。

BasicFinder也有类似布局,他们希望一手对接垂直行业里的数据生产者,一手对接上游的算法模型公司,共同推进AI的行业落地。

但对数据标注者个体来说,5年后,也许就不得不面临再一次“失业”。到时,他们还能跟随时代的脚步腾挪转移吗?

烫手的小袁

小袁暂时想不到5年后那么长久的事。

作为一名换过40份工作的聋哑人,他很庆幸,终于在“数据标注”领域成了“有用的人”。

小袁是京东众智平台上“静公会”的聋哑人标注员,这个公会全部由听障人士组成。

先后在餐厅、奶粉厂打工的小袁,总是因为无法避险、难以沟通被辞退:“我是烫手的小袁,因为我是聋哑人,所以我总是会烫到身边的人,被扔出很远很远。”

相比过去的工作,数据标注的安全性更高,但也需要相互沟通。

杜霖和残疾人群体深入交流后发现,聋哑人的世界里多为名词、缺乏形容词,比如要向他们解释这根线标得不“直”,就会比较费劲。由于输入信号会被挡掉一半,所以聋哑人接受速度只有健全人的三分之一到五分之一。健全人一周能搞定的培训,聋哑人要花三周或更久。

但是他们的优点是专注、较劲儿、对视觉信号敏锐,数据标注行业对他们来说是机会。

齐工是京东众智平台的培训讲师,几乎每天都去给小袁和工友讲课。齐工说,“想当把英雄,承担更多的责任。”

齐工给聋哑人培训,左一为齐工,右一为小袁

第一次,他们在工作中找到了归属感。像小袁这样的聋哑人在众智平台上还有一千多名,京东为他们成立专门的“静公会”,项目上优先照顾。全职每月有三四千收入,兼职每月有一千以上收入。

杜霖手下也有三个残疾人团队,总共约80人。杜霖和京东负责人都表示,愿意为更多残疾人提供工作机会。

在数据标注这份职业消失之前,这里是他们的家。其中的少数人,也许能通过转型为数据质检者,获得更长期的职业生涯。

杜霖将公司取名为BasicFinder, 初衷是找到人工智能世界中最本真的一层关系——数据。新生代农民工和聋哑人,投身于数据标注这份工作中,也是希望找到最本真的生活。他们的要求很朴实,用犇犇的话来讲是:有一份稳定的工作,有一个幸福的家庭。

但科技的发展,必将带来智能升级,也使整个行业更加规范化。



这有点像武士的悖论:武士存在是为了消灭敌人,但是消灭了敌人武士也就失去了存在的理由,这个意义上,他们是在消灭自己。

数据标注者的工作是帮机器更好的学习,促进人工智能行业的发展,而当行业发展到一定阶段,可能将不再需要如此众多的人工标注。

其实整个人工智能的发展历程也有点像“孤独的武士”:人类发明了机器,到头来机器很可能取代大部分人工,甚至是“发明者”本人。

但是,是武士,就必须去消灭敌人。对知识的无限追求既是人类的天赋也是人类的危险,它早已深藏于我们的基因之中,呼唤我们不断逼近未知边界。

更高的智能一定会到来,认知差距将取代财富差距成为最显著的人群划分标准——那可能是一种更无形的“折叠”。

未来,当我们真正享受智能带来的各种便捷时,历史会遗忘这些人工智能领域的“首批工人”吗?

这可能是除了技术水平之外,判断那个未来是好是坏的更重要的标准。


本文来自新浪网

推荐文章

大数据领域经历了2013年开始的疯狂增长,2016年的断崖式下降,以及2018年以来的迭代复苏,单一的数据技术逐步与人工智能技术结合,应用场景从营销获客、金融风控等为主,转为与城市管理、工业制造等领域越来越深度的结合。大数据产业已进入2.0时代。新时代下,数据与智能融合,新赛道的投资机会如何判断?中国计算机学会(CCF)大数据专家委员会,每年年底都会发布下一年的大数据发展十大趋势预测。回顾从2013年到2019年的第一大预测,可以发现有意思的发展轨迹:数据的资源化(2013)、大数据从“概念”走向“价值”(2014)、大数据分析成为数据价值化的热点(2015)、可视化推动大数据平民化(2016)、机器学习继续成智能分析核心技术(2017)、机器学习继续成大数据智能分析的核心技术(2018)、数据科学与人工智能的结合越来越紧密(2019)。从大数据的概念兴起到寻找和挖掘大数据的价值,再到大数据的平民化以及大数据与人工智能的紧密结合,这是一个螺旋上升的过程。在这个过程中,整个大数据产业越来越认同:数据本身没有价值,经过清洗之后才能形成信息,信息只有经过整理才会形成知识,知识只有应用了才会形成智慧,智慧经过收集又变成数据,这是一个完整的循环。数据经过迭代和循环之后,基于场景化的应用才能创造价值,这已经成为产业共识。进入2018年,我们正处于大数据产业第一轮上升周期的最后阶段——智能应用阶段。现在,各种各样的IT公司、AI公司、大数据公司甚至是SI系统集成商等都在进入所谓“数据智能”领域,造成竞争非常激烈,使得很多从业者在审视方向和战略路径的时候产生了焦虑。其他赛道的争相融合,也使得数据智能赛道中的选手排名有很大的不确定性,再加上这些选手在一级市场高估值的现象,使得投资人在做判断的时候比较纠结。在2018年12月举办的钛资本“新一代企业级科技投资人投研社”在线研讨会第八期上,达晨财智业务合伙人窦勇分享了对数据智能产业的思考。窦勇在达晨财智负责大数据业务,同时也是中国首席数据官联盟专家组成员,其投资案例包括数联铭品、数据堂、昆仑数据、美林数据、蝎子网络、中奥科技、索为高科、锐思环保等。走进数据2.0时代大数据,通俗的讲就是一台机器干不完的事情,利用多台机器来完成。大数据能够快速发展的根本原因无非两个,一个是计算性能的提升,第二个存储成本的降低。对标国外来看,整个20世纪90年代之前,因为信息化尚未完成,数据量比较少。进入21世纪,移动互联网的兴起使得数据量飙升。2005年,雅虎解决网页搜索问题的时候,提出来两个概念——高性能计算、分布式存储,对行业有着很深远的意义。资本市场更关注的是2009年Splank的上市,来自资本市场的刺激让整个市场为之动容。而2014年Plantir的估值达到200亿美金,更是让国内的整个投资界为之疯狂。国内来看,从2013年到2017年12月9号,属于数据1.0时代,是进行认知、培训、泡沫、创新的过程。为什么以2017年12月9号为分界点呢?因为在这一天梅宏院士向中央递交了一个报告,从此整个行业进入了数据2.0时代,也就是数据场景化应用、深度融合的时代。云计算、大数据、人工智能这三者之间你中有我、我中有你、互利共存,一起促进了整个数据智能产业的发展。云计算的出现带动了大数据的热潮,后来人工智能变得更热了,是不是大数据就变得不重要了?其实大数据已经融入到了整个人工智能产业中。回顾数据1.0时代的投资逻辑数据1.0时代是一个体现数据差异化的时代,这个时代从消费领域的大数据开始,经历了机器大数据以及后来的工业大数据。机器大数据萌芽阶段是从2013年到2015年,从2015年进入成长阶段,新三板的介入助推了这个进程。在2016年之前,工业大数据没有得到太多的关注,整个产业现在也还处于发展的初期,这是因为工业领域的信息化尚未完成,有很多的不确定性因素,也存在大量机会。数据1.0时代,从产业角度来看,数据格式从结构化、半结构化、异构化等多样化的融合使得数据源变得更加丰富;而处理数据的手段,无论是基于Hadoop还是Spark的计算方式,都使得整个产业不断地迭代和演进。数据1.0时代的创业者无非有三类:第一类是原来的传统IT和系统集成商,这一部分群体的出现主要是因为在2015年整个数据行业处于高速发展中,在一级市场给出高估值的情况下,大部分IT系统集成厂商摇身一变成了所谓的数据厂商,他们胜在更贴近用户,但可能对于行业的认知不足,不太关注研发投入;第二类是拥有稀缺数据资源的厂商,他们凭着独有的数据资源能够带来独有的视角和商业价值;第三类是具备技术的创业团队,他们大部分来自于传统的企业IT公司,包括微软、IBM、Oracle等大型厂商,对于技术的应用比较强。在过去五年当中,这三者各有一席之地,但是最终在进入数据2.0时代的时候逐渐融合,都在往场景落地上走,也就是所谓的数据融合。数据1.0时代从资本的角度来看,2014年Palantir获得200亿美金的估值,加快了国内整个行业泡沫的形成。新三板2015年的推出导致整个行业的虚高。2016年6月1号,《网络安全法》的公布又矫枉过正。特别是对个人隐私数据的极端关注,导致大量行业从业者退出。而因为泡沫的存在,造成了大量黑产数据的形成,产业里面形成了大量的灰色地带。整个行业陷入极其消沉期是在2017年,由于对整个行业的未来方向都看不清楚,很多人到处尝试,数据行业投入的壁垒也在逐渐加大。2017年12月9日的“实施国家大数据战略”,为整个数据行业带来了一个新的方向。中国政府是数据最大的拥有者,也是数据最大的需求者,但本身没有技术能力使用数据。因此,如果没有政策的指引,地×××府也不敢投入。所以,2017年12月9日之后,整个行业迎来了快速发展。对于数据应用来说,什么样的行业领域才能体现数据价值?一是这个行业具备一定的信息化程度;二是具备购买数据服务的能力;三是具有数据安全或安全数据,数据安全是指数据资产本身从流通到应用过程中的安全,安全数据是指数据来源的合法性,对这个问题必须慎之又慎。对大数据企业进行估值也比较挑战,传统的估值模型往往在现实中不成立。数据企业具有一个显著的特点:除了轻资产外,其它的什么都没有。对于这类型资产怎么进行估值?投资机构在最开始做数据企业估值的时候肯定是“两眼一抹黑”,不过可以基于三个方面的目的进行判断:第一,投资机构确实想进入这个市场,所以在有标的物的估值方面可能会采取折中的办法;第二,投资以退出为目的,估值取决于需要多长时间能够收回本金;第三,数据企业的产品应用场景在哪里,用户的反馈是什么。还有一些比较实用的小技巧:第一,数据企业到底能解决什么样的问题,是否具备可复制性,持续能力在哪里;第二,团队的构成是否互补,数据企业往往都是科学家型,在面对市场时有哪些短板,如果后期补齐了短板,成长的能力又在哪里;第三,创业早期可能对财务指标不会太在意,但是对于资金的使用去向要特别关注。数据2.0时代:场景逻辑,巨头形成数据2.0时代到底是什么样的呢?从产业内部来看:第一,普适性的教育已经初步完成,分工明确、需求也十分确定,给整个数据产业带来了一个快速发展的强周期,具备了天时、地利和人和;第二,随着金融资本市场进一步的回落,对于数据企业的认知更加回归本质,资本市场给整个产业带来的泡沫逐渐消亡,原来单纯靠PPT演讲就能融资的情况已经基本不存在了。从产业外部来看:第一,资本市场回归理性,泡沫空间变小。都知道2018年难熬,大家的口号都是“活下去”;第二,外部政策环境持续利好,无论是科创板的即将开板,还是国家把数据行业定位为新经济的重要支柱,都给数据产业的良性发展提供了一个良好的外部环境。天时、地利、人和都具备了,可以预测,大数据企业在未来的一段时间将形成以下三个良性发展:第一:场景落地的效应更加明确。到底是针对什么样的场景解决什么样的问题,这种场景是否具备可复制性,持续效应在哪里,如何随着时间的推移得到进一步的应用;第二,数据龙头企业形成。资本寒冬后留下来的是良品,大数据企业会趋于一种寡头效应。凭借着资本市场以及行业里大量的沉淀,将形成对整个产业的新认知。现在二级市场上虽然很多自称大数据企业,其实真正的大数据企业可能寥寥无几,可以期待之后真正的数据巨头形成;第三个是技术更新加快。现在无论是从硬件还是软件,整个产业层面对于数据行业的支撑在不断的加快演进与迭变。无论是从计算性能还是存储效率来看,计算效率的极大提升将驱动产业进一步良性的发展。回归到本质来看,数据2.0时代的“场景落地”到底指的是什么样的场景?这个场景一定是在信息化基本完成的行业里,并且行业具有较强的支付能力。创业公司也不再是项目型,而是以产品的形式带动整个产业的发展。工业互联网:数据2.0的典型场景在场景落地方面,工业互联网是一个典型的细分赛道。2017年12月9号之后,最让整个产业界兴奋的事件,就是工业富联上市。工业互联网赛道在当前的寒冬期仍相当红火,主要推手有两个:一个是工信部信通院在推广工业互联网板块,另一个是国家层面的“中国制造2025”。这两个推手促成了工业互联网赛道的趋之若鹜。但目前我国的工业尚处于3.0阶段,难以跟以高科技著称的美国工业互联网、以机械著称的德国工业互联网对标,所以国家提出了“中国制造2025”。虽然这只是纲领性的文件,但是对整个产业界、投资界以及工业互联网创业圈的振动却不小。从“中国制造2025”的宏伟目标看,其中的产业机会达上万亿。但整个赛道从投资者的角度来看,创业者并不多。因为既懂IT又懂工业的人少之又少,整个工业互联网赛道看似有巨大的商业机会,但从基本面来看还处于一个比较落后的阶段。投资人应该怎么看工业互联网?工业互联网可以分两部分:第一,透明工厂,就是在工厂内部围绕产品打通原料、生产流、信息流、资金流,实现设备智能化、流程信息化、过程网络化;第二,以前当产品离开工厂后就很难再与工厂发生联系,而从工业互联角度考虑就要以用户为中心,实现需求个性化、体验场景化、用户生态化。围绕这两部分,工业互联网的体系,从产品全周期管理开始到最终用户互联互通,形成了一个生态。生态当中流通的是数据,以数据的方式驱动整个产业的布局。按三个层级划分,工业互联网领域可以布局的赛道具体有以下这些:第一,边缘层。围绕工业互联网的数据汇聚基础,值得布局的赛道有工业传感器、5G、芯片产业。实际上,传感器领域还是被国外厂商垄断,5G核心芯片也是类似情况。但是,随着带宽的提高,采集数据的成本降低了。物联网领域,形成了M2P(Machine-to-Person机器与人连接)和M2M(Machine-to-Machine机器与机器连接),数据的流通得到了进一步的加强。当然芯片不是靠钱能堆出来,但是基于工业互联网的单片机相对比较容易,投入资金也能促成一些基于行业场景化、定制化的芯片,所以这个领域还是有一定的机会。第二,平台层。可以关注几个方向:首先是行业内的应用平台,这是因为没有行业应用具体特征的数据平台会比较空泛,而解决工业领域各种细分需求的平台需要花费更多时间打造;其次,从技术逻辑角度来看,基于工业产品的时空数据库并没有较好的解决方案,相应可以布局专门针对工业领域数据特点的解决方案。第三,应用层。因为这个行业相对比较早期,哪怕相对比较大型的企业如树根互联、网智天元、徐工信息等,可能在某一个细分领域凭借原来的行业经验积累了丰富的应用,或者凭借母公司带来相对垄断的资源,但也还都是项目制的方式运营,完全以标准化产品提供服务的还比较少。应用层的创业和投资机会,可以从两个方面考察:第一,信息化是否提前完成;第二,有资金和技改经费。按照这两个标准,能源、电力、高端装备制造业等都是比较好的选择。整体来说,在工业互联网板块三个层级里,哪一个层级会先有选手跑出来呢?从用户的角度来看,可能是平台层。虽然没有边缘层这些企业解决数据采集、数据治理、数据清洗的问题,平台层无从谈起。但是边缘层往往吃力不讨好。大的企业客户往往急于看到效果,对于平台层的需求往往超出对于边缘层的需求。应用层是不是没有机会呢?也不是。但是在工业互联网领域,用户在意的是究竟能不能解决问题。从行业来看,一定是在能源、电力、高端装备制造业等板块,会较早的跑出一些选手。大数据领域经历了2013年开始的疯狂增长,2016年的断崖式下降,以及2018年以来的迭代复苏,单一的数据技术逐步与人工智能技术结合,应用场景从营销获客、金融风控等为主,转为与城市管理、工业制造等领域越来越深度的结合。大数据产业正进入到2.0时代。新时代下大数据与人工智能的融合,已然成为各行各业技术驱动、产业升级的重要支撑。具备数据智能的能力、以场景应用为中心的项目,将成为大数据领域的投资主流。

热门文章

        对数据标注行业稍微有些了解的人都知道数据标注进入门槛低,适合很多人兼职也适合创业。        正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。        但是目前有个有趣的现象,那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑?为什么有些人会说数据标注就是个坑呢?        其实对与有上述问题认识的人我们认为,这些人多数都是有于对这个行业对自身条件的不了解,盲目的开始进入数据标注行业的。为什么我们会这样说呢?下面就给给大家来分析下到底有哪几方面的原因:        一、有相当一部分人是听了朋友或者网上消息说这行很火爆,好做,门槛低,也有一部分人了因此租办公室买电脑招人,然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业,更没有认真仔细得去调查分析,到底自己能不能做好一个项目,到底自己能不能有质有量按时交付的完成一个项目,到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。        二、数据标注项目虽然入门门槛低,但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目,还有一部分人由于自己对标注项目重视程度不足接到项目之后呢?不仔细认真的去阅读理解项目规则,更没有很好的对规则质检标准去培训员工,而对员工的要求主要看重每天的产出效率,从而导致接到手的项目做的质量很差,频繁的返工,有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少,最终的结果就是做好些个项目但基本都是赔钱。        三、虽然业内人都 说数据标注简单,但是标注项目他也是一个系统性的工程,一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平,质量管理能力,运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱,要赚钱不是那么简单的。        四、还有些工作室 、小公司因为对行业不够了解等他们做了一段时间后发现,自己团队经常会没有项目做,而自己团队接项目的业务能力又不具备,甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目,时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。        五、下来要说的就是一部分人人兼职人员由于认识不到位,对项目的规则质量要求 文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算,最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。        标注行业本身由于进入门槛低,做的人很行业内盲目打价格战,导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱,所以在这里也提醒大家做任何事都要谨慎而行。