山东省大数据研究会学术委员会许宪春等:中国数据资本形成总额与数据资本存量测算(全文)

来源:国脉数据资产
摘要:数据是数字经济时代的关键生产要素,其资产化是必然趋势。然而,数据资产的概念、核算范围、核算方法等统计核算问题,在国内外尚未形成统一标准。本文在国民经济核算框架下,从理论、方法与应用分析三个层面开展国际可比口径的数据资产测算研究。本文结合智联招聘数据、天眼查企业数据、上市公司财务数据、就业工资统计数据等资料来源,利用机器学习、文本分析等统计分析工具,基于双链结构数据价值链的成本法测算了全国、地区和行业层面的数据资本形成总额,利用永续盘存法测算了相应的数据资本存量。结果显示,中国数据资本形成总额由2003年的509.28亿元上升至2021年的14738.27亿元;中国以2003年为基年的不变价数据资本存量由2003年的896.35亿元上升至2021年的19075.90亿元。分区域看,东部经济发达地区数据资本形成总额与数据资本存量位于前列,西部和东北地区较低。分行业门类看,制造业数据资本形成总额与数据资本存量规模最大。中国数据资本形成总额和数据资本存量增速明显高于美国和加拿大;中国数据资本形成总额在2021年略超过美国,但数据资本存量相较美国还存在一定差距。
关键词:数据资本形成总额;数据资本存量;大数据;机器学习
本文发表于国家社会科学基金资助期刊《经济研究》2025年第60卷第3期
基金:国家社会科学基金项目(21CTJ001、23BJL084)的资助
本文研究中国数据资本形成总额与存量的测算方法、结果及其国际比较。相较于现有研究,本文最大的贡献是提供了国际可比口径的数据资产核算框架,解决了国内外数据资产统计核算标准不统一的问题。本文在国民经济核算框架下,从理论、方法、应用三层面构建测算体系:结合多源数据(如智联招聘、天眼查)和工具(机器学习、文本分析),用成本法测数据资本形成总额、永续盘存法测存量;最后分析区域、行业差异及国际比较(如美加)。结论表明:中国数据资本总额和存量显著增长(2003-2021年),区域上东部领先、行业上制造业最大,增速高于美加但存量仍有差距。
全文内容概要
党的十九届四中全会提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,首次将数据与劳动、资本、土地、技术等并列作为重要的生产要素,在全世界率先明确提出“数据生产要素”这一概念。数据作为一种新型生产要素,扮演基础性战略资源和关键性生产要素的双重角色,其资产化是必然趋势。2023年,国民账户秘书处间工作组(ISWGNA)已经明确将数据视为生产活动结果,数据资产的生产属性得到广泛认同。数据作为资产既有知识产权产品的非竞争性、非消耗性特征,又具有时效、价值融合增值、非货币交易模式等独特的特征,并且数据交易市场与定价机制很不完善。当前尚未形成统一的数据资产的概念、口径范围和核算方法,且在国民经济核算框架下针对中国的数据资本形成总额与数据资本存量的相关研究也并不多见。
鉴于此,本文依据国民经济核算国际标准——国民账户体系(SNA),从理论、方法与实证三个方面构建数据资产统计与核算框架,测算了全国、分省份和分行业的数据资本形成总额与数据资本存量,为推进政府统计部门开展数据资产核算提供实践经验和决策参考。
在理论和方法层面,本文厘清了数据、数据要素、数据资产、数据资本形成总额、数据资本存量等相关概念及其相互关系;在SNA框架下,结合ISWGNA提出的数据资产核算最新内容与观点,构建“双链结构”数据价值链;针对知识产权产品资本形成总额的口径范围,剔除了数据资本形成总额中与计算机软件、R&D资本形成总额重复的部分,剔除了自给型数据与交易型数据重复的部分,避免了固定资本形成总额的重复计算;针对各年份设置不同的时间——使用因素,化解了不同岗位数据相关从业人员面临同时从事数据和非数据相关工作的复合性问题;最后,结合招聘数据、天眼查企业数据、上市公司财务数据、就业工资统计数据等资料来源,利用机器学习、文本分析等统计分析工具,基于成本法测算了中国数据资本形成总额,采用永续盘存法测算了数据资本存量。本文采取的测算口径与美国经济分析局、加拿大统计局基本一致,数据结果具有国际可比性。
测算结果显示:总体来看,中国数据资本形成总额呈显著的上升走势,由2003年的509.28亿元上升至2021年的14738.27亿元;中国以2003年为基年的不变价数据资本存量由2003年的896.35亿元上升至2021年的19075.90亿元。其中,原始数据资本形成总额与数据资本存量仍旧最高,2018年开始,数据开发产品相应指标超过数据库资本。分区域看,各省份数据资本形成总额与数据资本存量均呈显著上升走势,但存在区域不平衡问题。东部经济发达地区数据资本形成总额与数据资本存量位于前列,西部和东北地区较低。分行业门类看,制造业数据资本形成总额与数据资本存量规模最大;信息传输、软件和信息技术服务业以及金融业也是数据资本渗透率很高的行业。与美国和加拿大对比发现,中国数据资本形成总额和数据资本存量的增速明显更高,中国数据资本形成总额在2021年略超过美国,但数据资本存量相较美国还存在一定差距。
一是基础资料不足,难以满足按成本法测算数据产出价值的需求。因此,需要借鉴现有规模以上工业企业成本费用调查制度,结合数据相关活动的特点,研究建立相应的成本费用调查制度,满足测算数据相关活动的劳动力成本、固定资本成本、中间消耗和资本回报的需求。
二是数据的一系列独特属性给数据产出价值测算带来挑战,需要针对不同类型数据进一步探讨合适的数据产出价值测算方法。仅通过成本法进行测算是不够的,会低估数据产出价值。因此,需要根据数据的独特属性,针对不同类型数据进一步探讨合适的数据产出价值测算方法。
三是数据产出价值转化为数据资本形成总额的过程面临实际困难,需要开展典型调查,测算数据产出资产化比例系数。为了更加准确地进行数据资产化测算,需要对数据密集型企业开展典型调查,在此基础上测算出数据产出资产化比例系数。
四是数据的非消耗性特征给数据资产折旧率的确定和数据资本存量的测算带来挑战。不同于厂房、机器设备等固定资产,数据资产的价值不一定会随着使用而自然地衰减。在一些应用场景中,数据的使用过程中还可能会产生新的数据,使用的次数越多,数据的体量越大。因此,需要针对数据的这种特征,研究数据资产折旧率的解决办法。
五是交易型数据资本形成总额和数据资本存量测算面临挑战,需要进行深入研究,提出测算方法。由于当前数据交易市场与定价机制很不完善,交易型数据的资料获取困难,现有国内外从国民经济核算角度测算数据资本形成总额和数据资本存量的研究,都仅测算了自给型数据资本形成总额和数据资本存量。因此,未来需要对数据密集型企业开展深度调研,提出交易型数据资本形成总额和数据资本存量的测算办法。
六是关于国民经济核算中的数据资产与企业会计中的数据资产之间关系的研究存在缺口,需要通过理论研究和实际调研明确彼此之间的联系与区别,为数据资本形成总额和数据资本存量测算奠定扎实基础。
全文分享如下
数据在赋能企业数字化转型、数字政务以及人民美好生活等经济社会各领域中发挥着日益重要的作用,成为经济社会发展的创新引擎。党的十九届四中全会在全世界率先明确提出“数据生产要素”这一概念。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出“加快建立数据资源产权、交易流通等基础制度和标准规范”。2022年12月,《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》从数据产权、流通交易、收益分配、安全治理四个方面初步搭建数字基础制度体系。可见,从顶层制度设计层面,党和国家确立了数据要素的重要地位,并把充分发挥数据要素价值提升至战略高度。
数据已然成为新型生产要素,扮演基础性战略资源和关键性生产要素双重角色,其资产化是必然趋势。国民账户秘书处间工作组(ISWGNA) (2023)数字化工作小组已经明确数据为生产活动结果,数据资产的生产属性得到广泛认同。但数据作为资产既有知识产权产品的非竞争性、非消耗性特征,又有时效性、价值融合增值、非货币交易模式等特征(许宪春等,2022b; 熊巧琴和汤珂,2021; Ahmad & Van de Ven,2018;Li et al.,2019),并且当前数据交易市场与定价机制很不完善(中国信息 通信研究院,2020),这给数据资产的测算带来巨大困难。在第22次国民经济核算专家会议上,ISWGNA数字化工作小组公布了各国统计部门初步估算的数据资产价值与GDP之间的比例,指出各国统计部门仍缺乏系统地核算数据这一新型资产的统计经验以及数据资本存量核算官方方法上的规定(ISWGNA,2023)。
各国统计机构和学者针对数据资产核算的理论和方法展开不少探索。界定数据资产的概念和范围是对数据资产进行核算的前提。许宪春等(2022b)、Statistics Canada(2019a)、Rassier et al. (2019)、李原等(2022)在国民经济核算框架下界定数据资产的概念和范围。也有对数据资产定义的研究关注数据资产的未来收益、权属性等问题(罗玫等,2023;中国信息通信研究院,2018)。Ah‐mad & Van de Ven(2018)、Li et al.(2019)、许宪春等(2022b)从非货币交易模式、价值与应用场景等有关方面拓展了数据资产的特征。目前,国内外关于数据资产的概念和范围尚未形成统一定论。大部分研究以企业数据资产为对象给出定义,围绕个人数据资产和政府部门数据资产的概念和范围开展的研究较少(向书坚等,2023;许宪春等,2022a)。
关于数据资产价值的测算,目前学术界和实际工作部门尚未形成成熟的方法。因数据资产属于无形资产,绝大部分研究借鉴了无形资产的测算方法,主要有市场法、净现值法和成本法。市场法要求市场上有足够的数据交易类型和模式以获取目标资产可比指标、技术参数等信息(许宪春等,2022b)。由于数据具有非竞争性、价值与应用场景相关等特征,以及数据交易市场存在交易标准与规则不完善等问题,市场法仅适用于少数交易型数据资产,并不适用于绝大多数自给型数据资产(ISWGNA,2023)。净现值法通过测算数据资产未来可能产生的潜在收入,估算数据资产的现有价值(中国信息通信研究院,2020)。但由于数据资产用途多样,使用期限、潜在经济收益具有极大不确定性,这种方法难于在实践中应用。成本法是将数据资产生产过程中的所有投入成本之和作为数据资产价值,广泛应用于无形资产测度研究中(Corrado et al.,2009;郑世林和杨梦俊,2020)。成本法具有客观性和较强的可操作性,2008年SNA和《知识产权产品资本测度手册》均建议在国民经济核算中采用成本法测算自给型计算机软件、数据库和研究与开发(R&D)等知识产权产品。成本法是目前无法获得数据资产市场价值的情况下,最适当的数据资本形成总额测算方法(中国信息通信研究院,2020;ISWGNA,2023)。
目前仅有少数实证研究对数据资产价值进行不同程度的测度。较早的研究主要估算了大数据相关就业活动的就业规模及劳动报酬等指标,为确定数据资产价值评估方法提供了一定参考(Che‐bli et al.,2015;Goodridge & Haskel,2016)。部分研究通过设定投入系数对数据资本存量进行简单估计,如徐翔和赵墨非(2020)沿用加拿大统计局各项投入系数估算2016—2019年中国数据资本存量;杨艳等(2023)基于20家相关机构的调研结果,对加拿大统计局的各项投入系数进行改进,估算了1999—2018年中国数据资本存量。加拿大统计局估算了2005年、2010年、2015年和2018年数据资本形成总额与数据资本存量的上限和下限(Statistics Canada,2019b)。
Calderón & Rassier(2022)和刘涛雄等(2023)系统地测算了数据资本形成总额与数据资本存量。Calderón & Rassier(2022)基于国民经济核算框架提出了成本法的数据资产价值构成,并基于企业招聘数据,采用固定时间-使用因素法测算数据相关劳动力投入,采用固定比例方式推算了非劳动力成本,以此估算数据资本形成总额。刘涛雄等(2023)基于经济学模型推导出成本法的数据资产价值构成,基于《中华人民共和国职业分类大典》测算固定的劳动投入系数,从职业层面测算了数据相关劳动力投入,采用固定比例方式推算了非劳动力成本,基于“增值法”原理考虑数字技术的贡献,测算了中国数据资本形成总额。两者均采用永续盘存法(perpetual inventory method,PIM),分别测算了美国和中国的数据资本存量。
综上所述,一些研究者在理论与实践研究方面取得了重要成果,为后续进一步深入研究奠定了一定基础。但当前研究尚未形成统一的数据资产的概念、口径范围和核算方法,且缺乏在国民经济核算框架下针对中国的数据资本形成总额与数据资本存量展开的实证研究。
本文的创新性研究工作主要包括以下四个方面:
一是厘清了数据、数据要素、数据资产、数据资本形成总额、数据资本存量之间的关系;二是基于国民经济核算国际标准——国民账户体系(SNA),并结合ISWGNA提出的数据资产核算最新内容与观点,测算了中国数据资本形成总额和数据资本存量。三是针对知识产权产品资本形成总额的口径范围,剔除了数据资本形成总额中与计算机软件、R&D资本形成总额重复的部分,剔除了自给型数据与交易型数据重复的部分,避免了固定资本形成总额的重复计算。本文的测算口径与美国经济分析局(BEA)、加拿大统计局一致,测算结果具有国际可比性。四是针对各年份设置不同的时间-使用因素,化解了不同岗位数据相关业务人员面临同时从事数据和非数据相关工作的复合性问题。本文从理论、方法与实证三方面构建数据资产统计与核算框架,为推进政府统计部门实施数据资产核算提供实践经验和决策参考。
(一)数据、数据要素、数据资产、数据资本形成总额、数据资本存量内涵辨析
在国民经济核算框架下,加拿大统计局将数据定义为“已被转换为数字形式的观察,可以存储、传输或处理,并从中获得知识”;ISWGNA(2023)给出了数据更为具体的定义,即“通过获取和观察现象而产生的信息内容;并以数字格式记录、组织和存储来自这些现象的信息元素,从而在生产活动中使用时提供经济效益”,强调了能纳入国民经济核算的数据所具备的三个基本属性:数字化形式、生产活动的结果以及能提供经济效益。
关于数据要素的内涵主要基于生产要素理论展开探讨。生产要素是经济学的基本范畴,是指人们进行社会生产活动时一切资源、环境和条件的投入。生产要素为经济发展提供基础与动力来源(谢康等,2020)。随着经济发展的不断变化,生产要素理论经历了原始的土地与劳动要素二元理论、萨伊的劳动、资本和土地三要素假说、马歇尔的劳动、资本、土地、组织的四生产要素四元论。对于数据这一新型生产要素,不仅像传统生产要素那样,将自身价值转移到新产品当中,而且通过与传统资本、劳动力、技术等生产要素以及信息与通信技术资本相结合,提高既有生产要素利用率和配置效率(蔡跃洲和马文君,2021)。数据要素还能够优化企业生产决策流程、驱动企业管理模式创新、降低交易成本、促进员工通信等(许宪春等,2023;陈剑等,2020;徐翔等,2023)。
综上所述,数据要素是经济学术语,是在讨论生产要素理论时对数据这种新型生产要素的指代,强调了数据的经济价值。人力资本、固定资产、土地等传统生产要素在生产理论中以存量的形式体现并发挥作用。因此,数据要素同传统生产要素一样,也应该以存量的形式被计量。在国民经济核算国际标准中,存量核算中的“固定资产”在流量核算中称为“固定资本形成总额”。数据资产对应的是存量核算,等同于数据资本存量,数据资本形成总额是相应的流量核算。参考固定资本形成总额的定义,数据资本形成总额指在一定时期内获得的数据资产减处置的数据资产的价值总额。“数据要素”等同于“数据资产”或“数据资本存量”,符合数据资产化特征,作为生产要素用作特定货物和服务的生产活动,能为经济所有者带来经济收益的数据。
(二)基于SNA框架的数据价值链和数据资产核算范围
1.基于SNA框架的数据价值链
本文在SNA核算原则下,构建了同时刻画数据增值活动和产出成果的双链结构的数据价值链,在此基础上探讨数据资产的核算范围。
可观察现象是指特征和属性可以被测量和记录的事实或情况,是数据价值形成的起点。可观察现象是客观存在的,不是生产活动产生的结果。原始数据是通过数据采集等增值活动,以数字形式测量和记录的可观察现象,包括非结构化数据和结构化数据。原始数据形成于机构单位带有经济目的的增值活动行为,这些行为本身带有生产性。数据库是将原始数据按照管理目的和实际需求,以数字化形式组织和存储,以供高效访问和使用的数据集合。2008年SNA将数据库定义为“以某种允许高效访问和使用数据的方式组织起来的数据文件”,并明确其生产属性。数据开发产品基于原始数据和数据库,运用必要的数据分析软件和开发工具,通过数据开发活动形成的基于数据的“知识”,进而影响企业生产活动。数据开发是为了增加知识储量而在数据的基础上进行的创造性工作,属于R&D活动范畴,因而也是生产性的。R&D统计与调查更倾向于传统研究与开发活动,并未涉及大部分数据开发活动。本文将已测算的R&D资本形成总额中漏测的数据研发部分纳入数据资本形成总额核算范围,这与Calderón & Rassier(2022)和Statistics Canada(2019b)的做法一致,测算结果国际可比。

2.数据资产的核算范围
并非所有数据都具备资产属性。根据2008年SNA关于“资产”的定义,能纳入资产核算范围的数据,至少同时满足经济所有权明确和收益性这两个基本属性,且与其他知识产权产品的资产化条件相同,ISWGNA(2023)提出在生产过程中使用一年以上的数据才能被视作资产,进行资产化核算,在生产过程中使用年限不足一年的数据作为中间消耗处理。
结合上述对数据内涵和数据价值链的界定,本文认为能够在生产过程中被反复或连续使用一年以上,且能为其经济所有者带来经济收益的数据属于数据资产。
需要说明的是,本文测算的数据资产属于自给型数据,不包括交易型数据。自给型数据是企业为了满足内部需求和目的而自主收集和生成的数据,即企业自行生产的数据资产“原件”;交易型数据是企业通过交易或交换而获得的数据,即主要指企业购买其他机构单位数据资产的“复制件”。
(一)基于成本法的数据产出价值测算
ISWGNA数字化工作小组提出成本法测算自给型数据产出价值包括员工投入的时间成本、中间消耗成本、自给型数据的固定资本消耗和营业盈余净额四项(ISWGNA,2023)。基于此:
成本法的数据产出价值=劳动力成本+固定资本成本+中间消耗+营业盈余净额。
1.劳动力成本测算
从事数据相关业务人员劳动报酬总额等于数据相关业务折合全职劳动投入人数占比×从业总人数×平均工资。
数据相关业务的复合性是指某一岗位中的所有从业人员并不一定均从事数据相关业务,从事数据相关业务的从业人员并不一定把所有时间都用来处理数据相关业务。因此,本文借鉴Calderon & Rassier(2022)的研究思路,采用时间-使用因素指标测度具有复合性特征的数据相关业务折合全职劳动投入人数占比。具体做法如下:
(1)岗位的时间-使用因素测算方法。时间-使用因素提供了分配给数据相关业务的时间和精力的度量方法。根据Blackburn(2021),时间-使用因素将数据相关业务劳动投入占比拆分为岗位人数投入占比和时间投入占比。岗位ω的时间-使用因素可以分解如(1)式所示:
其中,为岗位ω中从事数据相关业务的人数,为岗位ω中所有从业人员人数;为岗位ω中从事数据相关业务人员占总从业人员的比重,为岗位ω中处理数据相关业务投入的时间占比。
本文使用的智联招聘数据的时间跨度为2011—2021年,约1亿余条招聘广告,每条招聘广告包含详细的岗位名称、工作内容等描述。经过清洗后共涵盖3万余个招聘岗位。
本文采用岗位招聘广告中至少包含一个数据相关技能关键词的招聘广告条数占比此岗位所有招聘广告条数的比例对进行估算。数据相关技能关键词主要用来描述采集数据、录入数据、存储数据,对数据进行加工处理、维护、运营和管理数据库,并进行数据分析,以及基于数据开发新软件、新算法、新系统等一系列围绕数据开展的生产经营活动。估计值如(2)式所示:
其中,为指示函数,表示时取1,其他取0;s为广告;y为岗位需求技能关键词子集,S为所有数据相关业务所需技能关键词的集合,为岗位ω的招聘广告总条数。
首先,本文筛选出数据相关业务时间占比为100%的标准岗位。其次,测算其余岗位与标准岗位的余弦相似度,作为其余岗位处理数据相关业务的时间占比。最终确定了25个标准岗位。
余弦相似度是通过空间中两个词向量夹角的余弦值来判断两者的相似程度。测算岗位余弦相似度的算式如(3)式所示:
其中,h是标准岗位的集合,是岗位ω的向量表示形式,是岗位h的向量表示形式。
本文采用以多层Transformer结构为网络架构的BERT预训练的语言表征模型测算余弦相似度。不同于以往的单向语言模型,BERT语言表征模型最终生成融合左右上下文信息的深层双向语言表征(Devlin et al.,2019),同时句子向量已经作归一化处理,结果在[0,1]范围内。
最后,分别测算从事数据相关业务的人数占比和时间占比,得到岗位ω的时间-使用因素。如(4)式所示:
(2)行业的时间-使用因素测算。本文基于天眼查的企业主营业务信息与《国民经济行业分类(2017)》中的行业说明进行匹配,以企业为媒介实现岗位到行业的转换。行业的时间-使用因素为该行业所包含的所有岗位的时间-使用因素的加权平均值,权数为各招聘岗位的招聘广告条数占比。行业i的时间-使用因素计算方法如(5)式所示:
其中,为i行业中第j个岗位广告条数占行业i中广告总条数的比重;为岗位j的时间-使用因素。
(3)数据相关业务劳动报酬总额的测算。根据行业的时间-使用因素、行业就业人数和平均工资,可以计算从事数据相关业务而获得的劳动报酬总额W,如(6)式所示:
其中,I为行业的个数,H为行业i的从业人数;为行业i的平均工资。
2.数据相关活动的固定资本成本、中间消耗和营业盈余净额的测算
本文参考Calderon & Rassier(2022)的做法,通过测算与数据相关劳动力成本的比例系数进行估算。数据相关固定资本与数据相关劳动力成本的比例系数为α,通过测算高数据相关行业的上市公司的固定资产折旧与长期待摊费用、无形资产摊销费用之和与劳动报酬的比率,并取均值作为α。本文测得2011—2021年各行业平均值为0.167。数据相关中间消耗与劳动力成本的比例系数为β,采用深圳市统计局的统计调查数据,设定为0.580。数据相关营业盈余净额即资本回报为γ,同样采用上述高数据相关行业的平均利润率为4.9%。因此,数据相关营业盈余净额与数据相关劳动报酬的平均比率(1 + α + β)γ,为0.086。
那么,根据成本法测算的数据产出价值C如(7)式所示:
其中,T为两位数行业个数;为行业i数据相关活动获得的劳动报酬总额。
(二)数据资本形成总额测算
1.剔除已计入计算机软件、R&D资本形成总额以及交易型数据的部分
本文通过调整计算机软件开发岗位的时间-使用因素对数据库开发与管理软件成本投入进行剔除,调整数据相关业务劳动报酬总额。借鉴Calderon & Rassier(2022)的研究,将数据处理和存储服务业中50%的生产成本不认定为交易型数据进行剔除。
2.剔除小农户劳动者报酬
由于中国农业中多为小农户经营模式,农户直接参与生产活动,几乎不通过招聘网站雇佣务农人员,数据相关投入也接近于零。本文通过估算小农户劳动者报酬的比例系数进行剔除。第i年的小农户劳动者报酬剔除系数θ为当年流转入农户的面积÷(当年流转入农户的面积+当年流转入专业合作社的面积+当年流转入企业的面积)。
3.数据产出资产化测算
由前文对数据资产概念的界定,在生产过程中被反复或连续使用一年以上的数据才属于数据资产,将使用不足一年的数据作为中间消耗处理。本文参考Calderon & Rassier(2022)的做法,将数据资产化的比例系数设定为50%。经过上述分析可知,各行业数据产出中资产化的部分占比为:。
在数据资本形成总额的基础上,本文采用PIM进一步测算数据资本存量。PIM是国际上测算生产性资本存量的通用方法,有关R&D、计算机软件等知识产权产品资本存量测算均以PIM为主(郑世林和杨梦俊,2020;Schreyer,2001;Baldwin et al.,2012)。根据PIM,生产性资本存量的测算公式可以简化为(8)式:
其中, 为第t期资本存量, 为第t期固定资本形成总额, 为固定资本折旧率。此外,测算可比数据资本存量,还需要构建数据资本形成总额价格指数。
(一)数据资产折旧率的确定
1.数据资产使用寿命的设定
本文针对三类数据资产的特征设定不同的使用寿命。美国经济分析局将所有数据资产的使用寿命均设定为5年;加拿大统计局把数据资产分为数据、数据库和数据科学三类,使用寿命分别设定为25年、5年和6年。考虑到原始数据大多是尚未经过专门处理的、零散的、低价值密度的数据,本文将原始数据的使用寿命设定为4年。数据库是在原始数据的基础上加工形成的组织化的高密度的数据集合,寿命应高于原始数据。参考Calderon(2022)的做法,将其设定为6年。数据开发产品的使用寿命参考了有关R&D资产使用寿命的研究(Statistics Netherlands, 2008; Australian Bureau of Statistics, 2009; OECD, 2010),考虑到数据开发产品相对传统研发产品尚不完善,使用寿命设定略低于传统研发产品,为8年。
2.数据资产折旧率的确定
考虑到数据资产价值在最初几年下降得较快,本文采用几何折旧模式,根据数据资产的使用寿命、折旧模式和残值率,确定原始数据、数据库和数据开发产品的折旧率分别为46.82%、43.03%和31.23%。Calderon & Rassier(2022)将各类数据资产的折旧率均设为33%,与本文较为接近。
(二)初始数据资本存量的确定
参考Young(2003)和张军等(2003)的思路,利用当前数据资本形成总额与数据资本存量的比例关系推算初始数据资本存量。两者之间的关系满足(9)式:
其中, 为第t期的数据资本存量; 为当期数据资本形成总额和数据资本存量的平均增长率。当时,初始数据资本存量可以由当年数据资本形成总额、数据资本存量的平均增长率,以及数据资产折旧率表示,如(10)式所示:
(三)数据资本形成总额价格指数的构建
由于缺少可观测的数据市场价格,很难直接编制数据资本形成总额价格指数,本文采用成本价格指数法根据各项投入成本的价格指数来构造数据资本形成总额价格指数。本文先构建劳动力成本、固定资本成本和中间消耗价格指数,然后以各自的投入比重为权重加权合成总指数。同时,因成本价格指数法隐含地假定投入价格变化和产出价格变化是完全一致的,忽略了生产率变化对产出的影响(Crawford et al., 2014),本文通过劳动力生产率对数据资本形成总额价格指数进行调整。
本文分别构建原始数据、数据库和数据开发产品资本形成价格指数。数据资产折旧率指数用固定资产投资价格指数中的设备、工具器具购置价格指数代替,中间消耗缩减指数用工业生产者购进价格指数代替。本文分别构建了三类数据的劳动报酬缩减指数,原始数据采用各行业经过劳动生产率调整的平均工资指数;数据库采用经过劳动生产率调整的信息传输、软件和信息技术服务业的平均工资指数;数据开发产品采用经过劳动生产率调整的R&D人员的平均工资指数,R&D人员的平均工资为各单位R&D全时当量分摊的劳务费。
(一)全国数据资本形成总额与数据资本存量测算结果分析
1.全国数据资本形成总额及相关指标分析
测算结果显示,近些年中国数据资本形成总额呈显著上升走势。随着5G、人工智能等新一代信息技术的迅速崛起,数据要素价值不断得到释放。其中,原始数据资本形成总额明显高于数据库资本形成总额和数据开发产品资本形成总额。这反映出中国数据资产结构仍以原始数据为主,原始数据的采集大多通过自动化过程实现,相对零散且价值密度低,未来仍需大力激活数据资产潜能,持续推动数据开发利用。2017年以来,数据开发产品资本形成总额超过数据库资本形成总额。这说明随着数据应用的不断深化,数据开发产品逐渐被应用于各领域,也反映出中国数据资产由价值链低端不断向价值链高端转化。总体来看,目前数据资本形成总额对固定资本形成总额、支出法GDP的影响不大,但数据资本形成总额上升势头强劲,可以预见未来影响将愈加显著。
2003—2021年中国数据资本形成总额平均增速为16.81%,高于同时期GDP平均增速8.13个百分点。表1显示,“十一五”时期,随着中国经济从高速增长转向中高速增长,拉动经济增长的“三驾马车”之一——投资需求的贡献率有所减弱。但数据资本形成总额对GDP增长的贡献率愈发显著,对GDP增长的拉动作用不断增强。

2.全国数据资本存量及相关指标分析
表2显示,中国数据资本存量呈现明显的上升走势,原始数据资本存量仍旧最高,2018年开始,数据开发产品资本存量超过数据库资本存量。数据资本存量增速同样位于较高区间,明显高于GDP增速。

(二)各省份数据资本形成总额与数据资本存量测算结果分析
表3显示,中国各省份数据资本形成总额与数据资本存量均呈显著上升走势,但存在区域不平衡问题。东部地区数字经济产业日趋密集,却面临能耗紧张等瓶颈,而西部地区可再生能源丰富,气候条件适宜数据产业发展。因此,仍需加快实施“东数西算”工程,通过有序“算力西移”,实现东西部优势互补。


(三)分行业数据资本形成总额与数据资本存量测算结果分析
表4测算结果显示,各行业数据资本形成总额、数据资本存量占比存在很大差异。制造业数据资本形成总额、数据资本存量占比最高。同时,制造业数据资本形成总额与数据资本存量的占比均呈明显下降趋势,这与近年来中国出现过快“去工业化”现象有关。信息传输、软件和信息技术服务业,金融业也是数据资本渗透率很高的行业。这表明数字经济发展显著推动了金融领域数字化变革。


(四)中国与美国、加拿大数据资本形成总额和数据资本存量比较分析
如表5所示,2003—2021年,中国、美国和加拿大数据资本形成总额和数据资本存量均呈明显的上升走势。美国数据资本形成总额与数据资本存量一直处于较高水平,2003年数据资本形成总额已经达到7300.32亿美元,数据资本存量达到了17207.89亿元,分别是中国的11.35倍和15.20倍。伴随着中国近年来互联网领域的兴起,数字经济快速发展,积累了越来越丰富的数据资产。中国数据资本形成总额在2010年前后超过加拿大,在2021年略超过美国,但数据资本存量与美国相比仍存在一定差距。当然,这也反映2021年之前人民币升值的影响,以汇率法换算的中美数据资产差距逐渐缩小。但中国数据资本形成率逐年递增,已经明显快于美国和加拿大。


(一)主要结论
本文在国民经济核算框架下,厘清了数据、数据要素、数据资产、数据资本形成总额、数据资本存量相关概念及其相互关系,使用成本法测算了数据资本形成总额,使用永续盘存法测算了数据资本存量,测算口径与美国和加拿大相同,具备国际可比性。测算结果显示,2003—2021年,中国数据资本形成总额和数据资本存量均呈显著上升的走势。各省份数据资本形成总额和数据资本存量差距较大,数据资本的存量和形成总额主要集中在数字经济发达的东部地区。各行业数据资本形成总额和数据资本存量也存在较大差异。2003—2021年,中国、美国和加拿大数据资本形成总额和数据资本存量均呈现快速上升走势,中国两项指标的增长速度均高于美国和加拿大,2021年中国数据资本形成总额略超过美国,但数据资本存量与美国还有一定差距。
(二)问题与建议
数据资本形成总额和数据资本存量测算仍存在许多问题,需要进一步深入探讨,提出解决问题的办法。
一是基础资料存在严重不足,满足不了按成本法测算数据产出价值的需求,需要研究建立成本费用调查制度。现有研究基本都认为,成本法是当前测算数据产出价值相对可行的方法。但是,由于目前基础资料存在严重不足,采用这种方法不得不对从事数据相关活动的各种成本进行大量估算。目前国内外从国民经济核算角度采用成本法测算数据产出价值的研究都是这样做的。由于估算成分较大,这势必影响到测算结果。为了利用成本法准确地测算数据产出价值,需要借鉴现有规模以上工业企业成本费用调查制度,结合数据相关活动的特点,研究建立相应的成本费用调查制度,满足测算数据相关活动的劳动力成本、固定资本成本、中间消耗和营业盈余净额的需求。
二是数据的一系列独特属性给数据产出价值测算带来挑战,需要进一步探讨合适的数据产出价值测算方法。数据具有不同于其他货物和服务的独特属性,例如,数据具有非竞争性、价值融合增值、价值与其应用场景有关、非货币交易模式等独特属性。以价值融合增值特征为例,单一或少量数据的价值往往很有限,但通过数据的融合,可以从中挖掘更多的有效信息。又如,数据价值与其应用场景有关,同样的数据在不同应用场景中获取的价值不同。数据的一系列独特属性,给数据产出价值测算带来挑战,仅通过成本法进行测算是不够的,会低估数据产出价值。因此,需要根据数据的独特属性,针对不同类型数据进一步探讨合适的数据产出价值测算方法。
三是数据产出价值转化为数据资本形成总额面临实际困难,需要开展典型调查,测算数据产出价值。资产化比例系数。本文依据国民经济核算国际标准,将在生产过程中被反复或连续使用一年以上的数据纳入数据资产,将使用不足一年的数据作为中间消耗。由于无法获取基础资料,本文参考ISWGNA(2023)、Calderon & Rassier(2022)的做法,将数据产出资产化的比例系数设定为50%。这一设定存在一定的主观成分,为了更加准确地进行数据资产化测算,需要对数据密集型企业开展典型调查,在此基础上测算出数据产出资产化比例系数。
四是数据的非消耗性特征给数据资产折旧率的确定,进而对数据资本存量测算带来挑战,需要针对数据的这种特征,研究数据资产折旧率的解决办法。目前,国内外从国民经济核算角度测算数据资本存量的研究,包括本文,美国经济分析局和加拿大统计局都采用永续盘存法。但不同于厂房、机器设备等固定资产,数据资产的价值不一定会随着使用而自然地衰减。在一些应用场景中,数据的使用过程中还可能会产生新的数据,使用的次数越多,数据的体量越大。例如百度地图利用AI算法能力,从车辆运行轨迹的大数据中提炼出有效信息进行分析,用户数据越庞大,算法越精准。这给利用永续盘存法测算数据资本存量价值时如何确定数据资产折旧率带来挑战。因此,需要依据国民经济核算国际标准关于固定资产消耗的界定,针对数据的非消耗性特征,研究数据资产折旧率的解决办法。
五是交易型数据资本形成总额和数据资本存量测算面临挑战,需要进行深入研究,提出测算方法。由于当前数据交易市场与定价机制很不完善,交易型数据的资料获取困难,从国民经济核算角度测算数据资本形成总额和数据资本存量的研究,包括本文、美国经济分析局、加拿大统计局都仅测算了自给型数据资本形成总额和数据资本存量,需要对数据密集型企业开展深度调研,提出交易型数据资本形成总额和数据资本存量的测算办法。
六是国民经济核算中的数据资产与企业会计中的数据资产之间的关系研究存在缺口,需要通过理论研究和实际调研,明确彼此之间的联系与区别,为数据资本形成总额和数据资本存量测算奠定扎实基础。国民经济核算和企业会计在数据资产的概念、口径范围和处理方式等方面均有所不同,但是,企业会计中数据资产的有关资料又是国民经济核算中数据资本形成总额和数据资本存量测算的基础资料。当前这方面的研究存在缺口,需要通过对国民经济核算理论和方法与企业会计理论和方法进行深入研究,同时需要对企业会计中数据资产的处理方式进行系统深入调研,明确国民经济核算与企业会计在数据资产的概念、口径范围和处理方式等方面的联系与区别,为数据资本形成总额和数据资本存量测算奠定扎实基础。
免责声明:本号所载内容均为原创、投稿、授权转载或网络公开资料搜集整理,仅供读者交流学习使用,版权归原作者所有,且仅代表作者个人观点,与本号立场无关。若所引用的图片、数据、文字等来源标注有误或涉及侵权,烦请及时联系删除。