采用基于大数据的收视分析方法,能够有效解决由于抽样调查样本量不足导致的样本易被污染、部分节目收视统计误差较大、部分节目出现“0收视”情况等问题,并能够给出绝对量指标和比率指标,数据统计精准到户、节目分析精确到秒,实现对广播电视收视结果客观、全面、真实的统计。
▍收视大数据分析的整体架构
收视大数据分析可以包括 整体分析、频道分析、节目分析、分钟级/秒级分析四级分析架构,其整体架构如图1所示。
收视大数据处理过程中,涉及收视大数据采集、清洗、入库、分析、应用等环节,本文聚焦于收视大数据分析环节的数据处理方法。
收视大数据在清洗、转换、入库后,得到的结构化的用户收视行为数据通常存储在HIVE等大数据仓库中。从宏观到微观,能够对收视数据进行以下4个层次的分析:
1、从数据整体规模上对收视数据进行宏观统计分析;
2、基于频道划分信息,对每个频道的收视数据进行分析;
3、在此基础上增加节目信息,对每个节目的收视数据进行分析;
4、以系统能够支持的最细时间精度,对收视数据进行分钟级/秒级收视分析。
分析结果为结构化数据,其数据量一般已不需要采用大数据技术进行处理。分析结果中,一部分结果可直接作为系统输出的指标,如收视用户数;另一部分需要按照收视指标相关公式进行计算后得到,如得到收视时长结果后,可通过计算得到收视率指标等。
▍收视大数据分析的关键思路
如何将大数据的优势与收视调查应用相结合是收视大数据分析的关键所在。大数据技术的长处在于能够批量地处理海量规模数据的计数、累加等基本运算操作。因此,可以将收视数据分析中的各个过程拆解为这些基本运算操作,使之能够在大数据平台上采用MapReduce等模型进行高效、并行、稳定的运算。
经分析,在收视大数据分析过程中,涉及三类大数据平台的典型运算,分别是 累加、去重和 计数。
1、 累加,即对某类符合条件记录的特定字段的值进行加和。在收视大数据分析中,基于时间的指标一般可以直接相加,通常采用累加的方式进行处理。
2、 去重,即统计某类符合条件记录的总条数,并以特定字段为唯一标识,对该字段相同的记录保留且仅保留一条。在收视大数据分析中,基于用户数量的指标一般要求同一名用户仅统计一次,通常采用去重的方式进行处理。
3、 计数,即统计某类符合条件记录的总条数。在收视大数据分析中,记录条数、进入次数、退出次数等指标通常采用计数的方式进行处理。
▍收视大数据分析的主要环节
经上文分析,从宏观到微观,收视大数据分析的过程主要包括 一级分析(整体分析)、二级分析(频道分析)、三级分析(节目分析)、四级分析(分钟级/秒级分析)四个环节。
■ 一级分析(整体分析)
一级分析(整体分析)的技术思路如图2所示。
本级分析利用收视行为数据,从数据整体规模上对收视大数据进行宏观统计分析,主要包含 累加模块、去重模块、计数模块,各个模块在本级分析中的处理思路如下:
1、 累加模块
读取目标时间范围内(包括两种情况:a.记录开始时间在时间范围内;b.记录结束时间在时间范围内。下简称“起止”)所有收视行为记录中的时长字段,按照目标时段的起止时间对每条收视行为数据进行截断后,利用累加模块对所有收视行为记录的收视时长进行加和,输出指标为总收视时长。
2、 去重模块
(1)读取目标时间范围内(起止)所有收视行为记录中的用户唯一标识字段(如机顶盒序列号等),利用去重模块对所有收视行为记录的用户唯一标识进行去重,输出指标为活跃用户数。
(2) 根据目标时段的不同,可输出日活跃用户数、月活跃用户数、年活跃用户数等指标。
(3) 此外,利用总收视时长和活跃用户数,可以得到户均收视时长。
3、 计数模块
读取目标时间范围内(起止)所有收视行为记录,利用计数模块对所有收视行为记录的条数进行统计,输出指标为总记录条数。此外,利用活跃用户数和总记录条数,可以得到户均记录条数。
■ 二级分析(频道分析)
二级分析(频道分析)的技术思路如图3所示。
本级分析利用收视行为数据和频道划分信息,对每个频道的收视数据进行分析,主要包含 频道分组模块、累加模块、去重模块、计数模块,各个模块在本级分析中的处理思路如下:
1、 频道分组模块
读取频道数据中的频道映射表(频道映射表包含了频道名称与频道唯一标识之间的映射关系)和目标时间范围内(起止)所有收视行为记录中的频道标识字段,按照目标时段的起止时间对每条收视行为数据进行截断后,按照频道映射表规则,对收视行为数据按频道进行分组。
2、 累加模块
对于每一个频道,读取该频道分组下目标时间范围内(起止)收视行为记录中的时长字段,利用累加模块对收视行为记录的收视时长进行加和,输出指标为该频道的收视时长。
3、 去重模块
(1)对于每一个频道,读取该频道分组下目标时间范围内(起止)收视行为记录中的用户唯一标识字段,利用去重模块对所有收视行为记录的用户唯一标识进行去重,输出指标为频道观看用户数;
(2)读取该频道分组下目标时间范围内(仅包括记录开始时间在时间范围内的情况,下简称“仅起”)进行上述去重操作,输出指标为频道流入用户数;
(3)读取该频道分组下目标时间范围内(仅包括记录结束时间在时间范围内的情况,下简称“仅止”)进行上述去重操作,输出指标为频道流出用户数;
(4)此外, 利用频道收视时长和频道观看用户数,可以得到频道户均收视时长。
4、 计数模块
(1)对于每一个频道,读取该频道分组下目标时间范围内(起止)收视行为记录,利用计数模块对所有收视行为记录的条数进行统计,输出指标为频道观看人次。需要说明的是, 持续时间过短的切换台行为记录应在前序数据清洗环节进行处理,是本环节不必考虑的。
(2)读取该频道分组下目标时间范围内(仅起)进行上述累加操作,输出指标为频道进入次数;
(3)读取该频道分组下目标时间范围内(仅止)进行上述累加操作,输出指标为频道退出次数;
(4)此外, 利用频道观看用户数和频道观看人次,可以得到户均观看次数。
■ 三级分析(节目分析)
三级分析(节目分析)的技术思路如图4所示。
本级分析利用收视行为数据、频道划分信息、EPG(电子节目指南)信息,对每个节目的收视数据进行分析,主要包含 频道分组模块、节目切分模块、累加模块、去重模块、计数模块,各个模块在本级分析中的处理思路如下:
1、 频道分组模块:与二级分析(频道分析)中的处理思路相同。
2、 节目切分模块:对于每一个频道,读取该频道分组下目标时间范围内(起止)收视行为记录,按照 EPG中的节目切换时点对每条收视行为数据进行切分,将每个频道下的收视行为数据进一步切分到每个节目下。
3、 累加模块:对于每一个节目,读取该节目目标时间范围内(起止)收视行为记录中的时长字段,利用累加模块对收视行为记录的收视时长进行加和,输出指标为该节目的收视时长。
4、 去重模块:
(1)对于每一个节目,读取该节目目标时间范围内(起止)收视行为记录中的用户唯一标识字段,利用去重模块对所有收视行为记录的用户唯一标识进行去重,输出指标为节目观看用户数;
(2)栏目是电视台每天播出的相对独立的信息单元,是单个节目的组合。栏目的起止时间是单个节目起止时间的组合,读取该栏目目标时间范围内(起止)收视行为记录中的用户唯一标识字段,利用去重模块对所有收视行为记录的用户唯一标识进行去重,输出指标为栏目观看用户数;
(3)对于每一个节目,读取该节目目标时间范围内(仅起)收视行为记录中的用户唯一标识字段进行上述去重操作,输出指标为节目流入用户数;
(4)对于每一个节目,读取该节目目标时间范围内(仅止)收视行为记录中的用户唯一标识字段进行上述去重操作,输出指标为节目流出用户数;
(5)此外, 利用节目收视时长和节目观看用户数,可以得到节目户均收视时长。
(6)此外, 对于一个栏目中的两集/期相邻的节目,可以利用栏目观看用户数和节目观看用户数,计算栏目的留存用户数、新增用户数、流失用户数,三者关系如图5所示。
对于某栏目的第 N+1 期节目,其观看用户由两部分组成:一部分用户既观看过上一期节目也观看过本期节目,该部分用户为留存用户 ;另一部分用户未观看过上一期节目但观看过本期节目,该部分用户为新增用户。因此有如下关系式 :
式中:
UNew——第N+1 期节目新增用户数;ULOSS——第N期节目流失用户数;URetention——第N+1期节目留存用户数;
UNUN+1——栏目观看用户数(第 N期和第 N+1期);
UN——第N期节目观看用户数;
UN+1——第N+1期节目观看用户数。
可见,能够通过节目观看用户数、栏目观看用户数计算栏目新增用户数、流失用户数、留存用户数。
1、 计数模块
(1)对于每一个节目,读取该节目目标时间范围内(起止)收视行为记录利用计数模块对所有收视行为记录的条数进行统计,输出指标为节目观看人次。
(2)读取该节目目标时间范围内(仅起)进行上述累加操作,输出指标为节目进入次数;
(3)读取该节目目标时间范围内(仅止)进行上述累加操作,输出指标为节目退出次数。
■ 四级分析(分钟级/秒级分析)
四级分析(分钟级 /秒级分析)的技术思路如图 6 所示。本级分析利用收视行为数据、频道划分信息对频道每分钟/每秒的收视数据进行分析,主要包含 频道分组模块和 计数模块。其中,“分钟级”或是“秒级”由大数据分析平台的精度决定。各个模块在本级分析中的处理思路如下:
1、 频道分组模块:与二级分析(频道分析)中的处理思路相同。
2、 计数模块:
(1)对于频道下每一分钟/秒,读取该分钟/秒内包含的收视行为记录(起止),利用计数模块对所有收视行为记录的条数进行统计,输出指标为该分钟 /秒的观看用户数。
(2)读取该分钟/秒内包含的收视行为记录(仅起)进行上述累加操作,输出指标为该分钟/秒的流入用户数。
(3)读取该分钟/秒内包含的收视行为记录(仅止)进行上述累加操作,输出指标为该分钟 /秒的流出用户数。
(4)此外,若大数据分析平台的精度为τ(一般为1分钟或1秒),该分钟/秒的收视时长为该分钟/秒的观看用户数与τ的乘积。
需要说明的是,不同于一级、二级、三级分析,本级分析只用到计数模块,其原因在于:在平台支持的最小时间区间(例如1秒)内, 一个用户最多只可能出现一次记录(如果在同一时间点上出现了同一用户的多条行为记录,那么这种记录应该在前序清洗环节进行处理,因为一个用户在同一时间点上不应出现两种不同的行为)。
因此,在最小时间区间内不存在去重的问题,观看用户数可以直接由计数得出,故不需要去重模块;另一方面,收视时长也可以由观看用户数直接计算得到(如上),故不需要累加模块。
▍小结
本文从宏观到微观,研究了收视大数据的四级分析架构。各级分析输出了大量的了指标计算结果,这些结果既可以作为收视大数据的分析结果直接输出,也可以作为指标计算模块的输入,进行其他更多维度收视指标的计算与分析。
由本文分析可知,收视大数据的分析过程是不需要人为干预的,各个环节均能够采用成熟的大数据技术进行批量化的自动运算,真正做到了全流程闭环可控,全过程安全可信,为实现广播电视节目收视数据的客观、真实统计提供了一种可行、可靠的技术思路。(本文刊发于《广播与电视技术》杂志2020年第7期,文字有部分修改。)
参考文献:
[1]国家广播电视总局令第6号:广播电视行业统计管理规定【 EB/OL】. 2020-04-13. http://www.nrta.gov.cn/art/2020/4/13/ art_113_50680.html.
返回搜狐,查看更多