资讯中心

商业数据分析实验——自媒体运营分析-数据清洗与预处理

📅 2026/7/5 1:02:50
商业数据分析实验——自媒体运营分析-数据清洗与预处理
实验7-1 自媒体运营分析-数据清洗与预处理实验背景1.1实验目的本实验以全班同学在各大自媒体平台发布作品的互动数据为研究对象借助助睿ETL工具开展数据清洗与预处理工作最终产出两张关键数据表为后续的特征工程构建及可视化分析提供数据支撑。通过本实验学生应掌握认识到数据清洗在整个数据分析链路中的基石地位与不可或缺性运用助睿ETL对来自不同数据源的数据进行筛选、空值补齐、汇总等预处理领会“分支处理”的架构理念将全平台整体概况统计与重点平台精细化分析进行分流处理生成两张标准化数据表分别满足仪表盘各功能模块的数据调用需求1.2 实验思路1..2.1 为什么需要数据清洗从各平台采集回来的原始数据通常无法直接投入分析使用必须先经过清洗环节。审视 自媒体作品数据明细.csv 这一数据文件能够识别出以下若干问题平台冗余数据涵盖B站、CSDN、微信、知乎、小红书等众多平台然而微信、知乎等平台的浏览量数据基本为0。这些平台虽存有作品记录却缺少关键的浏览量数据难以支撑有效分析。无效记录部分作品的浏览量、点赞数、收藏数三项指标均为0。这类记录或因采集异常所致或因作品本身缺乏关注但无论原因如何它们对后续分析均无参考价值。字段缺失点赞、收藏、分享等字段中存在空值NULL若不加处理后续的聚合计算将引发错误。数据清洗的核心任务便是将上述问题逐项消除。1.2.2数据处理流程本次实验有一个特别之处后续的可视化仪表盘需要兼顾展示两类不同维度的信息。第一类是“全平台概况”——全班同学累计发布了多少作品覆盖了多少个平台总浏览量和总互动量分别有多少这些数据需要基于全部平台的原始记录进行统计即使浏览量为0的作品也应纳入作品计数。第二类是“重点平台深度分析”——B站与CSDN的具体数据表现怎样播放量、阅读量及互动率各为多少这部分分析仅需要B站和CSDN中的有效数据即浏览数大于0的记录。由于两类信息对数据口径的要求不一致因此在ETL环节需要采取分支处理策略两张表各自承担不同职责summary_all_platforms 专门服务于仪表盘顶部的全平台概况指标卡展示cleaned_details 则作为中间产物交付给下一阶段实验做进一步加工处理。实验步骤2.1导入数据在公共空间处导出数据自媒体作品数据明细.csv右键资源库新建转换流命名为“创建标题特征互动分析表“2.2创建表在画布中拖入组件“执行一个SQL脚本”解锁画布编辑组件数据库连接选择团队私有数据库脚本代码如下CREATE TABLE IF NOT EXISTS title_feature_analysis (id INT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键,platform VARCHAR(20) NOT NULL COMMENT 平台B站/CSDN,feature_name VARCHAR(50) COMMENT 关键词名称,avg_interaction DECIMAL(10,2) COMMENT 含该关键词的平均互动总数,overall_avg DECIMAL(10,2) COMMENT 该平台整体平均互动总数,sample_count INT COMMENT 含该关键词的作品数) ENGINEInnoDB DEFAULT CHARSETutf8mb4COMMENT标题特征互动分析表;点击确认执行转化流以同样的方式创建内容分析表全平台概况表内容分析表的SQL代码CREATE TABLE IF NOT EXISTS content_analysis (id INT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键,crawl_date DATE NOT NULL COMMENT 采集日期,author_name VARCHAR(100) COMMENT 作者昵称,title VARCHAR(500) COMMENT 作品标题,platform VARCHAR(20) NOT NULL COMMENT B站 / CSDN,likes INT DEFAULT 0 COMMENT 点赞数,favorites INT DEFAULT 0 COMMENT 收藏数,shares INT DEFAULT 0 COMMENT 分享数,coins INT DEFAULT 0 COMMENT 投币数仅B站,views INT DEFAULT 0 COMMENT 播放量/阅读量,url VARCHAR(500) COMMENT 作品链接,total_interaction INT DEFAULT 0 COMMENT 互动总数,has_best TINYINT(1) COMMENT 是否含保姆级,has_lowcode TINYINT(1) COMMENT 是否含零代码,has_practice TINYINT(1) COMMENT 是否含实战,has_tutorial TINYINT(1) COMMENT 是否含教程/指南,has_pit TINYINT(1) COMMENT 是否含踩坑) ENGINEInnoDB DEFAULT CHARSETutf8mb4COMMENT内容分析表;全平台概况表SQL代码CREATE TABLE IF NOT EXISTS summary_all_platforms (id INT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键,crawl_date DATE NOT NULL COMMENT 采集日期,platform VARCHAR(20) NOT NULL COMMENT 平台名称,content_count INT DEFAULT 0 COMMENT 作品数量,total_views INT DEFAULT 0 COMMENT 总浏览数,total_likes INT DEFAULT 0 COMMENT 总点赞数,total_favorites INT DEFAULT 0 COMMENT 总收藏数,total_shares INT DEFAULT 0 COMMENT 总分享数,total_coins INT DEFAULT 0 COMMENT 总投币数仅B站,total_recommend INT DEFAULT 0 COMMENT 总推荐数仅微信,total_likes_zhihu INT DEFAULT 0 COMMENT 总喜欢数仅知乎,total_approvals INT DEFAULT 0 COMMENT 总赞同数仅知乎) ENGINEInnoDB DEFAULT CHARSETutf8mb4COMMENT全平台概况表;2.2全平台聚合统计在数据清洗之前先做一个分支。拖入“排序记录”、“分组”组件按 日期 和 平台 排序、分组其余数值字段全部取求和。输出 summary_all_platforms2.3过滤记录在另一个分支中使用“过滤记录”组件筛选B站和CSDN的有效记录只保留 B站 和 CSDN 两个平台原始数据包含B站、CSDN、微信、知乎、小红书等多个平台。由于微信、知乎等平台的浏览数量大量缺失值为0无法支撑有意义的分析因此只保留 B站 和 CSDN 的记录。逻辑说明括号内的条件组合确保“平台”与“有效记录判定”同时满足一个组件完成双重过滤。助睿ETL的过滤记录组件支持编写复杂条件表达式可通过 AND、OR 灵活组合多条件一步到位完成精细化数据筛选。2.4填充缺失值由于数值字段没有空值但作者名称和作品标题可能存在空值我们统一填充为位置避免后续使用时出现异常。2.5字段选择原始数据中的 source_file是采集批次标记分析阶段用不到剔除掉。投币数量coins保留作为B站特有的互动指标。用“字段选择”组件只保留以下字段其他字段全部剔除date, author_name, title, platform, likes, favorites, shares, coins, views, url2.6输出目标表将处理后的数据输出为 content_analysis这张表是实验7-2的输入。实验结果执行转换流并数据探查在助睿BI看输出表实验心得经过本次实验对自媒体多平台原始数据开展ETL清洗操作我切实领悟到数据预处理环节在整个数据分析体系中起着决定性的根基作用——若底层数据质量不达标上层无论是特征衍生还是可视化展示都不可避免地产生偏差乃至程序崩溃。在接触原始数据集之初我便发现多源采集数据暴露出诸多质量缺陷微信、知乎、小红书等平台的浏览量数据普遍为零构成无效冗余信息相当数量的作品点赞与阅读指标完全归零属于无意义的采集记录标题和作者字段夹杂空值若直接用于聚合统计势必触发异常。本实验在架构层面的精髓在于双分支数据流设计同一份原始数据经分流处理后产出两张功能定位截然不同的数据表——summary_all_platforms完整保留全平台记录以支撑大盘指标核算cleaned_details则仅提取B站与CSDN的有效流量数据用于深度分析。起初我未能充分理解双分支设计的必要性试图统一清除所有零流量记录结果造成全平台作品总量数据失真仪表盘概览指标卡数值出现明显偏差经多轮排查调试后才真正领悟不同分析场景对数据口径有着本质差异。在动手实践环节我逐步熟悉了助睿ETL各类组件的运用技巧利用过滤记录组件实现多条件组合筛选、通过替换NULL值补齐文本类空字段、借助字段选择组件移除冗余采集标记字段、编写SQL脚本创建数据表、运用分组组件完成批量求和聚合。操作过程中也遇到了不少波折例如数据表字段对应关系不一致、过滤条件逻辑方向写反、空值未及时填充致使聚合结果为空等最终均借助数据探查功能逐行比对记录逐一排查解决。