SCANIA Component X 数据集由 SCANIA CV 提供,面向 IDA 2024 工业挑战赛发布,正式论文刊于 Scientific Data 2025。数据来自 33,641 辆重型卡车的真实运营 ECU 记录,覆盖某匿名部件(Component X)的多时间步直方图特征(6 类)+ 累计计数器(8 类)+ 8 个匿名规格类别变量,共 107 列、1.65 GB。时间戳替换为相对 time_step,采样间隔不规则,缺失率 < 1%,正样本严重不均(训练集故障车辆约占 10%)。任务多样:二分类(近期故障)、5 级时间窗口分类、Time-to-Event 回归、生存分析、异常检测。评价采用基于误报成本与漏报成本的 Total_cost 框架。典型预处理建议:直方图特征展平 + 累计计数器差分;不规则时间步插值;过采样/代价敏感学习处理不均衡。可与 SWaT/WADI 组合构建工业场景异常检测基准。社区使用情况:IDA 2024 竞赛前三名均发表于 Springer LNCS 论文集,Scientific Data 正式版发布后引用增长显著。
| 行业 | 重型卡车,车队预测性运维 |
|---|---|
| 任务 | fault_detection,classification,survival_analysis,regression,anomaly_detection |
| 模态 | histogram_features,engineering_parameters |
| 频率档 | low |
| 采样率 | — |
| 真实度 | real_production |
| 访问门槛 | open |
| 质量评分 | ★★★★☆ |
| 采用度 | medium |
| 数据形态 | discrete_event |
| 是否多模态 | 否 |
| 规模 | 33,641 辆卡车,107 列,1.65 GB |
| License | CC BY 4.0 |
少数车队级公开真实故障数据,同时支持分类/回归/生存分析。
深度脱敏,物理可解释性受限;扰动幅度未公开。