沈阳师范大学学报(自然科学版)

数理统计及应用

  • 基于变系数转换模型的竞争风险数据分析

    王纯杰;陶乐;马育欣;卢哲昕;蒋京京;

    在临床医学研究中,当研究对象面临多个互斥的终点事件时,会产生竞争风险数据,分析此类数据需考虑事件间的竞争关系。线性转换模型因具有灵活性而被广泛应用于竞争风险数据分析。但在实际应用中,协变量对竞争风险事件失效时间的影响往往是非线性的,故建立变系数转换竞争风险模型,其中变系数比例风险模型和变系数比例优势模型都是其特例。此外,为了建立统计参数估计过程,基于B样条函数近似与非参数估计方法建立非参数极大似然估计。通过大量的数值模拟验证了提出方法的优良性质,并将提出的方法应用于滤泡细胞淋巴瘤临床研究数据,验证了模型的实用性。

    2025年06期 v.43;No.166 472-482页 [查看摘要][在线阅读][下载 1082K]
  • 基于XGBoost的水质数据插补方法

    徐平峰;孙萌;

    水质数据是评估水环境与生态系统健康的关键,受限于仪器检测精度,低于检测限(limit of detection, LOD)的数据常被记录为左删失值,影响数据的完整性。实现对这类数据的有效插补,可以为水质研究提供可靠数据基础。为此,提出一种基于XGBoost的低于检测限的数据插补方法(XGBoost imputation for censored data, XGIC),利用XGBoost建立非线性预测模型,拟合所有样本并计算残差;对于删失样本,以LOD作为截断点,在对应的截断正态分布上计算条件期望进行插补,并通过多次迭代提升插补准确性。模拟结果表明,与现有的4种插补方法相比,XGIC能更好地捕捉变量间的非线性关系,提高插补精度。研究结果表明,XGIC可以有效克服传统线性模型与随机森林方法的局限,为水质监测中的删失数据提供可靠插补方案。

    2025年06期 v.43;No.166 483-487页 [查看摘要][在线阅读][下载 790K]
  • 基于贝叶斯广义似然比检验的多元协方差矩阵控制图

    张久军;蔡洪幸;高洋;王宝宏;李红梅;

    近年来,贝叶斯方法在质量控制研究中受到越来越多的关注。然而,现有研究主要集中于利用贝叶斯广义似然比(Bayesian generalized likelihood ratio, BGLR)控制图监控单变量正态过程的方差,对于多元过程协方差矩阵的贝叶斯监控方法仍存在较大需求。为此,提出一种多元贝叶斯广义似然比(multivariate Bayesian generalized likelihood ratio, MBGLR)控制图,用于监测多元正态分布过程中协方差矩阵的漂移。为了验证MBGLR控制图的有效性,采用蒙特卡罗模拟方法重点探究其在已知先验信息条件下的监控能力。模拟结果表明,在这些条件下,MBGLR控制图不仅表现出良好的监测效果,而且其性能优于传统的多元广义似然比(multivariate generalized likelihood ratio, MGLR)控制图。通过合理利用先验信息,MBGLR控制图能够更快速、更准确地检测到过程变化,从而提升整体监控效率和响应速度。

    2025年06期 v.43;No.166 488-496页 [查看摘要][在线阅读][下载 965K]
  • 基于机器学习与SHAP分析的丙型肝炎早期肝纤维化无创评估

    陈晓平;张铄;游名帅;廖资渊;

    丙型肝炎病毒(hepatitis C virus, HCV)是全球重要公共卫生问题,早期肝纤维化无创评估对疾病治疗与预后判断至关重要。纳入236例丙型肝炎患者的临床指标与肝穿刺活检数据,经数据插补、Boruta特征选择及SMOTE平衡处理后,筛选出天门冬氨酸氨基转移酶(aspartate aminotransferase, AST)、丙氨酸氨基转移酶(alanine aminotransferase, ALT)、丙型肝炎病毒RNA载量对数(logarithm of hepatitis C virus RNA load, LNRNA)、红细胞压积(hematocrit, Hct)和血红蛋白(hemoglobin, Hb)共5个预测变量构建机器学习分类预测模型,进一步利用SHAP值分析变量的重要性。结果显示,基于机器学习的丙型肝炎早期肝纤维化评估模型具有良好应用潜力,可为临床医生提供无创且准确的评估工具,规避不必要的肝穿刺活检风险。该模型为早期肝纤维化的诊断与管理提供新途径,有望改善患者健康状况与生活质量。

    2025年06期 v.43;No.166 497-502页 [查看摘要][在线阅读][下载 884K]
  • 双删失数据下Weibull图比例风险模型的统计分析

    董小刚;赵运宏;金虹桥;王淑影;

    近年来,删失数据在医学、经济学等多个领域的研究中广泛出现,尤其在医学研究领域受到普遍关注。双删失数据是一种在实际应用中较为复杂且常见的删失数据类型,它同时包含了右删失数据、精确观测数据和左删失数据。在生存分析研究中,威布尔(Weibull)比例风险模型应用广泛,尤其当研究关注的是协变量效应时较为常见。但在实际应用中传统的Weibull比例风险模型无法对数据中存在相关性的协变量之间的关系进行细致刻画,故运用Weibull图比例风险模型对双删失数据进行统计研究。数值模拟和实例分析得到的结果良好,可对临床诊疗决策提供重要的参考信息,表明Weibull比例风险模型与图模型的结合能够更全面地刻画复杂删失数据,具有很强的实际应用价值。

    2025年06期 v.43;No.166 503-512页 [查看摘要][在线阅读][下载 862K]
  • 基于认知诊断理论的广义半参数反应时间模型

    陆婧;张继威;张涛涛;

    在教育测验中,反应时间数据为被试的答题策略和认知过程提供了重要信息。与项目反应理论仅提供被试的单一得分不同,认知诊断模型能更全面地评估被试的属性掌握情况。然而,大多数认知诊断模型忽略了反应时间的影响。为了提供更精准的诊断反馈结果,提出了基于认知诊断理论的广义半参数反应时间联合模型。传统的Cox比例风险模型假设风险比随时间不变,但该假设过于局限,因而采用新的广义优势比风险模型对反应时间数据进行建模,通过马尔可夫链蒙特卡罗方法进行参数估计,并采用偏差信息准则和伪边际似然的对数指标进行模型评估。结果表明,新模型在参数估计的返真性上表现良好,对PISA 2015数据进行实例分析也验证了所提出联合模型的标准性。

    2025年06期 v.43;No.166 513-521页 [查看摘要][在线阅读][下载 906K]
  • 基于模型重构方法INARS(1)模型的贝叶斯估计及应用

    杨凯;邹小宇;赵志文;

    针对带符号二项稀疏算子的一阶整数值自回归(integer-valued autoregressive model with signed binomial thinning, INARS(1))模型的贝叶斯估计问题,提出了一种新的估计方法。首先,通过模型重构技术构建了新的似然函数,并利用贝叶斯定理推导出其联合后验分布与满条件分布;其次,基于马尔可夫链蒙特卡洛(Markov chain Monte Carlo method, MCMC method)方法实现了该模型的贝叶斯估计;最后,通过数值模拟验证了所提方法的可行性,并将其应用于2019至2023年德国白喉患病人数的数据分析,取得了良好的拟合效果。

    2025年06期 v.43;No.166 522-529页 [查看摘要][在线阅读][下载 1175K]
  • 大数据背景下中国环保政策减排效应的评估

    付连艳;代珂盈;张子晗;赵禾禾;

    合成双重差分(synthetic difference-in-differences, SDID)方法是近年来评估因果效应和进行政策评价的主要工具之一。传统SDID方法基于面板双向固定效应模型,难以有效识别混杂因素,且未对其进行明确调整。为此,融合SDID框架与半参数面板数据模型,提出一种半参数合成双重差分方法。该方法通过去除个体和时间固定效应,采用局部线性最小二乘法进行半参数估计,进而计算处理组与合成对照组之间的双重差分效应。理论推导与证明表明了所提出估计量的良好渐近性质。在实证部分,基于《中华人民共和国环境保护法》和《中华人民共和国环境保护税法》评估了规制政策与激励措施对企业节能减排的实际效果。结果为企业与政府科学运用环境政策引导污染治理提供了新依据,也为推动制造业绿色转型提供了新模型与方法支撑。

    2025年06期 v.43;No.166 530-548页 [查看摘要][在线阅读][下载 1352K]
  • 面板数据下复合分位回归模型的多向分离惩罚方法

    袁晓惠;宋佳;邹雨浩;

    针对协变量异质面板数据,提出了一种带有多向收缩惩罚的复合分位回归参数估计方法。传统的惩罚函数仅能实现系数向零的单一方向收缩,而所提出的惩罚函数允许同时存在多种收缩方向,包括朝向零的方向。该方法结合最大最小化(majorization-minimization, MM)算法和交替方向乘子法(alternating direction method ofmultipliers, ADMM)算法实现目标函数的优化。在惩罚参数的选择上,基于改进的贝叶斯信息准则(Bayesian information criterion, BIC),设计了数据驱动的参数选择方法。为验证所提方法在有限样本下的表现,通过数值模拟实验,将其估计结果与均值回归、复合分位回归方法的估计结果进行对比分析。结果表明,该模型能够识别出具有相似协变量效应的个体,在抵抗异常值时更具稳健性,且亚组识别有利于提高估计的效率。实证基于2012—2020年中国30个省份的面板数据,检验了区域创新创业对新质生产力水平的异质影响。

    2025年06期 v.43;No.166 549-556页 [查看摘要][在线阅读][下载 844K]
  • 基于Autoencoder-SVM的多因子量化选股策略分析

    于卓熙;徐永昌;初若桐;高仕卓;

    多因子量化选股是量化金融研究的核心方向,随着深度学习与机器学习算法的快速发展,传统因子选取方法如打分法、主成分分析法(principal component analysis, PCA)等存在主观性强或过拟合问题。因此,如何利用非线性特征提取及分类模型提升选股效果成为量化选股领域的研究热点。提出一种基于自编码器与支持向量机(support vector machine, SVM)相结合的多因子量化选股策略,利用自编码器对多因子数据进行非线性降维,提取潜在特征,将降维后特征输入SVM进行收益分类预测,并采用网格搜索与交叉验证优化SVM模型超参数。实证分析表明,相比传统PCA-SVM模型,该策略在分类准确率、AUC(area under the curve)值、夏普比率及最大回撤等核心指标上均取得显著提升,证实“深度学习特征提取+传统机器学习分类”在量化选股领域的有效性。

    2025年06期 v.43;No.166 557-566页 [查看摘要][在线阅读][下载 1097K]