学校增值的一致性与稳定性-基于多水平追踪数据的实证研究(2)

人气指数:点发布时间:2015-12-04 11:03 来源：http://www.zgqkk.com 作者：彭湃胡咏梅 [德]埃克

分享到：

　　1.学生测试成绩数据
　　由于增值测量依赖于两次考试成绩，所以对于测量工具的选择尤为重要。目前，对于增值测量在考试工具上有多种选择。第一种方法是让前后两次试题完全相同。这样能让保证前后测的分数等价，但这种方法缺点非常明显，如果前后测试间隔时间较短，那么可能存在记忆效应，学生的真正进步难以测出；此外，学生的学习是接受新知识的发展过程，前后测试如果完全相同，就难以反映学生学习的增值。第二种方法是通过项目反应理论(IRT)设计标准化试卷，前后测试的部分试题相同，对两次考试进行垂直等化链接，让两次测试的分数能直接比较。这种方法的优点是认为学生学习是一个累积过程，但对于试题制定的技术要求较高，在标准化考试非常流行的国家如美国运用较多，但在我国尚无成规模的应用。其缺点则是测试更强调不同年级中所学的共同内容，对教学的敏感度不高[5]，且据此估算的增值排名对所选择的链接方法非常敏感[6]。第三种方法是根据经典测试理论和课程内容本身设计前后试题，在增值模型中运用标准分。这种方法在标准化考试不甚流行的国家，特别是在关键考试中以等级计分的英国，非常受欢迎。该方法比较简单易行，符合我国的教育评价国情，其缺点是标准分增值所测量的并非学生绝对进步，而是学生在两次测试中成绩在总体中相对位置的变化。本研究采用的测试依据的是第三种方法，即该区本身实施的区统考以及2012年的中考。
　　图2显示了本研究所采用的测试成绩数据结构。其中测试1为该区2012届学生于2009年初一人学时的摸底统考，该考试度量了学生学习的初始能力。测试2与测试3为初一和初二年级末的统考，测试4为初三末的中考，它们分别度量了学生在初中各年末的最终学习成果。这些测试的试题均由独立于学校之外的专门机构依据义务教育国家课程标准设计开发，且考试程序严格，确保了考试本身的公平性。此外，试题的信度较高。如测试3中，语文试题的信度为0.72,数学为0.87,英语为0.92(Alpha内部一致性系数）。我们利用学号、学生姓名、学校识别码将这四次考试成绩在学生个体层次上连接起来，形成了本文所用的追踪测试数据，共涉及语文、数学、外语三个科目。
　　2.学生家庭社会经济地位数据(SES)
　　自科尔曼报告以来，研究界就形成了普遍的共识：家庭背景对于学生的学业成就有影响。而学生的家庭背景是学校不能控制的变量，因此有必要将其纳人增值模型中，以尽可能得到学校的"净"效应。本文参考PISA学生问卷，利用三个指标来描述学生的家庭背景：社会经济地位（SES)、家庭财富(Wealth)和文化资源（Culture)。变量具体描述见表1。
　　纳人模型的其他人口学变量还包括学生的性别、年龄、是否为农民工子弟等。需要提及的是，一些学生层次的变量如学习态度、学习时间不能被纳人增值模型，因为这些变量受学校和教师影响较大，某种程度上反映了学校的效能，纳人模型会导致增值的估计偏误。此外，学生从人学到毕业的三年中，样本的损耗率（sampleattrition)较大，即使考虑到新转到该区学校的学生，仍有20%的学生因各种原因缺失中考成绩数据。因为难以判断缺失值是否为随机，所以在分析中只能做逐条删除(listwisedeletion)。由于每个变量都可能存在缺失值，所以最后参与建模的个案数更低。为方便解释参数，对于连续型的自变量纳人模型时我们采用的是总均值中心化方法（grandmeancentering),即将自变量的值减去该自变量的均值。
　　3.学校层次的变量
　　在教育生产函数研究中，由于缺乏理论指导，往往将学校层次的各种资源投人都纳人模型，然后根据纯统计学的标准来对自变量进行取舍。但在增值模型中要避免这样做，这主要是因为我们假定学校的效能与资源投人是相关的，而且资源投人是学校能够控制和改变的（至少在一个区域内的义务教育学校，资源投人反映了学校的努力程度，比如教师的学历、职称、生均经费等）。依据同样的逻辑，我们也避免在增值模型中纳人任何班级层次的投人变量，这样做也可以避免受到学生中途换班的影响。在本文的模型设置中我们只控制那些学校难以改变的变量：第一，学校生源的平均初始学习能力（以平均前测成绩代替）；第二，学校生源的平均社会经济地位。这两个变量属于学生个体的学校汇总变量（aggregatedvariables)，也称情境变量（contextualvariables),纳人它们是因为学生个体特征在不同学校的分布不同，纳人这些变量能增加增值估计的精确度。为了模型参数解释的方便，纳人模型时对这两个变量也实施总均值中心化。
　　最后要说明的是，对于哪些变量进人增值模型，理论指导仍然是不够的，实践中也远未达成共识。过少的变量可能会导致模型调整不足（under-adjustment)，而纳人过多的变量可能会导致调整过度（over-adjustment)，因为教育投人变量的效应存在相关性和重叠性。巴娄等（Ballou，etal.)学者的研究表明，纳人班级层次的变量对于班级增值的估计影响不大本文中纳人学校汇总变量，并不完全依从纯统计学原则，目的也不是仅让模型能更好地拟合数据，而是为了更合理地计算学校增值。要明确的是，在实践中不存在最好的模型，只存在最符合政策目标的合适模型。
　　(二）增值的计量方法
　　在有关学校效能的文献中，有一系列的统计计量模型可用来估算学校增值。如果不考虑面板数据，当前主要的增值计量模型可以分为三类：简单回归增值模型、固定效应增值模型、多水平（随机效应）增值模型。这三类模型在估算增值时所遵循的逻辑是相同的，即将模型拟合后的"残差"（residual)中的学校部分作为学校贡献程度的度量。因此，无论采用哪种模型，所估算出的学校增值排名都应该很类似，我们之前的实证研究亦发现，不同模型估算的学校增值相关程度在0.96以上。[9]由于在学校效能研究中多水平模型已经得到多数学者的认同和应用，因此，本文拟采用两水平（学校、学生）模型来估算学校的增值，并以此为基础考察增值的一致性和稳定性。本文的模型中只包括随机截距，出于方便考虑没有纳人随机斜率。
　　由此公式可以看出，增值的置信区间长短取决于残差的校内变异、校间变异以及学校的学生数量。在同一显著性水平下（如95%)，学校的学生数越多，标准误越小，置信区间越窄，估计精度越高。理论上来说，增值的置信区间重合的两所学校，尽管其增值排名不同，但它们之间实际上没有统计学意义的差异。

期刊库（http://www.zgqkk.com），是一个专门从事期刊推广、投稿辅导的网站。
　　本站提供如何投稿辅导，寻求投稿辅导合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。

　　【免责声明】本文仅代表作者本人观点，与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。

学校增值的一致性与稳定性-基于多水平追踪数据的实证研究(2)

投稿辅导服务咨询与期刊合作加盟

期刊推荐