Star Assessment:测评题目的挑选与开发!
2022-01-19
今天小睿为大家带来Star Assessment科普文章第二篇——Star测试题目的设置与筛选。
感兴趣想要获得完整报告的老师可以留言获取。
现在就跟着小睿一起揭开Star Assessment的神秘面纱吧!
Star测评
测试题目选择与开发
|测试题目数量
不论是英语或者是西班牙语的Star Assessment系列都采用了功能强大的CATs技术。通过较少的题目量去自动化地管理、评分、评估测试者的各项技能水平,并且节约老师的时间。精心设计过的CAT技术可以减少学生完成评估所需要的时间,如果说常规测试需要50道题目才能确定评估的可靠性,那么应用CAT技术的测试仅需要25道题就可以达到一样的可靠性。
|庞大的题目库
Star Assessment拥有庞大的题目库并且每道题目都可以经过多次管理,受试者不用担心题目会反复出现或者是过度曝光。与此同时,睿乐生也在不断地开发高质量题目以支持高频率的测试使用。
Star Assessment的题目数量是固定的,StarEarly Literacy的测试题目为27道,StarMath与StarReading的题目为34道。得益于CATs的应用,仅需要接近20分钟左右的时间,这些题目可以在保证测试结果准确性的同时衡量学生不同科目不同运用范畴的成绩。
|项目开发
项目开发是睿乐生重点关注的问题,并且Star Assessment系列都已经获得了美国国家强化干预中心的高星级评估。
为了保证我们项目开发的高效性与准确性,我们聘请具有教育背景和内容领域专业知识的专业设计师、作家和编辑为Star Assessment开发测试内容。这些专家在完成开发内容测试时需要遵循以下原则:
分析技能、行动、词汇和上下文类别中待评估的标准;参考国家或州资源,了解适当的标准和等级预期解释。
编写项目规范,并为项目编写者和编辑提供培训。
建立项目元数据以指导开发,包括标准相关和项目相关数据。
使用多步骤、递归的编写和编辑过程,确保遵守规范,并与标准和项目元数据保持一致。
发布校准项目并获取学生响应动态校准数据。
检查心理测量师对项目测试结果的分析。
将成功项目添加到运营评估项目库。
睿乐生聘请的专家们还接受持续的项目写作培训,其中包括反偏见和公平标准,以避免对人或事件的刻板印象和定性,这些刻板印象和定性可以被解释为含贬义或不敏感。
此外,评估项目必须通过严格的质量审查,以检查特定学科的标准、准确性、语言恰当性和可读性水平;符合反歧视与公平原则,做到技术与质量双控制双把关。
|保留规则
按照这些步骤,每个与测试项目相关的信息(包括传统和IRT分析数据、测试级别、表单和项目标识符)都将存储在项目统计数据库中。由内容审查员组成的小组对内容链中的每个项目进行审查,以确定该项目是否符合运营评估中使用的所有标准。内容审阅者如果需要删除项目,则需将建议合并,并进行第二次审阅以达成删除目的。
Star测评
题目校准与过程监控
|动态校准
动态校准指的是将一个或多个新题目嵌入Star测试中,并用大量的学生回答样本进行管理分析,最终确定这些题目在Star难度表上的值。在这一过程中,睿乐生的心理学家还会收集学生对该项目的反应和其他数据再进行统计分析,以确定新项目的量表值与准确性。
为了维护和更新所有Star Assessment的题目库,睿乐生使用动态校准不断开发和校准新的测试项目。对每个新的评估项目进行校准,以确定题目能够对应Star难度量表上的准确点。
正在校准的题目不会计入学生在Star测评中的分数。当校准进行时,学生在完成测试时会出现两到三个附加项目,测试时间增加约一分钟。在项目成功通过校准后,软件会自动对题目进行规范化、可靠性和有效性研究。
|学习进展评估项目
使用Star测评的教师可以监控学生目前水平对标大学和职业准备标准的进展,并预测学生参与州考试的熟练程度。学生完成Star评估后,软件会将结果量表分数映射到特定州的学习进度然后向教育工作者显示学生是否准备好接受下一阶段的学习与对应的学习技能。
学习进度是预期学习的连续统一体,从初次参与测试开始,逐步达到大学和劳动力所需的能力水平(见下图)。这些技能是相互关联的,由必要条件和先决条件组成,代表了学生在某一学科领域的学习进展。
声明: 本文内容为国际教育号作者发布,不代表国际教育网的观点和立场,本平台仅提供信息存储服务。
最新评论