德克萨斯推出人工智能评分器用于学生作文测试，但坚称不同于ChatGPT

2024 年 4 月 9 日

德克萨斯启动用于学生论文测试的人工智能评分器，但坚称与ChatGPT不同

德克萨斯州的孩子们本周正在参加由州政府规定的标准化测试，以衡量他们在阅读、写作、科学和社会研究方面的熟练程度。但这些测试可能不再由人类老师评分。事实上，德克萨斯教育机构将在测试中的开放性问题上使用一种新的“自动评分引擎”。该州希望通过这个新计划节省数百万美元。

科技,已被德克萨斯教育机构称为“自动评分引擎” (ASE)，使用自然语言处理来对学生的论文进行评分。根据《得克萨斯论坛》报道，AI模型初步评分后，大约25%的测试回答将被发送回人类评分员进行审查。

德克萨斯州预计通过这种新的人工智能工具节省大约1500-2000万美元，主要是因为需要更少的人类评分员通过第三方承包机构进行聘用。根据《得克萨斯论坛》的报道，以前需要约6000名评分员，但现在减少到约2000名。

德克萨斯教育机构网站上发布的一份演示似乎显示，对新系统的测试表明人类和自动系统对大多数孩子给出了相近的评分。但关于技术的确切运行方式以及可能帮助该州开发软件的公司仍有许多问题。德克萨斯教育机构的网站上提到了两家教育公司Cambium和Pearson作为承包商，但该机构没有回复周二发出的提问。

德克萨斯学术准备评估（STAAR）于2011年首次推出，但在2023年进行了重新设计，包括更多开放性的论文式问题。以前，测试中包含更多的多项选择题，当然，这也是由电脑化工具评分的。最大的区别在于评分选择题答题卡不同于评分书面回答，计算机更难理解后者。

德克萨斯教育机构显然迅速否定了与生成式AI聊天机器人ChatGPT等技术的任何比较。根据《得克萨斯论坛》的报道，德克萨斯州教育机构已迅速否定了与ChatGPT等技术的任何比较。德克萨斯教育机构网站上的PowerPoint演示似乎证实了对与ChatGPT之类的技术进行比较的不安。

“这种技术与AI不同，AI使用渐进式学习算法让计算机适应，使数据自行编程并基本上自我学习，”演示解释说。“相反，自动评分引擎是一个封闭的数据库，只有德克萨斯教育机构和其评估承包商Cambium和Pearson能访问学生的回答数据，并通过严格的合同隐私控制。”

根据《圣安东尼奥报道》，任何对孩子的成绩不满的家庭都可以要求人类再次查看测试，但这将花费50美元。