2022
DOI: 10.1007/978-3-031-11644-5_38
|View full text |Cite
|
Sign up to set email alerts
|

Balancing Cost and Quality: An Exploration of Human-in-the-Loop Frameworks for Automated Short Answer Scoring

Abstract: Short answer scoring (SAS) is the task of grading short text written by a learner. In recent years, deep-learning-based approaches have substantially improved the performance of SAS models, but how to guarantee high-quality predictions still remains a critical issue when applying such models to the education field. Towards guaranteeing highquality predictions, we present the first study of exploring the use of human-in-the-loop framework for minimizing the grading cost while guaranteeing the grading quality by… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1

Citation Types

0
1
0
1

Year Published

2023
2023
2024
2024

Publication Types

Select...
5
2
1
1

Relationship

1
8

Authors

Journals

citations
Cited by 11 publications
(4 citation statements)
references
References 17 publications
0
1
0
1
Order By: Relevance
“…Another approach, complementary to ours, is to use humanin-the-loop for validating low confidence outputs [24].…”
Section: Related Workmentioning
confidence: 99%
“…Another approach, complementary to ours, is to use humanin-the-loop for validating low confidence outputs [24].…”
Section: Related Workmentioning
confidence: 99%
“…The endeavor to automate the scoring of self-explanation quality has seen the integration of NLP tools and cutting-edge neural network architectures [20]. Techniques like latent semantic analysis (LSA) and recurrent neural network (RNN) interfaced with machine learning underscore the capabilities of automated systems, often outshining traditional manual evaluation in both effectiveness and efficiency [14,[20][21][22][23][24]. Furthermore, semi-supervised learning techniques, which capitalize on abundant unlabeled data, have exhibited the potential to refine scoring accuracy [25].…”
Section: Automated Scoring Of Self-explanations: the Imperative For R...mentioning
confidence: 99%
“…16 No. 4 近年では,グラフなどの構造化情報 (4) ,自然言語文 (5) など の,より抽象的な説明も検討されている.更に,予測に強い 影響を与えた訓練事例による説明 (6) ,二つの予測を対比させ た対比的説明 (7) ,予測を覆すための入力の編集の提示による 反実仮想的な説明 (8) など,説明の形態そのものに切り込む検 討もなされている. 第 2 の軸は「説明生成の方法」である.まず,NLP シス テムは所与のものとして,そのシステムが出力する予測を事 後的に説明しようとする post-hoc 法がある.入力を微小に 変化させることによって出力ラベルに対する個々の入力単語 の重要度を推定する方法 (3) ,予測関数を入力について微分す ることによって入力単語の重要度を見積もる方法 (9) など, 様々な手法が提案されている.二つめの方向性は,初めから 解釈可能なシステムを設計する self-explain 法である.入力 の重要箇所を同定するモジュールを明示的に組み込み,そこ からパイプライン的に予測を行う方式 (10), (11) ,予測モデルの 隠れ層から言語生成器を用いて説明を生成する方式 (5) (13), (14) やこれまでの研究結果を統合的に分析したメタ分析 などが存在する (15) . ライティングにおける訂正的フィードバック(written corrective feedback)は,直接訂正,間接訂正,メタ言語的 説明,フィードバックの焦点化,電子フィードバック,再構 成など,様々な種類が存在する (16) (17) ,フィー ドバックにどのように関わっているか (18) ,また学習者に自 分が教師から受け取りたいフィードバックを選択させるよう なアプローチ (19) 精度が飛躍的に向上し (22), (23) ,人間の採点者に匹敵するよう な精度を示すモデルも登場している (24) .昨今では,ほかの NLP 分野と同様に,SAS においても Transformer を用いた モデルの開発が盛んに行われている (25), (26) .このように,長 らくこの分野における研究の中心的な課題は専らモデルの予 測精度の改善であり (27) (32) や反実仮想的な正答の生成 (33) ,予測の信頼性を表 す確信度の活用 (34)…”
Section: 電子情報通信学会 基礎・境界ソサイエティunclassified