چکیده پیشرفتهای خیرهکنندهی اخیر در هوش مصنوعی (AI) و مدلهای زبانی بزرگ (LLMs)، چشمانداز سنجش خودکار مهارتهای زبانی را دگرگون کرده است. اگرچه این فناوری در سنجش مولفههای صوری و کمی زبان توفیقاتی داشته، اما انطباقپذیری آن با چارچوبهای استانداردی که بر «توانش ارتباطی»، «صحت محتوایی» و «تعامل اجتماعی» تأکید دارند، بهویژه در بافت زبان فارسی، به مثابه یک چالش نظری و فنی حلنشده باقی مانده است. پژوهش حاضر با هدف تبیین شکافهای معرفتشناختی و فنی هوش مصنوعی در انطباق با الزامات دقیق «استاندارد مرجع بنیاد سعدی» و تعیین مرزهای صلاحیت ماشین انجام شده است. تحلیلها نشان میدهد میان «پیچیدگی سطح مهارت» و «روایی سنجش ماشین» رابطه معکوس معناداری وجود دارد. در سطوح نوآموز و مقدماتی، ماشین به دلیل ماهیت صوری، کمی و ایستای شاخصها (نظیر صحت تلفظ و واژگان پایه)، عملکردی معتبر و جایگزینپذیر دارد. اما در سطوح میانی که در استاندارد سعدی برخلاف چارچوب مشترک اروپایی (CEFR) به سه زیرسطح پیشمیانی، میانی و فوقمیانی تفکیک شده است، و نیز در سطوح پیشرفته، هوش مصنوعی دچار شکاف عملکردی عمیق است. یافتهها حاکی از آن است که ناتوانی ماشین در تفسیر «راهبردهای جبرانی»، کوری نسبت به «دانش پیشینه فرهنگی»، عدم تشخیص «بار عاطفی لحن»، سوگیری علیه لهجههای غیرمعیار و نارسایی در ارزیابی صحت محتوایی، به دلیل پدیده «توهم هوش مصنوعی»در سطوح عالی، تهدیدی جدی برای «روایی سازه» محسوب میشود. واژگان کلیدی: سنجش گفتار، هوش مصنوعی، استاندارد بنیاد سعدی،
قاسمی، مهدی؛ برومند تمبکی، شهداد. (1403). «بررسی تأثیر هوش مصنوعی (AI) بر یادگیری مهارتهای زبانی در آموزش آنلاین». اولین کنفرانس بینالمللی مطالعات کاربردی در فرایندهای تعلیم و تربیت. بندرعباس. .https://civilica.com/doc/2247368
مظهرپور، دیار؛ سیدکلان، سیدمحمد. (1403). «سنتزپژوهی کاربرد چتباتها (نرمافزار هوش مصنوعی) در آموزش زبان انگلیسی». پژوهش در مطالعات برنامه درسی. دوره چهارم. شماره1. صص: 43-64. https://doi.org/10.48310/jcdr.2024.17527.1115.
صبوری، سپهر؛ حاج ملک، محمدمهدی. (1402). «استفاده از ظرفیتهای هوش مصنوعی در آموزش تلفظ زبانهای خارجی». نهمین کنفرانس بینالمللی وبپژوهی.
Bender, E. M. & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics(pp. 5185–5198). Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.ACL-MAIN.463
Huth, T. (2020). Testing interactional competence: Patterned yet dynamic aspects of L2 interaction. Papers in Language Testing and Assessment, 9(1), 1–25.
Ie, X. & Jaeger, T. F. (2020). Comparing non-native and native speech: Are L2 productions more variable? The Journal of the Acoustical Society of America, 147(5), 3322–3347. https://doi.org/10.1121/10.0001141
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A. & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1–38. https://doi.org/10.1145/3571730
Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1–73. https://doi.org/10.1111/jedm.12000
Kittler, M. G., Rygl, D. & Mackinnon, A. (2011). Beyond culture or beyond control? Reviewing the use of Hall's high-/low-context concept. International Journal of Cross Cultural Management, 11(1), 63–82. https://doi.org/10.1177/1470595811398797
Kordzadeh, N. & Ghasemaghaei, M. (2022). Algorithmic bias: Review, synthesis, and future research directions. Information Systems Frontiers, 24(5), 1321–1340. https://doi.org/10.1080/0960085X.2021.1927212
Liu, X. J., Wang, J. & Zou, B. (2025). Evaluating an AI speaking assessment tool: Score accuracy, perceived validity, and oral peer feedback. Journal of English for Academic Purposes, 75, 101505.
Manggiasih, L. A., et al. (2023). Strengths and limitations of SmallTalk2Me app in English language proficiency evaluation. TELL Journal, 11(2), 146–157.
Nigmatulina, I., Kew, T. & Samardžić, T. (2020). ASR for non-standardised languages with dialectal variation: The case of Swiss German. In M. Zampieri, P. Nakov, N. Ljubešić, J. Tiedemann & Y. Scherrer (Eds.),Proceedings of the 7th Workshop on NLP for Similar Languages, Varieties and Dialects (pp. 15–24). International Committee on Computational Linguistics (ICCL). https://aclanthology.org/2020.vardial-1.2/
Raud, N. (2025). Automatic assessment of L2 interactional competency[Master’s thesis, Aalto University].
Santos, S. C., Kapadia, A. & Feinberg, D. R. (2025). Hearing people speak in different accents biases voice discrimination. Scientific Reports, 15, 30775. https://doi.org/10.1038/s41598-025-13117-w
Zhang, M., Bridgeman, B. & Davis, L. (2019). Validity considerations for using automated scoring in speaking assessment. In Automated speaking assessment(pp. 174–185). Routledge.
Zou, B., et al. (2024). Exploring EFL learners’ perceived promise and limitations of using an artificial intelligence speech evaluation system. System, 126, 103497.
فرجی, سید اسماعیل , ابراهیمی, مجتبی و طالعی, محمدحسین . (1405). شکاف سنجش گفتار در زبان فارسی: واکاوی تطبیقی قابلیتهای هوش مصنوعی و استاندارد مرجع بنیاد سعدی. مطالعات آموزش بینالمللی زبان فارسی, 11(20), 103-120. doi: 10.22034/maz.2026.23036.1186
MLA
فرجی, سید اسماعیل , , ابراهیمی, مجتبی , و طالعی, محمدحسین . "شکاف سنجش گفتار در زبان فارسی: واکاوی تطبیقی قابلیتهای هوش مصنوعی و استاندارد مرجع بنیاد سعدی", مطالعات آموزش بینالمللی زبان فارسی, 11, 20, 1405, 103-120. doi: 10.22034/maz.2026.23036.1186
HARVARD
فرجی, سید اسماعیل, ابراهیمی, مجتبی, طالعی, محمدحسین. (1405). 'شکاف سنجش گفتار در زبان فارسی: واکاوی تطبیقی قابلیتهای هوش مصنوعی و استاندارد مرجع بنیاد سعدی', مطالعات آموزش بینالمللی زبان فارسی, 11(20), pp. 103-120. doi: 10.22034/maz.2026.23036.1186
CHICAGO
سید اسماعیل فرجی , مجتبی ابراهیمی و محمدحسین طالعی, "شکاف سنجش گفتار در زبان فارسی: واکاوی تطبیقی قابلیتهای هوش مصنوعی و استاندارد مرجع بنیاد سعدی," مطالعات آموزش بینالمللی زبان فارسی, 11 20 (1405): 103-120, doi: 10.22034/maz.2026.23036.1186
VANCOUVER
فرجی, سید اسماعیل, ابراهیمی, مجتبی, طالعی, محمدحسین. شکاف سنجش گفتار در زبان فارسی: واکاوی تطبیقی قابلیتهای هوش مصنوعی و استاندارد مرجع بنیاد سعدی. مطالعات آموزش بینالمللی زبان فارسی, 1405; 11(20): 103-120. doi: 10.22034/maz.2026.23036.1186