اصطلاح «ارزشیابی» به طور کلی به روش قاعدهمند جمعآوری اطلاعات آزمونها و منابع دیگری اطلاق میشود که به منظور استنباط ویژگیهای افراد، اشیاء یا برنامهریزیها مورد استفاده قرار میگیرد (AERA و همکاران 1999: 172). ارزیابی اصطلاحی است که اغلب با ارزشیابی همراه است و در یک موقعیت کاربردی ارزشیابی که با قضاوت و تصمیمگیری همراه است بهتر درک و شناخته میشود (باخمن، 2004).
در حوزه ترجمه شفاهی، ارزشیابی از زمانیکه مسئله کیفیت برای جامعه ترجمه شفاهی مسئلهای حائز اهمیت تلقی شده به موضوعی در مباحث تخصصی و علمی بدل شده است. گذشته از نقش پر رنگ آن در صدور گواهی تخصصی، ارزشیابی جزء جدایی ناپذیر آموزش مترجم شفاهی میباشد و برای طرح ریزی وسیعی از اهداف مثل گزینش دانشپذیر، نظارت بر پیشرفت حاصله و اعطای مدرک یا گواهی مورد استفاده قرار میگیرد (سویر، 2004). با این وجود، ارزشیابی در ترجمه شفاهی همچنان با فقدان روش های اصولی و استانداردها و شیوه های سازگار توصیف میشود، همانطور که در انتخاب محتوای آزمون نیز چنین است و از عدم برقراری و رعایت معیارهای امتیازدهی عینی برخوردار است (سویر، 2004).
ارزشیابی در ترجمه شفاهی عمدتاً بر خروجی ترجمه شفاهی متمرکز میشود. با این حال، از آنجا که کیفیت ترجمه شفاهی مفهومی «اساساً نسبی و چند بعدی» است (پوچهاکر، 2014a)، ولی به طور کلی اعتقاد بر این است که ارزشیابی نه تنها باید شامل خروجی ترجمه شفاهی باشد بلکه باید مفهوم، موقعیت و شرایط کاری و همچنین دیدگاه مخاطب را نیز در نظر بگیرد (به کالینا، 2005a مراجعه شود). شاید از نظر مفهومی بتوان توجیه نمود که چرا کیفیت در تقابل با مفاهیم متغیر دیده میشود؛ اشکال عملی این دیدگاه این است که دستورالعمل مناسبی برای ارزشیابی ارائه نمیدهد که در مفهوم خود ماهیتاً راجع به اندازه گیری باشد. به منظور قابل اندازهگیری بودن مفهوم کیفیت، ابتدا لازم است از نظر ساختارهای قابل مشاهده و قابل تشخیص تعریف شود.

عناصر قابل اندازهگیری و رتبهبندی
از جمله عناصری که برای توصیف ابعاد مختلف کیفیت در ترجمه شفاهی استفاده شده است صحت (مثل دقت و جامعیت) روانی در کلام (در زبانِ به کار رفته و نیز انتقال کلام) از عناصر مهم تلقی میشوند، و در گستره وسیعی به عنوان معیاری در شیوههای ارزشیابی برای کیفیت سنجی در مؤسسات آموزش مترجم (لیو و همکاران، 2008) مورد استفاده قرار میگیرند. با این حال، این دو عنصر تا حد زیادی در شرایط «عدم قطعیت» باقی میمانند و اغلب در عمل نمیتوان آنها را در ارزشیابی واقعی مورد سنجش و اندازهگیری قرار داد.
این معیارها گرایش دارند برچسب گذاری شوند، ولی توصیف نه، و ارزیابها دست از روش قضاوتی خود بر میدارند تا چگونگی عملکرد این معیارها را ببیند و بر این اساس اقدام به رتبه بندی نمایند که بیانگر برداشت کلی از یک عملکرد نیست (لیو، 2013). سوگیری ارزیاب در این موقعیت اجتناب ناپذیر است. همانطور که وو (2013) در مطالعه خود روی رفتار ارزیاب نشان میدهد، ارزیابها ممکن است در ارزشیابی خود درمورد عملکرد ترجمه شفاهی متناقض عمل کنند که احتمالاً بخاطر دشواری ناشی از تفاوتهای موجود بین معیارهای مختلف ارزیابی است.
مشکل سوگیری ارزیاب به طور معمول با استناد بر تصمیمات گروهی مشخص میشود. رتبه بندی ممکن است به طور مستقل انجام شود، اما تصمیم نهایی در مورد ‘قبول شدن’ یا ‘رد شدن’ اغلب بر اساس یک توافق مشترک در میان ارزیابها صورت میگیرد که اغلب شامل گروه کوچکی از مترجمان شفاهی زبده / مربیان مترجمان شفاهی است. استفاده از داوری کارشناسانه ممکن است شبیه راه ایدهآلی برای ارزشیابی عملکرد به نظر برسد. با این حال، مشاهده شده است که تخصص حرفهای ارزیابها باعث توافق نظر خیلی بالایی در قضاوت تخصصی نمیشود. رویکرد قضاوت جمعی توسط کارشناسان ممکن است در صورت تربیت مناسب ارزیابها عملکرد خوبی داشته باشد، برای اطمینان از اتفاق آراء بر اساس استانداردهای مورد توافق بررسی میشود. با این حال، به ندرت پیش میآید که تربیت ارزیابها جزء لاینفک شیوههای ارزشیابی در ترجمه شفاهی قرار گیرد.
یکی از راههای عملی کردن معیارهای رتبه بندی مانند دقت، با در نظر گرفتن شدت خطاها، زمانی صورت میگیرد که از رویکرد مقایسهای خطا استفاده شود. این امر بر اساس تشابهات اطلاعاتی منبع-هدف و تجزیه و تحلیل خطا امکان پذیر است. اگر خطای معنایی عمدهای صورت بگیرد امتیاز بیشتری از نمره کل کسر می شود به نسبت یک خطای جزئی. ولی از آنجا که معمولاً از پیش تعریف نشدهاند و تعیین جزئی یا عمده بودن خطا را تصمیم ارزیاب تعیین میکند، بنابراین گرایش بیشتر به سوگیری ارزیاب سوق میابد.
علاوهبر ماهیت بشدت ذهنی، قضاوت در مورد شدت یک خطا مربوط است به تعیین اینکه آیا آن خطا در یک کلمه واحد، یک جمله کامل یا در پیوند بین دو جمله اتفاق افتاده، که کار بسیار دشواری است. یک روش (هرچند غیر معمول) تعیین واحدهای امتیاز دهی در منابع قبل از شروع ارزشیابی میباشد (لئو و همکاران، 2004؛ مکینتاش، 1983). برای این منظور، متن زبان مقصد ممکن است به گزارههایی تقسیم شود که نشاندهنده واحدهای اساسیِ مفاهیم مرتبط با ساختار باشد. سپس با توجه به تعداد گزارههایی که به درستی به زبان مقصد منتقل شدهاند، به گزاره دقت نیز امتیازدهی میکنند (مثل، چنگ و شالرت، 2007؛ لیو و چیو، 2009).
مزیت استفاده از واحدهای معنایی در رتبه بندی این است که تصمیم در مورد دقت دیگر نمی تواند به برداشتی از کل ترجمه شفاهی تکیه کند، بلکه باید بر اساس چگونگی ایجاد معنا در هر واحدِ تعریف شده متن باشد. از آنجا که تمام واحدهای معنایی از اهمیت یکسانی برخوردار نیستند، تلاش برای اختصاص مقادیر مختلف به واحدهای رتبه بندی بر اساس میزان سهم آنها در معنای کلی از مواد آموزشی میباشد (لیو، 2013). نقطه ضعف استفاده از واحدهای رتبهبندی تمایل بالقوه به نادیده گرفتن انسجام بین جملهای و انسجام متنی در خروجی یک ترجمه شفاهی است. سنجش بر اساس اطلاعات شخصی و ارزشیابی بر اساس دستورالعمل داده شده، به عنوان یکی از پر استفادهترین روشهای ارزشیابی برای دقت، گزینه محبوب برای ارزشیابی ترجمه شفاهی به ویژه در آزمون گواهینامه بوده است.
دستورالعمل نمرهدهی کارول (1966)، در اصل به منظور داوری در مورد کیفیت متون ترجمه شده ماشینی در مطالعات متعددی راجع به ارزشیابی ترجمه شفاهی اتخاذ شده است که اغلب با تغییراتی صورت گرفته است (به طور مثال، اندرسون، 1994؛ کلیفورد، 2005؛ گرور، 1974a؛ لیو، 2013؛ تیسلیوس، 2009). از آنجا که به طور معمول ترجمه شفاهی با معیارهای متعددی سنجیده میشود، معمولاً از دستورالعملی تحلیلی برای نمره دهی در آن استفاده میشود، هر معیاری بر اساس مقیاسی جداگانه با سطوحی متفاوت و توصیفگرانی هم عقیده مورد استفاده قرار میگیرد.
وقتی دستورالعمل نمره دهی از پیش تعیین شده باشد، میشود نظرات شخصی را در رتبهبندی کاهش داد. توصیفگر با توصیف ارزیابی در هر سطحی آشنا میشود و احتمال پایایی بین نمراتی که ارزیابهای مستقل تعیین کردهاند نیز افزایش میابد (موسکال، 2000). این امر میتواند کمکی در دستیابی به اعتبار بالای ارزیاب باشد ـــ مسئلهای که به ندرت در ارزشیابی ترجمه شفاهی به آن پرداخته میشود. یکی دیگر از مزایای استفاده از دستورالعملهای نمره دهی این است که توصیفگران به عنوان منبعی در بازخورد نسبت به عملکرد ترجمه شفاهی افرادِ مورد ارزشیابی، استفاده کنند (برای مثال: دانشجویان ترجمه شفاهی). این امر به ویژه برای امتیازدهی تحلیلی صادق است، که توصیفگرها برای معیارهای مختلف این پتانسیل را دارند که اطلاعات دقیق تر و گسترده تری در مورد توانایی ارزیابی شده نسبت به مورد نمره دهی جامع ارائه دهند که ابعاد مختلف عملکرد ارزیابی شده در یک مقیاس واحد مورد داروی قرار میدهد.
علی رغم مزایای امتیاز دهی تحلیلی که به ارزیاب این امکان را میدهد تا بر دستورالعملهای خاصی متمرکز شود، عملی کردن معیارهای رتبهبندی ترجمه شفاهی مانند دقت و روانی کلام میتواند دشوار باشد. دلیل آن ممکن است بخاطر توانش زبانی باشد (مثل مهارت شنیداری و کلامی) که در تمام جوانب معیارهای ارزشیابی ترجمه شفاهی نفوذ میکند. مطالعات متعددی (از جمله، کلیفورد، 2005؛ یه و لیو، 2008) به این مطلب پرداختهاند که تا چه حد با معیارهای رتبه بندی مانند دقت و روانی کلام به عنوان عناصری متمایز منطبق است و همبستگی هایی بین ۶۷/۶۷ تا ۷۵/۰ پیدا کرده اند. به عقیده کلیفورد (2005) عملی کردن این عناصر به صورت معقول ولی با همبستگی معنادار به عنوان معیارهای جداگانه مناسب نیست و آزمونهای عملکرد ارزشیابی شده به این صورت را نمیتوان چند بعدی در نظر گرفت (یعنی تنها یک عنصر ارزیابی میشود).
طی یک مطالعه در مورد به اصطلاح تأثیر هاله ای، این احتمال که سنجش یک معیار بر دیگری تأثیر بگذارد مورد بررسی قرار گرفت و نتیجه این بود که تأثیری جامع منجر به یک نظر مغرضانه نسبت به یک ویژگی خاص میشود. چنین تأثیری نشان داد که اثری در گروههای ارزیابی که با استفاده از مقیاسهای امتیازدهی تحلیلی به سنجش دو معیار میزان وفاداری و انتقال مطالب در آن واحد میپردازند، وجود ندارد. این حقیقت که تربیت ارزیاب باید قبل از عمل ارزشیابی صورت بگیرد بیانگر این مطلب است که ارزشیابی یا دیگر مراحل اولیه ممکن است باعث جلوگیری از هاله و یا اثر هاله معکوس شود.

اعتبارسنجی
جایگاه هنر در ارزشیابی عملکرد ترجمه شفاهی نشاندهنده عدم پایبندی عموم به عنصر ضروری کیفیت در طراحی آزمون است ـــ آزمون اعتبارسنجی که پیش نیازی برای روایی آزمون میباشد. علاوهبر مشکلات مربوط به اعتبارسنجی مترجم شفاهی که در بالا مورد بحث قرار گرفت، شواهدی وجود دارد که نشان میدهد نمره دهی یک شخص نسبت به عملکرد خود ممکن است با امتیازدهی یک فرد نسبت به دیگری متفاوت باشد (گیل، 1999a). همچنین، ناهماهنگی در مورد متغیرهای ورودی (مثل انبوهی از اطلاعات مواد آزمونی، نمره گفتار که در آن گفتار مبدأ انتقال داده میشود) و شرایطی که تحت آنها آزمونها انجام میشوند، میتواند تهدیدی برای آزمون اعتبار سنجی محسوب شود.
اگر شانس موقعیت یک آزمون شونده به ارزیاب یا شرایط بستگی داشته باشد، نمیتوان از این اطمینان حاصل کرد که آزمونی قابلیت پیشبینی صلاحیت واقعی فرد را داشته باشد. عدم اعتبارسنجی ممکن است در ارزیابیهای تکوینی که مربیان در برنامههای آموزشی انجام میدهند جدی تلقی نشده باشد، اما توجیه نامناسب نمرات در ارزشیابیها با ریسک بالا، مانند خروجی آزمونهای مؤسسات آموزشی یا آزمونهای گواهی رسمی میتواند باعث بی اعتباری شود و زمینه چالش را فراهم کند. تلاشهایی در راستای افزایش سازگاری تکنیکهای ارزشیابی و پیامد ناشی از حرکت به سمت آزمونهای سنجش توان ذهنی (مثل کلیفورد، 2005) صورت گرفته است.
رویکرد ایکمنز، آنکارت و سگرز (2009) در آزمون ترجمه شبیه رویکردی است که در نظریه آزمون نوین سؤال-پاسخ میباشد. محققان برای یک متن هلندی که باید به فرانسه ترجمه میشد، بخشهای خاصی را با ویژگیهای خاص انتخاب کردند و به این واحدهای ترجمه آیتم دوگانهای اختصاص دادند (درست و نادرست). نتایج رتبه بندیِ احراز شده با این رویکرد با نتایج حاصله از امتیازدهی کلنگر و تحلیلی مقایسه شد، این مقایسه نشان داد که ارزشیابی بر اساس آیتمهای دوگانه باعث اعتبارسنجی دقیقتر و توان افتراق بالاتری نسبت به دو روش دیگر میشود.
به نظر میرسد که ایده بسط آزمونهای عینیتر به طور کلی در زمینه ترجمه شفاهی بیشتر مورد استقبال قرار میگیرد، اما تلاش برای اجرای روشهای ارزشیابیِ توان ذهنی با مقاومت قابل توجهی مواجه میشود. گذشته از تأکید بر جوانب متنوع زندگی واقعی که خروجی یک مترجم در آن شکل میگیرد، ممکن است تفاوت اساسی مربوط به استفاده از آمار در سنجش کیفیت (ایکمنز و همکاران، 2009) به شرح این عدم تمایل به ارزشیابی اساسی در اندازه گیری اقدامات اصولی کمک کند.