نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشیار گروه علم اطلاعات ودانش شناسیدانشگاه شیراز
2 دانشجوی دوره کارشناسی ارشد
چکیده
کلیدواژهها
مقدمه
در نگارش فارسی، برخی واژهها را میتوان با درج، حذف یا جایگزینی نویسهای[1] خاص نوشت و به این ترتیب، برای واژهای واحد، دو یا چند الگوی نگارشی متفاوت پدید آورد. الگوهای نگارشی متنوع میتواند سبب ناهماهنگی در متون شود و بر بازیابی اطلاعات به لحاظ جامعیت نتایج بازیابی شده، تأثیر منفی بگذارد. شمار بسیار بالای چالشهای شناسایی شده در الگوهای نگارش فارسی (ستوده و هنرجویان، 1391؛ محققزاده و زارعیان، 1383؛ مرتضایی، 1381؛ حری، 1372) این ضرورت را پیش میآورد که هنگام طراحی الگوریتمهای سامانههای فارسی، فنونی برای بهنجارسازی[2]چندگانگی املایی واژگان نمایه یا واژگان جستجو اندیشیده شود. با این حال، در بسیاری از سامانههای بازیابی اطلاعات فارسی، هنوز تأثیر صورتهای مختلف نگارشی یک واژه بهنجار نمیشود (شهیدی، صدیقی و زمانیفر، 1383). از این رو، کاربران ناگزیرند چندین فرایند جستجو یا فرمولهای جستجوی پیچیدهتری را به کار گیرند. آشکار است که جامعیت چنین جستجویی در گروِ آگاهی کاربر از همة تنوعهای نگارشی و ظرایف جستجوی بولی و در عین حال، برخورداری وی از وقت و حوصله کافی است. با توجه به اصل کمترین کوشش و همچنین آسانگیری کاربران در رفتار جستجوی خود (مانینگ و همکاران، 2008)، احتمال نادیده گرفتن چنین راهکارهایی وجود دارد. بنابراین، بهنجارسازی الگوهای نگارشی در الگوریتمها ضروری مینماید. آشکار است که هر چه تنوع الگوهای نگارش یک زبان بیشتر باشد، الگوریتم حاصل پیچیدهتر و احتمال تأثیر منفی آن بر کارآیی سامانه بیشتر خواهد بود. از این رو، این پرسش فراروی مدیران و برنامهنویسان سامانههای بازیابی اطلاعات فارسی خواهد بود که چه میزان بهنجارسازی نگارشی در الگوریتمهای بازیابی ضروری است.
بروز چالشهای ریختی در پایگاههای فارسی، موتورهای کاوش عمومی، نشریات و در میان کاربران، و همچنین تأثیر آنها بر بازیابی اطلاعات، تأیید شده است (گلتاجی و بذرگر، 1389؛ عبدالهی نورعلی و جوکار، 1388؛ راثی ساربانقلی، 1384الف و ب). همچنین، در مطبوعات فارسیزبان وقوع اشتباهات آوایی، دستوری و واژگانی و در عین حال رعایت نکردن دستور خط زبان فارسی مشاهده شده است (ذوالفقاری و همکاران، 1385). با این حال، در رابطه با چالش پیوسته یا جدانویسی، یکدستی در الگوی نگارش و انطباق بالا با دستور خط فرهنگستان زبان و ادب فارسی گزارش شده است (فتاحی و آخشیک، 1391). آشکار است که صرف رویداد هر چالش، ضرورت لحاظ کردن آن در الگوریتمهای بازیابی یا راهبرد جستجوی کاربران را توجیه نمیکند، زیرا ممکن است نگارندگان در رفتار نگارشی معمول خود، یک صورت نوشتاری را به صورت دیگر اولویت دهند و از صورت(های) دیگر صرف نظر نمایند یا بهندرت از آنها استفاده کنند. در این صورت، آشکار است که هزینه ـ سودمندی سامانه ایجاب میکند که الگوریتم را به ازای دستاوردی بسیار اندک، پیچیده نسازیم. از این رو، ضروری است رفتار عملی نگارندگان متن بررسی شود، تا میزان تنوع الگوهای نگارشی و اثرگذاری آنها بر جامعیت بازیابی اطلاعات، آشکار گردد.
بدین منظور، تحقیق حاضر میکوشد با بررسی تنوع الگوهای نگارشی در متون پیکرة همشهری، رفتار نگارشی کلی نگارندگان فارسی را روشن سازد و لزوم در نظر گرفتن تنوع نگارشی در الگوریتمهای نمایهسازی، الگوریتمهای بازیابی یا راهبرد جستجوی کاربران را به بوتة آزمون گذارد. همچنین، با مقایسة این رفتار با دستور خط رسمی فارسی مصوب فرهنگستان زبان و ادب فارسی[3]، میزان انطباق بین رفتار نگارشی نگارندگان و دستور خط رسمی، آشکار خواهد گردید.
همة چالشهای شناسایی شده (ستوده و هنرجویان، 1391) به دلایل گوناگون قابلیت بررسی در این پژوهش را نداشت. از جمله، ارتباط با ابعاد و ویژگیهای غیرنگارشی (مانند معناشناسی، دستور زبان یا حروف پیشگزیدة سامانه)، نیاز به ابزارها و روشهای متفاوت جهت بررسی جامع، بروز ریزش کاذب به دلیل رویداد بسیار بالا در پیکره. به اینترتیب، هفت نویسة چالشی شامل همزه بر پایه الف (أ)، همزه بر پایه و (ؤ)، تنوین نصب (اً)، همزه پایانی (ء)، همزه مختوم به یا (ئی)، تای گرد (ة) وتشدید، جهت بررسی انتخاب شد.
پرسشهای پژوهش
تعاریف مفهومی
پیکره: مجموعهای از متون نوشتاری یا گفتاری آوانویسی شده است که میتوان آن را به عنوان مبنایی برای تحلیل و توصیف زبانی به کار برد (کندی، 1998). پیکره میتواند ویژة بررسی خاصی فراهم شود و یا دربرگیرندة مجموعه عظیم و بیساختاری از متون گوناگون باشد که برای منظورهای گوناگون به کار رود (عاصی، 1385). پیکرههای ویژة بازیابی اطلاعات، به هدف آزمایش اثربخشی فنون یا روشهای خاص در بازیابی اطلاعات طراحی میشود و مشتمل بر مجموعهای مشخص از مدارک است که ویژگیهای متون، برای مثال ربط موضوعی آنها، از قبل مشخص شده است (مانینگ، راگاوان و شوتس، 2008).
ضریب درگیری: این شاخص نخستین بار در حوزة تعلیم و تربیت، جهت تجزیه و تحلیل محتوای کتابهای درسی و میزان درگیری فعالانة دانشآموزان با آموزش و محتوای یادگیری، به کار گرفته شد. نسبت بین مقولههایی که دانشآموزان در آنها فعالانه به آموزش و یادگیری میپردازند، به مقولههایی که در آنها دانشآموزان به معنای واقعی به فعالیت علمی نمیپردازند، ضریب درگیری دانشآموز با محتوا را تشکیل میدهد (فضلاللهی و ملکی توانا، 1389).
تعاریف عملیاتی
الگوی چندنگارشی فارسی: نگارش یک حرف فارسی به بیش از یک صورت که سبب شکلگیری سبکهای نگارشی متفاوت در میان نگارندگان متون فارسی میشود. وضعیت نگارش در دو الگو بررسی شده است: 1) سرهنگاری که منظور از آن پایبندی به شکل مرسوم سنتی رسمالخط عربی است که در آن عین نویسه چالشی به نگارش در میآید. 2) فارسینگاری، که منظور از آن حذف نویسه چالشی یا جایگزینی آن با نویسهای دیگر است. آشکار است که در این میان، برخی مصداقها ممکن است به طور محض سرهنگاری شوند؛ یعنی تنها و تنها به شکل مرسوم عربی آن در پیکره پدیدار شوند و برخی دیگر با نگارش ترکیبی ظاهر شوند؛ یعنی یک مصداق گاه سرهنگاری و گاه فارسینگاری شود. صورت محتمل دیگر، فارسینگاری محض است. با توجه به نبود ویژگی شاخصی برای تمایز، جستجو و بازیابی صورت نگارشی اخیر، بررسی آن در پژوهش حاضر ممکن نبود.
نگارنده: فردی که متن روزنامة همشهری را حروفچینی نموده یا متن حروفچینی شده را ویرایش کرده است، اعم از حروفچین، خبرنگار، ویراستار، اعضای هیئت تحریریه روزنامه و جز آن.
مصداق: واژگانی که در نگارش آنها یکی از حروف چالشی نگارشی به کار رفته باشد. برای نمونه، «تأیید» و «تأکید» دو مصداق برای چالش «همزه بر پایه الف» به شمار میآیند.
روششناسی پژوهش
پژوهش حاضر به روش تحلیل محتوای مفهومی[1] صورت گرفت. متون موجود در ویرایش دوم پیکرة همشهری[2] که توسط آزمایشگاه پایگاه داده دانشگاه تهران تهیه و به صورت دستی برچسبگذاری شده، برای بررسی انتخاب گردید. پس از اخذ مجوز دسترسی از آزمایشگاه پایگاه داده، کل محتوای پیکره بارگذاری شد.
انتخاب این پیکره برای بررسی، به چند دلیل صورت گرفت: نخست، این مجموعه بزرگترین پیکرة متنی فارسی و مشتمل بر بیش از 160,000 مقاله خبری در موضوعات مختلف در یک بازه زمانی 12 ساله (1375-1386)است (آل احمد[3] و همکاران، 2009). همچنین، در تهیه متن یک روزنامه، طیف نسبتاً متنوعی از افراد با سطوح متفاوتی از تحصیلات و آگاهی زبانی دخالت دارند، مانند حروفچینان که متن مخابره شده را حروفچینی میکنند، گزارشگران، خبرنگاران و اعضای هیئت تحریریه روزنامه و دیگر نگارندگان متون الکترونیکی که شخصاً به حروفچینی متن خود میپردازند و متون آنها به طور مستقیم روبرداری میشود. تنوع طیف نگارندگان متن روزنامه، سبب بازتاب عادتهای نگارشی مختلف در متن روزنامه خواهد شد. از آنجا که بسیاری از مردم از میان مطالب مکتوب مختلف، تنها به خواندن نشریات (و آن هم اغلب نشریهای خاص) اکتفا میکنند، نثر مطبوعات، خواه ناخواه بر چگونگی به کارگیری زبان یا مهارت نوشتن آنان تأثیر میگذارد (ذوالفقاری و همکاران، 1385). بنابراین، روزنامهها نمونه مناسبی برای ملاحظة الگوهای نگارشی غالب در میان مردم جامعه به نظر میرسند. نکته آخر و بسیار مهم آن است که در تهیة روزنامهها، به دلیل سرشت روزنگاشت آنها، سرعت مخابره خبر یا تهیة مقالات به روز، اهمیت بسیار دارد. سرعت در نگارش، باعث میشود نگارندگان به طور ناخودآگاه و غیرفعالانه به نگارش متن بپردازند. از این رو، در متن حروفچینی شده، عادات ناخودآگاه آنان بازتاب مییابد و رفتار نگارشیِ اندیشیده و آگاهانة آنان مشهود نیست.
روش و ابزار گردآوری دادهها
به منظور جستجو در محتوای متنی پیکره، نرمافزارهایی بررسی شدند[4] که هیچیک برای جستجوی نویسهها و واژهها و همچنین گزارش نتایج در قالب مورد نیاز این پژوهش، مناسب تشخیص داده نشد. از این رو، نرمافزاری ویژة جستجو در پیکرة همشهری، توسط یک متخصص رایانه طراحی شد.
روایی ابزار پژوهش
از آنجا که پیکرهها عموماً با هدف تحقیقات بازیابی موضوعی طراحی میشوند، ویژگیهای املایی متون را مشخص نمیسازند. بنابراین، پیکرة همشهری مختصاتی را در اختیار نمیگذارد که بر پایة آن بتوان دربارة صحت و دقت عملکرد نرمافزار قضاوت کرد. از این رو، به منظور آزمایش قابلیت اطمینان نتایج به دست آمده از نرمافزار، یکی از فایلهای پیکره به صورت تصادفی انتخاب و فراوانی رویداد 5 نویسة چالشی (شامل تشدید، تنوین نصب، «أ»، «ﺋ» و «ء») در آن به صورت دستی محاسبه شد. سپس فراوانی این نویسهها با استفاده از نرمافزار به دست آمد. در نهایت، به کمک نرمافزار SPSS، میزان همبستگی میان این دو دسته فراوانی با استفاده از آزمون ضریب همبستگی پیرسون محاسبه شد. نتیجه، همبستگی بسیار قوی را نشان داد (N=5, r=1, sig.=0.01) که دقت و صحت عملکرد نرمافزار را تأیید میکند.
بازیابی نویسههای چالشی و مصداقهای آنها
به منظور اطمینان از یافتن همة مصداقهای دارای حروف چالشی در پیکره، از تعیین مصداقها از قبل خودداری و تلاش شد تا جستجو در ریزترین سطح ممکن، یعنی تکنویسه صورت گیرد. به این ترتیب، واژههای دربر دارندة آن نویسه یعنی مصداقهای واژهای آن، بازیابی گردید. سپس، هر مصداق با نگارشهای مختلف آن جستجو و فراوانی هریک ثبت شد. برای مثال، با جستجوی نویسه « ّ »،واژههای حاوی این نویسه شناسایی و در گام بعد هر یک از واژهها، یک بار با علامت تشدید و بار دیگر بدون آن، مورد جستجو قرار گرفت. ذکر چند نکته در این باره ضروری مینماید:
1) آن دسته از واژههای عربی که بخشی از یک آیة قرآن کریم و یا حدیثی از معصومین یا یک جملة عربی بودهاند، در محاسبة فراوانی آن واژه لحاظ نشدهاند، زیرا این واژگان از سبک نگارشی زبان عربی پیروی میکنند که ممکن است چالشهای آن با چالشهای زبان فارسی متفاوت باشد.
2) واژههای همنگاشت[5] از پژوهش حذف شدند، زیرا نرمافزار قادر به تمایز آنها نبود و در عین حال، به دلیل رخداد فراوان آنها، امکان وارسی متن پیکره برای درک معنا و در نتیجه تعیین شکل نگارشی درست آنها وجود نداشت.
3) به دلیل بروز پارهای اختلالهای نویسهای در پیکره، تعیین مرز واژهها بر اساس علایم سجاوندی یا فاصله، با خطای زیاد همراه بود. از این رو، از مرزبندی کلمات در طراحی نرمافزار خودداری شد. این امر، مرحله جستجوی مصداقها را با ریزش کاذب همراه کرد. برای مثال «سید»، هم به شکل واژه و هم پارهواژه (مانند «اسید»، «رسید»، و «پرسید») بازیابی شد. بنابراین، در گزارش نتایج، همة واژهها به صورت دستی بررسی و پس از حذف موارد ریزش کاذب، فراوانی مصداقها محاسبه گردید.
روش تجزیه و تحلیل
به منظور بررسی رفتار نگارشی نگارندگان، از آمار توصیفی (شامل فراوانی و درصد) استفاده شد. ضریب درگیری، بر پایة نسبت فراوانی واژگان منطبق با دستور خط رسمی فارسی به واژگان نامنطبق با این دستور محاسبه شد. چنانچه رفتار نگارندگان در دو گروه (منطبق و نامنطبق با دستور خط) با هم یکسان باشند، ضریب درگیری به سمت یک میل میکند.
یافتهها
بر اساس یافتهها که بخشی از آنها در جدول 1 آمده است، در تمام نویسههای چالشی، فراوانی الگوی ترکیبی بیش از الگوی سرهنگاری محض است؛ یعنی مصداقها در غالب موارد، گاه سرهنگاری و گاه فارسینگاری شدهاند. این امر نشانگر آن است که نادیده گرفتن نویسههای چالشی در راهبرد جستجوی کاربر یا در الگوریتمهای سامانههای بازیابی، سبب از دست رفتن بخشی از مدارک میشود. با این حال، در این الگو، در همة نویسهها اکثریت با فارسینگاری است، به نحوی که در بیشتر موارد، جستجو با کلماتی که در آنها نویسة چالشی حذف یا با نویسهای دیگر جایگزین شده است، به بازیابی بیش از 90% واژگان منجر میشود. تنها استثنا در این باره، دو چالش همزه بر پایه «و» و تنوین است که این مقدار در آنها به حدود 70% میرسد.
جدول 1: فراوانی صورتهای نگارشی نویسههای چالشی در پیکرة همشهری
چالش |
صورتهای نگارشی |
مصداقها |
رویداد واژهها |
|||
فراوانی |
درصد |
فراوانی |
درصد |
|||
تشدید ( ّ ) |
سرهنگاری محض |
12 |
05/3 |
15 |
00/0 |
|
ترکیبی |
سرهنگاری |
382 |
95/96 |
1028 |
03/0 |
|
فارسینگاری |
3,367,573 |
97/99 |
||||
جمع |
394 |
100 |
3,368,616 |
100 |
||
تای گرد (ة) |
سرهنگاری محض |
18 |
03/29 |
19 |
35/0 |
|
ترکیبی |
سرهنگاری |
44 |
97/70 |
316 |
73/5 |
|
فارسینگاری |
5,177 |
92/93 |
||||
جمع |
62 |
100 |
5,512 |
100 |
||
همزه پایانی (ء) |
سرهنگاری محض |
3 |
48/2 |
5 |
00/0 |
|
ترکیبی |
سرهنگاری |
118 |
52/97 |
40,102 |
49/8 |
|
فارسینگاری |
432,134 |
51/91 |
||||
جمع |
121 |
100 |
472,241 |
100 |
||
همزه بر پایه «و» |
سرهنگاری محض |
0 |
00/0 |
0 |
00/0 |
|
ترکیبی |
سرهنگاری |
28 |
100 |
36,626 |
55/28 |
|
فارسینگاری |
91,668 |
45/71 |
||||
جمع |
28 |
100 |
128,294 |
100 |
||
همزه مختوم به یا (ئی) |
سرهنگاری محض |
9 |
38/9 |
635 |
46/0 |
|
ترکیبی |
سرهنگاری |
87 |
62/90 |
7662 |
55/5 |
|
فارسینگاری |
129,682 |
99/93 |
||||
جمع |
96 |
100 |
137,979 |
100 |
||
همزه بر پایه الف (أ) |
سرهنگاری محض |
0 |
00/0 |
0 |
00/0 |
|
ترکیبی |
سرهنگاری |
54 |
100 |
136,907 |
83/27 |
|
فارسینگاری |
355,007 |
17/72 |
||||
جمع |
54 |
100 |
491,914 |
100 |
||
تنوین نصب (اً) |
سرهنگاری محض |
12 |
38/6 |
13 |
00/0 |
|
ترکیبی |
سرهنگاری |
176 |
62/93 |
109,155 |
69/26 |
|
فارسینگاری |
299,850 |
31/73 |
||||
جمع |
188 |
100 |
409,018 |
100 |
در جدول 2 نمونههایی از واژههایی که سرهنگاری محض شدهاند، معرفی شده است. چنان که مشاهده میشود، این مصداقها عمدتاً از واژههای عربی هستند که در زبان فارسی رواج کمتری دارند. فراوانی رویداد هر مصداق (جدول 1) نیز مؤید بروز بسیار اندک این واژهها در پیکرة مورد بررسی است. بر این اساس، احتمال این که در زبان فارسی عمومی، واژهای که به طور بالقوه دارای نویسة چالشی است، لزوماً با درج این نویسه نگاشته شود، بسیارضعیف است.
جدول 2: نمونههایی از واژههای سرهنگاری شده
نویسه چالشی |
واژهها |
تشدید |
«انیّه»، «متطّب»، «ادسّر»، «مهنّد»، «باهر النّور»، «ظلیّه»، «ملکوتییّن»، «احدیّات»، «تمطّق»، «تدنّی»، «جرّه» و «علی السّوا» |
تای گرد |
«القدوة العارفین»، «المرقاة»، «تکملة الاصناف»، «سفینة البحار»، «روضة الشهدا»، «مادة المواد»، «معرفة النفس»، «علیه الصلوة»، «زبدة التواریخ»، «صلواة الله» |
همزه پایانی |
«رشاء»، «نصحاء»، «استحصاء» |
ئی |
«الظوائی»، «المسائی»،«بطئی»، «مرجئی» |
تنوین |
«عنفاً»، «متبرکاً»، «مزیداً»، «مترسلاً»، «متمرداً»، «غریزتاً» |
وضعیت نگارش حروف چالشی بر اساس دستور خط رسمی
با توجه به آنچه از دستور خط فرهنگستان بر میآید[6]، فرهنگستان جز در مورد چالشهای همزة پایانی و تشدید، نگارش حروف چالشی را به همان شکل مرسوم سنتی خود توصیه میکند. برای نمونه، درباره حرف همزه میانی ذکر شده است: اگر حرف پیش از آن مفتوح باشد، علامت همزه روی کرسی«ا» نوشته میشود، مگر آن که پیش از آن، مصوت «ای»، «او» و یا «ــِ» باشد، که در این صورت روی کرسی «ی» نوشته میشود؛ مانند «رأفت»، «تأسف»، «مأنوس». اگر حرف پیش از آن مضموم باشد، روی کرسی «و» نوشته میشود، مگر آن که پیش از آن، مصوت «او» باشد، که در این صورت روی کرسی «ی» نوشته میشود؛ مانند «رؤیا»، «رؤسا»، «مؤسسه». چنانچه حرف پیش از آن مفتوح یا ساکن و پس از آن حرف «آ» باشد، به صورت ـ آ/ آ نوشته میشود، مانند «مآخذ»، «لآلی»، «قرآن». از این دستور بر میآید که فرهنگستان به هیچ روی، جایگزینی حرف همزة میانی را با حروف دیگر مانند «ا»، «و»، یا «ی» مد نظر نداشته است.
دستور فرهنگستان دربارة چالش تشدید چنین است: « گذاشتن تشدید همیشه ضرورت ندارد، مگر در جایی که موجب ابهام و التباس شود، که یکی از مصداقهای آن، همنگاشتها است، مانند معین/ معیّن؛ علی/علّی» تنها موردی که فرهنگستان درج تشدید را ضروری دانسته، در متون آموزشی برای نوآموزان و غیر فارسیزبانان و نیز در اسناد دولتی است.
در خصوص چالش همزة پایانی، دستور این گونه بیان شده است: اگر حرف پیش از آن، مصوت «آ»، «او» و یا «ای» باشد، بدون کرسی نوشته میشود. با این حال، یک تبصره این دستور را متفاوت میسازد: کلماتی مانند «انشاء»، «املاء»، «اعضاء» در فارسی بدون همزه پایانی هم نوشته میشوند که صحیح است.
یک استثنا نیز در دستور نگارش «ة» وجود دارد. طبق تصریح فرهنگستان، گاهی در بعضی ترکیبات عربی رایج در فارسی، «ة» با «ت» جایگزین میگردد که آن هم صحیح است. مانند «حجت الاسلام»و «آیت الله». با این حال، این دستور شامل جایگزینی «ة» با «ه» نمیشود.
بنابراین، دستور فرهنگستان هر شکل نگارشی مرسوم در دو چالش تشدید، و همزه پایانی را مجاز و در نتیجه منطبق با شیوة نگارش رسمی فارسی میداند. به این ترتیب، میتوان رفتار نگارشی نویسندگان را در مورد 5 چالش دیگر در دو گروه منطبق و نامنطبق با دستور خط رسمی زبان فارسی دستهبندی کرد و مورد مطالعه قرار داد. همچنین، برخی از مصداقهای یافت شده مانند «پارسائی»، «ایتالیایی» و «لاشائی» به غلط با «ئی» نوشته شدهاند. این کلمات در نگارش صحیح خود واجد همزه نیستند و بنابراین، مصداقهای واقعی چالش همزه مختوم به یا (ئی) به شمار نمیآیند. این واژگان نیز به دلیل این که تنها حکایت از اشتباهات مصطلح نگارشی دارند، در این پژوهش بررسی قرار نشدند.
فرهنگستان، نگارش حروف چالشی مورد بحث را به همان شکل سرهنگاری محض عربی تجویز میکند. تنها استثنا، دو نویسه همزه پایانی و تشدید است که نگارشهای متفاوتی برای آنها بسته به شرایط، مجاز دانسته شده است. به این ترتیب، انطباق رفتار نگارشی نگارندگان با دستور خط رسمی، تنها در مورد 5 چالش دیگر قابل مطالعه است.
جدول3. وضعیت انطباق نگارش واژههای پیکره همشهری با دستور خط رسمی فارسی
چالش |
واژههای نامنطبق با دستور خط رسمی فارسی |
ضریب درگیری |
|
فراوانی |
درصد |
||
همزه مختوم به یا (ئی) |
129,682 |
99/93 |
064/0 |
تای گرد (ة) |
5177 |
93/93 |
065/0 |
تنوین نصب (اًٌ) |
299,850 |
3/73 |
364/0 |
همزه با پایه الف (أ) |
355,007 |
1/72 |
386/0 |
همزه با پایه و (ؤ) |
91,668 |
5/71 |
4/0 |
جمع |
881,384 |
7/96 |
033/0 |
ضریب درگیری کلی، 033/0 به دست آمده است. به این ترتیب، در بخش بسیار ناچیزی از رویدادهای چالشها (3/3%)، دستور خط فارسی رسمی رعایت شده است و در مقابل، در اکثریت قریب به اتفاق (7/96%) گرایش نگارندگان متون پیکره همشهری به نادیده گرفتن این دستور بوده است (جدول 3).
چنانچه هریک از چالشها را به تفکیک مد نظر قرار دهیم، چالش همزه با پایه و (ؤ) با ضریب درگیری 4/0 بیشترین میزان انطباق و چالش همزه مختوم به یا (ئی) با 064/0 کمترین میزان انطباق را با دستورخط فرهنگستان نشان میدهند. به این ترتیب، در همة چالشهای مورد بررسی، فراوانی واژگان نگاشته شده نامنطبق با دستور خط فرهنگستان زبان و ادب فارسی، با تفاوت بسیار چشمگیری از واژگان منطبق با این دستور پیشی گرفته است.
بحث
مصداقهای هفت چالش مورد بررسی، گاه سرهنگاری و گاه فارسینگاری شده اند. به جز دو نویسه «ؤ» و «أ»، درپنج چالش دیگر، تعدادی از مصداقها تنها سرهنگاری شدهاند. این امر برخورد احتیاطآمیز با این نویسهها را به هنگام طراحی الگوریتمها یا تدوین راهبرد جستجو ایجاب میکند، زیرا در غیر این صورت میزان بازیافت این مصداقها به صفر خواهد رسید و کاربر هیچگونه پاسخی را از سامانه دریافت نخواهد کرد. این امر بهویژه در مورد نویسه «ة» صدق میکند که شمار مصداقهای تکشکل آن (03/29%) نسبتاً قابل توجه است. به این ترتیب، درصد مصداقهایی که در صورت بهنجار نشدن این نویسه در الگوریتمهای سامانه بازیابی به طور کامل از دسترس کاربران دور خواهند ماند، قابل توجه خواهد بود. با این حال، شمار این مصداقها در دیگر نویسهها بسیار اندک است و نشان از آن دارد که نگارندگان متون پیکره همشهری به طور کلی تمایل به فارسینگاری دارند. به این ترتیب، با وجود نگرانیها و هشدارهای پژوهشگران درباره تأثیر گونهگونی نگارش بر اثربخشی بازیابی اطلاعات (حری، 1372؛ گلتاجی و بذرگر، 1389؛ عبدالهی نورعلی و جوکار، 1388) به نظر میرسد دست کم در مورد هفت نویسة مورد بررسی در این پژوهش، نادیده انگاشتن این چالشها، اثربخشی بازیابی اطلاعات را به لحاظ میزان بازیافت چندان متأثر نسازد. چنان که پیشتر بیان شد، احتمال دارد برخی مصداقها، فارسینگاری محض شده باشند؛ یعنی صرفاً با حذف یا جایگزینی نویسة چالشی نوشته شده باشند که در این پژوهش امکان بررسی آنها نبود. چنانچه این احتمال را نیز در نظر آوریم، وزنه به نفع فارسینگاری سنگینتر خواهد شد.
قضاوت دقیقتر دربارة میزان تأثیر چالشها بر اثربخشی بازیابی اطلاعات، به میزان رواج این مصداقها در متون بستگی دارد. در نویسههای تشدید، «تای گرد»، همزه پایانی، در بیش از 90% موارد، فارسینگاری روی داده است. بنابراین، رفتار کلی نگارندگان متون مورد بررسی، تمایل به فارسینگاری را نشان میدهد و به نظر میرسد لحاظ نکردن این نویسهها در الگوریتمهای سامانهها یا راهبردهای جستجوی کاربران، آسیب چندانی به جامعیت بازیابی وارد نمیآورد.
چالش تشدید به درج نویسة افزودهای نیاز دارد که نه تنها کلید آن چندان شناخته شده نیست، بلکه گویشور فارسی، ضرورت درج آن را به جهت کمک به شناخت کلمه چندان احساس نمیکند. حرف «تای گرد» نیز در زبان فارسی مهجور است و رواج چندانی ندارد. بنابراین، کلید مربوط به این حرف نیز در اثر کاربرد کم، در میان نگارندگان کم و بیش ناشناخته میماند، بهویژه این که درج این حروف، نیاز به استفاده از کلید مبدله[7] دارد که یک گام فعالانة اضافی را به هنگام حروفچینی بر نگارنده تحمیل میکند. مسئله مهم دیگر این که بسیاری از فونتهای رایانهای این حرف را به شکل «ة» درج میکنند و نه «ة». در واقع این فونتها، شکل صحیح این حرف را دارا نیستند. این نکات، انگیزه نگارندگان را برای سرهنگاری این حرف کاهش میدهند.
همزه پایانی، نه تنها مستلزم درج نویسهای اضافی است، بلکه، از حروف عربی محض به شمار میآید که در الفبای زبان فارسی وجود ندارد. نگارنده فارسیزبان، عموماً - آگاهانه یا ناخودآگاه- سعی در نگارش کلمات به صورت هرچه شبیهتر به شیوة نگارش فارسی خواهد داشت، مگر در جایی که ضرورت رعایت رسمالخط زبان عربی را احساس کند. برای مثال، به هنگام تلاش برای درج عین کلمه، یا نقل عبارتی از متون عربی یا قرآن کریم و جز آن. مسئله مهم دیگر آن که در زبان فارسی، نویسه همزه پایانی اغلب تلفظ نمیشود، جز در مواردی که علامت جمع، «یا»ی نکره، نسبت، مضافالیه یا صفت به کلمات واجد این نویسه اضافه میشود و در آن صورت این حرف یا با آوای اصلی خود خوانده میشود یا با حرف «ی» جایگزین میشود (مثل سمائی یا سمایی). این مسئله قطعاً در پرهیز از درج این نویسه تأثیر بسزایی دارد. فرهنگستان زبان و ادب فارسی نیز نگارش برخی کلمات واجد همزه پایانی را بدون درج این نویسه مجاز دانسته است. بنابراین، نگارندگان بنا بر اصل کمترین کوشش، دلیلی برای درج آن در نگارش کلمات نیافته، اغلب تمایل به حذف آن خواهند داشت.
تمایل به فارسینگاری در چالش «ؤ»ـ در مقایسه با نویسههای پیشگفته ـ کمتر است. شاید دلیل کاربرد بیشتر این نویسه را بتوان در این نکته جستجو کرد که حرف «و» در برخی کلمات چون «تو»، «خود»، «خورد»، مصوت کوتاه «ـُ» و در اکثر کلمات، آوای بلند «او» را ایجاد میکند، مانند «دوست»، «گوش»، «زود». در حالی که نویسه «ؤ» در واقع «همزه» است که بر کرسی «و» قرار گرفته است و آوایی کاملاً متفاوت را تولید میکند. نگارش کلمات واجد نویسه «ؤ» به شکل «و» به خوانش بد این کلمات، حداقل در نگاه اول، یا برای نوآموزان، کمسوادان و کسانی که به زبان و نگارش فارسی تسلط ندارند، منجر خواهد شد. مثالی از این مطلب، نحوة خوانش کلماتی چون «مؤثر»، «موذن»، «روسا»، با صدای «او» یا «ـُ» میباشد. ممکن است بهکارگیری بیشتر این نویسه، ریشه در تلاش نگارندة فارسی زبان برای کمک به خوانش بهتر متن داشته باشد.
در دو چالش تنوین نصب و همزه بر پایة الف نیز، گرایش کلی نگارندگان به فارسینگاری است. با این حال، سرهنگاری این دو نویسة فراوانی قابل ملاحظهای را نشان میدهد که قابل چشمپوشی نیست. تمایل به فارسینگاری و وقتگیر بودن استفاده از کلید مبدله برای درج نویسه «أ»، نگارندگان را به جایگزینی این نویسه با حرف و کلید سادهتر و شناخته شدهتر «ا» سوق داده است. همچنین، کلماتی که با تنوین نصب نوشته شدهاند، کاملاً عربی هستند و کاربرد آنها نه در زبان فارسی عمومی، بلکه عمدتا در متون فقهی، حقوقی و مذهبی است که از کلمات عربی صرف استفاده بیشتری میشود. شاید این امر را بتوان دلیلی بر پایبندی نگارندگان به استفاده از تنوین به منظور هرچه نزدیکتر ساختن آنها به صورت عربی دانست. به طور کلی، التزام نداشتن نگارندگان به رعایت رسمالخط عربی، عدم احساس ضرورت سرهنگاری عربی، نامأنوس بودن و یا رواج کم برخی کلمات، تمایل به نزدیک ساختن نگارش به محاوره، تلاش برای افزایش سرعت حروفچینی و ـ به گفته مانینگ و همکاران (2008) ـ عادات بازمانده از قدیم[8]، از دلایل احتمالی این گرایش در نگارش است.
شایان ذکر است، این پژوهش بر بررسی رویداد واژگان تمرکز داشته و فراوانی مدارک محاسبه نشده است. آشکار است که به دلیل احتمال رویداد چندبارة مصداقها و واژگان در مدرکی واحد، فراوانی مدارک مربوط میتواند برابر یا کمتر از فراوانی واژهها باشد. به این ترتیب، احتمال این که درصد مدارک بازیابی نشده از این هم کمتر باشد، وجود خواهد داشت.
با وجود این واقعیت، میزان واژگانی که به سبب توجه نکردن به نویسههای چالشی تنوین نصب، همزه بر پایة الف و همزه با پایه واو بازیابی نخواهند شد، حدود یکچهارم از کل واژگان را تشکیل میدهد که برخورد احتیاطآمیز به هنگام سیاستگذاری به منظور طراحی سامانه و تدوین الگوریتمهای نمایهسازی و بازیابی یا تدوین راهبرد جستجو را میطلبد.
رفتار نگارشی رایج در میان نگارندگان مورد بررسی، به شدت از آنچه فرهنگستان به عنوان دستور خط رسمی تجویز کرده است، فاصله دارد. دلایل چندی را میتوان در این راستا برشمرد. از یک سو، اعمال دستور خط رسمی مصوب فرهنگستان به هیچ روی برای افراد، نهادها یا سازمانها الزامآور نیست. از سوی دیگر، فرهنگستان بیشتر به سرهنگاری عربی پایبند است. این در حالی است که رسمالخط عربی به دلیل دشواری و نأمانوستر بودن، با اصل کمترین کوشش مغایرت دارد، زیرا نیازمند درج نویسهای افزوده از سوی نویسنده (مانند نویسه تشدید و تای گرد)، آشنایی با برخی نویسهها و کلیدهای مربوط وجستجوی فعالانه برای یافتن آنها در صفحه کلید رایانه (مانند تای گرد) است. همچنین، به نظر میرسد دستور خط فارسی نیازهای زبانی اساسی گویشوران فارسی را نادیده گرفته است. برخی نویسهها (مانند همزه پایانی) در فارسی به تلفظ در نمیآیند یا به همان سختی ادا نمیشوند.
نتیجهگیری
بر پایة یافتههای این پژوهش، رفتار نگارشی نگارندگان متون پیکره همشهری، گرایش به سادهنگاری، تلاش در جهت هر چه «فارسیتر» کردن نگارش و عدم انطباق کلی با دستور خط رسمی فارسی را نشان میدهد. مسئله توانش خط فارسی در تولید آواهای فارسی و همچنین نیاز نداشتن به برخی حروف (مانند ص، ض، ذ، ع) که در عربی، برخلاف فارسی، برای تولید آواهای متفاوت به کار میروند، از دیرباز مورد توجه بوده است. فراوانی چشمگیر غلطهای املایی در محیطهای عمومی وب که کاربران در آنها آزادانه و به دور از نظارت ویراستاران مینویسند، خود مؤید احساس نیاز گویشوران فارسی به سادهسازی املای فارسی بر اساس نیازهای عملی خود است. آشکار است که بحث و بررسی دربارة پیامدهای رعایت یا عدم رعایت دستور خط فارسی، در صلاحیت متخصصان زبان و ادب فارسی است. به هر حال، دستاوردی که پژوهش حاضر در بر دارد، آن است که این گرایش به نادیده گرفتن رسم الخط عربی و تلاش برای «فارسیتر» کردن آن باید در سامانههای بازیابی اطلاعات، خواه به هنگام نمایهسازی و خواه به هنگام بازیابی اطلاعات، مد نظر قرار گیرد.
در عین حال، درصدی از واژگان سرهنگاری شده، بهویژه آنهایی را که به طور محض سرهنگاری شدهاند را نیز نباید از نظر دور داشت. میزان تخصصی بودن سامانة بازیابی اطلاعات و جامعه هدف آن، در تصمیمگیری برای بهنجار کردن یا نکردن چالشهای نگارشی برخوردار، تعیین کننده است. بر این اساس، بسته به اهداف سامانة بازیابی اطلاعات، ویژگیهای جامعه هدف، پوشش موضوعی و میزان جامعیت مورد نظر، میتوان سامانههایی با سطوح مختلف حساسیت را طراحی نمود. در سامانههای عمومی و بسیار بزرگ مانند محیطهای وبی که جامعیت صددر صدی مد نظر نیست، میتوان نویسههای چالشی را در الگوریتمهای نمایهسازی یا بازیابی نادیده گرفت. این امر، به سادگی الگوریتمها و در نتیجه افزایش کارآیی سامانه منجر خواهد شد. با این حال، در سامانههای تخصصی مانند پایگاههای مجلات و همچنین فهرستهای کتابخانهای که شمار مدارک به طور نسبی کمتر است و حوزههای موضوعی تخصصی وابسته به زبان عربیـ مانند حقوق، ادبیات عرب، فلسفه اسلامی، الهیات و معارف اسلامیـ را پوشش میدهند، به هنجارسازی این چالشها در الگوریتمها چندان از کارآیی سامانه نخواهد کاست و در عین حال به افزایش قدرت جستجوی واژگان چالشی نیز منجر خواهد شد.
با آن که احتمال میرود گرایش به سادهنگاری که نزد نگارندگان متون مشاهده شده است، در میان کاربران پایگاههای اطلاعاتی و شبکهها نیز رواج داشته باشد، به منظور اطمینان یافتن از انطباق رفتار نگارشی این دو گروه ـ که موفقیت بازیابی اطلاعات را تضمین خواهد نمودـ ضروری است پژوهشی در جهت مقایسة این دو رفتار صورت گیرد. همچنین، در پژوهش حاضر، متون یک روزنامه در یک بازة زمانی گسترده برای بررسی انتخاب گردید. آشکار است که طیف نگارندگان یک روزنامه، هر چند متنوع باشد، در مقایسه با تنوع طیف نگارندگان رسانههای متنی گوناگون، محدود است. توصیه میشود در پژوهشهای دیگر، با انتخاب یک بازة زمانی کوتاهتر، انواعی از رسانهها (مانند کتاب، روزنامه، مجله، وبلاگها و وبسایتها) و در نتیجه، طیف متنوعتری از نگارندگان متون، مورد بررسی قرار گیرد.