نوع مقاله : مقاله پژوهشی
نویسندگان
1 کارشناسی ارشد، گروه علم اطلاعات و دانش شناسی، دانشکده علوم تربیتی و روانشناسی، دانشگاه شیراز، شیراز، ایران.
2 استادیار، گروه علم اطلاعات و دانش شناسی، دانشکده علوم تربیتی و روانشناسی، دانشگاه شیراز، شیراز، ایران.
چکیده
کلیدواژهها
عنوان مقاله [English]
نویسندگان [English]
Purpose: This article aimed to investigate the extensibility of document retrieval in the form of writing words continuously and separately in three Persian scientific databases, Magiran, SID and RICEST.
Methodology: The research was conducted through the content analysis method. The statistical population consisted of existing documents in Persian scientific databases. Using Cochran's formula, 432 documents were chosen with the simple stratified sampling. The research tool was a researcher-made checklist contained examples (keywords) that could have the possibility of occurrence of writing words continuously and separately.
Findings: The results revealed that there was a difference between the retrieval capability of Persian scientific databases with each form of writing words continuously and separately. In addition, findings revealed that while searching in scientific databases, only 5.3 % of documents can be retrieved with each form of writing words and in contrast 94.7% of documents were retrieved only with the same state of recorded examples of documents. Also, the comparison of the writing form of the examples in the PDF version of the documents with the information provided by the same documents in the Persian Scientific Databases showed that writing form of a significant portion of the examples of documents has been altered from writing words semi-spacely to separately and continuously.
Conclusion: Present study revealed that the studied Persian Scientific Databases have not addressed the challenges of writing words continuously and separately in a comprehensive way in order to improve recall of search results; this undesirable situation may lead to loss documents which are saved in databases with other forms of writing.
کلیدواژهها [English]
مقدمه
از مهمترین مسائل و چالشهای نگارشی خط فارسی در محیطهای الکترونیکی (روند ذخیرهسازی و پردازش، جستجو و بازیابی اطلاعات) میتوان به مواردی چون نگارش غیررسمی یا محاورهای، استفاده از واژگان بیگانه، پیچیدگی صرفی، تنوع املایی واژگان، همنگاشتها[1] و فاصلهگذاری میان واژگان اشاره کرد (دانش، مینایی و کاشفی[2]،2011). در میان این چالشها، در دهههای اخیر مسئله «فاصلهگذاری» و بهطور مشخص پیوستهنویسی و جدانویسی[3] بسیار مورد توجه قرار گرفته است؛ بهگونهای که بیشترین اختلافنظرها در باب املای فارسی (فرهنگستان زبان و ادب فارسی، ۱۳۸۹) و بیشترین پژوهشها در ارتباط با چالشهای نگارشی زبان فارسی در محملهای الکترونیکی (هنرجویان،1392) را به خود اختصاص داده است. حتی، در کنار چالشهای اعرابگذاری، از آن بهعنوان یکی از مهمترین و تأثیرگذارترین چالشها در قلمروِ منابع الکترونیکی یاد میشود، بهگونهای که صاحبنظران مراحل بعدی پردازش متون تولیدی را منوط به حلشدن این دو مسئله دانستهاند (کاشفی، نصری و کنعانی، 1389؛ دانش و دیگران، 2011).
بهدلیل وجود این چالش در رسمالخط فارسی، اگر شکلهای مختلف نگارشی یک واژۀ مرکب اعم از پیوستهنویسی یا جدانویسی توسط طراحان و نمایهسازان پایگاههای اطلاعات علمی فارسی بهنجارسازی[4] نشود، کاربران با نگارش هر یک از شکلهای نگارشی واژه، تنها به مدارکی[5] که بدان شکل نگارش یافته است، دسترسی خواهند یافت و سایر مدارک مرتبط نگارشیافته با دیگر شکلها را از دست خواهند داد.
برای تبیین بهتر مسئله و اینکه چه ناهماهنگیهایی در ضبط یک واژۀ واحد در محملهای الکترونیکی و بهطور اخص پایگاههای اطلاعاتی علمی فارسی رخ میدهد، نگارنده از بخش «ترکیبات»[6] دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی و از قاعدۀ ده که مربوط به پیوستهنویسی است، واژه «کتابشناسی» را بهعنوان نمونه انتخاب و در پایگاه استنادی علوم جهان اسلام[7] (بهعنوان نمونهای از پایگاههای اطلاعات علمی فارسی) جستجو کرد. نگارش این واژه به سهشکل «کتابشناسی» (پیوستهنویسی)، «کتابشناسی» (نزدیکنویسی) و «کتاب شناسی» (جدانویسی) امکانپذیر است. در ابتدا جستجو به شکل «کتاب شناسی» (جدانویسی) انجام شد که 362 مدرک بازیابی شد؛ ولی با تغییر شکل نگارشی واژه و واردکردن آن به شکل «کتابشناسی» (نزدیکنویسی) و «کتابشناسی» (پیوستهنویسی) به ترتیب 40 و 54 مدرک بازیابی شد. توجهنکردن به چنین مسئلهای در مراحل ذخیرهسازی و پردازش، جستجو و بازیابی اطلاعات از پایگاههای اطلاعات علمی فارسی، چالشها و موانعی را پیش روی کاربران فارسیزبان در دستیابی به اطلاعات مورد نیازشان ایجاد کرده است.
مرور مطالعات انجام شده در سالهای اخیر نشان میدهد میزان توجه سامانههای بازیابی اطلاعات به چالشهای خط فارسی، از جمله مسئله پیوستهنویسی و جدانویسی، بعضاً با ذکر تعداد محدودی کلیدواژه (یک یا دو کلیدواژه) آنهم از قلمرو موضوعی محدود، بهمنزله نمونهای از متون فارسی، بررسی شده است. افزون بر این، یکسانی فراوانی تعداد مدارک بازیابیشده در ریختهای مختلف یک واژه را نشان از رفع آن چالش در سامانههای بازیابی اطلاعات قلمداد کردهاند. این در حالی است که ممکن است شکلهای نگارشی یک واژه بهطور همزمان در بخش عنوان، چکیده و واژگان کلیدی یک مدرک رخ داده و این مسئله باعث بازیابی دوبارۀ همان مدرک شده باشد.
علاوه بر موارد بالا، در بخش ترکیبات دستور خط فارسی فرهنگستان، 23 قاعده دربارۀ موقعیتهای رخداد جدانویسی و پیوستهنویسی ذکر شده است. این در حالی است که مرور مطالعات پیشین (رمضانی، 1386؛ قدسنیا، زارع بیدکی، و یزدانی، 1386؛ عبدالهی و جوکار، 1388؛ گل تاجی و بذرگر، 1389؛ آخشیک و فتاحی، 1391؛ هماوندی، نوروزی و حسینی بهشتی، 1397) نشان میدهد پژوهشگران بدون توجه به این قاعدهها، گاه با درنظرگرفتن یک یا دو مصداق (کلیدواژه یا واژگان انتخابی) آنهم بدون ذکر چگونگی و دلایل انتخاب آنها، چالشهای پیوستهنویسی و جدانویسی و همچنین میزان تأثیر آن بر سامانههای بازیابی اطلاعات را بررسی کردهاند. در صورتیکه به نظر میرسد انتخاب مصداق (کلیدواژه) از هر قاعده میتواند تأثیرگذاری متفاوتی بر سامانههای جستجو و بازیابی اطلاعات داشته باشد.
با توجه به وجود چنین خلأهایی در پژوهشهای پیشین، مقالۀ حاضر در پی آن است که با گسترش قلمروهای موضوعی و با درنظرگرفتن قاعدههای بخش ترکیبات دستور خط فارسی مصوب فرهنگستان و همچنین، کنترل رخداد شکلهای نگارشی در بخش عنوان، چکیده و واژگان کلیدی هر مدرک، وضعیت برخی از پایگاههای اطلاعات علمی فارسی را از نظر میزان توجه به مسئله پیوستهنویسی و جدانویسی بررسی و بر مبنای نتایج حاصل، پیشنهادها و راهکارهای عملی را ارائه کند. انتظار میرود با استفاده از نتایج این پژوهش بتوان از طریق تشخیص دقیقتر نقاط ضعف و قوّت پایگاههای اطلاعات علمی فارسی در راستای بهبود یا اصلاح الگوریتمهای جستجو و بازیابی آنها گام برداشت. همچنین، نمایهسازان و طراحان سامانههای بازیابی اطلاعات میتوانند با شناسایی قاعدههای دارای تأثیرگذاری بیشتر بر کمیّت نتایج بازیابیشده، امکان بهکارگیری و اعمال آنها در الگوریتمهای نمایهسازی یا بازیابی را فراهم کنند. از اینرو، مقالۀ حاضر در پی پاسخ به سؤالهای زیر نگارش یافته است:
1. آیا میان پایگاههای اطلاعات علمیِ فارسی از نظر گسترشپذیری جستجو و بازیابی مدارک بهصورت پیوستهنویسی و جدانویسی، تفاوت وجود دارد؟
2. نسبت فراوانی پایگاههای اطلاعات علمی فارسی از نظر گسترشپذیری جستجو و بازیابی مدارک به صورت پیوستهنویسی و جدانویسی بر حسب قاعدههای دهگانه فرهنگستان زبان و ادب فارسی چگونه است؟
3. نسبت فراوانی شکل نگارشی مصداقها در عنوان، چکیده و واژگان کلیدی نسخۀ پیدیاف مدارک با اطلاعات ارائهشده از همان مدارک در پایگاههای اطلاعاتیِ علمی فارسی، چگونه است؟
شایان ذکر است، در مقالۀ حاضر منظور از گسترشپذیری جستجو، توانایی پایگاه اطلاعات علمی فارسی در بازیابی مدرک با هر دو حالت نگارشی مصداق اعم از پیوستهنویسی و جدانویسی است. بنابراین، سنجش گسترشپذیریِ جستجو برای هر پایگاهِ اطلاعاتِ علمیِ فارسی با مشاهدۀ رویداد یک یا مجموعهای از حالتهای زیر در زمان جستجوی مصداقهای مدارک تعیین گردید:
1. خوانش شکل نگارشی «پیوستهنویسی» و گسترش به حالت «جدانویسی»؛
2. خوانش شکل نگارشی «جدانویسی» و گسترش به حالت «پیوستهنویسی»؛
3. خوانش شکل نگارشی «جدانویسی» و گسترش به حالت «نیمفاصله»؛
4. خوانش شکل نگارشی «پیوستهنویسی» و گسترش به حالت «نیمفاصله»؛
5. خوانش «نیمفاصله» و گسترش به هر سه حالت نگارشی (پیوسته، نیمفاصله و جدا).
مرور پیشینههای پژوهش
پیشینههای داخلی
تاکنون ویژگیها و مشکلات رسمالخط یا شیوۀ خط فارسی، از جمله مسئلۀ فاصلهگذاری و تأثیرگذاری آنها بر روند سامانههای ذخیره و بازیابی اطلاعات، موضوع پژوهشهای متعددی بوده است. «حرّی» (۱۳۷۲) در مقالهای نظری به تبیین چالشهای رسمالخط فارسی در مواجهه با رایانه پرداخت. او راهحلهای طراحیشده برای مقابله با چالشهای رسمالخط را در پنج دستۀ کلی، یعنی 1. هماهنگکردن حروف ۲. استفاده از تکواژها ۳. استفاده از سیاهۀ آماده ۴. پیوند ساختگی میان واژگان و ۵. هماهنگی رسمالخط جای داد. او همچنین از میان راهکارهای پیشنهادی، مورد پنجم را ارجح و معقولتر دانست. حرّی دلیل آن را چنین تبیین میکند که با بهکارگیری این راهکار، بهدلیل ضرورت برخورد با رایانه، خط فارسی شیوهای واحد خواهد یافت و آشفتگی و چندگانگی فعلی رسمالخط از بین خواهد رفت.
«اکبرینژاد» (۱۳۷۶) بهواسطۀ تجربۀ کار با پایگاههای اطلاعاتی، در مقالهای با عنوان «فاصلۀ خالی میان واژهها در ذخیره و بازیابی رایانهای اطلاعات» به بیان مشکلات و مسائل ایجادشده بهدلیل فاصلۀ میان واژهها و عبارتها در تمام نظامهای رایانهایِ ذخیره و بازیابی اطلاعات کتابشناختی به زبان فارسی پرداخت. نگارنده با اشاره به اینکه ملاک شناسایی واژهها و نمایهسازی در نرمافزارهای موجود بازار، فضای خالی میان واژهاست، از مسائل و مشکلات موجود در رسمالخط از جمله فاصلهگذاری میان واژهها و عبارتها بهصورت فاصله، نیمفاصله یا بیفاصله، بهعنوان عاملی تأثیرگذار (منفی) بر جامعیت مطلوب یا سرعت جستجو یاد کرده است.
«مرتضایی» (۱۳۸۰) نیز با هدف ارائه نمونههایی از تجربههای واژهگزینی در ذخیرۀ اطلاعات و بهمنظور تسریع و تسهیل ذخیره و بازیابی اطلاعات، به بررسی مسائل زبان و خط فارسی در ذخیرهسازی و بازیابی اطلاعات پرداخت. یافتهها نشان داد مسائل زبان و خط فارسی سبب کندی مراحل ذخیره و بازیابی اطلاعات، کاهش نسبت بازیافت اطلاعات و همچنین تأثیر منفی بر جامعیت نتایج یک جستجو میشود.
از جمله پژوهشهای دیگر میتوان به پژوهش «راثی» (۱۳۸۵) اشاره کرد که با استفاده از پرسشنامه و با مطالعۀ موردی کاربران مرکز اینترنت دانشگاه آزاد اسلامی شبستر، مشکلات جستجو و بازیابی اطلاعات به زبان فارسی در اینترنت را بررسی کرد. پژوهش به روش پیمایشی و با رویکرد توصیفی صورت گرفت. نتایج نشان داد کاربران کمترین استفاده را از «شکلهای مختلف نوشتاری واژه» دارند و بیشتر کاربران به این نکته توجهی نداشتند. یافتههای پژوهشگر این فرضیه را که «بیشتر از ۵۰% موارد عدم بازیابی مطالب موردنظر در جستجوی اطلاعات به زبان فارسی، مربوط به مسائل زبان و خط فارسی است» تأیید کرد.
«قدسنیا، زارع بیدکی و یزدانی» (۱۳۸۶) در پژوهشی دیگر که با هدف سنجش تأثیرگذاری سیزده چالش از مهمترین مشکلات زبان و خط فارسی بر میزان جامعیت نتایج جستجو انجام گرفت، با طراحی یک خزنده[8] یک میلیون و دویست هزار صفحه وب را بررسی کردند. نتایج پژوهش آنان نشان داد جدیترین چالشها و مشکلاتی که بر جامعیت نتایج جستجو تأثیرگذار است، به ترتیب شامل استفاده از «ی» فارسی و «ی» عربی نقطهدار چسبان بهجای «ی» عربی آخر با ۹۴/۹۴%، استفاده از «آ» بهجای «ا» با 44/94% و استفاده از «ی» عربی نقطهدار چسبان و «ی» عربی آخر بهجای «ی» فارسی با 98/74% است؛ همچنین استفاده از «فاصله» بهجای «نیمفاصله» با 7/51% و «نیمفاصله» بهجای «فاصله» با30/48% از دیگر موارد قابل توجه است.
«عبداللهی و جوکار» (۱۳۸۸) در مقالهای به بررسی چالشهای شیوۀ نگارش زبان فارسی در بازیابی اطلاعات از موتورهای کاوش گوگل، یاهو و آلتا ویستا پرداختند. بر این مبنا، پژوهشگران به روش پیمایشی _ مقایسهای و اسنادی و با استفاده از یک سیاهه شامل هفده کلیدواژه که هر یک نمایانگر یک مورد از چالشهای زبان فارسی در بازیابی اطلاعات بود، این مطالعه را انجام دادند. یافتههای پژوهش نشان داد موتورهای کاوش وب، شیوههای نگارش زبان فارسی را بهمنظور بهبود کاوش، مورد توجه قرار ندادهاند و رابطۀ معناداری بین شکل واژه و نوع ابزار جستجو وجود دارد. در ارتباط با این پژوهش، نکتۀ قابل تأمل اینکه پژوهشگران برای سنجش تأثیر پیوستهنویسی و جدانویسی بر بازیابی اطلاعات، تنها به دو مصداق بسنده کردهاند و از چگونگی و دلایل انتخاب این دو مصداق نیز سخنی بهمیان نیاوردهاند. همچنین، پژوهشگران پس از بررسی انجامشده در زمینۀ این چالش، به یکسانبودن فراوانی مدارک بازیابیشده اشاره کردند و از این طریق دربارۀ عملکرد موتورهای جستجو نسبت به رفع احتمالی چالشهای رسمالخط فارسی، به نتیجهگیری پرداختند. در توضیح این مطلب باید گفت، یکسان بودن فراوانی نتایج بازیابی شده بهمعنای یکسان بودن رخداد همان مدارک نیست زیرا احتمال دارد شکلهای مختلف یک واژه در بخشهای مختلف یک مدرک (عنوان، چکیده و کلیدواژهها) رخ داده و به بازیابی دوبارۀ آن مدارک انجامیده باشد. از سوی دیگر، ممکن است فقط یک حالت نگارشی در مدرک رخ داده باشد و پایگاه اطلاعات علمیِ فارسی، امکان بهنجارسازی شکلهای مختلف واژه را داشته باشد.
«گلتاجی و بذرگر» (۱۳۸۹) مسائل ریختشناسی زبان فارسی را در سه پایگاهِ مقالههای فارسی «مرکز منطقهای اطلاعرسانی علوم و فناوری»، «مرکز اطلاعات علمی جهاد دانشگاهی» و «پژوهشگاه اطلاعات و مدارک علمی ایران (به اختصار ایرانداک)»[9] با استفاده از روش پیمایشی _ مقایسهای بررسی کردند. در این پژوهش، پژوهشگران از یک سیاهه شامل ۱۷ کلیدواژه استفاده کردند که به اعتقاد آنها هرکدام نمایانگر یک مورد از چالشهای زبان فارسی در برخورد با فناوری نوین بود. نتایج کلی پژوهش آنان نشان داد هیچکدام از سه پایگاه فارسی مورد بررسی، به شیوهای جامع چالشهای زبانشناختی زبان فارسی را در جهت بهبود نتایج جستجو مورد توجه قرار ندادهاند. همچنین نگارندگان در بعضی موارد تساوی تعداد رکوردهای بازیابیشده در ریختهای مختلف یک واژه را نشان از رفع آن چالش خاص در نظر گرفتهاند. در ارتباط با پژوهش «گلتاجی و بذرگر» نیز موارد قابل تأملی که پیش از این دربارۀ پژوهش «جوکار و عبداللهی» اشاره شد، مصداق مییابد.
در مقالۀ «آخشیک و فتاحی» (۱۳۹۱) با عنوان «تحلیل چالشهای پیوستهنویسی و جدانویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاههای اطلاعاتی»، آنها صد عنوان از پایاننامههای موجود رشتۀ کتابداری و اطلاعرسانی[10]را بهمنزلۀ نمونهای از متون فارسی در پایگاههای اطلاعاتی «پژوهشگاههای علوم و فناوری اطلاعات ایران» و «مرکز منطقهای اطلاعرسانی علوم و فناوری» انتخاب و تحلیل محتوا کردند. سپس، از هر پایگاه ۵۰ عنوان را بهصورت تصادفی انتخاب و عنوانهای مربوط به هر پایگاه را با «جستجوی عنوانی» بهطور عمدی در حالتهای درست و نادرست جستجو کردند. نتایج پژوهش آنان نشان داد، هرچند در پایگاه اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران 58% عنوانها با تغییر شکل نگارشی مجدد بازیابی میشدند؛ اما در پایگاه «مرکز منطقهای اطلاعرسانی علوم و فناوری» فقط حالت ثبتشدۀ عنوانها به بازیابی مجدد آن عنوان میانجامید. در ارتباط با پژوهش آنان، دو نکتۀ قابل تأمل بهچشم میخورد. نخست، در این پژوهش به وضوح مشخص نشده است که منظور از حالت «جدانویسی»، نگارش با فاصلۀ کامل است یا حالت نیمفاصلهنویسی؛ یا اینکه این دو حالت نگارشی یکی در نظر گرفته شده است. اگر مبنای پژوهشگران دستور خط مصوب فرهنگستان باشد، در این حالت منظور از جدانویسی حالت نیمفاصلهنویسی یا نزدیکنویسی است. نکتۀ دوم این است که آیا در عنوانهای انتخابشده بهعنوان حجم نمونه، واژگان شامل حالت «نیمفاصلهنویسی» هم مشاهده شده است یا خیر و اگر وجود داشته، آیا در زمان جستجو در پایگاه اطلاعات علمی فارسی این حالت نگارشی هم جستجو و بررسی شده است یا خیر.
در نهایت «هماوندی، نوروزی و حسینیبهشتی» (1397) در پژوهشی به روش پیمایشیـ تحلیلی و با استفاده از شیوۀ مشاهدۀ مستقیم، به تشریح مشکلات عمدۀ نوشتاری و معنایی زبان فارسی در استفاده از محیطهای اطلاعاتی و تعیین میزان انطباق و توجه به این ویژگیها هنگام جستجو و بازیابی در پایگاههای اطلاعاتی فارسی پرداختند. یافتههای آنان نشان داد پایگاههای اطلاعاتی فارسی نسبت به ویژگیهای نوشتاری و معنایی زبان فارسی، همچون پیوستهنویسی و جدانویسی، گوناگونی جمعها، واژگان دخیل و معادل آنها توجه کافی ندارند و بسیاری از ویژگیهای آن را در مراحل ذخیرهسازی و پردازش اطلاعات نادیده گرفتهاند. در ارتباط با پژوهش «هماوندی، نوروزی و حسینیبهشتی» موارد قابل تأملی به چشم میخورد که پیش از این دربارۀ پژوهش «جوکار و عبدالهی» (1388)، «گلتاجی و بذرگر» (1389)، و «آخشیک و فتاحی» (1391) به آن پرداخته شد. مواردی چون انتخاب و اکتفا به چند مصداق برای چالشهای مورد بررسی، آن هم بدون ذکر دلایل انتخاب آنها.
مرور پژوهشهای پیشین نشان داد پژوهشگران برای تعیین میزان توجه سامانههای بازیابی اطلاعات به چالشهای خط فارسی، از جمله مسئله پیوستهنویسی و جدانویسی، گاه با ذکر تعداد محدودی مصداق (یک یا دو مصداق) آن هم از قلمروِ موضوعی محدود، وضعیت سامانههای بازیابی اطلاعات را بررسی کردهاند؛ درحالیکه با توجه به پوشش قلمروهای موضوعی متعدد در سامانههای بازیابی اطلاعات مورد مطالعۀ آنها، با درنظرگرفتن این جنبه میشد با جامعیت بیشتر و در نتیجه به شکل دقیقتر دربارۀ میزان تأثیر چالشهای نگارشی قضاوت و راهکارهایی را برای اصلاح یا بهبود آنها ارائه کرد. علاوه بر خلأ فوق، پژوهشگران پس از بازیابی رکوردها در سامانۀ بازیابیِ اطلاعات، یکسانی فراوانی تعداد مدارک بازیابیشده در ریختهای مختلف یک واژه را نشان از رفع آن چالش در سامانههای بازیابی اطلاعات قلمداد کردهاند. در توضیح این شیوۀ پژوهشگران نیز باید گفت کنترل شکلهای نگارشی یک واژه در بخشهای یک رکورد (عنوان، چکیده و واژگان کلیدی) امری ضروری است و حتی احتمال دارد فقط یک حالت نگارشی در مدرک رخ داده باشد و سامانههای بازیابی بهگونهای طراحی شدهاند که قادر به بهنجارسازی شکلهای نگارشی یک واژه باشند.
در بخش ترکیبات دستور خط فارسی مصوب فرهنگستان، 23 قاعده دربارۀ موقعیتهای رخداد جدانویسی و پیوستهنویسی ذکر شده است؛ درصورتیکه مرور پژوهشهای پیشین نشان میدهد پژوهشگران بدون ذکر چگونگی و دلایل انتخاب واژگان بیانکنندۀ چالش پیوستهنویسی و جدانویسی، بعضاً با در نظرگرفتن یک یا دو مصداقها (کلیدواژهها) به بررسی این چالش و همچنین میزان تأثیر آن بر سامانههای بازیابی اطلاعات پرداختهاند. در صورتیکه بهنظر میرسد انتخاب مصداقها برای هر قاعده میتواند تأثیرگذاری متفاوتی بر سامانههای بازیابی اطلاعات داشته باشد. تبیین این مسائل بهمنزلۀ شکافهای پژوهشی این قلمروست که سنجش آن میتواند سودمند باشد. پس از مرور تحلیلی _ انتقادی پیشینههای این مقاله، نویسندگان بر این باورند که پژوهش مشابهی با پژوهش حاضر مشاهده نشد و ضرورت انجام این پژوهش، بیش از پیش احساس میشود.
پیشینههای خارجی
در خارج ایران نیز پیرامون سایر زبانها و مشکلات آنها در مواجهه با محیطهای الکترونیکی مطالعات مشابه گوناگونی انجام شده است که در ادامه به برخی از آنها اشاره میشود.
«ژانگ و لین»[11] (2007) در پژوهشی پیمایشی _ مقایسهای ویژگیهای پشتیبانی چندزبانه بهوسیله موتورهای جستجو شبکه اینترنت را بررسی کردند. یافتههای آنان نشان داد موتورهای جستجوی گوگل، EZ2Find و Onlinelink در بین بسیاری از موتورهای جستجو مجهز به ویژگیهای پشتیبانی چندزبانه، وضعیت مطلوبتری دارند.
«لازارینیس»[12] (2007) در پژوهشی با رویکرد پیمایشی، قابلیتهای جستجوی وبسایتهای الکترونیکی تجاری را دربارۀ زبانهای غیرانگلیسی (مطالعه موردی یونانی) بررسی کرد. نتایج او نشان داد موتورهای جستجوی محلی به ریختشناسی سؤالها (کلیدواژهها) توجهی نشان نمیدهد که نهایت این امر به شکست جستجوی کاربر میانجامد.
«لواندوفسکی»[13] (2008) در پژوهش خود با رویکرد پیمایشی توانایی موتورهای جستجوی پراستفاده و اصلی از جمله گوگل، یاهو، ام اس ان[14] و اسک[15] در تشخیص و تمایز میان مدارک به زبان آلمانی از پیشینههایی با زبان انگلیسی را بررسی کرد. نتایج پژوهش او نشان داد در موتورهای کاوش گوگل و ام اس ان، وقتی نتایج به زبان خاصی محدود میشود، کاربر با مشکلاتی روبهرو میشود، درحالی که هیچیک از موتورهای کاوش در بازیابی نتایج به زبان صفحه رابط کاربر (زبان انتخابی) با مشکل مواجه نمیشوند. افزون بر این، نتایج او نشان داد استفاده از صفحۀ میانجی به زبان بومی در جستجو و بازیابی اطلاعات در برخی مواقع اثرگذاری بهتری دارد و همچنین راهبرد محدودیت زبانی، همیشه در بهبود جستجو تأثیرگذار نیست.
در پژوهشی دیگر «همو»[16] با رویکرد پیمایشی یک قالب کاری برای افزایش کارایی موتورهای کاوش برای متون عربیدار و همچنین فاقد اعرابگذاری از طریق روشهای گسترش سؤال (کلیدواژه) ارائه کرد. نتایج پژوهش او نشان داد گسترش سؤال (کلیدواژه) بر بهبود جستجو و بازیابی متون عربی تأثیرگذار است و کارایی موتورهای کاوش با استفاده از ابزارهای پیشرفتۀ پردازش زبان طبیعی، افزایش مییابد.
مرور پژوهشهای خارجی نیز نشان میدهد این پژوهشها اغلب به بررسی توانمندیها و ضعفهای سامانههای جستجو، با هدف شناخت و ارائه راهکارهایی برای اصلاح چالشهای زبانی پرداختهاند. یافتههای حاصل از آنها نشان میدهد ریختشناسی واژهها و عبارتهای جستجو بر بازیابی مدارک مؤثر است و ابزارهای جستجو در هنگام بازیابی نتایج بر شکل کلیدواژههای جستجوشده تکیه میکنند که این امر در نهایت میتواند به شکست جستجوی کاربر منتهی شود.
روششناسی پژوهش
پژوهش حاضر از نظر هدف در ردیف پژوهشهای کاربردی و از جنبۀ طرح پژوهش از نوع تحلیل محتواست. جامعه آماری شامل مجموعه مدارک (مقالههای علمی _ پژوهشی و علمی _ ترویجی) ذخیرهشده با امکان دسترسی به نسخۀ تماممتن آنها در پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور»[17]، پایگاه «مرکز اطلاعات علمی جهاد دانشگاهی»[18] و پایگاه «مرکز منطقهای اطلاعرسانی علوم و فناوری»[19] است. شایانذکر است، این سه پایگاه اطلاعات علمیِ فارسی بهدلیل پوشش نسبتاً جامع متون علمیِ قلمروهای موضوعی مختلف _ که در این پژوهش دستهبندی قلمروهای موضوعی «سامانه ارزیابی نشریات علمی»[20] مورد استفاده قرار گرفته است و شامل قلمروهای دامپزشکی، علوم انسانی، فنی و مهندسی، علوم پایه، منابع طبیعی و کشاورزی، هنر و معماری است _ و همچنین، بهدلیل دارا بودن بیشترین فراوانی در بین پایگاههای اطلاعات علمیِ مطالعهشده در پژوهشهای قلمروِ بازیابی اطلاعات، بهعنوان مهمترین پایگاههای اطلاعات علمیِ فارسی تلقی و محمل انتخاب مدارک شامل مصداقهای «کلیدواژهها» (واژگان) با قابلیت پیوستهنویسی، نزدیکنویسی و جدانویسی قرار گرفتند. بر این اساس، تعداد کلّ مدارک بازیابیشده از سه پایگاه اطلاعات علمی فارسی مورد مطالعه 29142 مدرک است که بهعنوان جامعۀ آماری انتخاب شد.
حجم نمونه نیز با توجه به وجود سه پایگاه اطلاعات علمی فارسی مورد مطالعه و نیاز به مقایسه شش قلمروِ موضوعی و همچنین ده قاعدۀ انتخابی (از مجموع قاعدههای گزینششدۀ بخش «ترکیبات» فرهنگستان) با استفاده از روش نمونهگیری طبقهایِ نسبتی و فرمول کوکران برای جامعه معیّن، با خطای 05/0 و از طریق فرمول
(دلاور، 1390) تعداد 380 مدرک تعیین شد؛ اما با توجه به هدف پژوهش، لازم بود تا این تعداد مدارک بهعنوان نمونه در سه سطح، یعنی سه پایگاه اطلاعات علمی فارسی مورد مطالعه، شش قلمروِ موضوعی و در هر قلمروِ موضوعی نیز بین قاعدههای دهگانۀ آنها توزیع شود. بنابراین، پس از توزیع حجم نمونه در سه سطح گفته شده، تعداد مدارک در سطح سوم یعنی به ازای هر قاعده، 75/1 مدرک بهدست میآمد که این مقدار به عدد 2 گرد شد. با این عمل، حجم نمونۀ نهایی به 432 مدرک افزایش یافت. بدینشکل، با توزیع نمونه در سه سطحِ گفتهشده، به ازای هر پایگاه اطلاعات علمی فارسی مورد مطالعه 144مدرک، به ازای هر قلمروِ موضوعی 24 مدرک و به ازای هر قاعده در هر قلمروِ موضوعی نیز 2 مدرک انتخاب شد.
پس از تعیین حجم نمونۀ مدارک، با مبنا قراردادن بخش ترکیبات دستور خط فارسی مصوب فرهنگستان و با همکاری و نظر استادان رشتههای علم اطلاعات و دانششناسی و زبانشناسی، 23 قاعدۀ بخش ترکیبات ارزیابی شد. برخی از قاعدهها بهدلایلی همچون شمّیبودن و دشواری تشخیص آنها (قاعدههای 3، 5، 6 و 7 از مجموعه موارد پیوستهنویسی الزامی و قاعدههای 6، 14 و 15 مجموعه موارد جدانویسی الزامی) و همچنین عدم رویداد مصداقها (کلیدواژهها) متناسب با آنها در اصطلاحنامهها و فرهنگهای تخصصی مورد استفاده یا عدم بازیابی مدرک در زمان جستجوی آنها در پایگاههای اطلاعات علمی فارسی مورد مطالعه (قاعدههای 4، 5 و 8 از موارد الزامی پیوستهنویسی و قاعدههای 5، 13 و 7 از موارد جدانویسی الزامی) از مجموع قاعدههای کنار گذاشته شد. در نهایت، ده قاعده از 23 قاعده دستور خط فارسی مصوب فرهنگستان برای ساخت سیاهۀ وارسی شامل مصداقها (کلیدواژهها) دارای شکل نگارشی پیوستهنویسی و جدانویسی انتخاب شد که از این پس، قاعدههای دهگانه خوانده میشود. در بین ده قاعدۀ انتخابی، مواردی که انتخاب شکل نگارشی به نویسنده واگذار شده بود، بر مبنای کتاب «فرهنگ املایی خط فارسی»[21] چاپ 1395 عمل شد. لازم به ذکر است، از بین قاعدههای دهگانه، دو قاعدۀ 1 و 5 بهمنظور عملیاتیسازی سنجش آنها، به دو قاعدۀ فرعیِ مجزا تفکیک و با حروف «الف» و «ب» از هم متمایز شدند (جدول1).
جدول1. قاعدههای دهگانۀ دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی
قاعده 1(الف) |
هنگامیکه ترکیب پردندانه شود، ترکیب جدا ] نزدیکنویسی[ نوشته میشود، مثل آبشستگی |
قاعده 1 (ب) |
هنگامیکه ترکیب طولانی شود، ترکیب جدا ] نزدیکنویسی[ نوشته میشود، مثل سوراخکاری |
قاعده 2 |
رسیدن حروف مشابه یا یکسان و هممخرج به هم موجب جدانویسی ] نزدیکنویسی[ میشود، مثل آببند، سیمپیچ |
قاعده 3 |
وقتی جزء دوم با الف آغاز شود، موجب جدانویسی ] نزدیکنویسی[ میشود، مانند کماحساس، هماسم |
قاعده 4 |
وقتی جزء دوم با «آ» آغاز شود و تکهجایی باشد، موجب جدانویسی ] نزدیکنویسی[ میشود و درصورتیکه جزء دوم بیش از یک هجا داشته باشد، از قاعده خاصی پیروی نمیکند و گاهی جدا و گاهی پیوسته نوشته میشود که در این حالت شکل ارجح واژه بر اساس فرهنگ املایی خط فارسی انتخاب میشود، مثل بتنآرمه، زبانآموزی |
قاعده 5 (الف) |
ختمشدن واژه اول در ترکیب به حروف پیوند ناپذیر موجب جدانویسی ] نزدیکنویسی[ میشود، مثل کشتارگاه. |
قاعده 5 (ب) |
ختم شدن واژه اول در ترکیب به «های» غیرملفوظ موجب جدانویسی ] نزدیکنویسی[ میشود، مثل قفسهسینه. |
قاعده 6 |
ترکیبهای اضافی (موصوف و صفت/ مضاف و مضافالیه) جدا نوشته میشوند، مثل جسمزرد |
قاعده 7 |
وقتی یک جزء واژه مرکب عدد باشد، موجب جدانویسی] نزدیکنویسی[ ترکیب میشود، مثل هشتبهشت |
قاعده 8 |
واژگان مرکبی که از ترکیب با پیشوند ساخته میشود، همیشه جدا ] نزدیکنویسی[ نوشته میشود، مگر مرکبهایی که با پیشوندهای «به»، «بی» و «هم» با رعایت استثناهایی- صفحات 22-23 دستور خط فارسی- ساخته میشود. در این حالت نیز در صورت مواجهه با واژگانی که اختیار به نویسنده واگذار شده باشد، از فرهنگ املایی خط فارسی استفاده میشود، مثل همبندی، بیحسی موضعی |
قاعده 9 |
واژگان مرکبی که از ترکیب با پسوند ساخته میشود، همیشه پیوسته نوشته میشود، مگر هنگامیکه مطابق با قاعده 2، 4 و 7 ساخته شوند، مثل نوسانگر، شالیزار |
قاعده 10 |
یک جزء واژه مرکب صفت فاعلی یا مفعولی باشد، جدا ] نزدیکنویسی[ نوشته میشود، مثل اجلرسیده، تنظیمکننده |
در مرحلۀ بعد لازم بود به تفکیک قاعدههای دهگانه، مصداقها (واژگان یا کلیدواژههای انتخابی) مورد نیاز هر قاعده انتخاب شود. بدینمنظور، از اصطلاحنامههای تخصصی و در صورت نبود اصطلاحنامه در هر یک از قلمروهای موضوعی (تنها در دامپزشکی) از فرهنگ تخصصی آن قلمرو استفاده شد. پس از یافتن هر یک از اصطلاحات یا واژگان مورد نظر (بهعنوان مصداق موردنظر)، اصطلاح یا واژه در هر سه پایگاه اطلاعات علمی فارسی جستجو شد و در صورت بازیابی بیش از یک مدرک به ازای هر مصداق و همچنین رویداد آن در هر سه پایگاه اطلاعات علمی فارسی، اصطلاح یا لغت برای قاعده مورد نظر انتخاب شد. در نهایت، مصداقهای انتخابی برای هر قاعده از قاعدههای دهگانه به تفکیک در یک سیاهۀ وارسی قرار گرفت. لازم به ذکر است، در این مرحله بهدلیل حجیمبودن اصطلاحنامهها و فرهنگ تخصصی، عملاً مرور تمامی صفحات آنها امکانپذیر نبود. بدینمنظور، ابتدا اصطلاحنامهها و فرهنگ تخصصی بر حسب حروف الفبا و مقدار حجم لغات هر حرف الفبا، به سه سطح بزرگ، متوسط و کوتاه تقسیم شد. سپس، از هر یک از سطوح تعیینشده به روش تصادفی ساده، یک حرف الفبا انتخاب و آنگاه برای هر قلمروِ موضوعی، فرایند جستجو برای مصداقهای موردنظر برحسب قاعدههای دهگانه انجام شد.
در گام بعد، با مدّنظر قرار دادن سیاهۀ وارسی تهیهشده در مرحلۀ قبل، به هر یک از پایگاههای اطلاعاتی مورد مطالعه مراجعه شد و مصداقها با تمام شکلهای نگارشی در کادر جستجوی ساده سه پایگاه اطلاعات علمی فارسی مورد مطالعه جستجو گردید[22]. شایانذکر است، بهدلیل عدم پشتیبانی و شناسایی پایگاههای اطلاعاتی مورد مطالعه (بهجز پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاعرسانی علوم و فناوری») از حالت نیمفاصله در هنگام جستجو و در نتیجه عدم بازیابی مدارک دارای شکل نگارشی نزدیکنویسی، این حالت تنها در این بخش از پژوهش از فهرست مجموع حالتهای مورد مطالعه کنار گذاشته شد.
در مرحلۀ پیشین، از بین مجموع مدارک بازیابیشده، بهازای هر یک از حالتهای نگارشی (پیوستهنویسی یا جدانویسی)، تعداد یک مدرک و در صورتیکه هیچ مدرکی با حالت نگارشی موردنظر در پایگاه اطلاعات علمی فارسی بازیابی نمیشد، هر دو مدرک از حالت نگارشی دیگر بهعنوان نمونه انتخاب میشد (در مجموع دو مدرک برای هر قاعده از هر قلمرو موضوعی). چنانکه میدانید، در روش نمونهگیری تصادفی ساده، احتمال و شانس انتخابشدن برای همۀ اعضای جامعه برابر و مستقل از یکدیگر است. این نوع نمونهگیری را به سه شیوه میتوان انجام داد: الف) قرعهکشی ب) جدول اعداد تصادفی ج) استفاده از نرمافزارهای آماری (ولیخانی و سرافراز، 1394). از اینرو، پژوهشگر برای انتخاب دو مدرک از بین مجموع مدارک بازیابیشده برای هر مصداق، از روش نمونهگیری تصادفی ساده و از نرمافزار تولید اعداد تصادفی[23] استفاده کرد. شایان ذکر است، بدین شکل فرایند انتخاب و گردآوری 432 مدرک موردنیاز بهعنوان حجم نمونه صورت پذیرفت.
در گام آخر، بهمنظور سنجش و ثبت قابلیت پایگاههای اطلاعات علمی فارسی از نظر بازیابی مدارک با هر یک از شکلهای نگارشی مصداقها اعم از پیوستهنویسی یا جدانویسی، ابتدا به هر یک از 432 مدرک انتخابشده بهعنوان نمونه در پایگاههای اطلاعات علمی فارسی مراجعه شد و فرایند تحلیل محتوا در عنوان، چکیده و واژگان کلیدی هر مدرک انجام و پس از اطمینان از عدم رخداد همزمان چند شکل نگارشی مصداق در بخش چکیده، عنوان و واژگان کلیدی پایگاه اطلاعات علمی فارسی موردنظر، مدارکی که با هر دو حالت نگارشی مصداقها اعم از پیوستهنویسی (سرهمنویسی) و جدانویسی (فاصله کامل) قابل بازیابی بود، این ویژگی بهعنوان حالت «گسترشپذیری جستجو» برای پایگاه اطلاعات علمی فارسی موردنظر در نظر گرفته میشد؛ در غیر این صورت، بهعنوان حالت «گسترشناپذیری جستجو» ثبت گردید.
یافتهها
چنانکه جدول2 نشان میدهد، در مجموع پایگاههای مورد بررسی تنها 23 مدرک (3/5%) با حالت گسترشپذیری جستجو بازیابی شدند. در مقابل، 409 مدرک (7/%94) با حالت گسترشناپذیری جستجو بازیابی شدند.
جدول 2. قابلیت پایگاههای اطلاعات علمی فارسی از نظر گسترش جستجو و بازیابی مدارک به صورت پیوستهنویسی و جدانویسی
پایگاه |
گسترش جستجو |
کل |
X2 (df=2) P |
p |
||||
گسترش پذیری جستجو |
گسترش ناپذیری جستجو |
|||||||
SID |
فراوانی مشاهدهشده |
0 |
144 |
144 |
767/12** 0 002/
|
002/0
|
||
فراوانی مورد انتظار |
7/7 |
3/136 |
144 |
|||||
درصد در درون پایگاه اطلاعات علمی فارسی |
0 |
100 |
100 |
|||||
MAGIRAN |
فراوانی مشاهدهشده |
13 |
131 |
144 |
||||
فراوانی مورد انتظار |
7/7 |
3/136 |
144 |
|||||
درصد در درون پایگاه اطلاعات علمی فارسی |
9 |
91 |
100 |
|||||
RICEST |
فراوانی مشاهدهشده |
10 |
134 |
144 |
||||
فراوانی مورد انتظار |
7/7 |
3/136 |
144 |
|||||
درصد در درون پایگاه اطلاعات علمی فارسی |
9/6 |
1/93 |
100 |
|||||
کل |
فراوانی مشاهدهشده |
23 |
409 |
432 |
|
|||
فراوانی مورد انتظار |
23 |
409 |
432 |
|||||
درصد در درون پایگاههای اطلاعاتی |
3/5 |
7/94 |
100 |
|||||
*P< 05/0**P<01/0 |
چنانکه میدانید، آزمون مجذور خی را میتوان هم برای رابطه و هم تفاوت بین متغیرهای اسمی یا مقولههایی بهکار برد که دو یا بیش از دو ارزش داشته باشند. این نوع آزمون تنها میتواند در رابطه با تعداد یا فراوانیها بهکار رود (دلاور، 1390). از اینرو، برای بررسی معناداری تفاوت میان فراوانی در حالت گسترشپذیری جستجو و گسترشناپذیری جستجوی مصداقها مدارک از آزمون مجذور خی استفاده شد. با توجه به مقدار مجذور خی بهدستآمده (767/12,x2=002/0P=)، تفاوت معناداری میان پایگاههای اطلاعات علمی فارسی در دو دستة گسترشپذیری جستجو و گسترشناپذیری جستجوی مصداقهای مدارک وجود داشت. پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» بیشترین فراوانی را در گسترشناپذیری جستجوی مصداقهای مدارک و همچنین کمترین فراوانی را در گسترشپذیری جستجوی مصداقهای مدارک به خود اختصاص داده بود؛ و در مقابل، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» بیشترین فراوانی را در گسترشپذیری جستجوی مصداقهای مدارک و کمترین فراوانی را در گسترشناپذیری جستجوی مصداقهای مدارک داشت.
علاوه بر یافتۀ بالا، نتایج بهدستآمده از توزیع فراوانی قابلیت پایگاههای اطلاعات علمی فارسی از نظر گسترش جستجو و بازیابی مدارک بهصورت پیوستهنویسی و جدانویسی بر حسب قاعدههای دهگانۀ فرهنگستان زبان و ادب فارسی نشان داد، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» در مصداقهای مربوط به قاعدههای1، 2، 5 و 9 قادر است با هر یک از شکلهای نگارشی مصداقها اعم از پیوستهنویسی و جدانویسی مدارک مورد نظر را دوباره بازیابی کند؛ بدینشکل که پایگاه اطلاعات علمی فارسی مذکور از کلّ 13 مدرک بهدستآمده با حالت گسترشپذیری جستجو، در 9 مدرک شامل شکل نگارشی جدانویسی مصداق، قادر به بازیابی مجدد این مدارک حتی با حالت جستجوی پیوستهنویسی مصداق است (گسترش پیوستهنویسی به جدانویسی) و در 4 مدرک دیگر که دارای شکل نگارشی پیوستهنویسی از مصداقها بود، پایگاه اطلاعات علمی فارسی قادر به بازیابی دوبارۀ مورد نظر حتی با حالت جستجوی جدانویسی مصداقها بود (گسترش جدانویسی به پیوستهنویسی).
در مقابل، پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاعرسانی علوم و فناوری» در قاعدههای بیشتری (1، 2، 3، 8، 9 و 10)، از نظر توانایی بازیابی مدارک با هر یک از شکلهای نگارشی در دامنهای محدودتر نسبت به پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» جای داشت؛ بدینترتیب که در کلّ مدارک بهدست آمده با حالت گسترشپذیری جستجو (10 مدرک) با بررسی عنوان، چکیده و واژگان کلیدی در هر ده مدرک، فقط شکل نزدیکنویسی مصداقها روی داده بود و پایگاه اطلاعات علمی فارسی مذکور در صورت جستجوی مصداقها با حالت جدانویسی، علاوه بر بازیابی مدارک شامل شکل نگارشی جدانویسی، مدارک دارای شکل نگارشی نزدیکنویسی را هم بازیابی میکرد. شایانذکر است، پایگاه اطلاعات علمی فارسی «مرکز اطلاعات علمی جهاد دانشگاهی» به دلیل فراوانی صفر برای گسترشپذیری جستجو و در نتیجه ناتوانی در بازیابی مدارک با هر یک از شکلهای نگارشی مصداقها، در این قسمت گزارش نشده است (جدول3).
جدول 3. قابلیت پایگاههای اطلاعات علمی در گسترشپذیری جستجو به تفکیک قاعدههای دهگانه
پایگاههای اطلاعاتی |
شماره قاعده قابلیت پایگاه |
فراوانی |
درصد |
||
MAGIRAN |
1 الف |
|
گسترش پیوسته به جدا |
2 |
4/15 |
1 ب |
گسترش پیوسته به جدا |
2 |
4/15 |
||
2 |
|
گسترش پیوسته به جدا |
3 |
23 |
|
5 الف |
|
گسترش جدا به پیوسته |
2 |
4/15 |
|
9 |
|
گسترش پیوسته به جدا |
2 |
4/15 |
|
|
گسترش جدا به پیوسته |
2 |
4/15 |
||
کل |
|
|
|
13 |
100 |
RICEST |
1 الف |
|
گسترش جدا به نیمفاصله |
2 |
20 |
2 |
|
گسترش جدا به نیمفاصله |
1 |
10 |
|
3 |
|
گسترش جدا به نیمفاصله |
2 |
20 |
|
8 |
|
گسترش جدا به نیمفاصله |
2 |
20 |
|
9 |
|
گسترش جدا به نیمفاصله |
2 |
20 |
|
10 |
|
گسترش جدا به نیمفاصله |
1 |
10 |
|
کل |
|
|
|
10 |
100 |
علاوه بر یافتۀ بالا، مقایسۀ شکل نگارشی مصداقها در بخش عنوان، چکیده و واژگان کلیدی نسخۀ پی.دی.اف[24] هر مدرک با اطلاعات ارائهشده از همان مدرک در پایگاههای اطلاعات علمی فارسی نشان داد، شکل نگارشی بخش قابل توجهی از مصداقهای مدارک تغییر کرده است (جدول4).
جدول 4. توزیع فراوانی تغییرات شکل نگارشی مصداقها (کلیدواژههای انتخابی) از مدرک به پایگاههای اطلاعات علمی فارسی
پایگاه تغییرات شکل نگارشی مصداق (از مدرک به پایگاه اطلاعاتی) |
فراوانی |
درصد |
||
SID |
|
پیوسته به جدا |
1 |
7/0 |
نیمفاصله به پیوسته |
1 |
7/0 |
||
پیوسته و جدا به جدا |
1 |
7/0 |
||
پیوسته، نیمفاصله و جدا به پیوسته و جدا |
1 |
7/0 |
||
نیمفاصله به پیوسته، نیمفاصله و جدا |
2 |
4/1 |
||
نیمفاصله به نیمفاصله و جدا |
2 |
4/1 |
||
پیوسته و جدا به پیوسته و جدا |
4 |
8/2 |
||
نیمفاصله و جدا به جدا |
7 |
9/4 |
||
پیوسته به پیوسته |
33 |
9/22 |
||
نیمفاصله به جدا |
41 |
5/28 |
||
جدا به جدا |
51 |
4/35 |
||
کل |
144 |
100 |
||
MAGIRAN |
|
نیمفاصله و جدا به پیوسته و جدا |
1 |
7/0 |
پیوسته به جدا |
2 |
4/1 |
||
نیمفاصله و جدا به جدا |
2 |
4/1 |
||
پیوسته به پیوسته و جدا |
4 |
8/2 |
||
پیوسته و جدا به پیوسته و جدا |
7 |
9/4 |
||
نیمفاصله به پیوسته |
8 |
6/5 |
||
نیمفاصله به پیوسته و جدا |
8 |
6/5 |
||
پیوسته به پیوسته |
34 |
6/23 |
||
نیمفاصله به جدا |
34 |
6/23 |
||
جدا به جدا |
44 |
6/30 |
||
کل |
144 |
100 |
||
RICEST |
|
نیمفاصله به نیمفاصله و پیوسته |
1 |
7/0 |
پیوسته و نیمفاصله به جدا |
1 |
7/0 |
||
نیمفاصله به نیمفاصله و جدا |
1 |
7/0 |
||
پیوسته به جدا |
4 |
8/2 |
||
نیمفاصله و جدا به جدا |
4 |
8/2 |
||
نیمفاصله به پیوسته، نیمفاصله و جدا |
4 |
8/2 |
||
پیوسته و جدا به پیوسته و جدا |
5 |
5/3 |
||
نیمفاصله به پیوسته و جدا |
6 |
2/4 |
||
نیمفاصله به پیوسته |
9 |
3/6 |
||
نیمفاصله به نیمفاصله |
9 |
3/6 |
||
نیمفاصله به جدا |
24 |
7/16 |
||
پیوسته به پیوسته |
35 |
3/24 |
||
جدا به جدا |
41 |
5/28 |
||
کل |
144 |
100 |
با توجه به جدول4 در پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» از مجموع 144 مدرک، در 88 مدرک شکل نگارشی مصداقها تغییری نکرده بود؛ اما در 56 مدرک دیگر، شکل نگارشی مصداقها تغییر داشت. این وضعیت تقریباً با همین نسبت در پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» نیز مشاهده میشود؛ بدین ترتیب که در 85 مدرک شکل نگارشی مصداقها بدون تغییر، اما در 59 مدرک دیگر شکل نگارشی مصداقها تغییر یافته بود. پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاعرسانی علوم و فناوری» متفاوت با دو پایگاه اطلاعات علمی فارسی دیگر بود؛ بهگونهای که در 90 مدرک، تغییری در شکل نگارشی مصداقها روی نداده بود و تنها در 54 مدرک شکل نگارشی مصداقها بین نسخۀ پی.دی. اف مدرک با پایگاه اطلاعات علمی فارسی متفاوت بود.
بحث و نتیجهگیری
بهطور خلاصه، یافتههای پژوهش حاضر نشان داد پایگاههای اطلاعات علمی فارسی در هنگام جستجو از شکل نگارشی نزدیکنویسی و در نتیجه بازیابی مدارک دارای صرفاً شکل نگارشی نزدیکنویسی پشتیبانی نمیکنند؛ بدینترتیب که هنگام جستجو با این حالت نگارشی در پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» همان مدارک دارای شکل نگارشی جدانویسی بازیابی میشوند و مدارک دارای صرفاً شکل نگارشی نزدیکنویسی بازیابی نمیشدند. در پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی»، علاوه بر بازیابی مدارک دارای شکل نگارشی جدانویسی، مدارک دارای یکی از اجزای مصداقها (کلیدواژهها) هم بازیابی میشدند و این امر موجب ریزش کاذب[25] قابل توجه در مدارک بازیابیشده میگردید. این یافته با یافتههای پژوهش «گلتاجی و بذرگر» (1389) همسو نیست. در این پژوهش، پژوهشگران یکسان بودن تعداد مدارک بازیابیشده با حالتهای جدانویسی و نزدیکنویسی را به بهنجارسازی شکل نگارشی از سوی پایگاههای اطلاعاتی نسبت دادهاند؛ درحالیکه یافتههای پژوهش حاضر نشان میدهد از دلایل احتمالی یکسانبودن تعداد کلّ مدارک بازیابیشده، میتواند به عدم پشتیبانی پایگاه اطلاعات علمی فارسی از شکل نگارشی نزدیکنویسی و یا به رخداد همزمان چند شکل نگارشی مصداق در بخشهای مختلف یک مدرک اعم از عنوان، چکیده و واژگان کلیدی بازگردد.
علاوه بر این، نتایج نشان داد میان قابلیت پایگاههای اطلاعات علمی فارسی از نظر بازیابی مدارک با هر یک از شکلهای نگارشی اعم از پیوستهنویسی و جدانویسی تفاوت وجود دارد. بدینترتیب که پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» با بیشترین فراوانی در گسترشپذیری جستجو نسبت به سایر پایگاههای اطلاعات علمی فارسی از عملکرد مطلوبتری برخوردار است؛ بهگونهای که در مدارک بهدستآمده با حالت گسترشپذیری جستجو در این پایگاه اطلاعات علمی فارسی، با جستجوی مصداقهای آنها با هر یک از حالتهای جدانویسی یا پیوستهنویسی، مدارک مورد نظر دوباره قابل بازیابی است. در مقابل، پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» با کمترین فراوانی در گسترشپذیری جستجوی مصداقهای مدارک نسبت به دو پایگاه اطلاعات علمی فارسی دیگر، از وضعیت نامطلوبی برخوردار بود؛ بدینترتیب که با اعمال هر یک از تغییرها در شکل نگارشی به هنگام جستجو، مدارک موردنظر بازیابی نمیشد و تنها جستجوی مصداقها با همان حالت ثبتشده در مدارک به بازیابی دوبارۀ آنها میانجامید.
از اینرو، نتایج کلیِ بهدستآمده این بخش از پژوهش با یافتههای پژوهشهای «مرتضایی» (1381)، «عبدالهی و جوکار» (۱۳۸۸)، «گلتاجی و بذرگر» (۱۳۸۹)، «آخشیک و فتاحی» (۱۳۹۱)، «هماوندی و دیگران» (۱۳۹7) همراستاست؛ بدینشکل که نتایج این بخش از پژوهش مهر تأییدی است بر یافتههای «مرتضایی» (1381) مبنی بر اینکه استاندارد نبودن شکل نوشتاری واژگان در عدم مطلوبیت و جامعیت نتایج جستجو تأثیر میگذارد. یافتههای پژوهش «عبدالهی و جوکار» (1388) نیز نشان داد بین شکل نوشتاری واژه و ابزار جستجو رابطه وجود دارد؛ بدینمعنا که بهکار بردن یک شکل خاص از کلیدواژه و استفاده از یک ابزار جستجوی خاص، بر بازیابی اطلاعات تأثیرگذار خواهد بود. بهعنوان مثال، جستجوی شکل پیوستهنویسی مصداق «سوراخکاری» در پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» میتواند به بازیابی مدارکی بینجامد که تنها شکل پیوستهنویسی مصداق در آن روی داده است و در مقابل، در پایگاههای اطلاعاتی دیگر همچون «بانک اطلاعات نشریات کشور» جستجو با همان شکل پیوسته مصداق «سوراخکاری» میتواند به بازیابی مدارک دارای دو شکل نگارشی جدا و پیوسته منتهی شود. در کنار یافتههای این دو پژوهش، یافتههای «گلتاجی و بذرگر» (1389)، «آخشیک و فتاحی» (1391)، «هماوندی و دیگران» (1397) نیز بهطور کلی نشان داد پایگاههای اطلاعات علمی فارسی به مسائل ریختشناسی زبان فارسی از جمله پیوستهنویسی و جدانویسی توجه چندانی نشان ندادهاند.
افزون بر موارد بالا، نتایج بهدستآمده از توزیع فراوانی قابلیت پایگاههای اطلاعات علمی فارسی از نظر گسترش جستجو و بازیابی مدارک به صورت پیوستهنویسی و جدانویسی بر حسب قاعدههای دهگانه فرهنگستان زبان و ادب فارسی نشان داد، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» قادر است برخی مصداقهای انتخابی مربوط به قاعدههای 1، 2، 5 و 9 با هر یک از شکلهای نگارشی مصداقها اعم از پیوستهنویسی و جدانویسی مدارک مورد نظر را بازیابی کند. بهعنوان مثال، در قاعدۀ 9 که مربوط به ترکیبهای دارای پسوند است، با جستجوی مصداقها «حسگر» و «نوسانگر»، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» قادر است با هر دو حالت جدانویسی و پیوستهنویسی، مدارک موردنظر را بدون توجه به شکل نگارشی دوباره بازیابی کند. از دلایل این امر میتواند این نکته باشد که پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» احتمالاً از روشهای خاصی جهت بهنجارسازی شکلهای مختلف یک مصداق در برخی قاعدههای نگارشی استفاده میکند[26].
در مقابل، پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاع رسانی علوم و فناوری» در قاعدههای بیشتری (1، 2، 3، 8، 9 و 10)، ولی از نظر توانایی بازیابی مدارک با هر یک از شکلهای نگارشی، در دامنهای محدودتر نسبت به پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» جای داشت؛ بدینترتیب که در صورت جستجوی مصداقها با حالت جدانویسی در پایگاه اطلاعات علمی فارسی مذکور، علاوه بر بازیابی مدارک شامل شکل نگارشی جدانویسی از مصداق به بازیابی مدارک دارای شکل نگارشی نزدیکنویسی مصداق نیز میانجامید. بهعنوان مثال، در قاعده 1 که مربوط به جدانویسی ترکیبهای طولانی و پردندانه است، با جستجوی شکل جدانویسی مصداق «آب شستگی»، پایگاه اطلاعات علمی فارسی مذکور قادر بود، علاوه بر بازیابی مدارک دارای آن شکل، مدارک دارای شکل نزدیکنویسی مصداق (آبشستگی) را هم بازیابی نماید. این نتایج با یافتههای بهدست آمده از پژوهش «آخشیک و فتاحی» (1391) مغایرت دارد. نتایج پژوهش آنان نشان داد پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاع رسانی علوم و فناوری» به ویژگیهای پیوستهنویسی و جدانویسی توجه نشان نداده است و تنها حالت ثبتشدۀ عنوان مدارک به بازیابی دوبارۀ آن میانجامد، درحالیکه یافتۀ پژوهش حاضر نشان داد پایگاه اطلاعات علمی فارسی مورد نظر در مواردی که مدرک ذخیرهشده در پایگاه اطلاعات علمی فارسی دارای شکل نگارشی نزدیکنویسی از مصداق (واژه یا کلیدواژه انتخابی) باشد، در صورت جستجوی مصداق مورد نظر با شکل نگارشی جدانویسی، پایگاه همچنان قادر به بازیابی مدرک مورد نظر است. با وجود این، در ارتباط با رویکرد پایگاه «مرکز منطقهای اطلاع رسانی علوم و فناوری» در بهنجارسازی حالتهای نگارشی یک مصداق میتوان گفت از آنجاکه یکی از مشکلات مهمّ خط فارسی در باب واژگان مرکب، مسئله «مشخص نبودن مرز دقیق واژگان مرکب» است (مرتضایی، ۱۳۸۰؛ رمضانی، ۱۳۸۶؛ آخشیک و فتاحی، ۱۳۹۱)، این راهکار پایگاه اطلاعات علمی فارسی بالا ضمن افزایش جامعیت نتایج بازیابیشده میتواند سبب همارایی نادرست واژگان شده و در نتیجه به ریزش کاذب در مدارک بازیابیشده منتهی شود. نتایج بهدستآمده از مقایسۀ شکل نگارشی مصداقها در عنوان، چکیده و واژگان کلیدی نسخه پی.دی. اف مدارک با اطلاعات ارائهشده از همان مدارک در پایگاههای اطلاعات علمی فارسی نیز نشان داد، شکل نگارشی بخش قابل توجهی از مصداقهای مدارک تغییر یافته است؛ بدینترتیب که در دو پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» و پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» از مجموع 144 مدرک برای هر پایگاه اطلاعات علمی فارسی، به ترتیب شکل نگارشی 56 و 59 مصداق تغییر یافته است و بیشترین تغییرات و عدم یکدستی نیز مربوط به مدارک دارای شکل نگارشی نزدیکنویسی است که احتمالاً در زمان درونبرد[27] به درون پایگاه اطلاعات علمی فارسی به شکل نگارشی جدا یا پیوسته تغییر یافته است و در سایر تغییرات نگارشی که از فراوانی کمتری برخوردار است، شکل نگارشی مصداقها از حالت نگارشی «پیوسته به جدا» تغییر یافته است.
در پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاعرسانی علوم و فناوری» وضعیت کمی متفاوت بود و نسبت به دو پایگاه اطلاعات علمی فارسی دیگر پراکندگی و بینظمی بیشتری در ناهمسانی شیوۀ نگارشی مصداقها بین فایل پی.دی. اف مدارک و پایگاه اطلاعات علمی فارسی مشاهده شد؛ اما مشابه دو پایگاه اطلاعات علمی فارسی دیگر، بیشتر این تغییرات مربوط به مدارک دارای شکل نگارشی نزدیکنویسی بود که در پایگاه اطلاعات علمی فارسی عمدتاً به شکل نگارشی جدا یا پیوسته تغییر یافته بود. بنابراین، با توجه به اطلاعات و یافتههای بهدستآمده از این بخش از پژوهش میتوان گفت آنچه از یک مدرک جهت جستجو و بازیابی مدارک در پایگاههای اطلاعات علمی فارسی قرار داده میشود، رفتار اولیۀ نگارندۀ مدارک نیست. این تغییرها و عدم یکدستی در شکل نگارشی مصداقها بین مدارک (عنوان، چکیده و واژگان کلیدی) و همان اطلاعات در پایگاه اطلاعات علمی فارسی، به چند دلیل احتمالی میتواند روی داده باشد که توضیح آن در ادامه میآید.
مقالههای مجلههای علمی عمدتاً به شکل نسخه ورد[28] و پی.دی. اف در اختیار پایگاههای اطلاعات علمی فارسی قرار میگیرد و نمایهسازان پایگاههای اطلاعاتی نیز به شکل متداول (کپی و درج[29])، بخش عنوان، چکیده و واژگان کلیدی، هر مقاله را به درون نرمافزار مدیریت محتوای پایگاههای اطلاعاتی وارد میکنند. این شیوۀ ورود اطلاعات، در صورت عدم پشتیبانی و شناسایی شکل نگارشی نزدیکنویسی، میتواند از دلایل احتمالی بروز خطا و در نتیجه تبدیلشدن شکل نزدیکنویسی عمدۀ مصداقها به حالت جدانویسی باشد. علاوه بر این، از آنجاکه بخشهای چکیده، عنوان و واژگان کلیدی مقالههای فاقد فایل ورد، توسط گروه تایپیست هر پایگاه اطلاعات علمی فارسی تایپ میشود، از دیگر دلایل احتمالی تفاوت و عدم یکدستی شکل نگارشی مصداقها، همچون تغییر شکل نگارشی مصداقها از حالت «جدا به پیوسته» یا «پیوسته به جدا» بین نسخه پی.دی. اف مدرک و پایگاه اطلاعات علمی فارسی، میتواند ناشی از این مسئله باشد. علاوه بر این، در پایگاه اطلاعات علمی فارسی «مرکز منطقهای اطلاع رسانی علوم و فناوری»، عامل احتمالی دیگری در ایجاد این ناهماهنگی در شکل نگارشی مصداقها دخیل است؛ پایگاه اطلاعات علمی فارسی مذکور برای بخش واژگان کلیدی تعداد معینی کلیدواژه در نظر گرفته است و در صورت نبود کلیدواژه یا کمبودن آن از حدّ تعیینشده، نمایهسازان پایگاه اطلاعات علمی فارسی مذکور، تعدادی کلیدواژۀ جدید به بخش کلیدواژهها اضافه میکنند. این مسئله نیز میتواند از دیگر دلایل احتمالی تفاوت و ناهماهنگی شکل نگارشی مصداقها بین نسخه پی.دی. اف مدارک و پایگاه اطلاعات علمی فارسی باشد.
بهطور خلاصه، بنا بر یافتهها و مطالعههای پیشین میتوان اینگونه جمعبندی کرد که هرچند دو پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» و «مرکز منطقهای اطلاع رسانی علوم و فناوری» در برخی مصداقها مربوط به قاعدههای دهگانه به مسئله پیوستهنویسی و جدانویسی توجه نشان دادهاند و در نتیجه قادر به بازیابی مدارک با دیگر شکلهای نگارشی مصداقهاست؛ اما با توجه به اینکه تنها 23 مدرک معادل 3/5% از مدارک در هنگام جستجو با هر یک از شکلهای نگارشی قابل بازیابی است و در مقابل 409 مدرک دیگر معادل 7/94%، تنها با همان حالت ثبت شده مصداقها مدارک قابل بازیابی است، میتوان نتیجه گرفت پایگاههای اطلاعات علمی فارسی چالشهای پیوستهنویسی و جدانویسی را بهمنظور بهبود جامعیت نتایج جستجو چندان مورد توجه قرار ندادهاند. این بیتوجهی در کنار تغییرهای شکل نگارشی واژگان در زمان ورود اطلاعات مدارک (عنوان، چکیده و واژگان کلیدی) به درون پایگاههای اطلاعاتی علمی فارسی، میتواند نایکدستی در شکل نگارشی مصداقهای مدارک را تشدید کند. در نهایت، کاربران بالقوۀ این قبیل پایگاههای اطلاعاتی در صورت جستجو با یک شکل نگارشی، از دستیابی جامع به مدارک مورد نیازشان بازمیمانند.
پیشنهادهای پژوهش
پیشنهادهای کاربردی
با توجه به نتایج بهدستآمده از پژوهش حاضر، پیشنهادهای زیر میتواند در جهت بهبود یا رفع چالشهای پیش روی پایگاههای اطلاعات علمی فارسی، مؤثر واقع شود.
آگاهسازی کاربران نسبت به چالشهای رسمالخط فارسی و همچنین چگونگی استفاده از پایگاههای اطلاعات علمی فارسی. به عنوان نمونه، «اختصاصی سازی صفحه ورود پایگاه اطلاعات علمی فارسی برای هر کاربر، جهت آگاهی از قلمرو موضوعی کاربران و سنجش گرایش نگارشی کاربران هر قلمرو موضوعی و در نتیجه اعمال آنها در فرایندهای بعدی ذخیره، پردازش و بازیابی مدارک مرتبط»، «نمایش یک پیغام یا یک فیلم آموزشی کوتاه، جهت آشنایی کاربران با راهبردهای جستجو و همچنین وجود مسائل و چالشهای رسمالخط فارسی تأثیرگذار بر بازیابی مدارک در پایگاه اطلاعات علمی فارسی»، «نمایش یک پیام به کاربر در صورت جستجو با یک شکل نگارشی و یا پایین بودن تعداد نتایج بازیابی شده از یک حد معین» و «آگاهسازی کاربران نسبت به تکرار جستجو با دیگر شکلهای نگارشی یک واژه، با قرار دادن متنی پیشفرض در درون جعبه جستجو»؛
برگزاری نشستهایی از سوی طراحان پایگاههای اطلاعات علمی فارسی. پیشنهاد میشود طراحان پایگاههای اطلاعات علمی فارسی نشستهایی را با هدف ارائه تجربهها و بهرهمندی از دستاوردهای یکدیگر در زمینۀ رفع یا بهبود چالشهای خط و زبان فارسی در محملهای الکترونیکی برگزار کنند.
رفع خطاهای احتمالی و اشتباهات انسانی در زمان درونبرد مدارک (چکیده، عنوان و واژگان کلیدی) به درون پایگاههای اطلاعات علمی فارسی. پیشنهاد میشود طراحان و نمایهسازان پایگاههای اطلاعاتی ضمن توجه به رخداد مسئله بالا، نسبت به رفع آن اقدام کنند. همچنین، پیشنهاد میشود آن دست از مدارکی که بخش عنوان، چکیده و واژگان کلیدی آنها از سوی گروه تایپیست پایگاههای اطلاعاتی حروفچینی مجدد میشود، قبل از انتقال به محیط پایگاه اطلاعات علمی فارسی از نظر غلطهای املایی و همچنین واژگان دارای چند شکل نگارشی اعم از پیوستهنویسی و جدانویسی ویراستاری شوند.
بهکارگیری روش N-gram در الگوریتمهای نمایهسازی پایگاههای اطلاعات علمی فارسی. از آنجاکه این نوع نمایهسازی نیازی به اطلاعات قبلی دربارۀ مفاهیم یا زبان متن مورد نظر ندارد (دانش و دیگران، 2011) پیشنهاد میشود طراحان پایگاههای اطلاعات علمی فارسی برای نمایهسازی واژگان مرکب یا دارای چند شکل نگارشی نیز از این شیوۀ نمایهسازی استفاده کنند.
امکانسنجی بهکارگیری قاعدههای دهگانه در الگوریتمهای نمایهسازی یا بازیابی مدارک. با بهکارگیری این قاعدهها در سامانههای بازیابی میتوان روند نمایهسازی خودکار را قاعدهمندتر و بهتبع آن روند بازیابی مدارک را بهبود بخشید. بهعنوان مثال، با بهکارگیری قاعده دو در الگوریتمهای نمایهسازی میتوان به مدرک شامل واژه «آب بندی» دیگر شکلهای نگارشی آن، از جمله «آببندی» و «آببندی» را هم به طور خودکار اضافه کرد و به این شکل باعث گسترش نمایه در پایگاه اطلاعات علمی فارسی شد.
بهکارگیری قابلیت «پیشنهاد واژگان جستجو» در پایگاههای اطلاعات علمی فارسی. این راهکار در حال حاضر توسط گوگل و همچنین برخی پایگاههای اطلاعاتی فارسی مورد استفاده قرار میگیرد و تا اندازهای توانسته است به نزدیکتر کردن رفتار نگارشی کاربران با نگارندگان پایگاههای اطلاعاتی و در نتیجه بهبود جامعیت نتایج کمک کند.
پیشنهادهای پژوهشی
[1]. Homographs
[2]. Danesh, Minaei and Kashefi
[3]. در عمده کتابهای دستور زبان فارسی از جمله کتاب «دستورخط فارسی مصوب فرهنگستان زبان و ادب فارسی» منظور از «جدانویسی» حالت نیمفاصلهنویسی یا نزدیکنویسی است؛ این در حالی است که در این مقاله منظور از جدانویسی استفاده از فاصلۀ کامل بین اجزای یک واژه واحد است و در جایی نیز که منظور حالت نیمفاصله بوده، از واژه «نزدیکنویسی» استفاده شده است.
[4]. Normalization
[5]. در این پژوهش منظور از «مدرک/ مدارک»، مقاله یا مقالات علمی _ پژوهشی و علمی _ ترویجی نمایه شده در پایگاههای اطلاعات علمی فارسی مورد مطالعه است.
[6]. در کتاب دستور خط فارسی مصوب فرهنگستان «ترکیبات» شامل واژگان مرکب و مشتق است.
[7]. ISC (Islamic World Science Citation Center)
[8]. Spider
[9]. نام پیشین این پایگاه مرکز اطلاعات و مدارک علمی ایران بوده است.
[10]. علم اطلاعات و دانششناسی
[11]. Zhang & Lin
[12]. Lazarinis
[13]. Lewandowski
[14]. MSN
[15]. Ask
[16]. Hammo
[17]. Magiran; (www.magiran.com)
[18]. Scientific information Database (SID); (www.sid.ir)
[19]. Regional information center for science and technology (RICeST); (www.ricest.ac.ir)
[20]. قابلدسترس در: http://journals.msrt.ir
[21]. صادقی، علیاشرف؛ و زندیمقدم، زهرا. (۱۳۹5). فرهنگ املایی خط فارسی بر اساس دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی. تهران: فرهنگستان زبان و ادب فارسی . قابل دسترس در وبگاه فرهنگستان زبان و ادب فارسی:
[22]. به منظور اجتناب از تغییراتی که ممکن است به علت روزآمدسازی پایگاههای اطلاعاتی پیش آید، فرایند جستجو طی یک روز انجام شد.
[23]. این نرمافزار از طریق آدرس www.spss-iran.com:// https قابل دسترسی است.
[24]. PDF
[25]. خروجی و برونداد غیرمرتبطی که در نتیجه اجرای راهبرد کاوش در سیستم بازیابی اطلاعات تولید میشود. محاسبه ریزش کاذب از طریق فرمول زیر(یوسفی، 1376): مدارک بازیابی شده مرتبط _ تعداد کل مدارک بازیابی شده =ریزش کاذب.
[26]. بهرغم مکاتبهای که با تیم پشتیبانی فنی پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» انجام شد، اما تیم مربوطه به دلیل مسائلی رقابتی با سایر پایگاههای اطلاعات علمی فارسی حاضر به معرفی روشهای مورد استفاده نشدند.
[27]. Import
[28]. Word
[29]. Paste