بررسی رویکردهای موضوعی (زبان طبیعی و کنترل‌شده) در بازیابی اطلاعات از پایگاههای پیوسته کتابشناختی

جوکار, عبدالرسول; انواری, سعیده

بررسی رویکردهای موضوعی (زبان طبیعی و کنترل‌شده) در بازیابی اطلاعات از پایگاههای پیوسته کتابشناختی

نوع مقاله : مقاله پژوهشی

نویسندگان

عبدالرسول جوکار ¹

سعیده انواری ²

¹ عضو هیأت علمی بخش علوم کتابداری و اطلاع‌رسانی دانشگاه شیراز

² کارشناس ارشد علوم کتابداری و اطلاع‌رسانی

چکیده

در این پژوهش کاربردی که با استفاده از تحلیل محتوا انجام شده است، کارایی دو رویکرد جستجوی موضوعی: زبان طبیعی و واژگان کنترل شده با استفاده از معیارهای ربط، دقت، بازیافت و ریزش کاذب، در دو پایگاه کتابشناختی پیوسته (کتابخانه کنگره واریک) مقایسه شده است. سی عنوانمربوط به موضوعات کتابخانه، کتابداری و اطلاع‌رسانی به صورت تصادفی انتخاب شدند. برای هر عنوان راهبردهای جستجوی زبان طبیعی و کنترل شده به دست آمد. پس از انجام جستجوها و ارزیابی ربط پیشینه‌های حاصل، دقت، بازیافت و ریزش کاذب در دو رویکرد مذکور با هم مقایسه گردید.
نتایج نشان می‌دهد بازیافت رویکرد جستجوی زبان طبیعی در هر دو پایگاه بیش از رویکرد موضوعی کنترل شده می باشد. دقت رویکرد زبان طبیعی در پایگاه اریک بیش از کنترل شده می‌باشد اما، در فهرست پیوسته کتابخانه کنگره تفاوتی معنادار مشاهده نشد. رویکرد زبان طبیعی در پایگاه اریک ریزش کاذب کمتری به همراه داشته است، در حالی که در فهرست کتابخانه کنگره تفاوت معنادار نیست. پیشنهاد تحقیق حاضر این است که برای کسب نتایج جامع در جستجوهای موضوعی در پایگاههای کتابشناختی پیوسته، ترکیبی از دو رویکرد زبان طبیعی و کنترل شده مورد استفاده قرار گیرد. برای انجام جستجوهایی که جامعیت نتایج حاصل از آنها اهمیت چندانی ندارد و هدف، به دست آوردن تعدادی پیشینه مربوط است، رویکرد زبان طبیعی مزیت بیشتری دارد.

کلیدواژه‌ها

جستجوی موضوعی

زبان طبیعی

واژگان کنترل شده

مقدمه

پیشرفت و گسترش فناوری اطلاعات، به ایجاد نظامهای اطلاعاتی پیچیده سرعت می‌بخشد. در چنین نظامهایی بخش عمده‌ای از جستجوهای پیوسته را جستجوهای موضوعی تشکیل می‌دهند، اما بسیاری از کاربران این نظام‌ها با وجود آشنایی پایه با فنون جستجو، از روشهای مناسب برای جستجوی مؤثر اطلاعات مربوط مطلع نیستند. در واقع، اهمیت دستیابی موضوعی، بیش از صد سال پیش وقتی کاتر[1] اهداف فهرست را بیان کرد، روشن شد. کاتر معتقد بود فهرست باید به افراد برای یافتن کتابی که موضوع آن مشخص است کمک کند و همچنین به استفاده‌کنندگان نشان دهد که کتابخانه در مورد یک موضوع خاص، چه منابعی را در اختیار دارد ( هوفمن[2]، 2001).

در عصر الکترونیک نیز استفاده از جستجوی موضوعی برای بازیابی اطلاعات، رویکردی عمده تلقی می‌شود. نظامهای جستجو که به کاربران اجازه می‌دهند زبان طبیعی را برای جستجو به کار ببرند، هنوز نمی‌توانند به طور موفقیت‌‌آمیز نیازهای کاربران را برآورده سازند، در یکی از مؤسسه‌های وابسته به OCLC، اعضای هیئت علمی و مشارکت‌کنندگان به توافق جمعی رسیدند که برای دسترسی به منابع الکترونیکی، به واژگان کنترل شده و رده‌بندی نیاز است (تیلور[3]،1381). از سوی دیگر، زمان آن رسیده است که کتابخانه‌ها نظامهای بازیابی موضوعی خود را با دنیای اطلاعات رقمی سازگار سازند (مور[4] و کین[5] ، 1996).

مسئله پژوهش

یکی از مهمترین عملکردهای هر کتابخانه و مرکز اطلاع رسانی، بر طرف کردن نیازهای جامعه استفاده‌کننده با استفاده از یک نظام بازیابی کار آمد است. بازیابی اطلاعات، فرایندی است که طی آن مجموعه‌ای از مدارک برای مشخص کردن مدارکی که با یک موضوع خاص مرتبطند، مورد جستجو قرار می‌گیرد. بر این اساس، برای ارزیابی نظام و بررسی کارایی بازیابی آن، کافی است روشهایی برای بررسی پاسخهای ارائه شده به استفاده‌کننده ایجاد شود.

کارایی[6] میزانی برای سنجش توانایی نظام با توجه به ربط مدارک بازیابی شده است برای سنجش کارایی نظام بازیابی، دو مفهوم دقت[7] و بازیافت[8] مورد توجه قرار می‌گیرند. از سوی دیگر واژگان نقش مهمی در کارایی و توانایی یک نظام بازیابی اطلاعات بازی می‌کند. اصطلاح جستجوی مورد استفاده در فرایند بازیابی، ممکن است از زبان طبیعی یا واژگان کنترل شده استخراج شده باشد. یکی از مهمترین مزایای واژگان کنترل شده، توانایی آنها در ارائه اصطلاحات جستجوی متعارفی است که فاقد ابهامند، اما این روش نیازمند ایجاد و روزآمدسازی مداوم واژگان کنترل شده است. روزآمدسازی واژگان و انعطاف‌پذیری در برابر تغییرات بویژه در موضوعات جدید که به سرعت توسعه می‌یابند، از اهمیت بیشتری برخوردار است.

استفاده از اصطلاحات زبان طبیعی که به عنوان جایگزینی برای واژگان کنترل شده معرفی شده است، با نگرانیهای عمده‌ای در مورد ابهام و کارایی آن در فرایند بازیابی روبرو شده است. رفع ابهام از ابزارهای جستجوی موضوعی و به کارگیری آنها در نظامهای بازیابی پیوسته، دغدغه خاطر کتابداران و طراحان این نظامهاست.

هدفها و سؤالهای پژوهش

این پژوهش با استفاده از معیارهای ربط، دقت، بازیافت و ریزش کاذب، به ارزیابی و مقایسه کارایی زبان طبیعی و واژگان کنترل شده در بازیابی اطلاعات از پایگاههای کتاب‌شناختی پیوسته می‌پردازد تا در پرتو این بررسی کاربران و جستجوکنندگان اطلاعات و طراحان پایگاههای اطلاعاتی، بتوانند روشهای بهتری برای جستجوهای موضوعی در پایگاهها به کار گیرند .برای نیل به این هدف، پژوهش حاضر در صدد پاسخگویی به سؤالهای زیر است:

1. کدام رویکرد جستجوی موضوعی: کنترل شده ـ (سرعنوان موضوعی و اصطلاح نامه) یا زبان طبیعی ـ در جستجوی اطلاعات بازیافت بیشتری به همراه دارد؟

2. کدام رویکرد جستجوی موضوعی ـ کنترل شده (سرعنوان موضوعی و اصطلاح نامه) یا زبان طبیعی ـ در جستجوی اطلاعات دقت بیشتری به همراه دارد؟

3. کدام رویکرد جستجوی موضوعی ـ کنترل شده (سرعنوان موضوعی و اصطلاح نامه) یا زبان طبیعی ـ در جستجوی اطلاعات ریزش کاذب کمتری به همراه دارد؟

پیشینه پژوهش

تاریخچه زبان طبیعی در مقابل واژگان کنترل شده به سه دوره تقسیم می‌شود. نخستین دوره در قرن نوزدهم با افزایش نمایه‌سازی با استفاده از اصطلاحات عناوین آغاز شد. دوره دوم، با اختراع رایانه‌ها و نویدی که با ارائه جستجوی متن آزاد در مقابل واژگان کنترل شده به همراه داشت به وجود آمد. در این دوره، پژوهشهای زیادی در زمینه مورد بحث صورت گرفت که عمده‌ترین آنها تحقیقاتی بود که در دهه 1960 در کرانفلید^{^[9]} انگلستان برای ارزیابی عملکردهای زبانهای نمایه‌سازی گوناگون در بازیابی اجرا شد.

در دوره سوم، از اواسط ده 1970 به بعد، روشهای متفاوتی برای بررسی مسئله واژگان کنترل شده در برابر متن آزاد مورد توجه قرار گرفت (مودماله[10]، 1998).

چشمه سهرابی ( 1378) پایان‌نامه خود را تحت عنوان تأثیر استفاده از اصطلاح ‌نامه در بانکهای اطلاعاتی کتاب شناختی بر میزان جامعیت، مانعیت و مدت زمان جستجوی اطلاعات بازیابی شده انجام داده است. یافته‌های وی نشان می دهد میزان جامعیت در جستجوهای اصطلاح نامه‌ای کاهش یافته اما زمان جستجو و میزان مانعیت بیشتر شده است. بهمن‌آبادی (1380) در مقاله‌ای از طریق بررسی متون و تحقیقات صورت گرفته، به بحث در مورد کاربرد اصطلاح نامه در بازیابی اطلاعات پرداخته است. او در پایان نتیجه گرفته است که، هرچند استفاده از اصطلاح نامه‌های موجود‌ ممکن است بر جامعیت جستجوها بیفزاید، اما در عین حال لازم است برای کمک به استفاده کنندگان در کشف مفاهیم مورد نیاز و انجام کاوشهای مؤثرتر، گونه ‌خاصی از اصطلاح نامه تحت عنوان اصطلاح نامه بازیابی فراهم شود.

پیترز[11] و کورت[12] (1991) پژوهشی تحت عنوان «جستجوی موضوعی واژگان کنترل شده و کنترل نشده در فهرست پیوسته یک کتابخانه دانشگاهی» انجام داده‌اند. نتایج این پژوهش نشان می‌دهد که اغلب کاربران برای بازیابی اطلاعات مورد نیاز خود جستجوی موضوعی کلید واژه‌ای را با جستجوی کنترل شده ترکیب کرده‌اند. شاو[13] (1994) در پژوهش خود به توصیف روشهایی می‌پردازد که برای بررسی عملکرد بازیابی نمونه‌های موضوعی کنترل شده و کنترل نشده در یکی از پایگاههای مدلاین[14] به کار رفته است. او به این نتیجه رسید که نمونه‌های کنترل‌شده و کنترل‌نشده در همه سطوح بازیابی مورد انتظار عملکرد یکسانی داشته‌اند و ترکیبی از نتایج بازیابی شده، از نتایج حاصل از هر کدام از نمونه‌ها به تنهایی مفیدتر است. مود ماله [15](1998) پژوهشی با عنوان «زبان طبیعی در مقابل واژگان کنترل شده در بازیابی اطلاعات» انجام داده است. در این پژوهش، کارایی ابزارهای بازیابی اطلاعات (اصطلاح نامه و زبان طبیعی) مورد بررسی قرار گرفت و در نهایت محقق با توجه به عملکردهای متفاوت دو روش فوق، ترکیبی از آنها را برای انجام جستجوها پیشنهاد می‌کند. بالارد[16] (1998) در مقاله‌ای گزارش می‌کند که اضافه کردن یک گزینه جستجوی کلیدواژه‌ای در فیلد موضوع به فهرست کتابخانه‌اش، باعث کاهش 75درصدی میزان عدم موفقیت در جستجوهای موضوعی شده است. آرلانو[17] (1999) پژوهشی با عنوان «جستجوی موضوعی در فهرستهای پیوسته شامل مواد اسپانیایی و انگلیسی»" انجام داده است. نتایج این پژوهش نشان می‌دهد استفاده از زبان کنترل شده در جستجوهای موضوعی فهرست، سودمندی بیشتری به همراه داشته است، با وجود آن که استفاده از کلمات عنوان، شیوه‌ای است که به زبان کاربران نزدیکتر است.

توجه به این پژوهشها نشان می‌دهد تأثیر رویکردهای موضوعی در بازیابی از نظامهای اطلاعاتی، مقوله‌ای است که از دیدگاههای گوناگون مورد بررسی قرار گرفته است. استفاده از اصطلاح نامه‌های خاص،رفتارهای اطلاع‌یابی،پایگاههای دوزبانه و تلاش در جهت افزایش مزایای یک رویکرد با استفاده از رویکردهای دیگر، جنبه‌های مختلف این پژوهشها را نشان می‌دهند.

روش‌شناسی پژوهش

پژوهش حاضر که تحقیقی کاربردی ـ توصیفی است، به گردآوری داده‌ها از طریق تحلیل محتوا پرداخته است. برای استخراج موضوعاتی که‌ بتوان‌ سه ‌رویکرد جستجوی موضوعی با استفاده از زبان طبیعی، سرعنوان موضوعی یا اصطلاح نامه را در مورد آنها بررسی کرد از عناوین موجود در راهنمای موضوعی Books In Print 2000-2001 (BIP) استفاده شد. تعداد 30 عنوان[18] ذیل موضوعات مربوط به کتابخانه، کتابداری و اطلاع‌رسانی به صورت تصادفی انتخاب شدند. سرعنوانهای موضوعی مناسب این عناوین از فهرست سرعنوانهای موضوعی کتابخانه کنگره انتخاب شدند تا به عنوان راهبردهای جستجوی کنترل شده در فهرست پیوسته کتابخانه کنگره به کار روند. اختصاص توصیفگرهای اصطلاح نامه اریک به هر عنوان با استفاده از امکانات پایگاه پیوسته اریک و نظر متخصصان موضوعی صورت پذیرفت. برای مشخص کردن راهبردهای جستجوی زبان طبیعی، از واژه‌های موجود در عناوین و عملگرهای بولی استفاده شد.

در مرحله دوم تحقیق، سرعنوان‌ها، توصیفگرها و راهبردهای زبان طبیعی به دست آمده، در پایگاه پیوسته کتاب شناختی اریک و فهرست پیوسته کتابخانه کنگره مورد جستجو قرار گرفتند. ده پیشینه اول حاصل از هرجستجوی موضوعی مورد بررسی قرار گرفت. این بررسی شامل ارزیابی ربط موضوعی هر کدام از پیشینه‌های بازیابی شده به عنوان مربوط به خود بود. با توجه به این که عناوین منتخب برای انجام جستجوهای موضوعی در این پژوهش بر اساس نیاز واقعی کاربران پایگاهها نیستند. بنابراین، ارزیابی ربط پیشینه‌های بازیابی شده بر اساس قضاوت متخصص موضوعی صورت پذیرفت. ربط تصوری نظری است که از دو دیدگاه متفاوت عینی و ذهنی مورد بررسی قرار می‌گیرد.نگرش عینی، وضعیت خاصّ دانش استفاده‌کننده را مورد توجه قرار نمی‌دهد.در نتیجه، در این نگرش تأکید عمده در واقع بر نظامهای بازیابی اطلاعات است. پارک[19] عوامل مؤثر در قضاوتهای ربط را در چند گروه خلاصه می‌کند: ویژگیهای فردی و دریافت و تصور استفاده‌کننده، شرایط خارجی و شرایط مسئله.از آنجا که در این پژوهش قضاوت ربط از دیدگاه عینی مورد توجه بوده و به وسیله متخصص موضوعی صورت گرفته است ،ویژگیهای فردی و دریافت و تصور استفاده‌کننده در قضاوتهای ربط مؤثر نبوده‌اند.برای ارزیابی شرایط خارجی، محصول نهایی برای هر موضوع منتخب یک پایان‌نامه تصور شده و هدف هر جستجو به دست آوردن اطلاعات جامع برای انجام کلیه مراحل پژوهش تلقی شده است. همه نتایج حاصل از جستجوها دسترس‌پذیر فرض شده‌اند. در مورد شرایط مسئله همه مدارکی که به روشن شدن گستره موضوع منتخب، تعریف و درک و پیشینه آن، روشهای بررسی مسئله، چارچوب و جنبه‌های جدید و قابل توجه آن کمک کرده‌اند مربوط تلقی شده اند.

تجزیه وتحلیل یافته‌ها

تجزیه و تحلیل داده‌ها در این پژوهش با استفاده از روشهای آمار توصیفی و استنباطی با استفاده از نرم‌افزارSPSS صورت پذیرفت. برای مقایسه دقت و ریزش کاذب رویکردهای موضوعی از آزمونt در دو گروه مستقل و برای مقایسه بازیافت رویکردهای موضوعی مختلف، از آزمون «خی دو» برای داده‌های ناپارامتریک استفاده شد. جدول1، تعداد جستجوها و پیشینه‌های بازیابی شده در دو پایگاه پیوسته کتاب شناختی اریک و فهرست پیوسته کتابخانه کنگره را نشان می‌دهد.

جدول 1. تعداد جستجوها و پیشینه های بازیابی شده

پایگاه پیوسته کتابشناختی	رویکرد جستجوی موضوعی	تعداد جستجوها	تعداد پیشینه بازیابی شده	تعداد پیشینه بازیابی شده تا ده پیشینه اول	تعداد پیشینه مربوط
فهرست کتابخانه کنگره	زبان طبیعی	81	55615	513	190
فهرست کتابخانه کنگره	کنترل شده	77	20249	600	193
پایگاه اریک	زبان طبیعی	81	432005	715	374
پایگاه اریک	کنترل شده	54	313193	503	81
جمع		293	821062	2331	838

برای بررسی سؤال اول تحقیق که هدف آن مقایسه بازیافت رویکردهای جستجوی موضوعی کنترل شده با زبان طبیعی بود، از آزمون غیرپارامتریک «خی دو» استفاده گردیده است.

جدول 2.آزمون معناداری تفاوت بازیافت در دو رویکرد زبان طبیعی و کنترل‌شده

پایگاه پیوسته کتابشناختی	رویکرد جستجوی موضوعی	مشاهده شده	مورد انتظار	مجذور کای	درجه آزادی	احتمال
فهرست کتابخانه کنگره	زبان طبیعی	55615	37932	79/16486	1	000/0
فهرست کتابخانه کنگره	کنترل شده	20249	37932	79/16486	1	000/0
پایگاه اریک	زبان طبیعی	432005	372599	5/9471	1	000/0
پایگاه اریک	کنترل شده	313193	372599	5/9471	1	000/0

با توجه به جدول2 و میزان خی دو به دست آمده می‌توان ادعا نمود که در فهرست کتابخانه کنگره میزان بازیافت در رویکرد موضوعی زبان طبیعی بیش از رویکرد موضوعی کنترل شده می‌باشد و تقریباً 7/2 برابر آن می‌باشد.

در پایگاه اریک نیز بازیافت پیشینه‌ها در رویکرد موضوعی زبان طبیعی بیش از رویکرد موضوعی کنترل شده می‌باشد و این تفاوت از نظر آماری معنادار است.

بنابراین، در پاسخ به سؤال اول پژوهش می‌توان گفت که در هر دو پایگاه مورد بررسی بازیافت رویکرد زبان طبیعی بیش از رویکرد واژگان کنترل شده بوده و این تفاوت از نظر آماری معنادار است.

سؤال دوم تحقیق، بررسی میزان دقت در دو رویکرد زبان طبیعی و کنترل شده می‌باشد. میزان دقت بر اساس فرمول زیر محاسبه گردید:

100 × ) تعداد مدارک بازیابی شده تا 10 پیشینه اول/ تعداد مدارک مربوط) = دقت

برای بررسی این سؤال از آزمون t استفاده گردیده است .

جدول 3. آزمون معناداری تفاوت میانگین دقت در دو رویکرد کنترل شده و زبان طبیعی

پایگاه پیوسته کتابشناختی	رویکرد جستجوی موضوعی	میانگین دقت (درصد)	SD	t-value	df	sig
فهرست کتابخانه کنگره	زبان طبیعی	9/41	1/28	22/0-	58	829/0
فهرست کتابخانه کنگره	کنترل شده	2/40	75/31	22/0-	58	829/0
پایگاه اریک	زبان طبیعی	4/50	8/26	02/6-	48	000/0
پایگاه اریک	کنترل شده	7/15	45/16	02/6-	48	000/0

دقت فهرست پیوسته کتابخانه کنگره در رویکرد زبان طبیعی و کنترل شده، تفاوتی معنادار با هم ندارند. بررسی میزان دقت در دو رویکرد کنترل شده و زبان طبیعی در پایگاه اریک، نشان می‌دهد که دقت در رویکرد زبان طبیعی در این پایگاه بیش از رویکرد کنترل شده می‌باشد، به طوری که میانگین دقت در رویکرد زبان طبیعی در این پایگاه 4/50% است در حالی که این میانگین برای رویکرد کنترل شده 7/15% می باشد که تفاوتی در حدود 7/34% را نشان می‌دهد. جدول3، این نتایج را نشان می‌دهد.

دقت در داده‌های حاصل از این پژوهش، نتایج دیگری را نیز روشن می‌کند. اگر سر عنوانهای موضوعی موجود در پژوهش برحسب تعداد تقسیم فرعی آنها گروه‌بندی شده و تعداد پیشینه‌های حاصل از هر گروه و دقت بازیابی آنها محاسبه شود، جدول4 به دست خواهد آمد.

جدول4. تعداد پیشینه‌ها و دقت حاصل از سر عنوانهای موضوعی با تقسیمهای فرعی متفاوت

سرعنوانهای موضوعی	تعداد سرعنوانها	تعداد پیشینه‌های بازیابی شده	دقت
بدون تقسیم فرعی	28	280	17%
دارای یک تقسیم فرعی	24	222	34%
دارای دو تقسیم فرعی	20	73	77%
دارای سه تقسیم فرعی	5	18	78%

داده‌های این جدول نشان می‌دهد هرچه تعداد تقسیم فرعی سرعنوان موضوعی افزایش یافته، تعداد پیشینه‌های بازیابی شده کاهش یافته و دقت بازیابی آنها افزایش پیدا کرده است.

سؤال سوم که در حقیقت عکس سؤال دوم تحقیق است، بررسی میزان ریزش کاذب در دو رویکرد زبان طبیعی و کنترل شده می باشد . ریزش کاذب در فهرست پیوسته کتابخانه کنگره در رویکرد زبان طبیعی و کنترل شده تفاوتی معنادار با هم ندارد. بررسی میزان ریزش کاذب در دو رویکرد کنترل شده و زبان طبیعی در پایگاه اریک، نشان می‌دهد که ریزش کاذب در رویکرد زبان طبیعی در این پایگاه کمتر از رویکرد کنترل شده می باشد.

بحث، نتیجه‌گیری و پیشنهاد

نتایج تحقیق و آزمونهای انجام شده در پاسخ به سؤالهای تحقیق نشان ‌می‌دهد دقت و بازیافت جستجوهای موضوعی انجام شده با استفاده از رویکرد زبان طبیعی در مقایسه با رویکرد کنترل، در مجموع بهتر بوده است.

به نظر می‌رسد کارایی بهتر رویکرد زبان طبیعی در جستجوی اطلاعات پیوسته، ناشی از سنخیت بیشتری است که این رویکرد با محیط شبکه و وب دارد. موتورهای جستجوی پایگاههای اطلاعاتی اغلب براساس ویژگیهایی عمل می‌کنند که با رویکرد زبان طبیعی هماهنگ‌تر است. این موتورها ارزیابیهای ربط خود را براساس تحلیلهای کمّی از واژگان مدارک خود و راهبردهای جستجوی کاربران انجام می‌دهند و امکانی برای تحلیل محتوی مدارک یا بررسی روابط معنایی موجود میان واژگان جستجو ندارند.

از سوی دیگر شاید پیش از آن که عملکرد بهتر رویکرد زبان طبیعی در این پژوهش دلیل مزیت این رویکرد باشد ، باید آن را ناشی از موانع موجود در استفاده از زبان کنترل شده تصور کرد. در رویکرد کنترل شده، وجود واژگان نمایه‌سازی کامل و روزآمد عنصری تعیین کننده در موفقیت نظام نمایه‌سازی است. این نکته زمانی روشن‌تر می‌شود که نتایج تحقیق در دو پایگاه اریک و فهرست پیوسته کتابخانه کنگره را مورد مقایسه قرار دهیم.

در فهرست پیوسته کتابخانه کنگره زبان نمایه‌سازی، فهرست سرعنوانهای موضوعی کتابخانه کنگره است. این فهرست به عنوان یک استاندارد ملی و تا حدی استاندارد بین‌المللی مورد استفاده قرار می‌گیرد. نتایج پژوهش در فهرست پیوسته کتابخانه کنگره نشان می‌دهد از نظر دقت تفاوتی معنا‌دار میان دو رویکرد زبان طبیعی و کنترل شده در این پایگاه وجود ندارد. در حالی که در پایگاه اریک، این تفاوت کاملاً معنا‌دار است. در پایگاه اریک توصیفگرها از اصطلاح نامه اریک انتخاب می‌شوند. در مرحله گردآوری داده‌ها برای این پژوهش، اختصاص توصیفگرها با موانعی همراه بود که به نظر می‌رسد ناشی از نقص اصطلاح نامه اریک و روزآمد نبودن آن دست کم در حوزه موضوعی کتابخانه، کتابداری و اطلاع‌رسانی بوده است. با توجه به مطالب ذکرشده، شاید بتوان این طور نتیجه‌گیری کرد که درصدی از تفاوت بسیار زیاد موجود میان نتایج دو رویکرد در پایگاه اریک، ناشی از نقص اصطلاح نامه اریک باشد.

از سوی دیگر، اگر مقایسه ای میان کلمات عناوین مورد نظر و کلمات اصطلاحات کنترل شده اختصاص یافته به همان موضوعات صورت پذیرد، روشن می‌شود که کلمات عناوین درصد کمی از مفاهیم موجود در موضوعات را تحت پوشش قرار می‌دهند که این خود می‌تواند نشانه‌ای از عدم جامعیت نتایج جستجوهای موضوعی با استفاده از رویکرد در زبان طبیعی باشد.

با توجه به همه نکات ذکر شده در این قسمت می‌توان چنین نتیجه‌گیری کرد:

با وجود آن که در جستجوهای موضوعی با استفاده از رویکرد زبان طبیعی در مقایسه با رویکرد کنترل شده در این پژوهش دقت و بازیافت بیشتر و ریزش کاذب کمتری حاصل شده است، نمی توان در مورد کارایی بهتر این رویکرد نظر قطعی ارائه کرد. با توجه به این که تعیین تعداد پیشینه‌های مربوط که در پایگاههای مورد نظر وجود داشته ولی بازیابی نشده‌اند ممکن نیست، لذا تعیین داده‌های کمّی در مورد میزان جامعیت پیشینه‌های حاصل از دو رویکرد و مقایسه آنها با هم نیز مقدور نمی‌باشد. بنابراین، نمی‌توان در مورد جامعیت نتایج حاصل از رویکرد زبان طبیعی بویژه با توجه به نکاتی که در مورد نقص آنها نسبت به راهبردهای کنترل شده ارائه شد مطمئن بود. از طرف دیگر، چنانکه گفته شد، احتمال دارد بخشی از این برتری نسبی رویکرد زبان طبیعی نسبت به رویکرد کنترل شده ناشی از ایرادهای وارد به زبان نمایه‌سازی پایگاه اریک باشد. بنابراین، پیشنهاد می‌شود در انجام جستجوهای موضوعی کامل در پایگاههای پیوسته، ترکیبی از دو رویکرد زبان طبیعی و کنترل‌شده برای به دست آوردن نتایج جامع استفاده شود. برای انجام جستجوهایی که جامعیت نتایج حاصل از آنها اهمیت چندانی ندارد و هدف به دست آوردن تعدادی پیشینه مربوط است، رویکرد زبان طبیعی از مزیت بیشتری برخوردار است. استفاده از واژگان کنترل شدة اخص تر در جستجو، سبب افزایش دقت بازیابی می‌گردد.

بهتر است کاربران پایگاهها نیازهای اطلاعاتی خود را در قالب عناوین روشن و کامل بیان کنند و مؤلفان، عناوین واضح و جامع برای مدارک خود بر گزینند. چنین عناوینی، کارایی جستجوهای موضوعی بویژه جستجوهایی را که با استفاده از رویکرد زبان طبیعی صورت می‌گیرد، افزایش می‌دهند.

1. Cutter

2. Hoffman

3. Taylor

4. Moore

5. Cain

1. Effectiveness

2. Precision

3. Recall

1. Cranfield

2. Muddamalle

1. Peters

2. Kurth

3. Shaw

4. MEDLINE

5. Muddamalle

6. Ballard

1. Arellano

2. Topic

1. Park

ـ بهمن‌آبادی، علیرضا (1380). «کاربرد اصطلاحنامه در بازیابی اطلاعات» فصلنامه کتاب، 12 (2 ): 77 .

ـ پائو، میراندا لی (1378). مفاهیم بازیابی اطلاعات، ترجمه اسدالله آزاد و رحمت‌الله فتاحی. مشهد: دانشگاه فردوسی.

ـ تیلور، آرلین جی (1381). سازماندهی اطلاعات، ترجمه محمدحسین دیانی. مشهد: کتابخانه رایانه‌ای.

ـ چشمه سهرابی، مظفر (1378). تأثیر استفاده از اصطلاحنامه در بانکهای اطلاعاتی کتابشناختی بر میزان جامعیت، مانعیت و مدت زمان جستجوی اطلاعات بازیابی‌شده. پایان‌نامه کارشناسی ارشد، دانشگاه تربیت مدرس، دانشکده علوم.

ـ حریری، نجلا (1377). «مفهوم ربط در بازیابی از نظامهای اطلاعاتی». فصلنامه کتاب، 9(2):7.

ـ زینس، کیم (1381). «راهبرد کاوش نظام‌مند بازیابی اطلاعات در عصر نظامهای جهانی اطلاعات» ، ترجمه فاطمه مکی‌زاده. فصلنامه کتاب، 3 ( 2 ):155.

ـ شهبازی، رحیم (1378). «تجسس موضوعی در نظامهای فهرست پیوسته»، فصلنامه اطلاع‌رسانی، 16 (1و2): 38 .

ـ مور، کارول، جک‌ کین (1996). « تکنولوژی نوین و رقمی کردن سرعنوانهای موضوعی»، ترجمه سعید اکبری‌نژاد. گزیدة مقالات ایفلا (چین:25ـ31 اوت 1996): 66.

ـ ویسمان، هرمان (1378). سیستمها، خدمات و مراکز اطلاع‌رسانی، ترجمه جعفر مهراد. شیراز: نوید.

-Arellano, F. (1999). “Subject searching in online catalogs including Spanish and English material” Cataloging and-Classification Quarterly, 28 (2):45.

-Ballard, T. (1998). “Keyword / subject: finding a middle path; this hybrid search approach dramatically improves patron success" Information Today at http://www.findarticles.com (2003/12/29).

-Connell, Tschera Harkness ; Tipple ,Jennifer E. (1999) "Testing the accuracy of information on the WWW using the AltaVista search engine" Reference and User Services Quarterly,38(4):360.

-Hoffman, H.H. (2001). “Subject access to works in online catalogs” Technicalities, 21(5):9, at http://gatewayproquest.com (2003/12/29).

-Hunter, R.N. (1991). “Success and failures of patrons searching the online catalog at a large academic library: a transaction log analysis” RQ, 30(3):395.

-Jansen, Bernard (2000)."The effect of query complexity on web searching results" http://www.shef.ac.uk/is/publications/infres/paper 87.html (2005/5/10)

-Leighton, H. Vernon (1995) "Performance of four WWW index services: Infoseek, Lycos, Web Crawler and wwworm"http://www. winona.msus.edu/library/webind.htm/ (2005/10/5)

-Muddamalle, M.R. (1998). “Natural language versus controlled vocabulary in information retrieval: a case study in soil mechanics” Journal of American Society for Information Science, 49 (10):881.

-Peters, T.A., M. Kurth (1991). “Controlled and uncontrolled vocabulary subject searching in an academic library catalog” Information Technology and Libraries, 10(3): 201.

-Rudner, L.M. (2003). “How many people search ERIC database each day” Dlibmagazine, 9(4). http://www.dlib.org/dlib/ april03/rudner/04rudner.html.2003/ (2003/12/5).

-Shaw, W.M. (1994). “Retrieval expectations, cluster-based effectiveness, and performance standards in the CF database” Information Processing and Management, 30 (3):23.

-Subject Guide to Books In Print 2000-2001(2000). New York: Bowker .

-Williamson, N.J. (1996). “Standards and rules for subject access” Cataloging and Classification Standards and Rules, 21(314):155.

-Yee, Ingrid Hsieh (1998). “The retrieval power of selected search engines: How well do they address general reference questions and subject questions?” Reference Librarian, 60(27).