بررسی مدل فضای برداری در بازیابی اطّلاعات

نوع مقاله: مقاله پژوهشی

نویسندگان

1 استاد بخش علوم کتابداری و اطلاع رسانی دانشگاه شیراز و رئیس کتابخانه منطقه ای علوم و تکنولوژی

2 کارشناس ارشد مهندسی کامپیوتر و رئیس اداره فناوریهای اطّلاعاتی کتابخانه منطقه ای علوم و تکنولوژی

چکیده

بازیابی اطّلاعات، فرایند یافتن اطّلاعات (مدارک) مربوط به جستجوی کاربر در مجموعة مدارک است. با پیاده سازی الگوریتمهای متفاوت، استراتژیهای مختلفی در بازیابی اطّلاعات وجود دارد. وجه مشترک استراتژیهای بازیابی، یافتن مدارک مشابه با موضوع جستجوی کاربر است. یکی از الگوریتمهای مهمی که در بازیابی اطّلاعات، کاربرد بسیار دارد، الگوریتم فضای برداری است که می کوشد تمام مدارک را در مجموعه و جستجوهای کاربر به صورت بردارها نشان دهد و ضریب تشابه میان بردارهای مدرک و بردار جستجو را جهت بازیابی مدرک مربوط، محاسبه نماید.
 

کلیدواژه‌ها


مقدمه

پیشرفتهای اخیر در علم الکترونیک، به تولید ابزارهای مدرن برای ذخیره‌سازی انبوهی از اطّلاعات منجر گردیده است. انفجار اطّلاعات باعث شده است تا جامعة پژوهشگران در حوزة بازیابی اطّلاعات، امکان و شیوة فراخوانی اطّلاعات درخواستی را در پنجاه سال اخیر بسیار بهبود ببخشند. ‍‍[2 و 1] با سیستمهای بازیابی اطّلاعات امروزی، امکان جستجو در چند ترابایت اطّلاعات، فقط در چند ثانیه وجود دارد [3].

نظام بازیابی اطّلاعات به سازماندهی، ذخیره سازی، بازیابی و نمایش اطّلاعات کتابشناختی مربوط است. سیستمهای بازیابی اطّلاعات با هدف فراهم آوردن زمینة لازم برای پاسخگویی به جستجوهای کاربر از طریق ارجاع به مدارک مربوط، طراحی می‌گردد. در چنین محیطی، مجموعه‌ای از مدارک مانند کتابها، مقاله‌ها، گزارشهای تحقیقاتی و... وجود دارد، به اضافة گروهی از کاربران. نیاز اطّلاعاتی کاربر در یک زمان خاص می‌تواند شامل یک یا چند مدرک باشد. مفهوم «ربط»، عامل مورد توجّهی در مسئلة بازیابی است.

یک مدرک با توجه به ویژگیهایی که دارد (نحوة نگارش، موضوع و...) و یا با در نظر گرفتن مشخصة کاربر (سابقة دانش فنی وی) ممکن است برای یک کاربر خاص، مربوط و یا نامربوط تلقّی شود. در تمام سیستمهای بازیابی اطّلاعات، چنانچه مدرک بازیابی شده در قضاوت کاربر، مورد توجه وی واقع گردد، آن مدرک به عنوان مدرک مربوط و در غیر این‌صورت، مدرک نامربوط شناخته می شود. عوامل بسیاری در قضاوت درباره عنصر «ربط» مؤثرند. از آنجا که عوامل بسیاری، قضاوت درباره ربط را با استفاده از روشهای پیچیده تعیین می کنند، یک سیستم بازیابی اطّلاعات نمی‌تواند به طور دقیق تمام مدارک مربوط را انتخاب نماید. بنابراین، سیستم باید روشهایی را بپذیرد که رتبه‌بندی مدارک را به ترتیب احتمال استفادة کاربر از آنها آسان کند.

یکی از روشهای مناسب، محاسبة همبستگی اصطلاحات، بر اساس فراوانی اصطلاحات هم آیند است. در صورت فرض تعامد بردارهای مدارک و اصطلاح، استفاده از ماتریس هم آیند می‌تواند یک عامل تنظیم‌کننده باشد. پژوهشگران این حوزه، در فرایند بازیابی، روشهای متفاوتی برای تشخیص همبستگی اصطلاحات ارائه کرده‌اند، از جمله می‌توان به تحلیل آماری جستجوها در مدارک مربوط و نامربوط به ترتیب همبستگیهای مثبت و منفی اصطلاحات، اشاره کرد [5]. در پژوهش دیگری که از ماتریس اصطلاح هم آیند استفاده شد، مجموعة اصلی بردارهای اصطلاح، از روشهای تحلیل عامل یا  مقیاس چند بعدی بدست آمد [7 و6].

«کال» در پژوهش خود، طرحی ارائه کرد که با استفاده از آن می‌توان همبستگیهای میان اصطلاحات را بدون ماتریس اصطلاح هم آیند، ادغام نمود [8].

در یک سیستم بازیابی اطّلاعات، معمول است که یک مدرک به وسیلة کلید واژه‌ها یا واژه‌های موضوعی نمایانده شود. کلید واژه‌ها معمولاً در فرایند نمایه‌سازی، از متن یا چکیدة مدرک استخراج می شوند.

علاوه بر گزینش اصطلاحات برای بازنمون مدارک، معمولاً به هر اصطلاح وزنی می‌دهند تا اهمیّت آن اصطلاح خاص را در مدرک نشان دهد. بنابراین، در طراحی استراتژیهای جستجو می‌توان ماتریس مدرک ـ اصطلاح را به وجود آورد، به نحوی که عنصر (i , r) این ماتریس، متناظر با وزن اصطلاح i در مدرک r  باشد [9]. در این ماتریس، عنصر را به عنوان مؤلفة i  بردار متناظر با مدرک r  در نظر می‌گیرند. هنگام جستجو، سیستم، بردار جستجو را به دست می‌آورد و با بردارهای مدارک بر اساس روش بیان تشابه میان بردارها منطبق می سازد [4]. با در اختیار داشتن این ماتریس و با توجه به هدف رتبه‌بندی مدارک، روشهای گوناگونی برای مدلسازی بازیابی به کار می‌رود. یک روش که در سالهای اخیر به طور گسترده استفاده شده، مدلسازی مدارک و جستجوها بر اساس بردار است [10 و 9] و به آن مدل «فضای برداری»[1] گفته می شود. هر جستجو به صورت بردار نمایانده می شود و تشابه آن را با بردارهای مدارک در نظر می‌گیرند. هر چه بردار جستجو به بردار مدرک نزدیکتر باشد، به موضوع جستجو مربوط تر خواهد بود. مدل فضای برداری را «سالتون» پیشنهاد کرده است [11 و 10 و 9].

 

مدل فضای برداری

مدل فضای برداری یکی از مدلهای بازیابی اطّلاعات است که در سطح وسیعی به کار می‌رود [13 و 12]. در این مدل، هر مقولة اطّلاعاتی ـ شامل متون ذخیره شده و هر تقاضای اطّلاعاتی زبان طبیعی ـ به صورت مجموعة بردارهایی از اصطلاحات نگهداری می‌شوند. به طور نظری، این اصطلاحات می‌توانند از واژگان کنترل شده‌ انتخاب شوند. به خاطر وجود مشکلاتی در تهیة این واژگان، اصطلاحات از متون استخراج می‌شوند. معمولاً برای کاهش اندازة واژگان از ریشة واژه‌ها استفاده  می شود. همچنین معمولاً از واژه‌های بازدارنده نظیر…., an ,of ,the صرف نظر می گردد. از تمام واژه‌های موجود در مدارک، یک مجموعه واژگان به وجود می آید. هر مدرک به صورت برداری از تمام واژگان نمایانده می شود. بعید است واژه‌هایی که فاقد بار معنایی هستند و به طور معمول در مدارک یافت می‌شوند، اطّلاعات مهّمی ارائه دهند، بنابراین می‌توان این واژه‌ها را برای سرعت دادن به پردازش، حذف کرد. واژه‌های تکراری که می‌توان از آنها چشم پوشید فهرست واژه‌های غیرمجاز را می‌سازند. در حذف واژه‌های غیر مجاز، باید دقّت زیاد به کار برده شود. برای مثال:

چنانچه واژه‌های غیر مجاز در جملة: «to be or not to be» حذف شوند، این جمله غیر قابل بازیابی خواهد بود.

مدل فضای برداری، شیوه ای است برای نمایش مدارک از طریق واژه‌های موجود در آنها. این مدل، یک تکنیک استاندارد در بازیابی اطّلاعات است. بر اساس مدل فضای برداری، می‌توان تصمیم گرفت که کدام مدارک شبیه به یکدیگر و یا به کلیدواژه‌های جستجو شبیه هستند [12].

بردار مربوط به هر مدرک (یا هر جستجو) دارای n مؤلّفه است. n برابر با تعداد اصطلاحات موجود در مجموعه مدارک است.

به هر یک از اصطلاحات هر مدرک، به طور خودکار وزنی اختصاص می‌یابد که بر فراوانی رخداد اصطلاح در کلّ مجموعة مدرک و تعداد دفعات حضور یک اصطلاح در مدرک خاص مبتنی است. با افزایش فراوانی اصطلاح در یک مدرک، وزن آن اصطلاح درمدرک افزایش می یابد. برعکس، وقتی فراوانی اصطلاح در مجموعة مدارک بیشتر باشد، این وزن کاهش می یابد.

به طور کلی، می‌توان مزیّتهای اصلی مدل فضایی  برداری را چنین بیان نمود [13]: 

1. طرح وزن دهی به اصطلاح در این مدل، عملکرد بازیابی را بهبود می بخشد.

2. استراتژی تطبیق جزئی این مدل، بازیابی مدارکی را مجاز می شمارد که به شرایط جستجو نزدیک هستند.

3. فرمول رتبه بندی کسینوسی آن، مدارک را بر طبق درجة تشابهی که به موضوع جستجو دارند، مرتّب می‌کند.

 

1-2. وزن دهی به اصطلاح

چون اصطلاحات متفاوت، دارای اهمیت مختلفی در متن هستند، از یک نشانگر مهم، یعنی «وزن اصطلاح» استفاده می‌شود که همراه هر اصطلاح است [15و 14]. به اصطلاحات مهمتر، وزن بیشتر اختصاص می یابد. برای وزن دادن به یک اصطلاح، از تعداد رویداد یک اصطلاح (فراوانی آن یا tf استفاده می‌شود). اهمیت اصطلاح، مستقل از بستر جستجو نیست. برای مثال، اصطلاح "دریاچه" در مجموعة مقالات  دریاچة خزر اهمیت زیادی ندارد، اما در زمان جستجو در مقالات پیرامون کویر و صحرا، این اصطلاح می‌تواند بسیار مهم باشد. این امر نشان دهندة این موضوع است که مدارکی که یک اصطلاح در آن مکرراً وجود دارد، ممکن است اهمیت کمتری داشته باشد. از این رو از «فراوانی مدرک معکوس» یا «عامل idf» همراه با وزن اصطلاح استفاده می‌شود. فراوانی اصطلاح معکوسِ برای محاسبة اهمیت واژه‌های نادر نسبت به واژه‌های معمولی به وجود آمده است. فراوانی اصطلاح معکوس واژة i به وسیلة فرمول زیر محاسبه می شود.

 

در اینجا N تعداد کلّ مدارک و  تعداد مدارک حاوی واژة i  است.

معمولاً در یک مدرک طولانی به طور مکرر از اصطلاح خاصی استفاده می شود. عامل فراوانی اصطلاح ممکن است برای مدرک طولانی، بزرگ باشد. همچنین مدرک طولانی، شامل بسیاری از اصطلاحات گوناگون و متمایز است. این امر باعث افزایش تعداد تطبیق واژه‌های یک جستجو و مدرک طولانی می شود و به طور ناعادلانه‌ای احتمال بازیابی این مدرک را نسبت به مدارک کوتاه تر افزایش می‌دهد. برای جبران این اثر، معمولاً وزنهای اصطلاح را نرمال‌سازی می‌کنند. نرمال‌سازی فراوانی اصطلاح، یکی از اصلی ترین مباحث در بازیابی اطّلاعات طی سالهای اخیر است.

فراوانی اصطلاح به طول مدرک بستگی دارد. بنابراین، در یک سیستم بازیابی اطّلاعات، نیازمند یکنواخت کردن طول مدرک با تکنیک نرمال‌سازی فراوانی اصطلاح هستیم. بیشتر روشهای نرمال‌سازی فراوانی اصطلاح، در بازیابی اطّلاعات از پارامترها استفاده می‌کنند. تنظیم این پارامترها، می‌تواند به تغییرات مهمی در میزان دقت و بازیافت منجر گردد. یکی از پارامترهای مهم، وزن است.

  نرمال‌سازی کسینوسی یکی از روشهای موثر نرمال‌سازی است. هر بردار مدرک به طول اقلیدسی آن تقسیم می شود،  در اینجا،  وزن  اصطلاح i  در مدرک است. وزن نهایی برای یک اصطلاح به صورت زیر محاسبه می گردد.

 

طول اقلیدسی بردار مدرک

 

 

وزن اصطلاحی که در یک مدرک موجود نباشد را صفر در نظر می‌گیرند [1].

باتوجه به نکات فوق می‌توان چنین گفت که تمام واژه‌های موجود در مدرک اهمیت یکسانی ندارند. یک واژه اگر دارای شرایط زیر باشد، به احتمال زیاد به مدرک بسیار مربوط خواهد بود:

الف) تکرار آن در سایر مدارک کم باشد.

ب) تکرار آن در مدرک بالا باشد.

 

2-2. رتبه‌بندی مدارک

تابع حاصل‌‌ضرب داخلی برداری می‌تواند برای یافتن همپوشانی واژگان میان هر دو بردار متن استفاده گردد. جستجوی زبان طبیعی که کاربر انجام می‌دهد، به بردار وزن داری تبدیل می‌شود و با استفاده از تابع حاصل‌ضرب داخلی، تشابه عددی میان بردار جستجو و بردار هر مدرک در مجموعه محاسبه می گردد. با در نظر گرفتن بردار جستجوی Q و نمایش برداری مدرکi به صورت، تشابه میان جستجو و مدرک به صورت زیر محاسبه می شود [1]: 

 

 

اصطلاحات مشترک

 

 

در اینجا tj  اصطلاحی است که در جستجو و مدرک، ظاهر شده و qj وزن اصطلاح tj  در جستجو و  tijوزن آن در مدرکi   است. تمام اصطلاحات  tjکه هم در جستجو و هم در مدرک وجود دارند با هم جمع می‌شوند. تشابه حاصل‌ضرب داخلی فهرستی از مدارک رتبه‌بندی شده با توجه به میزان استفاده آنها ارائه می دهد.

به طور معمول، کاربر جستجویی را در پایگاههای اطّلاعاتی وارد می کند. جستجو با تمام مدارک با اندازه‌گیری تشابه مقایسه می شود. مدارک به ترتیب نزولی ِتشابهی که با اصطلاح جستجو دارند، به کاربر ارائه می شود.

 

3-2. محاسبة تشابه

روشهای مختلفی برای اندازه گیری تشابه میان دو مدرک، یا تشابه یک مدرک با یک جستجو وجود دارد. اندازه‌گیری کسینوسی، یک روش بسیار معمول اندازه‌گیری تشابه است، که در این روش کسینوس زاویة بین مدرک و جستجو اندازه گیری می شود. با اندازه‌گیری تشابه، مجموعه ای از مدارک را می‌توان با جستجو مقایسه کرد و آنگاه مربوط ترین مدرک را بازیابی نمود [12].

 

اندازه گیری کسینوسی:

برای دو بردار d و q، تشابه کسینوسی بین d و q به صورت زیر محاسبه می شود:

(1)         

در اینجا،   حاصل‌ضرب برداریd  و q است که با ضرب کردن فرایندهای متناظر در هم، محاسبه می شود.

اندازه گیری کسینوسی، زاویة بین بردارها را در فضای چند بعدی محاسبه می کند.

برای نمونه، شکل یک را در نظر بگیرید.

 

 
   

 

 

 

 

 

 

 

 

 

 

 

شکل1. نمایش برداری دو مدرک و یک جستجو

 

با توجه به این شکل، تشابه میان مدرک  و جستجوی Q، برابر با کسینوس زاویة بین دو بردار، یعنی  است

 

و همین‌طور داریم:

 

 

 4-2. پیاده سازی مدل فضای برداری

      برای مدل‌برداری، وزن wi,q مربوط به زوج (djوki) مثبت و غیر دودویی است. علاوه بر آن، واژه‌های موضوعی در جستجو نیز وزن دار می باشند. فرض کنید wi,q وزن  مربوط به زوج [ki,q]است که در آن wi,q ≥ 0 است. سپس، بردار جستجوی به صورت   تعریف می شود که در آن t تعداد کلّ واژه‌های موضوعی در سیستم است. همانطور که قبلاً گفته شد، برای مدرک  dj، بردار آن به صورت  نمایش داده می شود.

  بنابراین، مدرک djو جستجوی کاربر، مثلq ، به صورت بردارهای t بعدی نمایش داده می‌شود. در مدل برداری پیشنهاد می‌شود برای ارزیابی (سنجش) درجة تشابه مدرک dj با ملاحظة جستجویq ، از همبستگی میان بردارهای و  استفاده شود. این همبستگی را می‌توان تعیین کمیّت کرد. برای مثال، می‌توان از کسینوس زاویة میان این دو بردار به صورت زیر استفاده کرد [2].

 

Sim(dj,q)     =

                 

  در این جا و نرم بردارهای مدرک و جستجو هستند. عامل (فاکتور)  تأثیری بر رتبه بندی (یعنی ترتیب مدارک) ندارد، زیرا این عامل برای تمام مدارک، یکسان است. عامل امکان نرمال‌سازی مدارک را فراهم می‌کند. در اینجا وزن از فرمول زیر به دست آمده است: 

 

   از آن جا که  wi,j ≥ 0 و wi,q ≥ 0 است، مقدار Sim(q,dj) از 0 تا 1 متغیّر است. بنابراین، به جای پیش‌بینی مربوط یا نامربوط بودن یک مدرک، مدل‌ برداری، مدارک را بر اساس درجة تشابه آنها نسبت به جستجو رتبه‌بندی می‌نماید. ممکن است یک مدرک، حتّی در حالت تطبیق جزئی با جستجو بازیابی گردد. برای مثال، می‌توان آستانه ای را برای Sim(dj,q) تعیین کرد و مدارکی را که درجة تشابه آنها بیش از آستانه است،           بازیابی نمود [13].

نحوة محاسبة رتبه بندی مدارک

برای تبیین مسئله، از مثال ساده‌ای برای نشان دادن نحوة ساخت بردار استفاده می‌کنیم:

مثال: مدارک و جستجوی زیر را در نظر بگیرید:

: speech recognition and image processing and signal processing

: speech    models and image processing

q: image models

 

برای جستجو و هر یک از مدارک، جدولهایی شامل اصطلاحات موجود در هر رکورد ساخته می شود.

برای هر یک از اصطلاحات مستقل، یک مؤلفة در جدول در نظر گرفته شده و فراوانی اصطلاح نیز مشخص گردیده است.

  

: speech recognition and image processing and signal processing

speech

recognition

and

Image

processing

Signal

1

1

2

1

2

1

 

: speech models and image processing

speech

Models

and

image

Processing

1

1

1

1

1

 

q: image models

image

Models

1

1

در این مثال، تمام واژه‌ها برای تهیة مجموعه واژگان به کار رفته‌اند.

واژگان ایجاد شده شامل تمام واژه‌هایی است که در مدارک به کار رفته‌‌اند:

speech, recognition, and, image, processing, signal, models.

درمدل فضای برداری، واژه‌های موجود در واژگان، مرتب سازی می شود:

and, image, models, processing, recognition, signal, speech.

بنابراین در این مثال بردارهای مدارک و جستجو دارای 7 مؤلفه (به تعداد واژگان) بوده و بردار حاصل، هفت بُعدی خواهد بود.

بردارمدرک باتوجه به فراوانی اصطلاحات موجود در آن به صورت زیر نشان داده می شود:

     : speech recognition and image processing and signal processing

and

image

Models

processing

recognition

signal

Speech

2

1

0

2

1

1

1

 

و بردار مدرک  به صورت زیر به دست می آید:

: speech models and image processing

speech

signal

recognition

processing

Models

image

and

1

0

0

1

1

1

1

 

بردار جستجو را می‌توان مانند بردارهای مدارک به وجود آورد:

q: image models

 

and

image

Models

processing

recognition

signal

speech

0

1

1

0

0

0

0

 

رتبه بندی مدارک موجود نسبت به جستجویq  به صورت زیر محاسبه می شود:

ابتدا ضریب تشابه  هر یک از بردارهای مدارک  و  با بردار جستجوی q به شیوه زیر محاسبه می‌شود:

 

 

 

 

 

ضریب تشابه مدرک با جستجویq  به ترتیب زیر به دست می آید.

 

با توجه به مقادیر به دست آمده برای ضریب تشابه، از آنجا که ضریب تشابه مدرک  با جستجویq    0.632 و ضریب تشابه مدرک    با جستجوی q برابر با 0.204  است، نتیجه می‌شود که مدرک، مدرک مربوط تری نسبت به مدرک  برای جستجویq  است. بنابراین، رتبه‌بندی به صورت  و   است.

نتیجة این محاسبات نیز با نگاه اجمالی به مدارک و جستجو قابل تأیید است.

 

نتیجه گیری

در این مقاله، از میان استراتژیهای مختلف بازیابی اطّلاعات، مدل فضای برداری به عنوان یکی از معتبرترین تکنیکهای بازیابی به طور ساده بیان و نشان داده شد که مدل‌برداری یک استراتژی رتبه‌بندی است که با مجموعه‌های عمومی بهبودپذیر است. این استراتژی مجموعه جوابهای رتبه‌بندی شده‌ای تولید می‌کند که بهبود آنها بدون بسط جستجو یا بازخورد میزان ربط  در چارچوب مدل برداری، مشکل است. در رتبه‌بندی، روشهای بسیار مختلفی با مدل برداری مقایسه شده است، امّا به طور کلّی به نظر می‌رسد مدل برداری، یا برتر بوده و یا تقریباً به خوبی سایر روشهای موجود عمل می نماید. به علاوه، مدل برداری، آسان و سریع است. با توجّه به این دلایل، مدل برداری یک مدل بازیابی معتبر است.



1. Vector space model.

[1] Salton, G. (1989) Automatic Text Processing – The Transformation, Analysis and Retrieval of      Information  by  Computer, Addison – Wesley Publishing Co., Reading, MA, 1989.
 
[2] Salton, G. (1991)  Developments in Automatic Text Retrieval, Science, 253, 974-980, August.
 
[3] Tai, X., Ren, F. Kita, K. (2001) An Information Retrieval Model based on Vector Space Method by Supervised Learning, Information Processing & Management.
 
[4] Raghavan, V.V.,  Wony, S.K.M. (1986)  Critical Analysis of Vector Space Model for   Information Retrieval; Journal of the American Society for information Science.
 
[5] Raghavan, V.V., Yu, C.T. (1979) Experiments on the Determination of the Relationships Between Terms. ACM Transactions on Database Systems no. 4. pp.240 – 260.
 
 [6] Katter, R.v. (1967) A Study of Document Representations: Multidimension Scaling of Index Terms. SDC – Final Report.
 
[7] Switzer, P. (1964) Vector Images in Information Retrieval. Proceedings of the Symposium on Statistical Association Methods for Mechanical Documentation, Wash. D.C. (NBS Misc. Publ. 269, 1965) Stevens, M.E., Heilprin, L., Guiliano, V.E (eds.). pp. 163 – 171.
 
[8] Koll, M. (1979) Weird, An Approach to Concept – based Information Retrieval. ACM – SIGIR Forum, vol XIII, no. 4, (spring 1979), pp. 32- 50.
 
[9] Salton, G., McGill, M.J. (1983) Introduction to Modern Information Retrieval. McGraw hill, New York.
 
[10] Salton, G. (1971) The SMART Retrieval System – Experiments in Automatic Document Processing. Prentice – Hall, Englewood Cliffs, New Jersey.
 
 [11] Salton, G. (1983) Dynamic Information and Library Processing. Prentice – Hall,  Englewood Cliffs, New Jersey.
 
 
[12]. گراسمن، دیوید و افیر فریدر. «بازیابی اطّلاعات، الگوریتمها و روشهای اکتشافی» ترجمه جعفرمهراد و سارا کلینی، انتشارات کتابخانه رایانه‌ای، کتابخانه منطقه ای علوم و تکنولوژی، 1384.
 
[13] Baeza - Yates, R. Ribeiro- Neto, B,  Modern information Retrieval, Addison  Wesley, 1999.
 
[14] Salton, G., Yang, C.G., Yu, C.T. (1975)  A Theory of Term Importance in Automatic Text Analysis, Journal of the ASIS, 26:1, 33-44.
           
 [15] Salton, G. (1988) Buckley, C., Term weighting Approaches in Automatic Text Retrieval, Information Processing and Management, 24:5, 513-523.
 
[16]. داورپناه، محمدرضا (1384). «ضرورتهای نوین بازنگری در ذخیره و بازیابی اطّلاعات». کتابداری و اطّلاع رسانی، جلد 8 ، شمارة 3 ، پاییز 1384، ص 67-88.
[17]. چاودری، جی جی، (1379). «پژوهش دربارة اینترنت و بازیابی اطّلاعات». ترجمة مهدی خادمیان، کتابداری و اطّلاع رسانی، جلد 3 ، شماره 3 ، پاییز 1379،          ص 133-162.