دسته‌بندی نتایج جستجو بر مبنای ویژگیهای مدارک و امکان‌سنجی استفاده از الگوریتمهای خوشه‌بندی مختلف در سطح وب

نوع مقاله: مقاله پژوهشی

نویسنده

دانشجوی دکترای علوم کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد

چکیده

بازآرایی و به نظم درآوردن نتایج جستجو در بازیابی اطلاعات، بخصوص وقتی حجم منابع بازیابی شده بسیار زیاد است. به کاربران در تسهیل امر بازیابی اطلاعات کمک می‌کند. بازآرایی و سازماندهی مدارک همواره بر اساس ویژگیهای هر مدرک صورت می‌پذیرد. بنابراین، بازسازی نتایج جستجو نیز منوط به ویژگیهای مذکور است. ویژگیهای مدارک را می‌توان به دو گروه ردیف اول و ردیف دوم دسته‌بندی کرد. در این مقاله، با اشاره به انواع ویژگیهای مطرح برای مدارک و اشاره به این نکته که خوشه‌بندی یکی از روشهای رایج در دسته‌بندی نتایج جستجوست تلاش شده تا فصل مشترک میان این ویژگیها و نیز روشهای مختلف خوشه‌بندی مشخص گردد. در نهایت، با توجه به اینکه خوشه‌بندی نتایج جستجو از فناوریهای نسبتاً رایج در سطوح وب بوده و طراحان موتورهای جستجو برای بهبود نتایج، پژوهشی تکمیلی به منظور امکان‌سنجی و بررسی وجود ملزومات (نمایه‌سازی ویژگیها) در جهت دسته‌بندی نتایج نشان دهندة آن است که با وجود توجه به ویژگیها و نمایه‌سازی آنها توسط موتورهای جستجوی مختلف، و نیز ساده بودن الگوریتمهای خوشه‌بندی مورد نیاز در جهت بازآرایی نتایج بر مبنای این ویژگیها (خوشه‌بندی مسطح)، حتی موتورهای جستجوی خوشه‌ساز نیز از این ویژگیها در بازآرایی نتایج خود استفاده نمی‌کنند.
 

کلیدواژه‌ها


درآمد

لوازم و وسایل اتاق خود را نظم می‌دهیم، لباسهای خود را با نظمی منطقی و هندسی کنار هم قرار می دهیم، کتابها و مدارک شخصی خود را ساماندهی می‌کنیم و حتی اگر بخواهیم چیزی یاد بگیریم یا مطلبی را به خاطر بیاوریم، ذهن خود را سازمان می‌دهیم. در چنین فعالیتهایی، یک عنصر و یا فصل مشترک دیده می‌شود و آن در کنار هم قرار دادن پدیده‌های مرتبط با یکدیگر است. اساس گروه‌بندی در بحث سازماندهی اطلاعات نیز همین در کنار هم قرار دادن یا گردهم آوردن پاره‌های اطلاعاتی مرتبط است. اصلی که نه تنها به راحتی از اصول «کاتر» (Cutter, 1904) بلکه از نحوة سازماندهی کتابها و مدارک بر مبنای اندازه، رنگ و یا نام فرد اهدا کننده در کتابخانه های باستان نیز استنباط می‌شود.

هرگونه گروه‌بندی و گردهم آوری پاره‌های اطلاعاتی تحت یک برچسب مشخص، روشی برای کاستن از تعدد و رسیدن به وحدت است. حرکت از تعدد به وحدت، سرعت انتقال ذهنی را بالا می‌برد. به همین خاطر است که وقتی بدانیم تمام شماره‌های گذشتة نشریه مورد علاقة خود را در کدام جعبه بسته‌بندی کرده‌ایم، یافتن شمارة بهار دو سال پیش نشریه راحت خواهد بود (البته بجز در مواردی که آن شمارة نشریه قبلاً خریداری نشده و یا ندانسته یا به عمد در جای دیگری نگهداری شود).

«دنتون» (Denton, 2007) در پیوند با همین مسئله، به مشکلاتی همچون ویرایشهای متعدد، نامها و عنوانهای متفاوت و بسیاری موارد دیگر اشاره می‌کند که طی زمان فهرستنویسان را بر آن داشت تا به وضع قواعد و قوانینی بپردازند که کار گردهم‏آوری مدارک مرتبط به یکدیگر را تسهیل کند. آثار این قواعد اولیه را می توان در قواعد کنونی فهرستنویسی دید؛ قواعدی که طی زمان برای به ضابطه در آوردن انواع دسته‌بندی و ساماندهی آنها در جهت تسهیل فهم افراد، تدوین شده است.

اساس گروه بندی با توجه به هدف تعیین می‌شود و بر پایة قواعد گروه‌بندی، ساختوارة نهایی شکل می‌گیرد. اما همان‌گونه که «براوتون» (Broughton, 2004) نیز بیان می‌دارد، انواع گروه‌بندی بر مبنای ویژگیهای مختلف پدیده‌ها صورت می‌گیرد. این در حالی است که نوع‌شناسی همین ویژگیها، به تعریف رابطة میان آنها نیز کمک می‏کند. تعیین اینکه رابطه هم سطح و یا سلسله مراتبی باشد، اشتراک معنایی پدیده‌ها تا چه اندازه بوده و ساختواره سلسله مراتبی چندسطحی باشد، بر این پایه تعیین می‏شود.

سازماندهی اطلاعات بازیابی شده، بخصوص در بازیابی‌های با حجم بالا، یکی از گرایشهای مورد علاقة متخصصان حوزة سازماندهی و بازیابی اطلاعات و هم متخصصان علوم رایانه است. متخصصان در هر یک از این دو حوزه برای رسیدن به یک هدف، البته از منظرهایی متفاوت، تلاش می‌کنند. تسهیل فرایند بازیابی اطلاعات و کمک به انتخاب منابع مناسب‌تر از میان منابع بازیابی شده، عمده نگرانی و مقولة مورد توجه صاحب‌نظران این حوزه‏هاست. با استناد به این نکته که هرگونه دسته‌بندی پدیده‌ها با توجه به ویژگیهای مشترک آنها صورت می‌پذیرد،  نوشتار حاضر در صدد تأکید بر این نکته است که هرگونه گروه‌بندی نتایج جستجو نیز باید با توجه به آن دسته از ویژگیهای پر اهمیت مدارک صورت پذیرد تا در نهایت بازیابی، بازخوردی بهتر داشته باشد. برای رسیدن به این هدف، متن حاضر با در نظر گرفتن یک دسته‏بندی جامع‌نگر برای ویژگیهای مختلف بسترهای اطلاعاتی و نگاهی به نحوة تأثیر این ویژگیها بر روال جستجو، دسته‌بندی نتایج جستجو را با توجه به ویژگیهای مذکور مورد توجه قرار خواهد داد. در این نوشتار، با ارائه تعریفی عام از خوشه‌بندی، خوشه‌بندی نتایج جستجو به منزلة راهبرد دسته‌بندی نتایج جستجو در نظر گرفته شده و با توجه به اینکه اثر خوشه‌بندی نتایج جستجو بر بازیابی اطلاعات نسبتاً مناسب ارزیابی شده است (Manning, Raghavan & Schütze, 2007)، مدلهای مختلف خوشه‌بندی، با انواع ویژگیهای مطرح در بازیابی اطلاعات انطباق داده می شود. سپس به منظور بررسی قابلیتهای فعلی جستجو در سطح وب، 5 موتور جستجو، ابر موتور جستجو و موتورهای خوشه‌بندی که بر اساس آمارها جزء پرکاربردترین ابزارهای جستجو در نوع خود شناخته شده‌اند[1]، از نظر توجه به ویژگیها و در نظر گرفتن امکان دسته‌بندی نتایج بر مبنای هریک از این ویژگیها، بررسی و با یکدیگر مقایسه شده‌اند. در نهایت، به عنوان جمع‌بندی، امکان استفاده از الگوریتمهای خوشه‌بندی بسیار ساده برای دسته‌بندی نتایج بر مبنای ویژگیها، برای به‌کارگیری در موتورهای جستجو و استفاده از مزایای دسته‌بندی دوبارة نتایج، پیشنهاد می‌شود.

 

نوع‌شناسی ویژگیهای بسته‌های اطلاعاتی در جستجو

صاحب‌نظران دسته‌بندیهای متفاوتی را برای شناسایی و سازماندهی ویژگیهای مدارک به هنگام جستجو و بازیابی اطلاعات پیشنهاد داده‌اند. بخش عمده‌ای از ویژگیهای مورد جستجو را بر مبنای هدف از جستجو، اینکه برای مدارک خاصی باشد یا نباشد، دسته‌بندی می‌کنند. ریشه و تاریخچة این‌گونه دسته‌بندی را می‌توان به وضوح در نوشتارهای مختلف حوزة فهرستنویسی و فهرستهای کتابخانه‌ای دنبال کرد. از جمله متون کلاسیک این حوزه که مشخصاً به این نکته اشاره کرده، نوشتار کاتر است (Coates, 1988)، که البته توسط صاحب‌نظران دیگر نیز مورد توجه قرار گرفته است (مانند مان، 1352).

 بر مبنای این گروه‌بندی، از جمله ویژگیهایی که برای جستجو به‌کار می‌رود، برخی برای بازیابی یک مدرک مشخص و برخی دیگر برای بازیابی یک مفهوم و الزاماً نه برای بازیابی مدرکی خاص، به کار می‌رود. به همین دلیل، با توجه به سابقه، معمولاً جستجو برای عنوان یا پدیدآور، به منزلة جستجو برای یک بستة اطلاعاتی مشخص و جستجوی موضوعی به منزلة جستجو برای بسته‌های اطلاعاتی با محوریت یک یا چند حوزة موضوعی، شناخته می‌شود (Carlyle, 2001).با رواج استفاده از رایانه در جستجو و بازیابی اطلاعات (نه فقط در حوزه فهرستهای رایانه‌ای)، تعداد نقاط دسترسی افزایش یافته است (Gross & Taylor, 2005). همین امر در نهایت این ذهنیت را برای صاحب‌نظران به وجود آورده که می‌توان دسته‌بندی دیگری را نیز در پیوند با ویژگیهای مورد جستجو در نظر گرفت. اگرچه این دسته‌بندی کمتر در متون دیده می‌شود، اما «هگلر» (Hagler, 1998: 98) یکی از دیگر متخصصان سازماندهی اطلاعات، مشخصاً به آن اشاره می‌کند. بر پایة این دسته‌بندی، ویژگیهایی از مدرک که مورد جستجو قرار می‌گیرند، میزان اهمیت متفاوتی دارند. بنابراین می‌توان از آنها با عنوان ویژگیهای ردیف اول[2] و  ردیف دوم[3] یاد کرد. وی در تأیید این نوع نگاه بیان می‌دارد، اگرچه تاریخ نقش مهمی در بازیابی منابع دارد، اما معمولاً به عنوان تنها نقطة دسترسی به بسته‌های اطلاعاتی به کار نمی‌رود، زیرا مدارک بسیار زیادی می‌تواند حایز این ویژگی مشترک (تاریخ) باشند.

چنین ویژگیهایی اغلب در ترکیب با ویژگیهای ردیف اول، مفید خواهد بود. «براوتون» (Broughton, 2004) نیز به گونه‌ای دیگر، به همین نکته اشاره می‌کند. برخی ویژگیها مناسب گردآوری منابع، تحت یک برچسب خاص نیست بلکه در واقع بیشتر مناسبِ نشان دادنِ جنبه‌هایی خاص از مدارک هستند و هنگامی که به عنوان مدخل جستجو قرار گیرند، کارکرد لیست‌گیری دارند. اشاره به این ویژگیها برای دسته‌بندی مدارک، اگرچه کمتر مورد توجه قرار گرفته است، اما گرایش جدیدی نیست، زیرا سالها پیش از ظهور کتابداری نوین، کتابخانه‌های ما بر مبنای پاره‌ای از همین ویژگیها سازماندهی می‌شدند؛ ویژگیهایی همچون قطع، رنگ، جلد و ... بر این اساس، ویژگیهای ردیف اول در واقع برای جستجوی یک بستة اطلاعاتی مشخص یا نامشخص به کار می‌روند و به طور سنتی شامل عنوان، پدیدآور و موضوع می‌باشند. با داشتن نگاهی جامع‌نگر و مطالعة متون مختلف، می‌توان این دو دیدگاه را در هم آمیخت و به تصویر 1 در زمینة ویژگیهای مورد جستجو رسید.

تصویر1. دسته‌بندی ویژگیهای مطرح در انجام جستجو

 

 
   

 

 

 

 

 

 

 

 

 

 

بر مبنای همین دسته بندی، می‌توان به صورتی دقیق‌تر ویژگیهای ردیف دوم را شناسایی کرد. تصویر 2 در واقع روال انجام یک جستجو، البته با تأکید بر نوع‌شناسی ویژگیهای مورد جستجو با توجه به هدفهای از پیش تعیین شده جستجو را نشان می‌دهد. در این تصویر، نوع ویژگیها و هدف بر روال جستجو تأثیر گذاشته و تعیین‌کننده راهبردهای بعدی جستجوکننده است. نکته دیگر در پیوند با این تصویر، انتخاب ویژگیهای ردیف دوم است. تمامی این ویژگیها از عناصر 22 گانه فراداده‌های بهسازی شده دابلین کور گرفته شده است[4] (DCMI, 2005). لازم به توضیح است، در هر نظام با توجه به قابلیتهای آن، ویژگیهای ردیف دوم متفاوتی برای بهسازی جستجو مورد توجه قرار می‌گیرند و دقیقاً به همین دلیل تعدد در قابلیتهای جستجو و بازیابی نظامهای مختلف به وجود خواهد آمد.

تصویر2. روال جستجو با توجه به هدف و نوع شناسی ویژگیهای مورد جستجو

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

نوع‌شناسی ویژگیها و دسته بندی نتایج جستجو

چنانچه دسته‌بندی جامع‌نگر مطرح شده در بخش پیشین را مبدأ حرکت خود قرار دهیم (تصویر 1)، از میان ویژگیهای مطرح برای مدارک، در ابتدا می‌توان به ویژگیهای مناسب برای جستجوی مدارک مشخص اشاره کرد. همان‌گونه که در تصویر 2 دیده می‏شود، پدیدآور، عنوان و ترکیب عنوان و پدیدآور از جمله مصداقهای بارز ویژگیهای این گروه به شمار می‌آید. جستجو برای یک بسته اطلاعاتی مشخص با استفاده از ویژگیهای پیش گفته، باید به نتایج قابل قبولی بینجامد. اما پدیدآورندگان پرکار و یا آثاری با ویرایشهای متعدد، الزاماً از منطق پیش‌گفته پیروی نمی‌کنند. پیشینة بحث اشاره به دسته‌بندی نتایج جستجو برای جستجوهای عنوان و پدیدآور، بخصوص در مورد پدیدآورندگان پرکار و یا آثاری با ویرایشهای متعدد، بیش از هر حوزه دیگری، در حوزه فهرستنویسی و سازماندهی و بخصوص در بحث فهرستهای رایانه‌ای، مورد توجه واقع شده است.

این دسته‌بندی بیشتر بر روابط میان آثار و مشتقات آنها تمرکز دارد. از جمله راهبردهای عمدة مطرح شده توسط صاحب‌نظران به منظور دسته‌بندی نتایج جستجو عبارتند از رده‌بندی شناسی روابط کتابشناختی (Tillet, 1991) مدل کاربردی پیشینة مادر (Fattahi, 1996, 1997)، مدل مجموعه‌های آثار مادر (Carlyle, 1996)، مدل خانواده‌های کتابشناختی لیزر و فرنر[5]، رویکرد نشانه‌شناختی اسمیراگلیا (Smiraglia, 2003) و مدل ملزومات کارکردی پیشینه‌های کتابشناختی (Functional Requirements of Bibliographic Records, 1998) [6]. این روابط در واقع به نوعی در گروه ویژگیهای دسته دوم قرار می‌گیرند، به طوری که اگر به تصویر 2 نیز رجوع شود، یکی از ویژگیهای ردیف دوم که در فهرست عناصر هسته دوبلین نیز مطرح است، روابط میان آثار و مشتقات آنهاست.

با تکیه بر همین پیشینة علمی، «کارلایل» (Carlyle, 2001) طی پژوهشی بر این نکته صحّه می‌گذارد که در جستجو برای بسته‌های اطلاعاتی مشخص، هنگامی که اثر ویرایشهای متعددی داشته و یا پدیدآور فرد پرکاری باشد، ویژگیهایی چون قالب فیزیکی، مخاطبان، توصیف محتوا، عناصر تصویری، کاربرد، زبان، ویژگیهای ظاهری و تازگی محتوا برای جستجوکنندگان، اهمیت زیادی دارد. بنابراین، اگر دوباره به عناصر دابلین کور و دسته‌بندی ارائه شده در تصویر 2 بازگردیم، می‌توان به وضوح دریافت دسته‌بندی نتایج جستجو برای آثار مشخص، معمولاً بر مبنای ویژگیهای ردیف دوم صورت می‌پذیرد. پیشتر مطرح گردید که مدلهای پیشنهادی برای دسته‌بندی نتایج در فهرستهای رایانه‌ای، بیشتر بر روابط میان آثار و مشتقات آنها تمرکز دارد. نیم نگاهی به این نوع دسته‌بندی را نیز می‌توان در عناصر دابلین کور مطرح شده در تصویر 2، عناصر ردیف دوم، البته با نگاهی به راهنمای این عناصر، ردیابی کرد. نباید فراموش کرد، عنصر روابط نسبت به روابط تعریف شده بخصوص در مدلهایی همچون FRBR بسیار ناقص است (SCMI, 2005).

چنانکه پیشتر نیز بیان شد، گروه دوم از انواع جستجوهای ردیف اول، جستجوهای مفهومی است (Carlyle, 2001; Gross & Taylor, 2005). این جستجوها چه در قالب کلیدواژه‌ای، چه عبارتی و یا حتی مهار شده صورت پذیرد، در نهایت نشانگر یک هدف و آن هم رسیدن کاربر به مجموعه‌ای از منابع بر محور یک موضوع خواهد بود. حال، چنانچه نتایج حاصل زیاد باشد، بدون دسته‌بندی نتایج بازیابی شده، کار تشخیص ربط برای کاربران اندکی دشوار می‌شود. اگر نتایج به گروه‌های قابل مدیریت باز دسته‌بندی نشوند، کار تشخیص ربط منوط به فرایند مطالعة عنوانها، چکیده‌ها و یا گاه کلیدواژه‌های اختصاص یافته به هر مدرک خواهد بود. گروه‏بندی نتایج جستجو بر مبنای این دسته از ویژگیها، وامدار انواع روشهای گروه‏بندی چه به تعبیر «براوتون» (Broughton, 2004) در حوزة سازماندهی اطلاعات و چه به تعبیر «جین و همکاران» (Jain, Murty & Flynn, 1999) در حوزه علوم رایانه بخصوص خوشه‌بندی نتایج جستجوست. البته، هر دو این نگرشها در زیست‏شناسی، روانشناسی، روان‌درمانی، جغرافیا، و به عبارتی همان علم قدیمی رده‏بندی‏شناسی[7] ریشه دارد. مهم تفاوت نظرها و دیدگاه‌های متخصصانی است که به این حوزه می‌پردازند. در حوزة سازماندهی و فهرستهای رایانه‌ای و سایر ابزارهای بازیابی اطلاعات، جلوه‏های بارز گرایش به سمت گردهم‌آوری آثار را می‌توان در تدوین طرحهایی همچون FRSAR[8] و طرحهای مشابه دید (Buizza & Guerrini,2002 ; FRSAR, 2006). اما همان‌گونه که پیشتر نیز بیان شد، توجه به بازآرایی نتایج جستجو، تنها مدنظر متخصصان حوزة سازماندهی اطلاعات نبوده است، زیرا با گریزی به کار متخصصان حوزة رایانه، گرایش به بازآرایی موضوعی نتایج جستجو را در متون مختلف از جمله متون مربوط به بحث خوشه‏بندی نتایج جستجو می‌توان یافت. نوشتار مروری و کلاسیک خوشه‌بندی داده‏های[9] جین و همکاران او (Jain, Murty & Flynn, 1999) نشانگر نتیجة این تلاشهاست. امروزه استفاده از الگوریتمهای خوشه‏بندی در حوزه بازیابی اطلاعات، برای دسته‌بندی مجدد نتایج جستجو اهمیت ویژه‏ای دارد (Conrad et al, 2005; Koshman, Spink & Jansen, 2005; Kules, Kustanowitz & Shriederman, 2006).

استفاده از ویژگی موضوع (از ویژگیهای گروه اول) و نیز تمامی ویژگیهای ردیف دوم برای دسته‌بندی ثانویه نتایج، بخصوص در محیطهایی که تعداد نتایج بازیابی شدة اولیه بسیار زیاد است، راهبردی است که به منظور بهینه‌سازی کارکرد نظام اطلاعاتی مورد استفاده قرار می‌گیرد. آنچه در این نوشتار مطرح شده، بحث تازه‌ای نبوده و در واقع مدتهاست در نظامهای ذخیره و بازیابی اطلاعات از ویژگیهای ردیف دوم و یا اول برای محدودسازی و یا بسط نتایج جستجو استفاده می‌شود. به عنوان نمونه، می‌توان به پژوهش «دشپاند و کاری‏پیس» (Deshpande & Karypis, 2002) اشاره کرد. در سطح وب، امکان محدود ساختن نتایج جستجو به تاریخ، عنوان، دامنه، قالب مدرک، در نظر گرفتن پیوندهای فرامتن در نتایج جستجو و نیز حتی جستجو در پی ناشر اثر، همگی تاکنون در ابزارهای بازیابی اطلاعات مورد توجه واقع شده است.

این در حالی است که با وجود اهمیت ماهوی و تأکید پژوهشگران، بسیاری از ویژگیهای ردیف دوم همچون مخاطبان، پوشش، نوع اثر و ... عملاً به دست فراموشی سپرده شده و کمتر مورد توجه نظامهای بازیابی اطلاعات قرار گرفته‌اند. در ادامه، در پیوند با این مسئله بیشتر بحث خواهد شد.

توجه به ویژگیهای مدارک بخصوص در بازیابی اطلاعات را، بهتر و بیشتر از همه جا در متون مربوط به مدیریت اطلاعات شخصی [10](PIM) می‌توان جستجو کرد. «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) در توصیف جستجو بر مبنای ویژگیها در نظامهای مدیریت اطلاعات شخصی، بر این نکته تأکید دارند که ویژگی بارز نظامهایی از این دست، قابلیت جستجوپذیر ساختن مدارک بر مبنای طیف وسیعی از ویژگیهای آنهاست. ویژگیهایی، از عنوان و محل نگهداری گرفته تا اندازه، قالب، رنگ و ... . بنابراین، می توان به این نتیجه رسید که تاکنون ویژگیهای ردیف دوم بیش از هر نظامی، در نظامهای بازیابی اطلاعات شخصی مورد توجه بوده است. پس به نظر می‌رسد در حوزة بازیابی اطلاعات، مطالعة متون مرتبط با نظامهای مدیریت اطلاعات، بیشترین کمک را به شناسایی و ارزیابی ویژگیهای ردیف دوم برای جستجو و دسته بندی نتایج جستجو خواهد کرد. در این حوزه، به واسطة پژوهشهای مختلف، بر این نکته صحه گذارده شده است که پاره‌ای از ویژگیها بخصوص از دید کاربران، اهمیت خاصی دارند. پیشتر به نقل از «کارلایل» (Carlyle, 2001) به ویژگیهایی همچون قالب فیزیکی، مخاطبان، توصیف محتوا، عناصر تصویری، کاربرد، زبان، تازگی محتوا، و ویژگیهای ظاهری اشاره شد. «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) نیز ضمن اشاره به برخی از موارد پیش‌گفته، به محل نگهداری، پیوندها، و فعالیتهای مرتبط با هر مدرک اعم از خوانده شدن، ارسال شدن، باز شدن و ... نیز اشاره می‌کنند. آنها بر مبنای پژوهشی، به این نکته دست یافتند که ویژگیهای مذکور، نقش مهمی در به خاطرسپاری و یادآوری طی فرایند بازیابی دارند.

اما همان‌گونه که پیشتر نیز بدان اشاره شد، خوشه‌بندی مدارک، یکی از روشهای رایج در دسته‌بندی نتایج جستجوست که بخصوص با توجه به خودکار بودن آن، کاربرد نسبتاً مناسبی در سطح وب نیز یافته است که خود می‌تواند دلیلی بر کارایی و البته کاربرپسندی این روش برای دسته‌بندی نتایج جستجو باشد.

 

دسته‏بندی نتایج جستجو با استفاده از الگوریتمهای خوشه‏بندی

برای دسته بندی نتایج جستجو، استفاده از انواع الگوریتمهای خوشه‌بندی، بیش از پیش مورد توجه قرار گرفته است. با توجه به تعریفهای عامی که از خوشه‌بندی ارائه می‌شود، همچون «دسته‌بندی هدایت نشده»[11] (Jain, Murty & Flynn, 1999; Zaïane, 1999; Conrad et al., 2005; Koshman, Spink & Jansen, 2006) می توان حتی الگوریتمهایی چون روکیو[12] و یا [13]KNN را نیز به نوعی زیرمجموعة این گروه قرار داد. ریشه‌های این ادعا را می‌توان در نوشتار مروری جین و همکاران وی نیز یافت. به عنوان نمونه، به روش تشکیل خوشه‏های اسکالر در کتاب «بایزا ـ ییتس و ریبرونتو» ( 199: 1385) توجه کنید که کاملاً منطبق بر فرمول مدل بازیابی برداری و بسط‌های این مدل بازیابی است. این نکته‌ای جالب است که در کار دسته‌بندی نتایج جستجو بسیار مفید خواهد بود، زیرا بسیاری از نظامها از همین مدلهای بازیابی اطلاعات استفاده می‏کنند؛ لذا برای طراحان این نظامها، بازآرایی نتایج جستجو با استفاده از همین مدلها کار چندان پیچیده‌ای نخواهد بود. «کوشمن، اسپینک و یانسن» (Khosman, Spink & Jansen, 2006) با اشاره به گرایشهای نوین نسبت به بهبود خوشه‌بندی نتایج جستجو، لزوم پرداختن به پژوهشهایی از منظرهای گوناگون را مورد توجه قرار داده‌اند، اما پیش از پرداختن به هرگونه بحث در زمینة خوشه‌بندی نتایج جستجو، آشنایی مختصر با روشهای مختلف خوشه‌بندی، خالی از لطف نیست. دسته‌بندی روشهای مختلف خوشه‌بندی تاکنون به شیوه‌های مختلفی صورت گرفته است (مانند بایزا ییتس و ریبرونتو، 1385 یا Jain, Murty & Flynn, 1999; Zaïane, 1999) لذا می‌توان دسته‌بندیهای متفاوتی را برای آن به کار برد. خوشه‌بندی می‌تواند بر مبنای نتیجه کار به دو گروه «خوشه‌بندی نرم» و «خوشه‌بندی سخت» تقسیم شود. بر این مبنا، خوشه‌بندی سخت به آن نوع از الگوریتمهایی گفته می‌شود که در آن هر یک از مدارک با درجه‌ای از نسبت، امکان اختصاص به خوشه‌های مختلف را داشته باشد (Manning, Raghavan & Schütze, 2007). با توجه به الگوریتمهای فعلی در خصوص خوشه‌بندی نرم، عمده‌ترین روش برای این کار، استفاده از رویکرد فازی است (Jain, Murty & Flynn, 1999). از آنجا که در حوزة خوشه‌بندی، الگوریتمها بیشتر به روشهای سخت مربوط هستند، روشهای خوشه‌بندی سخت بسط بیشتری پیدا کرده و به همین لحاظ می‌توان مجموعه این الگوریتمها را به دو زیرگروه خوشه‌بندی‌های سلسله مراتبی[14] و تک سطحی[15] تقسیم‌بندی کرد (تصویر 3).

تصویر 3. دسته‌بندی روشهای خوشه‌بندی بر مبنای نتیجه کار

 

 
   

 

 

 

 

 

 

 

 

 

 

برای آشنایی بیشتر با انواع خوشه‌بندی و الگوریتمهای مرتبط با هریک، از منظری دیگر می‌توان به کتاب بایزاییتس و ریبرونتو (1385) و یا تک نگاشت جامع و گسترده جین و همکاران او (Jain, Murty & Flynn, 1999) مراجعه کرد. در این بخش، دسته‌بندی ساده ارائه شده در تصویر 3 ارائه خواهد شد.

خوشه‌بندی سخت

این‌گونه از خوشه‌بندی، طیف وسیعی از الگوریتمهای مناسب برای دسته‌بندی مدارک را در خود جای می‌دهد. در این نوع از خوشه‌بندی، الگوریتمها در نهایت هر قالب[16] را تنها به یک خوشه اختصاص می‌دهند. در این شرایط، هر قالب در واقع می‏تواند نشانگر یک پدیدة فیزیکی (مانند یک صندلی) یا یک پدیدة مجرد (مانند سبک نگارش) باشد (Jain, Murty & Flynn, 1999). بنابراین، هریک از نمونه‌ها[17] با توجه به قالبهای مشخص الزاماً تنها در یک خوشه قرار می گیرند. این روش، به دو انشعاب خوشه‌بندی سلسله مراتبی و خوشه‌بندی تک سطحی، تقسیم می‌شود.

الف) خوشه‌بندی سلسله مراتبی

حاصل استفاده از الگوریتمهای خوشه‌بندی سلسله مراتبی، نموداری درختی است که خوشه‌ها و زیرشاخه‌ها (خوشه‏ها)ی آن را به نمایش می گذارد. با انتخاب هر مقطع از این ساختوارة درختی، می‌توان به خوشه‌بندیهای متفاوتی رسید (تصویر 4 «الف» و «ب»).

تصویر4. الف. شمایی از سه خوشة تشکیل شده از 7 قالب.

                               تصویر 4.ب. تصویری از ساختار درختی خوشه‌ها

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

 

به عنوان نمونه، چنانچه در تصویر 4 «ب» خوشه‌بندی از سطح الف صورت پذیرد، در نهایت سه خوشه (مطابق با  تصویر 4 «الف») و چنانچه از سطح ب باشد، چهار خوشه حاصل خواهد شد.

دو الگوریتم پرکاربرد برای این نوع از خوشه‌بندی وجود دارد: روش تراکمی[18] و روش تقسیمی[19] (Zaïane, 1999). روش اول رویکردی پایین به بالا[20] دارد که طی آن هر پدیده ابتدا یک خوشه را تشکیل داده و سپس بر مبنای میزان مشابهت خوشه‌ها در هم ادغام می‌شود و تا آنجا که یک خوشه جامع را تشکیل دهد، پیش می‌رود. راهبرد دیگر، روش تقسیمی است که رویکردی بالا به پایین[21] و کارکردی برعکس مورد قبل دارد. کلیه مدارک را در یک خوشه قرار داده و سپس بر مبنای مشابهت‌ها و تفاوتها (فاصله‌های محاسبه شده میان مدارک) آنها را به خوشه‏های کوچکتر تقسیم می‌کند. از این روش کمتر استفاده می‌شود، به همین دلیل در متون کمتر به آن اشاره شده است.

ب) خوشه‌بندی تک سطحی

در این روش از خوشه‌بندی، ساختواره‌ای ایجاد نخواهد شد و تنها مجموعه مدارک به تعدادی خوشه در یک سطح دسته‌بندی می‌شود. بنابراین، در اینجا نکته مهم تشخیص تعداد خوشه‌هاست (Jain, Murty & Flynn, 1999; Manning, Raghavan & Schütze, 2007) . در متون، انتخاب این عدد را به مطلوب‌ترین گمانه ممکن نسبت داده‌اند و گاه استفاده از برخی روشهای محاسباتی برای تعیین آن توصیه می‌شود. البته مواردی همچون قابلیت نمایش رابط کاربر هم بر این تعداد بی‌تأثیر نیست، چه به صورت پیش فرض بعضی از محیطهای رابط کاربر، قابلیت نمایش بیش از 20 خوشه در هر مرحله را ندارند (Manning, Raghavan & Schütze, 2007). اما اکثر راهبردهای خوشه‌بندی تک‌ سطحی، فرایند تخصیص و تعیین تعداد خوشه‌ها را برای بهبود شرایط، تکرار و بهسازی می‏کنند. از عمده الگوریتمهای مورد استفاده در این روش K-Means و الگوریتمهای مدلی[22] است.

 

خوشه‌بندی نرم

پیش از مطرح شدن نظریه فازی، الگوریتمهای سنتی خوشه‌بندی به‌گونه‌ای عمل می‌کردند که هر قالب و در نتیجه هر مدرک صرفاً به یک خوشه اختصاص می‌یافت؛ به همین واسطه این قبیل راهبردها خوشه‌بندیهای سخت نام گرفتند. با استفاده از نظریة فازی و اختصاص درجه عضویت به هر قالب، انعطاف‌پذیری نسبتاً مناسبی برای گروه‌بندی مدارک به وجود آمد. بر این اساس، هر قالب و بهتر بگوییم هر مدرک، درجه‌ای از عضویت در خوشه‏های مختلف خواهد داشت. بنابراین، می‌توان نتیجه گرفت که خوشه‌های حاصل از روشهای خوشه‌بندی سخت کاملاً از یکدیگر جدا بوده و وجوه مشترک ندارند؛ در حالی که در خوشه‌بندی فازی، خوشه‌های حاصل وجوه و فصول مشترک خواهند داشت. تصویر 5 نشان دهندة این نوع خوشه‌بندی است که برای هریک از اعضا در هرخوشه درجه‌ای از عضویت تعیین می‌شود.

تصویر 5. نمایی فرضی از یک خوشه‌بندی فازی

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

بنابراین، چنانچه بخواهیم اعضای هر خوشه را بنویسیم، باید هر یک را به واسطة یک زوج نام و درجه عضویت مشخص نماییم. در تصویر 5 خوشه های F1 و F2 به این صورت نوشته می شود[23]:

F1: {(1,0.9), (2,0.8), (3, 0.7), (4, 0.6), (5, 0.55), (6, 0.2), (7,0.2), (8,0.0), (9,0.0)}

 

F2: {(1,0.0), (2,0.0), (3,0.0), (4,0.1), (5,0.15), (6, 0.4), (7,0.35), (8, 1.0), (9,0.9)}

 

خوشه‌بندی نتایج جستجو با توجه به ویژگیها

با توجه به اینکه سابقة خوشه‌بندی نتایج جستجو در سطح وب توسط موتورهای جستجوی خوشه ساز وجود دارد، وب بستری بسیار مناسب برای آزمون امکان استفاده از خوشه‌بندی نتایج با توجه به ویژگیهای ردیف اول و دوم است. در این بخش و بخش بعدی، نوشتار حاضر به تطبیق موارد پیش گفته با یکدیگر و با آنچه در سطح وب در قالب موتورهای جستجو انجام می شود، پرداخته و نتایج را در قالب ماتریسهایی ارائه خواهد داد. همان‌گونه که پیشتر با اشاره به پژوهشهای «کارلایل» (Carlyle, 2001) و نیز پژوهشهای حوزة مدیریت اطلاعات شخصی مطرح شد، پاره‏ای از ویژگیهای ردیف دوم نسبت به سایر ویژگیها برای جستجوگران اطلاعات اهمیت بیشتری دارند.

در این بخش، از میان 23 عنصر مشخص شدة در عناصر بهسازی شده دابلین‏کور (DCMI, 2005)، 13 عنصر که با توجه به متون موجود در حوزة مدیریت اطلاعات شخصی و سازماندهی اطلاعات اهمیت بیشتری دارند، انتخاب گردیده است. با توجه به ویژگیهای روشهای مختلف خوشه‌بندی، اعم از سخت و نرم و نیز خوشه‌بندیهای سلسله مراتبی و تک سطحی، ماتریسی به منظور انطباق انواع روشهای خوشه‌بندی بر ویژگیهای ردیف اول و دوم تشکیل شده است (ماتریس 1) تا پیش از هر بررسی در محیط وب، روشهای مناسب خوشه‌بندی برای بازآرایی نتایج جستجو مشخص گردد. با نگاهی به این ماتریس، مشخص می‌شود امکان خوشه‌بندی بسیاری از این ویژگیها به واسطة ماهیت، از طریق همان روشهای سنتی فراهم است. این در حالی است که از میان این ویژگیها، درصد بالایی از آنها نیز با کمک الگوریتمهای تک سطحی، قابل مدیریت و دسته‌بندی هستند که عملاً کاری بسیار ساده است.

در زمینة نحوة انطباق‌دهی، تمامی ویژگیها با توجه به ماهیت و تعریفهای ارائه شده در [24]DCMI بررسی و ماهیت آنها، تعیین‌کننده نوع مناسب خوشه‌بندی خواهد بود. اگرچه برای مواردی که خوشه‌بندی سلسله مراتبی و یا فازی توصیه می شود، می توان از خوشه‌بندی تک سطحی نیز استفاده کرد اما نکته اصلی در تدوین این ماتریس، انتخاب بهترین راهبرد دسته‌بندی نتایج جستجو، با توجه به متون، برای کاربران است.

یکی از بهترین مثالها در بین عناصر، بحث کلیدواژه و خوشه‌بندی مفاهیم است. اگرچه در بسیاری از ابزارهای جستجوی فعلی، خوشه‌های موضوعی را نیز می‌توان به صورت مسطح تدوین کرد (مانند آنچه فناوری Kartoo[25] و موارد مشابه انجام می‌دهند) اما چنانچه با منطق سازماندهی موضوعی به این مقوله نگاه شود، هرگونه بازسازماندهی نتایج بدون درنظر گرفتن سلسله مراتب موضوعی، امکان‌پذیر نیست. این مسئله همان‌قدر منطقی و ساده است که بحث لزوم استفاده از خوشه‌بندی فازی برای مفاهیم، لازم می نماید.

ماتریس 1. انطباق انواع ویژگیها بر انواع روشهای خوشه‌بندی پرکاربرد

ویژگیها

خوشه‌بندی سخت

خوشه‌بندی نرم

سلسله مراتبی

تک سطحی

ویژگیهای ردیف دوم

زمان

--

*

--

قالب

--

*

--

نوع

*

*

--

رابطه

*

--

*

زبان

--

*

--

اطلاعات نشر

--

*

--

پوشش

*

*

*

حقوق

--

*

--

مخاطبان

--

*

--

آدرس

--

*

--

ویژگیهای ردیف اول

کلیدواژه (مفاهیم)

*

--

*

پدیدآور

--

*

--

عنوان

--

--

--

 

ابزارهای کاوش در وب و امکان سنجی دسته بندی نتایج جستجو

جستجو در محیط وب معمولاً از طریق ابزارهای جستجو یعنی موتورها و ابرموتورهای جستجو صورت می‌پذیرد. در این بخش، 5 نمونه از پرکاربردترین موتورها (Sullivan, 2007) و 5 نمونه از موفق ترین ابرموتورهای جستجو (Sherman, 2005)، از حیث در نظر گرفتن ویژگیهای عمدة جستجوی مطرح شده در متون، بررسی شده‌اند. همچنین، با توجه به گرایش اختصاصی این نوشتار به خوشه‌بندی نتایج جستجو، 5 مورد از موتورهای خوشه ساز موفق (Sherman, 2005) بررسی گردیده است.

به منظور امکان‌سنجی استفاده از این ویژگیها برای خوشه‌بندی بهتر نتایج، آگاهی از وجود قیدهای مرتبط با هریک از ویژگیها چه برای جستجو و چه در مرحله نمایش نتایج، مفید خواهد بود.

با توجه به ویژگیهای عمده برگرفته از عناصر دابلین کور، سه ماتریس برای هر گروه از موتورها، ابرموتورها، و موتورهای خوشه ساز تدوین شده است. در مورد هریک از ابزارهای جستجو، ویژگیها در دو حالت بررسی می‌شوند؛ حالت اول زمانی است که ویژگی به منزلة قیدی برای جستجو به کار می‌رود و حالت دوم زمانی است که از همان ویژگی به عنوان قیدی برای دسته‌بندی نتایج بازیابی شده استفاده می‌شود.

ماتریس 2. بررسی وجود ویژگیها در مرحلة پیش از جستجو و نمایش نتایج در 5 موتور جستجو

ویژگیها

Google

Yahoo

Ask

AOL

All the web

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

زمان

--

*

--

*

--

--

--

*

--

*

قالب

--

*

--

*

--

--

--

*

--

*

نوع

*L

*L

*L

*L

*L

*L

*L

*L

*L

*L

رابطه[26]

--

*

--

*

--

*

--

*

--

*

زبان

--

*

--

*

--

--

--

*

--

*

محل (اطلاعات نشر)

--

*

--

*

--

--

--

--

--

*

پوشش

*L

*L

*L

*L

*L

*L

*L

*L

*L

*L

حقوق

--

*

--

*

--

--

--

*

--

--

مخاطبان

--

--

--

--

--

--

--

--

--

--

آدرس

--

*

--

*

--

*

--

*

--

*

کلیدواژه

*

*

*

*

*

*

*

*

--

*

پدیدآور

--

--

--

--

--

--

--

--

--

--

عنوان

--

*

--

*

--

*

--

*

--

*

 

ماتریس 3. بررسی وجود ویژگیها در مرحلة پیش از جستجو و نمایش نتایج در 5 ابر موتور جستجو

ویژگیها

Dogpile

Mamma

Surfwax

Fazzle

IceRocket

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

زمان

*L

--

--

--

--

--

--

--

--

*

قالب

--

--

--

--

--

--

--

--

--

--

نوع

*L

*L

*L

*L

--

--

*L

--

*L

*L

رابطه

--

*

--

--

--

--

*

*

--

*

زبان

--

*

--

--

--

--

*

--

--

--

محل (اطلاعات نشر)

--

--

--

--

--

--

--

*

--

*

پوشش

*L

*L

*L

*L

--

*L

*L

*L

*L

*L

حقوق

--

--

--

--

--

--

--

--

--

--

مخاطبان

--

--

--

--

--

--

--

--

--

--

آدرس

--

*

--

--

--

--

*

*

--

*

کلیدواژه

*

*

*

*

*[27]

*

--

*

--

*

پدیدآور

--

--

--

--

--

--

--

--

--

*[28]

عنوان

--

--

--

--

--

--

*

*

--

*

 

ماتریس 4. بررسی وجود ویژگیها در مرحله پیش از جستجو و نمایش نتایج در 5 موتورخوشه ساز

ویژگیها

Clusty

Kartoo

Grokker

Mooter

Ujiko

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

نمایش

قید جستجو

زمان

--

--

--

--

*

--

--

--

--

--

قالب

--

*

--

--

--

--

--

--

--

--

نوع

*L

*L

--

*L

*L

*L

*L

--

*L

*L

رابطه[29]

*

*

*L

--

--

--

--

--

--

--

زبان

--

*

*

*L

--

--

--

--

--

--

محل (اطلاعات نشر)

--

*

--

--

--

--

--

--

--

--

پوشش

*L

*L

*L

*L

*L

*L

*L

--

*L

*L

حقوق

--

--

--

--

--

--

--

--

--

--

مخاطبان

--

--

--

--

--

--

--

--

--

--

آدرس

*

*

--

--

--

--

--

--

--

--

کلیدواژه

*

*

*

*

*L

*

*L

*

*

*

پدیدآور

--

--

--

--

--

--

--

--

--

--

عنوان

--

--

--

--

--

--

--

--

--

--

 

با نگاهی به سه ماتریس 2، 3 و 4 می توان به نتایج جالبی دست یافت. اما پیش از پرداختن به این نتایج، باید گفت، ستاره‌های علامتگذاری شده، در واقع نشانگر توجه به ویژگی اما به صورت ناقص هستند. در این بررسی، سعی شده کوچکترین اثر از توجه به هر ویژگی از نظر دور نماند و در فرایند ارزیابی توجه و یا توجه نکردن به ویژگیهای ردیف اول و دوم لحاظ گردد. به منظور مشخص شدن نسبی بودن توجه به ویژگیها در برخی موارد، ستاره‌ها علامتگذاری شده‌اند.

در این بخش، نتایج حاصل به صورت ساده شده و فهرست‌وار ارائه می‌شود:

  • · توجه بیشتر به قیود جستجو. افزایش امکانات در بخش بهینه‌سازی جستجو جهت بسط و یا محدودسازی جستجو، از بخشهایی است که کمابیش مورد توجه طراحان این ابزارها قرار گرفته است. اما به کار بردن همین قیود در هنگام نمایش نتایج، عملاً بجز در برخی موارد و آن هم در تنها یکی از ابرموتورهای جستجو (Fazzle)[30] به چشم نمی‌خورد. این در حالی است که توجه به این قیود برای دسته‌بندی نتایج، در تسهیل کار کاربر اهمیت زیادی دارد. به عنوان نمونه، هنگامی که با یک جستجو مشخص می‏شود منابع بازیابی شده به زبانهای مختلف است، چنانچه قابلیت تفکیک زبانی در همان صفحه نتایج در نظر گرفته شود، کاربر دیگر نیازی به بازگشتن به صفحه جستجو و گذاشتن قید زبانی را احساس نخواهد کرد. بنابراین، با توجه به نتایج، به نظر می‌رسد طراحان نظامهای بازیابی اطلاعات تحت وب، تلاش خود را مصروف مقطع جستجو کرده و کمتر به بحث بازیابی و نحوه ارائه نتایج توجه نموده‌اند.
  • · امکان پذیری انتقال قیود به صفحه نتایج. بسیاری از ویژگیهای عمده از 13 عنصر مورد بررسی در ابزارهای جستجو مورد توجه بوده اند. حال با توجه به اینکه پیشتر در مورد این ویژگیها و نمایه‌سازی آنها در ابزارهای مذکور اندیشیده شده است، و نیز همان‌گونه که پیشتر در همین مقاله بدان اشاره شد، نظر به این که از میان این ویژگیها، درصد بالایی از آنها نیز با کمک الگوریتمهای تک سطحی قابل مدیریت و دسته بندی هستند، کار بسیار ساده می‌نماید.
  • · شباهت الگوریتمهای خوشه‌بندی با مدلهای بازیابی. آگاهی از این شباهت همان‌گونه که پیشتر نیز بیان شد، برای کار دسته بندی نتایج جستجو بسیار مفید خواهد بود، زیرا بسیاری از نظامها از همین مدلهای بازیابی اطلاعات استفاده می کنند و لذا، برای طراحان این نظامها، بازآرایی نتایج جستجو با استفاده از همین مدلها چندان پیچیده نخواهد بود.
  • · نوع و پوشش. طبق مطالعات انجام شده، دو مورد از مهمترین ویژگیهای مورد نظر کاربران است. جالب اینجاست که تقریباً چه در مرحله جستجو و چه در مرحله بازیابی، به آنها توجه نسبی شده است. دامنة تحت پوشش در ابزارهای جستجوی مختلف، بسیار متفاوت است. این دامنه شامل مقاله‌های دایرة‌المعارفی است و در بعضی از ابزارها تا اخبار، صفحات زرد[31] و سفید[32] و یا صفحات شخصی[33] را نیز در بر می‌گیرد. بنابراین، نمی‌توان به طور قطع گفت یک یا برخی از این ابزارها به بحث پوشش و نوع مدارک توجه کامل دارند.
  • · نظم در عین بی‌نظمی. مصداق بارز این نتیجه را می‌توان در دسته‌بندی نوع مدارک در این ابزارهای جستجو یافت. اسلاید در کنار فایلهای پی دی اف، اکسل و... دسته بندی شده است؛ در حالی که ارزش اطلاعاتی این ویژگی همسنگ کتاب، مقاله، جزوه و در واقع نوع شناسی مدرک است. بسیاری از برجسته ترین ابزارهای جستجوی ما این مشکل را دارند. مشکل در موتورهای خوشه بند دو چندان است، چه در قسمت نمایش خوشه‌های کاربر گاه با چنان نابسامانی‌هایی برخورد می‏کند که اصولاً اساس کار نظم دهی ابزار را زیر سؤال می‌برد. خوشه‌سازی در این ابزارها مفهومی است، در حالی که کاربر گاه به گاه با خوشه‌هایی به نام مقاله، منابع، دایرة‌المعارف و... نیز روبرو می شود! در اینجاست که به درستیِ ادعای «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) پی می‌بریم. به نظر می‌رسد طراحان بیشتر از آنکه ابزارهایی برای تسهیل کار کاربران بسازند، در پی تسهیل کار خود هستند. مسلماً برای یک طراح مشکل‌تر است دسته‌بندی همچون کتاب، مقاله، اسلاید، جزوه، نقشه و... را در نظر بگیرد تا اینکه تنها به پسوند فایلهای موجود نگاهی بیندازد و الگوریتم خود را بنویسد. در چنین شرایطی، کار بیشتر و بیشتر برای کاربر دشوار خواهد شد.
  • · توجه نکردن به برخی ویژگیها، ناامیدکننده است. در متون بر روی ویژگیهایی همچون پوشش، نوع، مخاطب، رابطه، حقوق تأکید زیادی شده است. اما توجه ناقص به پوشش و نوع و عملاً توجه نداشتن به بقیة موارد، بسیار هشدار دهنده است.
  • · توجه نکردن به مخاطبان مدرک. در هیچ یک از سه گروه ابزارهای      جستجوی مورد بررسی، به هیچ وجه به مخاطب به عنوان یکی از ویژگیهای اصلی توجه نشده است. این نمونه یک بی توجهی آشکار به کاربران است. پس از جستجو و بدون نیاز به کلیک کردن و رفتن به هر یک از نتایج مورد نظر، کاربر هرگز نخواهد فهمید که آیا واقعا مطلب بازیابی شده در سطح او هست یا خیر. اگرچه بعضی از ابزارها قسمتهای جداگانه‌ای برای جستجو در مجموعه‌های خاص دارند، اما این قابلیت در صفحات اصلی و ابزار عمومی آنها در نظر گرفته نشده است. وقتی موتور جستجویی قابلیت تفکیک متون علمی را از عمومی دارد، چرا نباید بتواند نتایج عادی خود را نیز بر این روال دسته‌بندی و خوشه‌سازی کند.
  • · خوشه‌بندی تک سطحی برای بسیاری از ویژگیها قابل اعمال است. این در حالی است که با استفاده از فرمولهایی همچون روکیو و یا KNN[34] می توان به راحتی به یک خوشه‌بندی تک سطحی رسید. بسیاری از ابزارهای جستجو از مدلهای برداری استفاده می‌کنند که قابلیت همخوانی با این دو مدل پیشنهادی را دارا هستند.
  • · با نگاهی کلی به نتایج و با صرف نظر از تعدد در قابلیتهای ابزارهای مختلف، به نظر می‌رسد تنها روی حوزه پدیدآور، مخاطب و حقوق از میان سایر ویژگیها کمتر کار شده است. امکان تفکیک سایر ویژگیها در ابزارهای مختلف کمابیش وجود دارد؛ بنابراین امکان افزایش انعطاف پذیری صفحات نمایش با استفاده از خوشه‌بندیهای تک سطحی، چند سطحی و یا فازی وجود دارد.

 

سخن پایانی: آنچه در رقابت جستجو و بازیابی گم شده است

در پایان، به منظور تکمیل بحث، بازگشتی بر تعاریف گروه‌بندی در هر دو حوزه سازماندهی اطلاعات و علوم رایانه با اشاره‌ای به پیشینه تاریخی هر یک داریم. «گوردن» (Gordon, 1999) در مقدمة کتاب خود با عنوان «طبقه‌بندی»[35] به طور مستقیم به رویکرد ریاضی بحث گروه‌بندی گرایش دارد؛ رویکردی که شکل‌ دهندة پیشینة ذهنی علوم متخصصان علوم رایانه است. خلاصة کلام وی این است که گروه‌بندی در حوزة علوم ریاضی و رایانه از دو منظر مورد توجه است: گروه‌بندی هدایت شده[36] و گروه‌بندی هدایت نشده[37].

گروه‌بندی هدایت‌شده به جایدهی پدیده‌ها در گروه‌ها و دسته‌های از پیش تعیین شده دلالت دارد، لذا در جستجو و بازیابی اطلاعات رایانه‌ای، کلیة روشهای به کار گرفته شده با تکیه بر یادگیری ماشینی[38] به منظور تعیین گروه‌ها، ناظر برگروه‌بندی پدیده‌ها با توجه به ویژگیهای آنها و نه رده‌های از پیش تعیین شده است. برای رسیدن به ریشه‌های فکری نویسندگان در این حوزه، می‌توان به تعریفهای آنها از طبقه‌بندی و وام‌گیریهای حوزه‌ای آنها نگاه کرد. به عنوان نمونه، «جین و همکاران»  (Jain, Murty & Flynn, 1999) و یا «گوردن» (Gordon, 1999) به حوزه‌های رده‌بندی علوم، باستان‌شناسی، گیاه‌شناسی و یا جامعه‌شناسی اشاره می‌کنند. حال، با توجه به تعریفها و نظر به اینکه خوشه‌بندی یک گروه‌بندی هدایت نشده است، جستجو و دسته‌بندی نتایج باید بر مبنای ویژگیهای مدارک صورت پذیرد. یکی از مشکلات اساسی در این حوزه، تشخیص درست ویژگیهاست. اگر قرار است نتایج جستجو به درستی خوشه‌بندی شوند، ویژگیها باید به درستی شناسایی گردند[39] تا در هر مورد با توجه به مصداقهای موجود، دسته‌بندی صورت گیرد. به عنوان نمونه، در محیط وب، با توجه به داده های ماتریسهای 2، 3 و 4 می‌توان نتیجه گرفت حدود 70% ویژگیهای مهم از نظر کاربران در 15 ابزار جستجوی مطرح شده به عنوان یک قید جستجو به کار رفته است. به عبارت دیگر، فناوری در شناسایی عناصر مهم موفق عمل کرده و تنها کار باقی مانده آن است که با توجه به مصداقهای موجود، خوشه‌بندی را به روشهای مطرح شده در ماتریس 1 انجام دهد.

«براوتون» (Broughton, 2005) در کتابی با نام «اصول طبقه‌بندی» از منظری دیگر به بحث گروه‌بندی می‌نگرد؛ منظر سازماندهی اطلاعات که ریشه در دیدگاه‌های «پانیتزی»، و «کاتر» دارد (Denton, 2007) و در نهایت به دسته‌بندی مطرح شده در تصویرهای 1 و 2 می‌انجامد. هدف عمدة متخصصان این حوزه تلاش در جهت گردهم‌آوری پدیده‌ها بر مبنای ویژگیهاست. نظرهای «براوتون» (Broughton, 2005) و «گوردن» (Gordon, 1999) اگرچه در کتابهایی با عنوانهایی یکسان مطرح شده است، زمینه‌های نسبتاً متفاوتی را تحت پوشش قرار می‌دهد. آنچه بیش از هر چیز در بحثهای سازماندهی اطلاعات و مدل‌سازی روابط میان مدارک و پیشینه‌ها اهمیت دارد، کاربر است. می‌توان این نکته را حتی از لحن و کلمات به کار رفته توسط کاتر در اولین قواعد فهرستنویسی نوین نیز دید (Cutter, 1904). این دقیقاً همان چیزی است که کمتر در حوزة مطالعات رایانه بدان توجه شده است. گرایش به در نظر گرفتن مطالعات نیازسنجی کاربران در این حوزه، ضعیف است. طبیعتاً متون مورد استفادة متخصصان این حوزه، بیش از هرچیز بر فرمولها و الگوریتمهای ریاضی تمرکز دارند و با ترکیب آنها در قالب طرحهای مختلف، سعی در بهبود وضعیت دارند. پیشتر بیان شد که «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) عقیده دارند طراحان کمتر به نیازهای کاربران که تحقق آنها به مراتب مشکل‌تر است، می پردازند. در حالی که می‌توان به مسئله به گونه‌ای دیگر نگریست. «فیدل و پترسن» (Fidel & Petjersen, 2004) در راستای توجه نداشتن طراحان به نیاز کاربران، به نبود همزبانی میان گرایشهای پژوهشی نیازسنجی با زبان منطقی و موجز ریاضی که مورد پذیرش محققان حوزه رایانه است، اشاره می‏کنند.

در نتایج بررسی وضعیت توجه به ویژگیها در میان ابزارهای کاوش در وب، مشخص گردید که به ویژگیهایی همچون مخاطب، پوشش و نوع مدرک که برای کاربران اهمیت زیادی دارد، کمتر توجه شده است. بنابراین، پاسخ به سؤال مطرح در ابتدای این بخش، تاحدی ساده می شود. با تحولات سریع بستر وب، باگسترش روز افزون مدارک و افزایش کمّی آنها، گرایش به خودکارسازی تمامی فرایندهای جستجو و بازیابی اجتناب‌ناپذیر خواهد بود. حوزة اصلی تلاش متخصصان رایانه، خودکارسازی است. همان‌گونه که مطرح شد، متخصص این حوزه چه از دیدگاه افرادی چون «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) و چه از دیدگاه افرادی چون «فیدل و پترسن» (Fidel, Petjersen, 2004) کمتر به بحث نیازسنجی کاربران می پردازد. از طرفی، کاربران برای دستیابی مؤثر به مدارک، راهی جز استفاده از ویژگیهای آن مدارک (ردیف اول یا دوم) ندارند. بنابراین، چه به عنوان قید جستجو و چه برای خوشه‌بندی نتایج، باید ویژگیهای مورد نظر کاربران لحاظ شود. در رقابت برای بهبود شرایط بازیابی به نظر می‌رسد آنچه فراموش شده، تلاش افراد برای شناسایی ویژگیهای مورد نظر کسانی است که قرار است از ابزارهای طراحی شده استفاده کنند.

در نهایت، به منظور توجیه برخی مسائل در پیوند با این نوشتار و جمع‌بندی، باید به برخی نکات اشاره کرد. هدف اصلی از این نوشتار، بیان پاره‌ای مشکلات در پیوند با دسته‌بندی نتایج جستجو برای تسهیل کار کاربران بود. با توجه به پژوهشها و متون موجود، به نظر می‌رسد با وجود جذابیتهای زیاد ابزارهای جستجوی تحت وب، این ابزارها از بُعد مورد نظر کاستیهای بسیاری دارند. حداقل رسالت ابزار جستجو، برآوردن نیاز کاربر در سطحی مطلوب است. از آنجا که کاربران به جستجوی مدارک خود به واسطة ویژگیها می‌پردازند، چه در هنگام جستجو و چه در هنگام بازیابی، توجه به این ویژگیها اهمیت بسیاری دارد. همچنین، بحث در زمینة دسته‌بندی نتایج جستجو برای ویژگیهای مختلف بخصوص ویژگیهای ردیف اول (پدید آور و عنوان) با سایر ویژگیها (بویژه ویژگیهای ردیف دوم) متفاوت است، اما هدف نوشتار حاضر از کنار هم قراردادن این ویژگیها، در واقع رسیدن به یک نوع آگاهی از اهمیت نوع شناسی ویژگیهای مطرح در جستجو برای بازآرایی و سازماندهی نتایج است.

اکنون که در حوزة بازیابی توجه به خوشه‌بندی روزافزون شده و محققان در تلاشند گرایشها و راهبردهای جدیدی در خوشه‌بندی مدارک بازیابی شده ارائه کنند، این نوشتار تلاشی است در جهت جلب توجه متخصصان این حوزه به سایر ویژگیهایی که از نظر کاربران اهمیت دارد. بنابراین، اگرچه خوشه‌بندی موضوعی کاری دشوار بوده و حاصلی بسیار گرانبها دارد، بد نیست با استفاده از راهبردهای ساده تر خوشه‌بندی، خوشه‌هایی تک سطحی برای سایر ویژگیهایی که مورد استقبال کاربران قرار می گیرد نیز جدا از دسته بندیهای موضوعی ایجاد شود.

 



1. آمارها مربوط به سایت searchenginewatch.com  است.

1. Primary Attributes.

2. Secondary Attributes.

1. در این نوشتار، به منظور محدود و قابل مدیریت ساختن دامنة بحث، عناصر دابلین کور مورد توجه قرار گرفته است.

[5] . Gregory Leazer & Jonathan Furner, "Topological Indices of Textual identity Networks", Proceedings of the 62nd annual Meeting of the American Society for Information Science, (Medford: Information Today, 1999).

2. مدل ملزومات کارکردی پیشینه های کتابشناختی  (FRBR) مدلی است مفهومی که با تکیه بر روش موجودیت – رابطه، به تبیین روابط میان عناصر کتابشناختی موجود در پیشینه های فهرستنویسی پرداخته و در واقع روابط میان اعضای خانواده های کتابشناختی (اثر، برداشت، بیان، قالب و مدرک) را بیان می دارد.

[7] . Taxonomy.

2. مدل ملزومات کارکردی پیشینه های مستند موضوعی (FRSAR) نیز مشابه با مدل (FRBR) منتها با تمرکز بر پیشینه های مستند موضوعی در فهرستهای رایانه‌ای است.

[9] . Data Clustering.

1. Personal Information Management.

[11]. Unsupervised Categorization.

[12]. Rocchio.

3. K Nearest Neighborhood.

[14] . Higherarchical .

[15] . Partitional.

[16] . Pattern.

[17] . Instance.

[18] . Agglomerative.

[19] . Divisive.

[20] . Bottom – Up.

[21] . Top – Down.

[22] . Model based Algorithms.

1. لازم به توضیح است، از زوجهای  ارائه شده در پرانتزها، عدد اول نمایانگر عضو و عدد اعشاری دوم نشان از درجه عضویت است. این درجه به واسطة مجموعه‌ای از محاسبات دقیق حاصل می‌شود.

1. Dublin Core Metadata Initiative.

[25]. www.kartoo.com

این ابرموتورجستجو و نیز برخی موتورهای خوشه‌ساز دیگر، حوزه‌های موضوعی مدارک بازیابی شده را خوشه‌بندی می‌کند و درقالبهای مختلف به نمایش می‌گذارد.

1. لازم به توضیح است، در بررسی وجود ویژگیها در موتورهای جستجو به واسطة ماهیت رابطه عملاً متفاوت از بحث فهرستنویسی بوده و لذا در اینجا منظور از رابطه امکان انجام جستجو ویا محدودسازی نمایش نتایج، تنها مرتبط با یک سایت خاص است.

1. تنها نمونه‌ای که کلیدواژه مورد جستجو را در قالب ساختواره‌ای سلسله مراتبی - مفهومی (اعم، اخص و هم تراز) قرار می‏دهد.

2. این مورد تنها نمونه‌ای است که نویسنده را به صورت مشخص جستجوپذیر می سازد. دلیل این امر جستجوی تخصصی در محتوای وبلاگها ست.

3. لازم به توضیح است در بررسی وجود ویژگیها در موتورهای جستجو به واسطه ماهیت رابطه عملاً متفاوت از بحث فهرست نویسی بوده و لذا در اینجا منظور از رابطه امکان انجام جستجو ویا محدودسازی نمایش نتایج تنها مرتبط با یک سایت خاص است.

[31]. Yellow pages.

[32]. White pages.

[33]. Personal websites.

[34] . Rocchio & K Nearest Neighborhood.

دو نمونه از فرمولهای محاسباتی برای دسته‌بندی مدارک به منظور بازیابی اطلاعات .

[35]. Classification.

[36]. Supervised Classification.

[37]. Unsupervised Classification.

[38]. Machine Learning.

1. این مرحله ای است که در متون از آن با نام Pattern Recognition یاد می‌شود.

ـ بیزا ـ ییتس، ریکاردو و برتیه ریبرو (1384). قلمروهای نو در بازیابی اطلاعات ]جلد اول[. ترجمه علی حسین قاسمی، با همکاری سیروس آزادی و علی جوامع. تهران: چاپار.

ـ مان، مارگارت (1352). اصول فهرستنویسی و طبقه بندی. ترجمه هوشنگ ابرامی. تهران: مرکز خدمات کتابداری.

- Blanc-Brude, T. & Scapin, D. (2007). What do People Recall about Their Documents? Implications for Desktop Search Tools. In Proceedings of the 12th international conference on Intelligent user interfaces (P. 102 – 111). New York: ACM.

 

- Broughton, V. (2004). Essential Classification. London: Facet.

 

- Buizza, P. & Guerrini, M. (2002). "A Conceptual Model for the New Soggetario: Subject Indexing in the Light of FRBR".  Cataloging & Classification Quarterly. Vol 34(4). P. 31 – 45.

 

- Carlyle, A. (1996). "Ordering Author and Work Records: An Evaluation of Collocation in Online Catalog Displays". Journal of the American Society for Information Science. Vol. 47(7). P. 538 – 554.

 

- Carlyle, A. (2001). Developing Organized Information Displays for Voluminous Works: a Study of User Clustering Behavior. Information Processing and Management. 37(5): 677- 699.

 

- Coates, E. J. (1988). Subject Cataloging: Headings and Structure. London: Library Association.

 

- Conrad, J. etal. (2005). Effective Document Clustering for Large Heterogeneous Law Firm Collections. In Proceedings of the 10th international conference on Artificial intelligence and law (ICAIL)(P. 177 – 187). New York: ACM.

 

- Cutter, C. (1904). Rules for a dictionary catalog. 4th ed. Washington D.C.: Government Printing Office.

 

- DCMI (2005). Using Dublin Core – Dublin Core Qualifiers. Accessed on 2008-06-07 From: http://dublincore.org/documents/ usageguide/qualifiers.shtml

 

- Denton, W. (2007). FRBR and the History of Cataloging. In Understanding FRBR: What is it and How it will Affect Our Retrieval tools. West Port: Libraries Unlimited, 35 – 57.

 

- Deshpande, M. & Karypis, G. (2002). Using Conjunction of Attribute Values for Classification. In Proceedings of the eleventh international conference on Information and knowledge management (P. 356 – 364). New York: ACM.

 

- Fattahi, R. (1996). "Super Records: And Approach Towards the Description of Works Appearing in Various Manifestations". Library Review. Vol. 45(4). P. 19 – 29.

 

- Fattahi, R. (1997). "AACR and Catalog Production Technology". In International Conference on Principles and Future Developments of AACR, Toronto, Canada, October, 23 – 25. Available at: < http://www.collectionscanada.ca/jsc/intlconf1.html>

 

- Fidel, R. & Petjersen, A. (2004). From Information Behaviour Research to the design of Information Systems: The Cognitive Work Analysis Framework. Information Research. Vol. 10(1). Accessed 2008-06-28 From http://informationr.net/ir/10-1/paper210.html 

 

- Functional Requirements for bibliographic Record [Final Report]. 1998. IFLA Study Group on the Functional Requirements for Bibliographic Records. Available at: http://www.ifla.org/VII/s13/frbr/frbr.htm

 

- Functional Requirements for Subject Authority Records (2006). IFLA Working Group on Functional Requirements for Subject Authority Records (FRSAR). Available at: <www.ifla.org/VII/s29/ wgfrsar.htm>

 

- Gross, Tina & Taylor, Arlene G. (2005). What Have We Got to Lose? The Effect of Controlled Vocabulary on Keyword Searching Results. College & Research Libraries. Vol. 66(3), 212 – 230. Retrieved August 2, 2006, From <www.ala.org/ala/acrl/acrlpubs/crljournal/backissues2005a/crlmay05/Gross.pdf>

 

- Hagler, Ronald. (1998). The Bibliographic Record and Information Technology; 2nd ed. Chicago: American Library Association.

- Jain, A.; Murty, M. & Flynn, P. (1999). Data Clustering: A review. ACM Computing Surveys. 31(3): 264 – 323.

 

- Koshman, S.; Spink, A. & Jansen, B. (2005). Web Searching on the Vivisimo Search Engine. Journal of the American society for Information Science and Technology, 57(14): 1875 – 1887.

 

- Kules, B.; Kustanowitz, J. & Schniederman, B. (2006). Categorizing Web Search Results in to Meaningful and Stable Categories Using Fast-Feature Techniques. In Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries (P. 210 – 219). New York: ACM.

 

- Manning, C., Raghavan, P. & Schütze, H. (2007). An Introduction to Information Retrieval [Draft]. Cambridge: Cambridge University Press.

 

-  Sherman, C. (2005). Meta Crawlers and Meta Search Engines. Accessed on 2008-06-07 From http://searchenginewatch.com/showPage.html?page=2156241

 

- Smiraglia, R. (2003). "The History of "The Work" in the Modern Catalog". Cataloging & Classification Quarterly. Vol. 35(3/4). P. 553 – 567.

 

- Sullivan, D. (2007). Major Search Engines and Directories. Accessed on 2008-06-07 From http://searchenginewatch.com/showPage.html?page=2156221

 

- Zaïane, O. (1999). Chapter 8: Data Clustering [PowerPoint]. Principles of Knowledge Discovery in Databases. Accessed on 2008-06-07 From http://www.cs.ualberta.ca/~zaiane/courses/cmput690/ slides/Chapter8/index.html