نوع مقاله : مقاله پژوهشی
نویسنده
دانشجوی دکترای علوم کتابداری و اطلاعرسانی دانشگاه فردوسی مشهد
چکیده
کلیدواژهها
درآمد
لوازم و وسایل اتاق خود را نظم میدهیم، لباسهای خود را با نظمی منطقی و هندسی کنار هم قرار می دهیم، کتابها و مدارک شخصی خود را ساماندهی میکنیم و حتی اگر بخواهیم چیزی یاد بگیریم یا مطلبی را به خاطر بیاوریم، ذهن خود را سازمان میدهیم. در چنین فعالیتهایی، یک عنصر و یا فصل مشترک دیده میشود و آن در کنار هم قرار دادن پدیدههای مرتبط با یکدیگر است. اساس گروهبندی در بحث سازماندهی اطلاعات نیز همین در کنار هم قرار دادن یا گردهم آوردن پارههای اطلاعاتی مرتبط است. اصلی که نه تنها به راحتی از اصول «کاتر» (Cutter, 1904) بلکه از نحوة سازماندهی کتابها و مدارک بر مبنای اندازه، رنگ و یا نام فرد اهدا کننده در کتابخانه های باستان نیز استنباط میشود.
هرگونه گروهبندی و گردهم آوری پارههای اطلاعاتی تحت یک برچسب مشخص، روشی برای کاستن از تعدد و رسیدن به وحدت است. حرکت از تعدد به وحدت، سرعت انتقال ذهنی را بالا میبرد. به همین خاطر است که وقتی بدانیم تمام شمارههای گذشتة نشریه مورد علاقة خود را در کدام جعبه بستهبندی کردهایم، یافتن شمارة بهار دو سال پیش نشریه راحت خواهد بود (البته بجز در مواردی که آن شمارة نشریه قبلاً خریداری نشده و یا ندانسته یا به عمد در جای دیگری نگهداری شود).
«دنتون» (Denton, 2007) در پیوند با همین مسئله، به مشکلاتی همچون ویرایشهای متعدد، نامها و عنوانهای متفاوت و بسیاری موارد دیگر اشاره میکند که طی زمان فهرستنویسان را بر آن داشت تا به وضع قواعد و قوانینی بپردازند که کار گردهمآوری مدارک مرتبط به یکدیگر را تسهیل کند. آثار این قواعد اولیه را می توان در قواعد کنونی فهرستنویسی دید؛ قواعدی که طی زمان برای به ضابطه در آوردن انواع دستهبندی و ساماندهی آنها در جهت تسهیل فهم افراد، تدوین شده است.
اساس گروه بندی با توجه به هدف تعیین میشود و بر پایة قواعد گروهبندی، ساختوارة نهایی شکل میگیرد. اما همانگونه که «براوتون» (Broughton, 2004) نیز بیان میدارد، انواع گروهبندی بر مبنای ویژگیهای مختلف پدیدهها صورت میگیرد. این در حالی است که نوعشناسی همین ویژگیها، به تعریف رابطة میان آنها نیز کمک میکند. تعیین اینکه رابطه هم سطح و یا سلسله مراتبی باشد، اشتراک معنایی پدیدهها تا چه اندازه بوده و ساختواره سلسله مراتبی چندسطحی باشد، بر این پایه تعیین میشود.
سازماندهی اطلاعات بازیابی شده، بخصوص در بازیابیهای با حجم بالا، یکی از گرایشهای مورد علاقة متخصصان حوزة سازماندهی و بازیابی اطلاعات و هم متخصصان علوم رایانه است. متخصصان در هر یک از این دو حوزه برای رسیدن به یک هدف، البته از منظرهایی متفاوت، تلاش میکنند. تسهیل فرایند بازیابی اطلاعات و کمک به انتخاب منابع مناسبتر از میان منابع بازیابی شده، عمده نگرانی و مقولة مورد توجه صاحبنظران این حوزههاست. با استناد به این نکته که هرگونه دستهبندی پدیدهها با توجه به ویژگیهای مشترک آنها صورت میپذیرد، نوشتار حاضر در صدد تأکید بر این نکته است که هرگونه گروهبندی نتایج جستجو نیز باید با توجه به آن دسته از ویژگیهای پر اهمیت مدارک صورت پذیرد تا در نهایت بازیابی، بازخوردی بهتر داشته باشد. برای رسیدن به این هدف، متن حاضر با در نظر گرفتن یک دستهبندی جامعنگر برای ویژگیهای مختلف بسترهای اطلاعاتی و نگاهی به نحوة تأثیر این ویژگیها بر روال جستجو، دستهبندی نتایج جستجو را با توجه به ویژگیهای مذکور مورد توجه قرار خواهد داد. در این نوشتار، با ارائه تعریفی عام از خوشهبندی، خوشهبندی نتایج جستجو به منزلة راهبرد دستهبندی نتایج جستجو در نظر گرفته شده و با توجه به اینکه اثر خوشهبندی نتایج جستجو بر بازیابی اطلاعات نسبتاً مناسب ارزیابی شده است (Manning, Raghavan & Schütze, 2007)، مدلهای مختلف خوشهبندی، با انواع ویژگیهای مطرح در بازیابی اطلاعات انطباق داده می شود. سپس به منظور بررسی قابلیتهای فعلی جستجو در سطح وب، 5 موتور جستجو، ابر موتور جستجو و موتورهای خوشهبندی که بر اساس آمارها جزء پرکاربردترین ابزارهای جستجو در نوع خود شناخته شدهاند[1]، از نظر توجه به ویژگیها و در نظر گرفتن امکان دستهبندی نتایج بر مبنای هریک از این ویژگیها، بررسی و با یکدیگر مقایسه شدهاند. در نهایت، به عنوان جمعبندی، امکان استفاده از الگوریتمهای خوشهبندی بسیار ساده برای دستهبندی نتایج بر مبنای ویژگیها، برای بهکارگیری در موتورهای جستجو و استفاده از مزایای دستهبندی دوبارة نتایج، پیشنهاد میشود.
نوعشناسی ویژگیهای بستههای اطلاعاتی در جستجو
صاحبنظران دستهبندیهای متفاوتی را برای شناسایی و سازماندهی ویژگیهای مدارک به هنگام جستجو و بازیابی اطلاعات پیشنهاد دادهاند. بخش عمدهای از ویژگیهای مورد جستجو را بر مبنای هدف از جستجو، اینکه برای مدارک خاصی باشد یا نباشد، دستهبندی میکنند. ریشه و تاریخچة اینگونه دستهبندی را میتوان به وضوح در نوشتارهای مختلف حوزة فهرستنویسی و فهرستهای کتابخانهای دنبال کرد. از جمله متون کلاسیک این حوزه که مشخصاً به این نکته اشاره کرده، نوشتار کاتر است (Coates, 1988)، که البته توسط صاحبنظران دیگر نیز مورد توجه قرار گرفته است (مانند مان، 1352).
بر مبنای این گروهبندی، از جمله ویژگیهایی که برای جستجو بهکار میرود، برخی برای بازیابی یک مدرک مشخص و برخی دیگر برای بازیابی یک مفهوم و الزاماً نه برای بازیابی مدرکی خاص، به کار میرود. به همین دلیل، با توجه به سابقه، معمولاً جستجو برای عنوان یا پدیدآور، به منزلة جستجو برای یک بستة اطلاعاتی مشخص و جستجوی موضوعی به منزلة جستجو برای بستههای اطلاعاتی با محوریت یک یا چند حوزة موضوعی، شناخته میشود (Carlyle, 2001).با رواج استفاده از رایانه در جستجو و بازیابی اطلاعات (نه فقط در حوزه فهرستهای رایانهای)، تعداد نقاط دسترسی افزایش یافته است (Gross & Taylor, 2005). همین امر در نهایت این ذهنیت را برای صاحبنظران به وجود آورده که میتوان دستهبندی دیگری را نیز در پیوند با ویژگیهای مورد جستجو در نظر گرفت. اگرچه این دستهبندی کمتر در متون دیده میشود، اما «هگلر» (Hagler, 1998: 98) یکی از دیگر متخصصان سازماندهی اطلاعات، مشخصاً به آن اشاره میکند. بر پایة این دستهبندی، ویژگیهایی از مدرک که مورد جستجو قرار میگیرند، میزان اهمیت متفاوتی دارند. بنابراین میتوان از آنها با عنوان ویژگیهای ردیف اول[2] و ردیف دوم[3] یاد کرد. وی در تأیید این نوع نگاه بیان میدارد، اگرچه تاریخ نقش مهمی در بازیابی منابع دارد، اما معمولاً به عنوان تنها نقطة دسترسی به بستههای اطلاعاتی به کار نمیرود، زیرا مدارک بسیار زیادی میتواند حایز این ویژگی مشترک (تاریخ) باشند.
چنین ویژگیهایی اغلب در ترکیب با ویژگیهای ردیف اول، مفید خواهد بود. «براوتون» (Broughton, 2004) نیز به گونهای دیگر، به همین نکته اشاره میکند. برخی ویژگیها مناسب گردآوری منابع، تحت یک برچسب خاص نیست بلکه در واقع بیشتر مناسبِ نشان دادنِ جنبههایی خاص از مدارک هستند و هنگامی که به عنوان مدخل جستجو قرار گیرند، کارکرد لیستگیری دارند. اشاره به این ویژگیها برای دستهبندی مدارک، اگرچه کمتر مورد توجه قرار گرفته است، اما گرایش جدیدی نیست، زیرا سالها پیش از ظهور کتابداری نوین، کتابخانههای ما بر مبنای پارهای از همین ویژگیها سازماندهی میشدند؛ ویژگیهایی همچون قطع، رنگ، جلد و ... بر این اساس، ویژگیهای ردیف اول در واقع برای جستجوی یک بستة اطلاعاتی مشخص یا نامشخص به کار میروند و به طور سنتی شامل عنوان، پدیدآور و موضوع میباشند. با داشتن نگاهی جامعنگر و مطالعة متون مختلف، میتوان این دو دیدگاه را در هم آمیخت و به تصویر 1 در زمینة ویژگیهای مورد جستجو رسید.
تصویر1. دستهبندی ویژگیهای مطرح در انجام جستجو
بر مبنای همین دسته بندی، میتوان به صورتی دقیقتر ویژگیهای ردیف دوم را شناسایی کرد. تصویر 2 در واقع روال انجام یک جستجو، البته با تأکید بر نوعشناسی ویژگیهای مورد جستجو با توجه به هدفهای از پیش تعیین شده جستجو را نشان میدهد. در این تصویر، نوع ویژگیها و هدف بر روال جستجو تأثیر گذاشته و تعیینکننده راهبردهای بعدی جستجوکننده است. نکته دیگر در پیوند با این تصویر، انتخاب ویژگیهای ردیف دوم است. تمامی این ویژگیها از عناصر 22 گانه فرادادههای بهسازی شده دابلین کور گرفته شده است[4] (DCMI, 2005). لازم به توضیح است، در هر نظام با توجه به قابلیتهای آن، ویژگیهای ردیف دوم متفاوتی برای بهسازی جستجو مورد توجه قرار میگیرند و دقیقاً به همین دلیل تعدد در قابلیتهای جستجو و بازیابی نظامهای مختلف به وجود خواهد آمد.
تصویر2. روال جستجو با توجه به هدف و نوع شناسی ویژگیهای مورد جستجو
نوعشناسی ویژگیها و دسته بندی نتایج جستجو
چنانچه دستهبندی جامعنگر مطرح شده در بخش پیشین را مبدأ حرکت خود قرار دهیم (تصویر 1)، از میان ویژگیهای مطرح برای مدارک، در ابتدا میتوان به ویژگیهای مناسب برای جستجوی مدارک مشخص اشاره کرد. همانگونه که در تصویر 2 دیده میشود، پدیدآور، عنوان و ترکیب عنوان و پدیدآور از جمله مصداقهای بارز ویژگیهای این گروه به شمار میآید. جستجو برای یک بسته اطلاعاتی مشخص با استفاده از ویژگیهای پیش گفته، باید به نتایج قابل قبولی بینجامد. اما پدیدآورندگان پرکار و یا آثاری با ویرایشهای متعدد، الزاماً از منطق پیشگفته پیروی نمیکنند. پیشینة بحث اشاره به دستهبندی نتایج جستجو برای جستجوهای عنوان و پدیدآور، بخصوص در مورد پدیدآورندگان پرکار و یا آثاری با ویرایشهای متعدد، بیش از هر حوزه دیگری، در حوزه فهرستنویسی و سازماندهی و بخصوص در بحث فهرستهای رایانهای، مورد توجه واقع شده است.
این دستهبندی بیشتر بر روابط میان آثار و مشتقات آنها تمرکز دارد. از جمله راهبردهای عمدة مطرح شده توسط صاحبنظران به منظور دستهبندی نتایج جستجو عبارتند از ردهبندی شناسی روابط کتابشناختی (Tillet, 1991) مدل کاربردی پیشینة مادر (Fattahi, 1996, 1997)، مدل مجموعههای آثار مادر (Carlyle, 1996)، مدل خانوادههای کتابشناختی لیزر و فرنر[5]، رویکرد نشانهشناختی اسمیراگلیا (Smiraglia, 2003) و مدل ملزومات کارکردی پیشینههای کتابشناختی (Functional Requirements of Bibliographic Records, 1998) [6]. این روابط در واقع به نوعی در گروه ویژگیهای دسته دوم قرار میگیرند، به طوری که اگر به تصویر 2 نیز رجوع شود، یکی از ویژگیهای ردیف دوم که در فهرست عناصر هسته دوبلین نیز مطرح است، روابط میان آثار و مشتقات آنهاست.
با تکیه بر همین پیشینة علمی، «کارلایل» (Carlyle, 2001) طی پژوهشی بر این نکته صحّه میگذارد که در جستجو برای بستههای اطلاعاتی مشخص، هنگامی که اثر ویرایشهای متعددی داشته و یا پدیدآور فرد پرکاری باشد، ویژگیهایی چون قالب فیزیکی، مخاطبان، توصیف محتوا، عناصر تصویری، کاربرد، زبان، ویژگیهای ظاهری و تازگی محتوا برای جستجوکنندگان، اهمیت زیادی دارد. بنابراین، اگر دوباره به عناصر دابلین کور و دستهبندی ارائه شده در تصویر 2 بازگردیم، میتوان به وضوح دریافت دستهبندی نتایج جستجو برای آثار مشخص، معمولاً بر مبنای ویژگیهای ردیف دوم صورت میپذیرد. پیشتر مطرح گردید که مدلهای پیشنهادی برای دستهبندی نتایج در فهرستهای رایانهای، بیشتر بر روابط میان آثار و مشتقات آنها تمرکز دارد. نیم نگاهی به این نوع دستهبندی را نیز میتوان در عناصر دابلین کور مطرح شده در تصویر 2، عناصر ردیف دوم، البته با نگاهی به راهنمای این عناصر، ردیابی کرد. نباید فراموش کرد، عنصر روابط نسبت به روابط تعریف شده بخصوص در مدلهایی همچون FRBR بسیار ناقص است (SCMI, 2005).
چنانکه پیشتر نیز بیان شد، گروه دوم از انواع جستجوهای ردیف اول، جستجوهای مفهومی است (Carlyle, 2001; Gross & Taylor, 2005). این جستجوها چه در قالب کلیدواژهای، چه عبارتی و یا حتی مهار شده صورت پذیرد، در نهایت نشانگر یک هدف و آن هم رسیدن کاربر به مجموعهای از منابع بر محور یک موضوع خواهد بود. حال، چنانچه نتایج حاصل زیاد باشد، بدون دستهبندی نتایج بازیابی شده، کار تشخیص ربط برای کاربران اندکی دشوار میشود. اگر نتایج به گروههای قابل مدیریت باز دستهبندی نشوند، کار تشخیص ربط منوط به فرایند مطالعة عنوانها، چکیدهها و یا گاه کلیدواژههای اختصاص یافته به هر مدرک خواهد بود. گروهبندی نتایج جستجو بر مبنای این دسته از ویژگیها، وامدار انواع روشهای گروهبندی چه به تعبیر «براوتون» (Broughton, 2004) در حوزة سازماندهی اطلاعات و چه به تعبیر «جین و همکاران» (Jain, Murty & Flynn, 1999) در حوزه علوم رایانه بخصوص خوشهبندی نتایج جستجوست. البته، هر دو این نگرشها در زیستشناسی، روانشناسی، رواندرمانی، جغرافیا، و به عبارتی همان علم قدیمی ردهبندیشناسی[7] ریشه دارد. مهم تفاوت نظرها و دیدگاههای متخصصانی است که به این حوزه میپردازند. در حوزة سازماندهی و فهرستهای رایانهای و سایر ابزارهای بازیابی اطلاعات، جلوههای بارز گرایش به سمت گردهمآوری آثار را میتوان در تدوین طرحهایی همچون FRSAR[8] و طرحهای مشابه دید (Buizza & Guerrini,2002 ; FRSAR, 2006). اما همانگونه که پیشتر نیز بیان شد، توجه به بازآرایی نتایج جستجو، تنها مدنظر متخصصان حوزة سازماندهی اطلاعات نبوده است، زیرا با گریزی به کار متخصصان حوزة رایانه، گرایش به بازآرایی موضوعی نتایج جستجو را در متون مختلف از جمله متون مربوط به بحث خوشهبندی نتایج جستجو میتوان یافت. نوشتار مروری و کلاسیک خوشهبندی دادههای[9] جین و همکاران او (Jain, Murty & Flynn, 1999) نشانگر نتیجة این تلاشهاست. امروزه استفاده از الگوریتمهای خوشهبندی در حوزه بازیابی اطلاعات، برای دستهبندی مجدد نتایج جستجو اهمیت ویژهای دارد (Conrad et al, 2005; Koshman, Spink & Jansen, 2005; Kules, Kustanowitz & Shriederman, 2006).
استفاده از ویژگی موضوع (از ویژگیهای گروه اول) و نیز تمامی ویژگیهای ردیف دوم برای دستهبندی ثانویه نتایج، بخصوص در محیطهایی که تعداد نتایج بازیابی شدة اولیه بسیار زیاد است، راهبردی است که به منظور بهینهسازی کارکرد نظام اطلاعاتی مورد استفاده قرار میگیرد. آنچه در این نوشتار مطرح شده، بحث تازهای نبوده و در واقع مدتهاست در نظامهای ذخیره و بازیابی اطلاعات از ویژگیهای ردیف دوم و یا اول برای محدودسازی و یا بسط نتایج جستجو استفاده میشود. به عنوان نمونه، میتوان به پژوهش «دشپاند و کاریپیس» (Deshpande & Karypis, 2002) اشاره کرد. در سطح وب، امکان محدود ساختن نتایج جستجو به تاریخ، عنوان، دامنه، قالب مدرک، در نظر گرفتن پیوندهای فرامتن در نتایج جستجو و نیز حتی جستجو در پی ناشر اثر، همگی تاکنون در ابزارهای بازیابی اطلاعات مورد توجه واقع شده است.
این در حالی است که با وجود اهمیت ماهوی و تأکید پژوهشگران، بسیاری از ویژگیهای ردیف دوم همچون مخاطبان، پوشش، نوع اثر و ... عملاً به دست فراموشی سپرده شده و کمتر مورد توجه نظامهای بازیابی اطلاعات قرار گرفتهاند. در ادامه، در پیوند با این مسئله بیشتر بحث خواهد شد.
توجه به ویژگیهای مدارک بخصوص در بازیابی اطلاعات را، بهتر و بیشتر از همه جا در متون مربوط به مدیریت اطلاعات شخصی [10](PIM) میتوان جستجو کرد. «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) در توصیف جستجو بر مبنای ویژگیها در نظامهای مدیریت اطلاعات شخصی، بر این نکته تأکید دارند که ویژگی بارز نظامهایی از این دست، قابلیت جستجوپذیر ساختن مدارک بر مبنای طیف وسیعی از ویژگیهای آنهاست. ویژگیهایی، از عنوان و محل نگهداری گرفته تا اندازه، قالب، رنگ و ... . بنابراین، می توان به این نتیجه رسید که تاکنون ویژگیهای ردیف دوم بیش از هر نظامی، در نظامهای بازیابی اطلاعات شخصی مورد توجه بوده است. پس به نظر میرسد در حوزة بازیابی اطلاعات، مطالعة متون مرتبط با نظامهای مدیریت اطلاعات، بیشترین کمک را به شناسایی و ارزیابی ویژگیهای ردیف دوم برای جستجو و دسته بندی نتایج جستجو خواهد کرد. در این حوزه، به واسطة پژوهشهای مختلف، بر این نکته صحه گذارده شده است که پارهای از ویژگیها بخصوص از دید کاربران، اهمیت خاصی دارند. پیشتر به نقل از «کارلایل» (Carlyle, 2001) به ویژگیهایی همچون قالب فیزیکی، مخاطبان، توصیف محتوا، عناصر تصویری، کاربرد، زبان، تازگی محتوا، و ویژگیهای ظاهری اشاره شد. «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) نیز ضمن اشاره به برخی از موارد پیشگفته، به محل نگهداری، پیوندها، و فعالیتهای مرتبط با هر مدرک اعم از خوانده شدن، ارسال شدن، باز شدن و ... نیز اشاره میکنند. آنها بر مبنای پژوهشی، به این نکته دست یافتند که ویژگیهای مذکور، نقش مهمی در به خاطرسپاری و یادآوری طی فرایند بازیابی دارند.
اما همانگونه که پیشتر نیز بدان اشاره شد، خوشهبندی مدارک، یکی از روشهای رایج در دستهبندی نتایج جستجوست که بخصوص با توجه به خودکار بودن آن، کاربرد نسبتاً مناسبی در سطح وب نیز یافته است که خود میتواند دلیلی بر کارایی و البته کاربرپسندی این روش برای دستهبندی نتایج جستجو باشد.
دستهبندی نتایج جستجو با استفاده از الگوریتمهای خوشهبندی
برای دسته بندی نتایج جستجو، استفاده از انواع الگوریتمهای خوشهبندی، بیش از پیش مورد توجه قرار گرفته است. با توجه به تعریفهای عامی که از خوشهبندی ارائه میشود، همچون «دستهبندی هدایت نشده»[11] (Jain, Murty & Flynn, 1999; Zaïane, 1999; Conrad et al., 2005; Koshman, Spink & Jansen, 2006) می توان حتی الگوریتمهایی چون روکیو[12] و یا [13]KNN را نیز به نوعی زیرمجموعة این گروه قرار داد. ریشههای این ادعا را میتوان در نوشتار مروری جین و همکاران وی نیز یافت. به عنوان نمونه، به روش تشکیل خوشههای اسکالر در کتاب «بایزا ـ ییتس و ریبرونتو» ( 199: 1385) توجه کنید که کاملاً منطبق بر فرمول مدل بازیابی برداری و بسطهای این مدل بازیابی است. این نکتهای جالب است که در کار دستهبندی نتایج جستجو بسیار مفید خواهد بود، زیرا بسیاری از نظامها از همین مدلهای بازیابی اطلاعات استفاده میکنند؛ لذا برای طراحان این نظامها، بازآرایی نتایج جستجو با استفاده از همین مدلها کار چندان پیچیدهای نخواهد بود. «کوشمن، اسپینک و یانسن» (Khosman, Spink & Jansen, 2006) با اشاره به گرایشهای نوین نسبت به بهبود خوشهبندی نتایج جستجو، لزوم پرداختن به پژوهشهایی از منظرهای گوناگون را مورد توجه قرار دادهاند، اما پیش از پرداختن به هرگونه بحث در زمینة خوشهبندی نتایج جستجو، آشنایی مختصر با روشهای مختلف خوشهبندی، خالی از لطف نیست. دستهبندی روشهای مختلف خوشهبندی تاکنون به شیوههای مختلفی صورت گرفته است (مانند بایزا ییتس و ریبرونتو، 1385 یا Jain, Murty & Flynn, 1999; Zaïane, 1999) لذا میتوان دستهبندیهای متفاوتی را برای آن به کار برد. خوشهبندی میتواند بر مبنای نتیجه کار به دو گروه «خوشهبندی نرم» و «خوشهبندی سخت» تقسیم شود. بر این مبنا، خوشهبندی سخت به آن نوع از الگوریتمهایی گفته میشود که در آن هر یک از مدارک با درجهای از نسبت، امکان اختصاص به خوشههای مختلف را داشته باشد (Manning, Raghavan & Schütze, 2007). با توجه به الگوریتمهای فعلی در خصوص خوشهبندی نرم، عمدهترین روش برای این کار، استفاده از رویکرد فازی است (Jain, Murty & Flynn, 1999). از آنجا که در حوزة خوشهبندی، الگوریتمها بیشتر به روشهای سخت مربوط هستند، روشهای خوشهبندی سخت بسط بیشتری پیدا کرده و به همین لحاظ میتوان مجموعه این الگوریتمها را به دو زیرگروه خوشهبندیهای سلسله مراتبی[14] و تک سطحی[15] تقسیمبندی کرد (تصویر 3).
تصویر 3. دستهبندی روشهای خوشهبندی بر مبنای نتیجه کار
برای آشنایی بیشتر با انواع خوشهبندی و الگوریتمهای مرتبط با هریک، از منظری دیگر میتوان به کتاب بایزاییتس و ریبرونتو (1385) و یا تک نگاشت جامع و گسترده جین و همکاران او (Jain, Murty & Flynn, 1999) مراجعه کرد. در این بخش، دستهبندی ساده ارائه شده در تصویر 3 ارائه خواهد شد.
خوشهبندی سخت
اینگونه از خوشهبندی، طیف وسیعی از الگوریتمهای مناسب برای دستهبندی مدارک را در خود جای میدهد. در این نوع از خوشهبندی، الگوریتمها در نهایت هر قالب[16] را تنها به یک خوشه اختصاص میدهند. در این شرایط، هر قالب در واقع میتواند نشانگر یک پدیدة فیزیکی (مانند یک صندلی) یا یک پدیدة مجرد (مانند سبک نگارش) باشد (Jain, Murty & Flynn, 1999). بنابراین، هریک از نمونهها[17] با توجه به قالبهای مشخص الزاماً تنها در یک خوشه قرار می گیرند. این روش، به دو انشعاب خوشهبندی سلسله مراتبی و خوشهبندی تک سطحی، تقسیم میشود.
الف) خوشهبندی سلسله مراتبی
حاصل استفاده از الگوریتمهای خوشهبندی سلسله مراتبی، نموداری درختی است که خوشهها و زیرشاخهها (خوشهها)ی آن را به نمایش می گذارد. با انتخاب هر مقطع از این ساختوارة درختی، میتوان به خوشهبندیهای متفاوتی رسید (تصویر 4 «الف» و «ب»).
تصویر4. الف. شمایی از سه خوشة تشکیل شده از 7 قالب.
تصویر 4.ب. تصویری از ساختار درختی خوشهها
به عنوان نمونه، چنانچه در تصویر 4 «ب» خوشهبندی از سطح الف صورت پذیرد، در نهایت سه خوشه (مطابق با تصویر 4 «الف») و چنانچه از سطح ب باشد، چهار خوشه حاصل خواهد شد.
دو الگوریتم پرکاربرد برای این نوع از خوشهبندی وجود دارد: روش تراکمی[18] و روش تقسیمی[19] (Zaïane, 1999). روش اول رویکردی پایین به بالا[20] دارد که طی آن هر پدیده ابتدا یک خوشه را تشکیل داده و سپس بر مبنای میزان مشابهت خوشهها در هم ادغام میشود و تا آنجا که یک خوشه جامع را تشکیل دهد، پیش میرود. راهبرد دیگر، روش تقسیمی است که رویکردی بالا به پایین[21] و کارکردی برعکس مورد قبل دارد. کلیه مدارک را در یک خوشه قرار داده و سپس بر مبنای مشابهتها و تفاوتها (فاصلههای محاسبه شده میان مدارک) آنها را به خوشههای کوچکتر تقسیم میکند. از این روش کمتر استفاده میشود، به همین دلیل در متون کمتر به آن اشاره شده است.
ب) خوشهبندی تک سطحی
در این روش از خوشهبندی، ساختوارهای ایجاد نخواهد شد و تنها مجموعه مدارک به تعدادی خوشه در یک سطح دستهبندی میشود. بنابراین، در اینجا نکته مهم تشخیص تعداد خوشههاست (Jain, Murty & Flynn, 1999; Manning, Raghavan & Schütze, 2007) . در متون، انتخاب این عدد را به مطلوبترین گمانه ممکن نسبت دادهاند و گاه استفاده از برخی روشهای محاسباتی برای تعیین آن توصیه میشود. البته مواردی همچون قابلیت نمایش رابط کاربر هم بر این تعداد بیتأثیر نیست، چه به صورت پیش فرض بعضی از محیطهای رابط کاربر، قابلیت نمایش بیش از 20 خوشه در هر مرحله را ندارند (Manning, Raghavan & Schütze, 2007). اما اکثر راهبردهای خوشهبندی تک سطحی، فرایند تخصیص و تعیین تعداد خوشهها را برای بهبود شرایط، تکرار و بهسازی میکنند. از عمده الگوریتمهای مورد استفاده در این روش K-Means و الگوریتمهای مدلی[22] است.
خوشهبندی نرم
پیش از مطرح شدن نظریه فازی، الگوریتمهای سنتی خوشهبندی بهگونهای عمل میکردند که هر قالب و در نتیجه هر مدرک صرفاً به یک خوشه اختصاص مییافت؛ به همین واسطه این قبیل راهبردها خوشهبندیهای سخت نام گرفتند. با استفاده از نظریة فازی و اختصاص درجه عضویت به هر قالب، انعطافپذیری نسبتاً مناسبی برای گروهبندی مدارک به وجود آمد. بر این اساس، هر قالب و بهتر بگوییم هر مدرک، درجهای از عضویت در خوشههای مختلف خواهد داشت. بنابراین، میتوان نتیجه گرفت که خوشههای حاصل از روشهای خوشهبندی سخت کاملاً از یکدیگر جدا بوده و وجوه مشترک ندارند؛ در حالی که در خوشهبندی فازی، خوشههای حاصل وجوه و فصول مشترک خواهند داشت. تصویر 5 نشان دهندة این نوع خوشهبندی است که برای هریک از اعضا در هرخوشه درجهای از عضویت تعیین میشود.
تصویر 5. نمایی فرضی از یک خوشهبندی فازی
بنابراین، چنانچه بخواهیم اعضای هر خوشه را بنویسیم، باید هر یک را به واسطة یک زوج نام و درجه عضویت مشخص نماییم. در تصویر 5 خوشه های F1 و F2 به این صورت نوشته می شود[23]:
F1: {(1,0.9), (2,0.8), (3, 0.7), (4, 0.6), (5, 0.55), (6, 0.2), (7,0.2), (8,0.0), (9,0.0)}
F2: {(1,0.0), (2,0.0), (3,0.0), (4,0.1), (5,0.15), (6, 0.4), (7,0.35), (8, 1.0), (9,0.9)}
خوشهبندی نتایج جستجو با توجه به ویژگیها
با توجه به اینکه سابقة خوشهبندی نتایج جستجو در سطح وب توسط موتورهای جستجوی خوشه ساز وجود دارد، وب بستری بسیار مناسب برای آزمون امکان استفاده از خوشهبندی نتایج با توجه به ویژگیهای ردیف اول و دوم است. در این بخش و بخش بعدی، نوشتار حاضر به تطبیق موارد پیش گفته با یکدیگر و با آنچه در سطح وب در قالب موتورهای جستجو انجام می شود، پرداخته و نتایج را در قالب ماتریسهایی ارائه خواهد داد. همانگونه که پیشتر با اشاره به پژوهشهای «کارلایل» (Carlyle, 2001) و نیز پژوهشهای حوزة مدیریت اطلاعات شخصی مطرح شد، پارهای از ویژگیهای ردیف دوم نسبت به سایر ویژگیها برای جستجوگران اطلاعات اهمیت بیشتری دارند.
در این بخش، از میان 23 عنصر مشخص شدة در عناصر بهسازی شده دابلینکور (DCMI, 2005)، 13 عنصر که با توجه به متون موجود در حوزة مدیریت اطلاعات شخصی و سازماندهی اطلاعات اهمیت بیشتری دارند، انتخاب گردیده است. با توجه به ویژگیهای روشهای مختلف خوشهبندی، اعم از سخت و نرم و نیز خوشهبندیهای سلسله مراتبی و تک سطحی، ماتریسی به منظور انطباق انواع روشهای خوشهبندی بر ویژگیهای ردیف اول و دوم تشکیل شده است (ماتریس 1) تا پیش از هر بررسی در محیط وب، روشهای مناسب خوشهبندی برای بازآرایی نتایج جستجو مشخص گردد. با نگاهی به این ماتریس، مشخص میشود امکان خوشهبندی بسیاری از این ویژگیها به واسطة ماهیت، از طریق همان روشهای سنتی فراهم است. این در حالی است که از میان این ویژگیها، درصد بالایی از آنها نیز با کمک الگوریتمهای تک سطحی، قابل مدیریت و دستهبندی هستند که عملاً کاری بسیار ساده است.
در زمینة نحوة انطباقدهی، تمامی ویژگیها با توجه به ماهیت و تعریفهای ارائه شده در [24]DCMI بررسی و ماهیت آنها، تعیینکننده نوع مناسب خوشهبندی خواهد بود. اگرچه برای مواردی که خوشهبندی سلسله مراتبی و یا فازی توصیه می شود، می توان از خوشهبندی تک سطحی نیز استفاده کرد اما نکته اصلی در تدوین این ماتریس، انتخاب بهترین راهبرد دستهبندی نتایج جستجو، با توجه به متون، برای کاربران است.
یکی از بهترین مثالها در بین عناصر، بحث کلیدواژه و خوشهبندی مفاهیم است. اگرچه در بسیاری از ابزارهای جستجوی فعلی، خوشههای موضوعی را نیز میتوان به صورت مسطح تدوین کرد (مانند آنچه فناوری Kartoo[25] و موارد مشابه انجام میدهند) اما چنانچه با منطق سازماندهی موضوعی به این مقوله نگاه شود، هرگونه بازسازماندهی نتایج بدون درنظر گرفتن سلسله مراتب موضوعی، امکانپذیر نیست. این مسئله همانقدر منطقی و ساده است که بحث لزوم استفاده از خوشهبندی فازی برای مفاهیم، لازم می نماید.
ماتریس 1. انطباق انواع ویژگیها بر انواع روشهای خوشهبندی پرکاربرد
ویژگیها |
خوشهبندی سخت |
خوشهبندی نرم |
||
سلسله مراتبی |
تک سطحی |
|||
ویژگیهای ردیف دوم |
زمان |
-- |
* |
-- |
قالب |
-- |
* |
-- |
|
نوع |
* |
* |
-- |
|
رابطه |
* |
-- |
* |
|
زبان |
-- |
* |
-- |
|
اطلاعات نشر |
-- |
* |
-- |
|
پوشش |
* |
* |
* |
|
حقوق |
-- |
* |
-- |
|
مخاطبان |
-- |
* |
-- |
|
آدرس |
-- |
* |
-- |
|
ویژگیهای ردیف اول |
کلیدواژه (مفاهیم) |
* |
-- |
* |
پدیدآور |
-- |
* |
-- |
|
عنوان |
-- |
-- |
-- |
ابزارهای کاوش در وب و امکان سنجی دسته بندی نتایج جستجو
جستجو در محیط وب معمولاً از طریق ابزارهای جستجو یعنی موتورها و ابرموتورهای جستجو صورت میپذیرد. در این بخش، 5 نمونه از پرکاربردترین موتورها (Sullivan, 2007) و 5 نمونه از موفق ترین ابرموتورهای جستجو (Sherman, 2005)، از حیث در نظر گرفتن ویژگیهای عمدة جستجوی مطرح شده در متون، بررسی شدهاند. همچنین، با توجه به گرایش اختصاصی این نوشتار به خوشهبندی نتایج جستجو، 5 مورد از موتورهای خوشه ساز موفق (Sherman, 2005) بررسی گردیده است.
به منظور امکانسنجی استفاده از این ویژگیها برای خوشهبندی بهتر نتایج، آگاهی از وجود قیدهای مرتبط با هریک از ویژگیها چه برای جستجو و چه در مرحله نمایش نتایج، مفید خواهد بود.
با توجه به ویژگیهای عمده برگرفته از عناصر دابلین کور، سه ماتریس برای هر گروه از موتورها، ابرموتورها، و موتورهای خوشه ساز تدوین شده است. در مورد هریک از ابزارهای جستجو، ویژگیها در دو حالت بررسی میشوند؛ حالت اول زمانی است که ویژگی به منزلة قیدی برای جستجو به کار میرود و حالت دوم زمانی است که از همان ویژگی به عنوان قیدی برای دستهبندی نتایج بازیابی شده استفاده میشود.
ماتریس 2. بررسی وجود ویژگیها در مرحلة پیش از جستجو و نمایش نتایج در 5 موتور جستجو
ویژگیها |
|
Yahoo |
Ask |
AOL |
All the web |
|||||
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
|
زمان |
-- |
* |
-- |
* |
-- |
-- |
-- |
* |
-- |
* |
قالب |
-- |
* |
-- |
* |
-- |
-- |
-- |
* |
-- |
* |
نوع |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
رابطه[26] |
-- |
* |
-- |
* |
-- |
* |
-- |
* |
-- |
* |
زبان |
-- |
* |
-- |
* |
-- |
-- |
-- |
* |
-- |
* |
محل (اطلاعات نشر) |
-- |
* |
-- |
* |
-- |
-- |
-- |
-- |
-- |
* |
پوشش |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
حقوق |
-- |
* |
-- |
* |
-- |
-- |
-- |
* |
-- |
-- |
مخاطبان |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
آدرس |
-- |
* |
-- |
* |
-- |
* |
-- |
* |
-- |
* |
کلیدواژه |
* |
* |
* |
* |
* |
* |
* |
* |
-- |
* |
پدیدآور |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
عنوان |
-- |
* |
-- |
* |
-- |
* |
-- |
* |
-- |
* |
ماتریس 3. بررسی وجود ویژگیها در مرحلة پیش از جستجو و نمایش نتایج در 5 ابر موتور جستجو
ویژگیها |
Dogpile |
Mamma |
Surfwax |
Fazzle |
IceRocket |
|||||
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
|
زمان |
*L |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
* |
قالب |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
نوع |
*L |
*L |
*L |
*L |
-- |
-- |
*L |
-- |
*L |
*L |
رابطه |
-- |
* |
-- |
-- |
-- |
-- |
* |
* |
-- |
* |
زبان |
-- |
* |
-- |
-- |
-- |
-- |
* |
-- |
-- |
-- |
محل (اطلاعات نشر) |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
* |
-- |
* |
پوشش |
*L |
*L |
*L |
*L |
-- |
*L |
*L |
*L |
*L |
*L |
حقوق |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
مخاطبان |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
آدرس |
-- |
* |
-- |
-- |
-- |
-- |
* |
* |
-- |
* |
کلیدواژه |
* |
* |
* |
* |
*[27] |
* |
-- |
* |
-- |
* |
پدیدآور |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
*[28] |
عنوان |
-- |
-- |
-- |
-- |
-- |
-- |
* |
* |
-- |
* |
ماتریس 4. بررسی وجود ویژگیها در مرحله پیش از جستجو و نمایش نتایج در 5 موتورخوشه ساز
ویژگیها |
Clusty |
Kartoo |
Grokker |
Mooter |
Ujiko |
|||||
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
نمایش |
قید جستجو |
|
زمان |
-- |
-- |
-- |
-- |
* |
-- |
-- |
-- |
-- |
-- |
قالب |
-- |
* |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
نوع |
*L |
*L |
-- |
*L |
*L |
*L |
*L |
-- |
*L |
*L |
رابطه[29] |
* |
* |
*L |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
زبان |
-- |
* |
* |
*L |
-- |
-- |
-- |
-- |
-- |
-- |
محل (اطلاعات نشر) |
-- |
* |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
پوشش |
*L |
*L |
*L |
*L |
*L |
*L |
*L |
-- |
*L |
*L |
حقوق |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
مخاطبان |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
آدرس |
* |
* |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
کلیدواژه |
* |
* |
* |
* |
*L |
* |
*L |
* |
* |
* |
پدیدآور |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
عنوان |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
-- |
با نگاهی به سه ماتریس 2، 3 و 4 می توان به نتایج جالبی دست یافت. اما پیش از پرداختن به این نتایج، باید گفت، ستارههای علامتگذاری شده، در واقع نشانگر توجه به ویژگی اما به صورت ناقص هستند. در این بررسی، سعی شده کوچکترین اثر از توجه به هر ویژگی از نظر دور نماند و در فرایند ارزیابی توجه و یا توجه نکردن به ویژگیهای ردیف اول و دوم لحاظ گردد. به منظور مشخص شدن نسبی بودن توجه به ویژگیها در برخی موارد، ستارهها علامتگذاری شدهاند.
در این بخش، نتایج حاصل به صورت ساده شده و فهرستوار ارائه میشود:
سخن پایانی: آنچه در رقابت جستجو و بازیابی گم شده است
در پایان، به منظور تکمیل بحث، بازگشتی بر تعاریف گروهبندی در هر دو حوزه سازماندهی اطلاعات و علوم رایانه با اشارهای به پیشینه تاریخی هر یک داریم. «گوردن» (Gordon, 1999) در مقدمة کتاب خود با عنوان «طبقهبندی»[35] به طور مستقیم به رویکرد ریاضی بحث گروهبندی گرایش دارد؛ رویکردی که شکل دهندة پیشینة ذهنی علوم متخصصان علوم رایانه است. خلاصة کلام وی این است که گروهبندی در حوزة علوم ریاضی و رایانه از دو منظر مورد توجه است: گروهبندی هدایت شده[36] و گروهبندی هدایت نشده[37].
گروهبندی هدایتشده به جایدهی پدیدهها در گروهها و دستههای از پیش تعیین شده دلالت دارد، لذا در جستجو و بازیابی اطلاعات رایانهای، کلیة روشهای به کار گرفته شده با تکیه بر یادگیری ماشینی[38] به منظور تعیین گروهها، ناظر برگروهبندی پدیدهها با توجه به ویژگیهای آنها و نه ردههای از پیش تعیین شده است. برای رسیدن به ریشههای فکری نویسندگان در این حوزه، میتوان به تعریفهای آنها از طبقهبندی و وامگیریهای حوزهای آنها نگاه کرد. به عنوان نمونه، «جین و همکاران» (Jain, Murty & Flynn, 1999) و یا «گوردن» (Gordon, 1999) به حوزههای ردهبندی علوم، باستانشناسی، گیاهشناسی و یا جامعهشناسی اشاره میکنند. حال، با توجه به تعریفها و نظر به اینکه خوشهبندی یک گروهبندی هدایت نشده است، جستجو و دستهبندی نتایج باید بر مبنای ویژگیهای مدارک صورت پذیرد. یکی از مشکلات اساسی در این حوزه، تشخیص درست ویژگیهاست. اگر قرار است نتایج جستجو به درستی خوشهبندی شوند، ویژگیها باید به درستی شناسایی گردند[39] تا در هر مورد با توجه به مصداقهای موجود، دستهبندی صورت گیرد. به عنوان نمونه، در محیط وب، با توجه به داده های ماتریسهای 2، 3 و 4 میتوان نتیجه گرفت حدود 70% ویژگیهای مهم از نظر کاربران در 15 ابزار جستجوی مطرح شده به عنوان یک قید جستجو به کار رفته است. به عبارت دیگر، فناوری در شناسایی عناصر مهم موفق عمل کرده و تنها کار باقی مانده آن است که با توجه به مصداقهای موجود، خوشهبندی را به روشهای مطرح شده در ماتریس 1 انجام دهد.
«براوتون» (Broughton, 2005) در کتابی با نام «اصول طبقهبندی» از منظری دیگر به بحث گروهبندی مینگرد؛ منظر سازماندهی اطلاعات که ریشه در دیدگاههای «پانیتزی»، و «کاتر» دارد (Denton, 2007) و در نهایت به دستهبندی مطرح شده در تصویرهای 1 و 2 میانجامد. هدف عمدة متخصصان این حوزه تلاش در جهت گردهمآوری پدیدهها بر مبنای ویژگیهاست. نظرهای «براوتون» (Broughton, 2005) و «گوردن» (Gordon, 1999) اگرچه در کتابهایی با عنوانهایی یکسان مطرح شده است، زمینههای نسبتاً متفاوتی را تحت پوشش قرار میدهد. آنچه بیش از هر چیز در بحثهای سازماندهی اطلاعات و مدلسازی روابط میان مدارک و پیشینهها اهمیت دارد، کاربر است. میتوان این نکته را حتی از لحن و کلمات به کار رفته توسط کاتر در اولین قواعد فهرستنویسی نوین نیز دید (Cutter, 1904). این دقیقاً همان چیزی است که کمتر در حوزة مطالعات رایانه بدان توجه شده است. گرایش به در نظر گرفتن مطالعات نیازسنجی کاربران در این حوزه، ضعیف است. طبیعتاً متون مورد استفادة متخصصان این حوزه، بیش از هرچیز بر فرمولها و الگوریتمهای ریاضی تمرکز دارند و با ترکیب آنها در قالب طرحهای مختلف، سعی در بهبود وضعیت دارند. پیشتر بیان شد که «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) عقیده دارند طراحان کمتر به نیازهای کاربران که تحقق آنها به مراتب مشکلتر است، می پردازند. در حالی که میتوان به مسئله به گونهای دیگر نگریست. «فیدل و پترسن» (Fidel & Petjersen, 2004) در راستای توجه نداشتن طراحان به نیاز کاربران، به نبود همزبانی میان گرایشهای پژوهشی نیازسنجی با زبان منطقی و موجز ریاضی که مورد پذیرش محققان حوزه رایانه است، اشاره میکنند.
در نتایج بررسی وضعیت توجه به ویژگیها در میان ابزارهای کاوش در وب، مشخص گردید که به ویژگیهایی همچون مخاطب، پوشش و نوع مدرک که برای کاربران اهمیت زیادی دارد، کمتر توجه شده است. بنابراین، پاسخ به سؤال مطرح در ابتدای این بخش، تاحدی ساده می شود. با تحولات سریع بستر وب، باگسترش روز افزون مدارک و افزایش کمّی آنها، گرایش به خودکارسازی تمامی فرایندهای جستجو و بازیابی اجتنابناپذیر خواهد بود. حوزة اصلی تلاش متخصصان رایانه، خودکارسازی است. همانگونه که مطرح شد، متخصص این حوزه چه از دیدگاه افرادی چون «بلان برود و اسکاپن» (Blanc-brude & Scapin, 2007) و چه از دیدگاه افرادی چون «فیدل و پترسن» (Fidel, Petjersen, 2004) کمتر به بحث نیازسنجی کاربران می پردازد. از طرفی، کاربران برای دستیابی مؤثر به مدارک، راهی جز استفاده از ویژگیهای آن مدارک (ردیف اول یا دوم) ندارند. بنابراین، چه به عنوان قید جستجو و چه برای خوشهبندی نتایج، باید ویژگیهای مورد نظر کاربران لحاظ شود. در رقابت برای بهبود شرایط بازیابی به نظر میرسد آنچه فراموش شده، تلاش افراد برای شناسایی ویژگیهای مورد نظر کسانی است که قرار است از ابزارهای طراحی شده استفاده کنند.
در نهایت، به منظور توجیه برخی مسائل در پیوند با این نوشتار و جمعبندی، باید به برخی نکات اشاره کرد. هدف اصلی از این نوشتار، بیان پارهای مشکلات در پیوند با دستهبندی نتایج جستجو برای تسهیل کار کاربران بود. با توجه به پژوهشها و متون موجود، به نظر میرسد با وجود جذابیتهای زیاد ابزارهای جستجوی تحت وب، این ابزارها از بُعد مورد نظر کاستیهای بسیاری دارند. حداقل رسالت ابزار جستجو، برآوردن نیاز کاربر در سطحی مطلوب است. از آنجا که کاربران به جستجوی مدارک خود به واسطة ویژگیها میپردازند، چه در هنگام جستجو و چه در هنگام بازیابی، توجه به این ویژگیها اهمیت بسیاری دارد. همچنین، بحث در زمینة دستهبندی نتایج جستجو برای ویژگیهای مختلف بخصوص ویژگیهای ردیف اول (پدید آور و عنوان) با سایر ویژگیها (بویژه ویژگیهای ردیف دوم) متفاوت است، اما هدف نوشتار حاضر از کنار هم قراردادن این ویژگیها، در واقع رسیدن به یک نوع آگاهی از اهمیت نوع شناسی ویژگیهای مطرح در جستجو برای بازآرایی و سازماندهی نتایج است.
اکنون که در حوزة بازیابی توجه به خوشهبندی روزافزون شده و محققان در تلاشند گرایشها و راهبردهای جدیدی در خوشهبندی مدارک بازیابی شده ارائه کنند، این نوشتار تلاشی است در جهت جلب توجه متخصصان این حوزه به سایر ویژگیهایی که از نظر کاربران اهمیت دارد. بنابراین، اگرچه خوشهبندی موضوعی کاری دشوار بوده و حاصلی بسیار گرانبها دارد، بد نیست با استفاده از راهبردهای ساده تر خوشهبندی، خوشههایی تک سطحی برای سایر ویژگیهایی که مورد استقبال کاربران قرار می گیرد نیز جدا از دسته بندیهای موضوعی ایجاد شود.
1. در این نوشتار، به منظور محدود و قابل مدیریت ساختن دامنة بحث، عناصر دابلین کور مورد توجه قرار گرفته است.
[5] . Gregory Leazer & Jonathan Furner, "Topological Indices of Textual identity Networks", Proceedings of the 62nd annual Meeting of the American Society for Information Science, (Medford: Information Today, 1999).
2. مدل ملزومات کارکردی پیشینه های کتابشناختی (FRBR) مدلی است مفهومی که با تکیه بر روش موجودیت – رابطه، به تبیین روابط میان عناصر کتابشناختی موجود در پیشینه های فهرستنویسی پرداخته و در واقع روابط میان اعضای خانواده های کتابشناختی (اثر، برداشت، بیان، قالب و مدرک) را بیان می دارد.
[7] . Taxonomy.
2. مدل ملزومات کارکردی پیشینه های مستند موضوعی (FRSAR) نیز مشابه با مدل (FRBR) منتها با تمرکز بر پیشینه های مستند موضوعی در فهرستهای رایانهای است.
[9] . Data Clustering.
[11]. Unsupervised Categorization.
[12]. Rocchio.
[14] . Higherarchical .
[15] . Partitional.
[16] . Pattern.
[17] . Instance.
[18] . Agglomerative.
[19] . Divisive.
[20] . Bottom – Up.
[21] . Top – Down.
[22] . Model based Algorithms.
1. لازم به توضیح است، از زوجهای ارائه شده در پرانتزها، عدد اول نمایانگر عضو و عدد اعشاری دوم نشان از درجه عضویت است. این درجه به واسطة مجموعهای از محاسبات دقیق حاصل میشود.
این ابرموتورجستجو و نیز برخی موتورهای خوشهساز دیگر، حوزههای موضوعی مدارک بازیابی شده را خوشهبندی میکند و درقالبهای مختلف به نمایش میگذارد.
1. لازم به توضیح است، در بررسی وجود ویژگیها در موتورهای جستجو به واسطة ماهیت رابطه عملاً متفاوت از بحث فهرستنویسی بوده و لذا در اینجا منظور از رابطه امکان انجام جستجو ویا محدودسازی نمایش نتایج، تنها مرتبط با یک سایت خاص است.
1. تنها نمونهای که کلیدواژه مورد جستجو را در قالب ساختوارهای سلسله مراتبی - مفهومی (اعم، اخص و هم تراز) قرار میدهد.
2. این مورد تنها نمونهای است که نویسنده را به صورت مشخص جستجوپذیر می سازد. دلیل این امر جستجوی تخصصی در محتوای وبلاگها ست.
3. لازم به توضیح است در بررسی وجود ویژگیها در موتورهای جستجو به واسطه ماهیت رابطه عملاً متفاوت از بحث فهرست نویسی بوده و لذا در اینجا منظور از رابطه امکان انجام جستجو ویا محدودسازی نمایش نتایج تنها مرتبط با یک سایت خاص است.
[31]. Yellow pages.
[32]. White pages.
[33]. Personal websites.
[34] . Rocchio & K Nearest Neighborhood.
دو نمونه از فرمولهای محاسباتی برای دستهبندی مدارک به منظور بازیابی اطلاعات .
[35]. Classification.
[36]. Supervised Classification.
[37]. Unsupervised Classification.
[38]. Machine Learning.