آفتاب ایرونی

این وب لاگ با هدف ایجاد مرکزیتی برای اطلاع رسانی و ایجاد ارتباط در محیط مجازی برای مدیران،مشاوران، متخصصین و پژوهشگران جهت هم افزایی و اثر گزاری در این حوزه مدیریت ایجاد شده است.و شامل یادداشت های از مدیریت فناوری اطلاعات، بانکداری، مدیریت اجرایی،مدیریت استراتژی، مدیریت برند، مدیریت روابط عمومی،مدیریت دانش، تعالی سازمانی، بهره وری، کارآفرینی، روانشانسی، اجتماعی و خانواده می باشد. و آفتاب ایرونی اشاره به اندیشه و قدرت مدیران و متخصصین ایرانی دارد.

وب کاوی

با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می شوند.  طی این گزارش پس از معرفی وب کاوی و بررسی مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره می شود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند.


 

فهرست مطالب

1- مقدمه

2- مراحل وب کاوی

3- وب کاوی و زمینه های تحقیقاتی مرتبط

3-1- وب کاوی و داده کاوی

3-2- وب کاوی و بازیابی اطلاعات

3-3- وب کاوی و استخراج اطلاعات

3-4- وب کاوی و یادگیری ماشین

4- انواع وب کاوی

5- چالش های وب کاوی

6- کاوش محتوای وب

6-1- انواع کاوش محتوا در وب

6-1-1- طبقه بندی

6-1-2- خوشه بندی

6-1-3- سایر انواع کاوش محتوا در وب

6-2- رویکردهای کاوش محتوا در وب

6-3- الگوریتم های کاوش محتوا در وب

6-3-1- درخت تصمیم

6-3-2- شبکه عصبی

6-3-3- سایر الگوریتم های کاوش

7- کاوش ساختار وب

7-1- مدل های بازنمایی ساختار وب

7-1-1- مدل های مبتنی بر گراف

7-1-2- مدل های مارکو

7-2- الگوریتم های کاوش ساختار وب

7-2-1- HITS

7-2-2- Page Rank

7-2-3- الگوریتم جریان بیشینه

7-2-4- Average Clicks

7-3- کاربردهای کاوش ساختار وب

7-3-1- تشخیص اجتماعات وب

7-3-2- پیمایش وب

8- کاوش استفاده از وب

8-1- انواع داده های استفاده از وب

8-1-1- داده های سرورهای وب

8-1-2- داده های سرورهای پراکسی

8-1-3- داده های کلاینت

8-2- پیش پردازش داده های استفاده از وب

8-2-1- پاکسازی داده

8-2-2- تشخیص و بازسازی نشست

8-2-3- بازیابی ساختار و محتوا

8-2-4- قالب بندی داده

8-3- روش های کاوش استفاده از وب

8-3-1- قوانین انجمنی

8-3-2- الگوهای ترتیبی

8-3-3- خوشه بندی

8-4- کاربردهای کاوش استفاده از وب

8-4-1- خصوصی سازی محتوای وب

8-4-2- پیش بازیابی

8-4-3- بهبود طراحی سایت های وب

9- کاربردهای وب کاوی

9-1- تجارت الکترونیکی

9-2- موتورهای جستجو

9-3- حراجی در وب

نتیجه گیری

فهرست منابع

 

 


1- مقدمه

با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پراهمیت سازمان ها مبدل گشته است. بنابراین روش ها و تکنیک هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات، مورد نیاز می باشد. با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، نیاز به این روش ها و تکنیک ها بیش از پیش احساس می شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ 7.3 میلیون صفحه در روز افزایش می یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریبا غیر ممکن است و ابزارها و روش هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:

  1. یافتن اطلاعات مرتبط: یافتن اطلاعات مورد نیاز در وب دشوار می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی باشند و کاربران معمولا از موتورهای جستجو که مهمترین و رایج ترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده می کنند. این موتورها، یک پرس و جوی[1] مبتنی بر کلمات کلیدی از کاربر دریافت کرده و در پاسخ لیستی از اسناد مرتبط با پرس و جوی وی را که بر اساس میزان ارتباط با این پرس و جو مرتب شده اند، به وی ارائه می کنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند. اولا دقت[2] موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می کنند، در حالی که بسیاری از اسناد بازیابی شده توسط آنها با نیاز اطلاعاتی کاربر مرتبط نمی باشند. دوما میزان فراخوان[3] این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه داده های خود نمی باشند.
  2. ایجاد دانش جدید با استفاده از اطلاعات موجود در وب: این مشکل در واقع بخشی از مشکل مطرح شده در قسمت قبل می باشد. در حال حاضر این سوال مطرح است که چگونه می توان داده های فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد. همچنین چگونه می توان با استفاده از داده های وببه اطلاعات و دانشی جدید دست یافت.
  3. خصوصی سازی[4] اطلاعات: از آن جا که کاربران متفاوت هر یک درباره نوع و نحوه بازنمایی اطلاعات سلیقه خاصی دارند، این مسئله باید توسط تامین کنندگان اطلاعات در وب مورد توجه قرار بگیرد. برای این منظور با توجه به خواسته ها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد.

تکنیک های وب کاوی[5] قادر به حل این مشکلات می باشند. در [16] وب کاوی به صورت زیر تعریف شده است:

وب کاوی به کارگیری تکنیک های داده کاوی[6] برای کشف و استخراج خودکاراطلاعات از اسناد و سرویس های وب می باشد.

البته تکنیک های وب کاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیک های مختلفی از سایر زمینه های تحقیقاتی همچون پایگاه داده ها، بازیابی اطلاعات، پردازش زبان طبیعی، ... قابل استفاده در این زمینه می باشند. همچنین تکنینک هایوب کاوی می توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیک های وب کاوی به صورت مستقیم مشکلات مطرح شده را حل می نماید. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین می کند، مثالی از این رویکرد می باشد. اما در رویکرد غیر مستقیم، تکنیک های وب کاوی به عنوان بخشی از یک روش جامع تر که به حل این مشکلات می پردازد، مورد استفاده قرار می گیرند.

با توجه به گسترش روز افزون حجم اطلاعات در وب و ارتباط وب کاوی با تجارت الکترونیکی، وب کاوی به یک زمینه تحقیقاتی وسیع مبدل گشته است. طی این گزارش پس از بررسی مراحل وب کاوی، انواع آن معرفی می شوند. سپس ارتباط وبکاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها و مشکلات این زمینه تحقیقاتی اشاره می شود. در ادامه هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند. در پایان نیز به برخی از نمونه کاربردهای واقعی وب کاوی اشاره می شود.

 

2- مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد:

  1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می باشد.
  2. انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعاتخاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
  3. تعمیم[7]: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایتوب کشف می شود.
  4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی[8]  و تفسیر می شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی و ... بازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها[9]، حذف کلمات زائد[10]، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه ای یا منطق مرتبه اول باشد. در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.

به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده هایوب می باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها (KDD [11]) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می کند.

 

3- وب کاوی و زمینه های تحقیقاتی مرتبط

وب کاوی با زمینه های مختلف تحقیقاتی علوم کامپیوتر همچون داده کاوی، پایگاه داده، بازیابی اطلاعات، هوش مصنوعی، یادگیری ماشین، پردازش زبان طبیعی، استخراج اطلاعات، انبار داده ها[12]، طراحی واسط کاربر و ... در ارتباط تنگاتنگ است.

در این بخش ارتباط این زمینه تحقیقاتی با برخی از زمینه های مرتبط بررسی می شود.

 

3-1- وب کاوی و داده کاوی

وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند. داده کاوی فرآیند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از داده هایی است که معمولا در پایگاه داده ها ذخیره شده اند. در واقع بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند. اما حوزه وب کاوی وسیع تر از داده کاوی است و این دو زمینه تحقیقاتی در جنبه های مختلفی از یکدیگر متفاوتند که برخی از آنها عبارتند از:

  • در داده کاوی، داده ها ساخت یافته هستند و معمولا در پایگاه داده ها وجود دارند. اما در وب، داده ها عموما غیر ساخت یافته هستند.
  • جمع آوری و مدیریت داده ها در وب دشوار است.
  • داده ها در وب تنها شامل محتوای مستندات و صفحات وب نیستند. بلکه دروب دو نوع داده اصلی دیگر نیز برای کاوش مورد استفاده قرار می گیرند. نوع اول، اطلاعات ساختاری وب است که منظور از آن پیوندهای بین صفحات وبمی باشد. نوع دوم نیز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحلیل رفتار کاربر در استفاده از وب، ترجیحات و علایق وی درباره نوع و قالب اطلاعات، ... بخش مهمی از وب کاوی است. در داده کاوی این دو نوع از داده وجود ندارند.
  • مسئله دیگری که در وب کاوی مطرح است، حفظ حریم کاربران[13] است. تکنیک های داده کاوی معمولا در یک محیط بسته به کار می روند. در حالی که تکنیک های وب کاوی در محیط باز وب انجام می شوند. بنابراین باید تضمین شود، اطلاعات شخصی و خصوصی کاربران مورد سوء استفاده قرار نمی گیرند.

 

3-2- وب کاوی و بازیابی اطلاعات

بعضی محققین معتقدند که کشف منبع یا سند (بازیابی اطلاعات) در وب، نمونه ای ازوب کاوی است و برخی وب کاوی را مرتبط با بازیابی اطلاعات هوشمند می دانند. منظور از بازیابی اطلاعات، بازیابی خودکار اسناد مرتبط و در عین حال بازیابی کمترین حد ممکن از اسناد غیر مرتبط می باشد. اهداف اصلی بازیابی اطلاعات شاخص گذاری[14] متون و جستجو برای اسناد مرتبط در یک مجموعه می باشد. در حال حاضر تحقیقات در زمینه بازیابی اطلاعات شامل مدلسازی، طبقه بندی[15] اسناد، واسط های کاربری، تصویر سازی داده[16]، جداسازی[17] و ... می باشد. آنچه در این میان می تواند به عنوان نمونه ای از وب کاوی در نظر گرفته شود، طبقه بندی اسناد است که در شاخص گذاری مورد استفاده قرار می گیرد. با چنین دیدگاهی وبکاوی به بخشی از فرآیند بازیابی اطلاعات مبدل می گردد.

 

3-3- وب کاوی و استخراج اطلاعات

هدف از استخراج اطلاعات تبدیل مجموعه ای از اسناد به اطلاعات خلاصه شده و تحلیل شده می باشد. در حالی که تمرکز اصلی در بازیابی اطلاعات بر انتخاب اسناد مرتبط است، استخراج اطلاعات بر استخراج وقایع مرتبط از اسناد تکیه دارد. همچنین در استخراج اطلاعات، ساختار یا بازنمایی یک سند مد نظر قرار می گیرد، در حالی که در بازیابی اطلاعات، یک سند مجموعه ای نامرتب از کلمات است.

ساخت یک سیستم استخراج اطلاعات برای محیط پویا و متنوعی چون وب امکان پذیر نیست و بیشتر سیستم های ایجاد شده بر سایت های وب خاصی متمرکز می شوند. برخی دیگر از سیستم های استخراج اطلاعات از تکنیک های یادگیری ماشین و داده کاوی برای یادگیری قوانین و الگوهای استخراج استفاده می کنند. با این دیدگاه، وب کاوی بخشی از فرآیند استخراج اطلاعات می باشد.

البته دیدگاه های دیگری درباره ارتباط این دو وجود دارد. برخی معتقدند استخراجاطلاعات گونه ای از مرحله پیش پردازش (مرحله بعد از بازیابی اطلاعات و قبل از اعمال تکنیک های داده کاوی) در فرآیند وب کاوی می باشد.

به طور کلی دو گونه متفاوت از استخراج اطلاعات وجود دارد. استخراج اطلاعات از متون غیر ساخت یافته و استخراج اطلاعات از داده های نیمه ساخت یافته. برای استخراج اطلاعات از متون غیر ساخت یافته معمولا نوعی پیش پردازش زبانی قبل از به کارگیری تکنیک های داده کاوی استفاده می شود. بنابراین این نوع از استخراجاطلاعات ارتباط نزدیکی با تکنیک های پردازش زبان طبیعی دارد. اما با ایجاد و گسترش وب نیاز به روش های بازیابی اطلاعات از متون ساخت یافته می باشد. استخراج اطلاعات ساخت یافته متفاوت از استخراج اطلاعات غیر ساخت یافته است، چرا که معمولا از اطلاعاتی مانند تگ های HTML، جدا کننده ها، ... استفاده می کند. بیشتر روش های ساخت یافته ای که در وب به کار می روند، از تکنیک های یادگیری ماشین برای استخراج قوانین استفاده می کنند.

 

3-4- وب کاوی و یادگیری ماشین

وب کاوی معادل یادگیری از وب یا به کارگیری تکنیک های یادگیری ماشین در وبنیست. کاربردهایی از یادگیری ماشین در وب وجود دارد که نمونه های وب کاوی به شمار نمی آیند. یک مثال از این نوع کاربردها، به کارگیری تکنیک های یادگیری ماشین برای یافتن بهترین مسیر در پیمایش وب توسط Spider ها است.

از طرف دیگر علاوه بر تکنیک ها و روش های یادگیری ماشین، روش های دیگری هم برای وب کاوی به کار می رود. به عنوان مثال الگوریتم هایی اختصاصی برای یافتن Hub ها وAuthority  ها در وب وجود دارد. (مفهوم Hub و Authority در بخش 7 معرفی خواهد شد. ) با این حال ارتباط نزدیکی بین یادگیری ماشین و وب کاوی وجود دارد. در واقع تکنیک های یادگیری ماشین از وب کاوی پشتیبانی می کنند و قابل استفاده در فرآیندهای وب کاوی می باشند. به عنوان مثال تحقیقات نشان می دهد استفاده از تکنیک های یادگیری ماشین در طبقه بندی اسناد، می تواند دقت طبقه بندی را در مقایسه با استفاده از روش های سنتی بازیابی اطلاعات افزایش دهد.

 

4- انواع وب کاوی

روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند:

  1. کاوش محتوای وب[18]: کاوش محتوای وب فرآیند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا می تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول باشد. در این میان کاوش متن بیش از سایر زمینه ها مورد تحقیق قرار گرفته است. از جمله این تحقیقات می توان به تشخیص موضوع[19]، استخراج الگوهای ارتباط[20]، خوشه بندی[21] و طبق بندی اسناد وب اشاره کرد. روش ها و تکنیک های موجود در این گروه، از تکنیک های بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده می کنند.

هر چند در پردازش تصویر و بینایی ماشین تحقیقات زیادی در زمینه استخراج دانش از تصاویر انجام شده است، اما به کارگیری این تکنیک ها در کاوش محتوای وب چندان چشمگیر نبوده است.

  1. کاوش ساختار وب[22]وب را می توان به صورت گرافی که گره های آن اسناد و یال های آن پیوندهای[23] بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرآیند استخراج اطلاعات ساختاری از وب می باشد.
  2. کاوش استفاده از وب[24]: کاوش استفاده از وب، کاربرد تکنیک های داده کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد. این نوع از وب کاوی، داده های مربوط به استفاده کاربران از وب را مورد کاوش قرار می دهد.

باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک های کاوش محتوای وب می توانند علاوه بر به کارگیری متن مستندات، ازاطلاعات کاربران هم استفاده کنند. همچنین می توان از ترکیب تکنیک های فوق برای حاصل شدن نتایج بهتر استفاده کرد.

 

5- چالش های وب کاوی

وب کاوی با چالش ها و محدودیت های متنوعی روبه رو است. از یک دیدگاه می توان این محدودیت ها را به دو گروه تکنیکی و غیر تکنیکی تقسیم کرد. از محدودیت های غیر تکنیکی می توان به عدم پشتیبانی مدیریت، کافی نبودن بودجه و عدم وجود منابع مورد نیاز مانند نیروی انسانی متخصص اشاره کرد. اما مشکلات تکنیکی بسیار است که به برخی از آنها در این جا اشاره می شود:

  1. داده های ناصحیح و نادقیق : برای آن که فرآیند وب کاوی با موفقیت انجام شود، لازم است داده های جمع آوری شده صحیح و در قالب مناسب باشند. اما معمولا مشکلات زیادی در این زمینه وجود دارد. اولا، داده ها ممکن است دقیق نباشند. ثانیا داده ها می توانند ناکامل بوده و برخی مقادیر موجود نباشد. ثالثا تخمین میزان اطمینان درباره صحت و دقت داده ها به سادگی امکان پذیر نیست.
  2. عدم وجود ابزارها: محدودیت دیگر وب کاوی، عدم وجود ابزارهای مناسب و کامل برای آن می باشد. در این راستا، متخصصان باید تصمیم بگیرند آیا برای یک کاربرد از وب کاوی، ابزار خاص آن کاربرد را توسعه دهند و یا از ابزارهای موجود استفاده کنند.
  3. ابزارهای سفارشی: ابزارهای موجود تنها یکی از انواع وب کاوی مانند طبقه بندی یا خوشه بندی را پشتیبانی می کنند. اما بهتر آن است که یک ابزار قادر به انجام چندین تکنیک وب کاوی باشد تا کاربران بتوانند با توجه به نیازمندی های خود از تکنیک مناسب استفاده کنند.

البته در حال حاضر تحقیقات بسیاری در زمینه وب کاوی در حال انجام است که هدف آن ها حل این مشکلات می باشد.

 

6- کاوش محتوای وب

کاوش محتوای وب اولین گروه از طبقه بندی ارائه شده در وب کاوی می باشد. همان طور که در بخش های قبل اشاره شد، کاوش محتوای وب به کشف و استخراجاطلاعات مفید و ناشناخته از محتوای مستندات وب می پردازد. محتوای مستندات وببطور کلی شامل انواع مختلف اطلاعات از جمله داده های متنی، صوتی، تصویری، فرا داده و ... می باشد و کاوش محتوای وب نوعی کاوش داده های چندرسانه ای نیز محسوب می شود. داده های وب عموماً شامل داده های غیر ساخت یافته مثل متون آزاد یا نیمه ساخت یافته مثل صفحاتHTML  و تا حدی ساخت یافته تر مثل جداول یا صفحات HTML تولید شده توسط پایگاه داده هاست. اما در هر صورت بیشتراطلاعات موجود در وب را  متون غیر ساخت یافته تشکیل می دهند.

کاوش محتوا در وب را می توان از دو دید بررسی کرد: از دید بازیابی اطلاعات و از دید پایگاه داده ها. هدف کاوش محتوا در وب از نقطه نظر بازیابی اطلاعات تسهیل یا بهبود فرایند جستجوی اطلاعات یا فیلتر کردن اطلاعات برای کاربران است. در حالی که از دید پایگاه داده ها هدف کاوش محتوا، ارائه مدلی از داده های وب و یکپارچه سازی آنها است به طوی که پرس و جوهای پیچیده تر از پرس و جوهای مبتنی بر کلمات کلیدی قابل پردازش باشند. کاوش محتوا از دید پایگاه داده ها سعی در بدست آوردن ساختار سایت وب و یا تبدیل سایت وب به یک پایگاه داده دارد تا بتواند مدیریت و پرس و جوی اطلاعات موجود در وب را کاراتر انجام دهد. این کار با کشف شمای[25] اسناد موجود در وب یا ساخت یک پایگاه داده مجازی قابل انجام است.

در این بخش رویکردها و تکنیک های کاوش محتوا در وب و نتایج حاصل از کاوش بررسی می شوند. به طور کلی برای انجام کاوش محتوا برای یک کاربرد خاص، ابتدا باید نوع نتیجه مورد انتظار تعیین شود. سپس بر اساس آن تکنیکی که برای کاوش و به دست آوردن آن نتیجه به کار می رود، انتخاب می گردد. در پایان نوع رویکرد مشخص می شود تا تعیین گردد، فرآیند چگونه انجام شود.

سه رویکرد[26] یا متدولوژی اصلی برای کاوش محتوا وجود دارد: رویکرد بالا به پایین، پایین به بالا و یا ترکیبی از این دو. این متدولوژی ها می توانند مستقیم یا غیر مستقیم باشند. به متدولوژی های مستقیم، یادگیری بانظارت و به متدولوژی های غیر مستقیم، یادگیری بدون نظارت نیز گفته می شود.

تکنیک های کاوش محتوا، الگوریتم هایی هستند که برای کاوش به کار می روند. به نتایج حاصل از کاوش، انواع کاوش نیز گفته می شود. این نتایج معمولا شامل طبقه بندی، خوشه بندی، تشخیص موضوع و ... می باشد. بیشتر اوقات برای تمایز قائل شدن بین تکنیک های کاوش و نتایج کاوش، میان محققین اختلاف نظر وجود دارد.

 

6-1- انواع کاوش محتوا در وب

منظور از انواع کاوش محتوا در وب، انواع نتایج مختلفی است که پس از فرآیند کاوش تولید می شود. طبقه بندی، خوشه بندی، پیش بینی و تخمین[27]، تعیین وابستگی[28] ها و همبستگی[29] ها و کشف آنومالی ها برخی از انواع کاوش محتوا در وب هستند که در این بخش معرفی می شوند. اگر چه تفاوت هایی میان انواع کاوش محتوا وجود دارد، اما شباهت هایی نیز قابل مشاهده است.

 

6-1-1- طبقه بندی

طبقه بندی مستندات به معنای مرتبط نمودن یک سند به یک طبقه از پیش تعریف شده است. به عبارت دیگر هدف از طبقه بندی مستندات، یافتن طبقه موضوعی مناسبی است که با کمترین خطا موضوع بحث یک سند را نشان می دهد. این کار می تواند با مربوط کردن یک سند به یکی از طبقات از پیش تعریف شده صورت پذیرد و یا در طبقه بندی پویا منجر به تعریف طبقه موضوعی جدیدی برای سند در دست بررسی گردد. طبقه بندی جزء روشهای یادگیری با نظارت به شمار می آید. به آن معنی که ابتدا مجموعه اسنادی به سیستم داده می شود که طبقه آنها مشخص شده است. سپس انتظار می رود سیستم با دیدن این نمونه ها بتواند نمونه های جدید را طبقه بندی کند. .هدف طبقه بندی، تحلیل نمونه های آموزشی و ساخت مدل دقیقی برای هر طبقه با استفاده از ویژگیهای موجود در داده ها و سپس استفاده از این مدلها برای طبقه بندی داده های آتی است. عمده روش های طبقه بندی مستندات در یکی از دو دسته الگوریتم های آماری و مفهومی جای می گیرند.

 

6-1-2- خوشه بندی

خوشه بندی یا تحلیل خوشه ها فرایند گروه بندی اشیاء فیزیکی یا مجازی در کلاسهایی از اشیاء مشابه است. خوشه بندی یکی از روش های یادگیری بدون نظارت به شمار می آید. به آن معنی که بر خلاف طبقه بندی که در ابتدا مثال هایی از کلاس های معلوم به سیستم داده می شود، در خوشه بندی هیچ گونه اطلاع قبلی از کلاس ها در دسترس نیست و این وظیفه سیستم است که با بررسی داده ها، خوشه ها و ویژگیهای هر یک را تشخیص دهد.

به عنوان یک تکنیک وب کاوی، خوشه بندی داده ها، خوشه ها یا نواحی متراکم[30]را در مجموعه بزرگی از داده های چند بعدی بر اساس معیاری برای اندازه گیری فاصله پیدا می کند. در یک مجموعه بزرگ از نقاط داده ای چند بعدی، معمولاً فضای داده ای بطور یکنواخت توسط نقاط پر نمی شود. خوشه بندی داده ها، محلهای خلوت[31] و متراکم را تشخیص داده و در نتیجه الگوی کلی توزیع اطلاعات را تشخیص می دهد.

 

6-1-3- سایر انواع کاوش محتوا در وب

تخمین و پیش بینی دو نوع دیگر کاوش محتوا در وب به شمار می آیند. به عنوان مثال میزان درآمد افراد را می توان با توجه به الگوهای پرداخت و سن آنها تخمین زد. در پیش بینی نیز، مثلا با توجه به الگوهای مشاهده شده در یک روزنامه، می توان وقوع برخی رخدادها در آینده را پیش بینی کرد.

یکی دیگر از انواع کاوش محتوا، تعیین وابستگی ها و همبستگی ها می باشد. به عنوان مثال با استفاده از این نوع کاوش می توان تعیین کرد، چه اجناسی با یکدیگر خریداری می شوند. در حالی که پیش بینی و تخمین راجع به مقادیر آینده تصمیم می گیرند، این نوع کاوش بین مقادیر جاری ارتباط برقرار می کند.

تحلیل انحراف[32] و کشف آنومالی ها نیز دو نوع دیگر کاوش محتوا محسوب می شوند. این نوع کاوش برای تشخیص بیماری ها مورد استفاده قرار می گیرد.

 

6-2- رویکردهای کاوش محتوا در وب

رویکردهای کاوش محتوا که به آنها متدولوژی هم گفته می شود، مراحل کاوش را تعیین می کنند. دو رویکرد اصلی برای انجام مراحل کاوش وجود دارد: پایین به بالا و بالا به پایین. همچنین می توان ترکیبی از این دو رویکرد را استفاده کرد.

در رویکرد بالا به پایین کار از یک فرضیه، ایده یا الگوی مشخص آغاز می شود. سپس با استفاده از داده های موجود، این فرضیه ارزیابی می شود. اگر برخی از داده ها، فرضیه مورد بررسی را تایید نکنند، فرضیه اصلاح می شود. برای این منظور بسیاری از تکنیک های استدلال آماری استفاده می شوند. به طور کلی ارزیابی فرضیه شامل تولید مدلی برای فرضیه و ارزیابی مدل برای تعیین صحت یا عدم صحت فرضیه می باشد. توسعه مدل چالش اصلی این فرآیند می باشد. یک مدل می تواند مجموعه ای از قوانین باشد. برای ارزیابی مدل از داده های موجود استفاده می شود.

در روش پایین به بالا، فرضیه ای برای ارزیابی وجود ندارد. این رویکرد دشوارتر از رویکرد بالا به پایین است، چرا که باید داده ها بررسی شده و از آنها الگویی استخراج شود. رویکرد پایین به بالا می تواند مستقیم یا غیر مستقیم باشد. در روش مستقیم که به آن یادگیری با نظارت نیز گفته می شود، ایده ای در مورد آنچه به دنبال آن هستیم، وجود دارد. در این حالت، مشابه رویکرد بالا به پایین، به توسعه مدل ها و ارزیابی آن ها بر اساس داده ها پرداخته می شود. در روش غیر مستقیم که به آن یادگیری بدون نظارت نیز گفته می شود، ایده ای در مورد آنچه به دنبال آن هستیم، وجود ندارد. بلکه از ابزار موجود برای کاوش خواسته می شود که الگوهایی کشف کند. به عنوان مثال در کاوش تصویر، ابزار کاوش می تواند به جستجوی الگوهای غیر معمول بپردازد. پس از آن که الگوهای مورد نظر کشف شد، می توان از روش های یادگیری مستقیم استفاده کرد.

در رویکرد ترکیبی، از هر دو رویکرد بالا به پایین و پایین به بالا استفاده می شود. برای مثال می توان کار را با رویکرد پایین به بالا آغاز کرد و با تحلیل داده ها یک یا چند الگو را کشف نمود. این الگو می تواند فرضیه ای باشد که با استفاده از رویکرد بالا به پایین مورد ارزیابی قرار گیرد.

 

6-3- الگوریتم های کاوش محتوا در وب

الگوریتم های متعددی برای کاوش محتوا در وب وجود دارند که از آن جمله می توان به الگوریتم های تحلیل آماری، یادگیری ماشین و سایر الگوریتم های استدلال اشاره کرد.  

 

6-3-1- درخت تصمیم

یکی از الگوریتم های کاوش محتوا در وب، درخت تصمیم است. درخت تصمیم یکی از الگوریتم های یادگیری ماشین است که برای طبقه بندی به کار می رود. در این الگوریتم نمونه های اشیاء و رکوردها، بر اساس مقادیر برخی صفات به گروه هایی تقسیم می شوند. به عنوان مثال افراد یک جامعه را می توان بر اساس میزان درآمد آنها به گروه هایی تقسیم کرد. همچنین گروه ها یا دسته های حاصل را می توان بر اساس ویژگی دیگری مثل سن به زیر دسته های دیگری تقسیم نمود و این روند را ادامه داد. به این ترتیب یک ساختار درختی شکل می گیرد. این درخت مورد آموزشقرار می گیرد و برای دسته بندی داده های جدید به کار می رود. هر گره در این درخت، به ارزیابی یکی از صفات نمونه ها می پردازد و هر یک از شاخه های یک گره مقادیر متفاوت آن صفت را نشان می دهد.

یکی از الگوریتم های رایجی که برای ساخت درخت تصمیم به کار می رود، ID3 است که درختهای تصمیم را از بالا به پایین می سازد. این الگوریتم ابتدا صفتی را که باید در ریشه درخت قرار بگیرد، تعیین می کند. برای این منظور، هر یک از صفات نمونه ها با یک تست آماری ارزیابی می شوند تا مشخص شود، این صفت تا چه اندازه قادر به دسته بندی نمونه ها می باشد. بهترین صفت در ریشه درخت قرار می گیرد و برای هر مقدار ممکن این صفت شاخه ای در زیر آن ایجاد می شود و نمونه های مربوط به هر شاخه انتقال می یابند. سپس مراحل فوق الذکر برای نمونه های هر شاخه تکرار می شود. درختهای تصمیم برای مسائلی مناسب هستند که نمونه ها با جفت های صفت-مقدار بازنمایی می شوند و تابع دسته بندی مقادیر خروجی گسسته داشته باشد. همچنین این الگوریتم در صورت وجود خطا در نمونه های آموزشی و یا مقادیر نامشخص برای بعضی صفات نیز قابل استفاده است.

 

6-3-2- شبکه عصبی

یکی دیگر از الگوریتم ها و تکنیک هایی که در کاوش محتوای وب به کار می رود، شبکه های عصبی هستند. یک شبکه عصبی مجموعه ای از سیگنال های ورودی، گره ها و سیگنال های خروجی است. شبکه های عصبی ابتدا با داده ها و مثال های آموزشی، آموزش داده می شوند. سپس داده های جدید به شبکه ارائه می شوند و شبکه به تحلیل آنها می پردازد. شبکه های عصبی در کاوش محتوای وب، برای خوشه بندی، تشخیص موجودیت ها، تحلیل انحرافات و سایر کاربردهای وب کاوی به کار می روند. همچنین شبکه های عصبی برای کشف الگوهای غیرعادی در تصاویر به کار رفته اند.

 

6-3-3- سایر الگوریتم های کاوش

از دیگر الگوریتم­های کاوش محتوا در وب می­توان به برنامه­نویسی منطق استنتاجی[33] که یکی از تکنیک­های یادگیری ماشین است، اشاره کرد. در این روش به جای استنتاج داده­های جدید از داده­ها و قوانین موجود، قوانین از طریق تحلیل داده­ها استخراج می­شوند. برنامه­نویسی منطق استنتاجی از اصل resolution برای اثبات قوانین کشف شده استفاده می کند.

علاوه بر تکنیک های اشاره شده، تکنیک های دیگری نیز برای کاوش محتوا به کار می روند. به عنوان مثال، تکنیک های نزدیکترین همسایه، به تحلیل داده های جدید بر اساس همسایه های آن ها می پردازند. در این روش اگر داده ی جدیدی باید تحلیل شود، داده های موجود بررسی می شوند تا داده هایی که ویژگی هایی مشابه داده جدید دارند، تشخیص داده شوند. سپس بر اساس این داده ها در مورد داده جدید، تصمیم گیری می شود. برای تشخیص داده های مشابه از توابع فاصله استفاده می شود.

از دیگر تکنیک های کاوش می توان به تکنیک های مبتنی بر الگوریتم های ژنتیک، منطق فازی، یادگیری مفهوم و استدلال مبتنی بر قانون اشاره کرد.

 

7- کاوش ساختار وب

کاوش ساختار وب، فرآیند کشف اطلاعات ساختاری از وب می باشد. این نوع کاوش بر اساس آن که از چه نوع داده ساختاری استفاده می کند، به دو دسته تقسیم می شود:

  • پیوندها: یک پیوند، یک واحد ساختاری است که یک صفحه وب را به صفحه دیگر یا به بخش دیگری از همان صفحه متصل می کند. به پیوند نوع اول، پیوند بین سند[34] و به پیوند نوع دوم، پیوند درون سند[35] گفته می شود. به این نوع کاوش ساختار وب که از پیوندها استفاده می کند، تحلیل پیوند[36] گفته می شود.
  • ساختار سند: محتوای یک صفحه وب می تواند بر اساس تگ های XML و HTML موجود در آن به صورت یک درخت بازنمایی شود. کاوش در این جا بر استخراج مدل شیئ سند[37] متمرکز می شود. به این نوع از کاوش ساختار وب، تحلیل ساختار سند[38] گفته می شود.

در این بخش ابتدا مدل هایی که برای بازنمایی ساختار وب به کار می روند، معرفی می شوند. سپس الگوریتم هایی که در کاوش ساختار وب به کار می روند، تشریح می شود. در پایان نیز به برخی از کاربردهای کاوش ساختار وب اشاره می شود.

 

7-1- مدل های بازنمایی ساختار وب

برای به کارگیری الگوریتم های کاوش ساختار وب و محاسبه معیارهای مربوطه، ابتدا لازم است، ساختار وب با استفاده از مدلی بازنمایی شود. برخی مدل های رایج، ساختارهای گراف و مدل های مارکو هستند که در این بخش به معرفی آنها پرداخته می شود.

 

7-1-1- مدل های مبتنی بر گراف

مدل­های مبتنی بر گراف، می­توانند از یک یا چند گره تشکیل شوند و یا کل گره­های گراف وب را شامل شوند. مدل­های تک گره­ای که نمونه­های آن درشکل(1)مشاهده می­شود، از یک گره و چندین یال تشکیل شده­اند. مدل (a) یک نوع صفحه

 

شکل(1) – مدل های گراف تک گره ای

وب را بازنمایی می­کند که به آن Authorithy گفته می­شود. یک صفحه Authorithy، صفحه­ای است که صفحات زیاد دیگری به آن اشاره کرده­اند. مدل (b) نوع دیگری از صفحات وب را بازنمایی می­کند که به آن Hub گفته می­شود. یک صفحه Hub، صفحه­ای است که به صفحات زیاد دیگری اشاره می­کند. مدل (c) نیز ترکیبی از دو مدل قبل می­باشد.

مدل های چند گره ای که نمونه های آن در شکل (2) دیده می شود، شامل چندین گره و یال های متصل کننده آن ها می باشند. در مدل (a) که ارجاع مستقیم خوانده می شود، یک صفحه به صفحه دیگر اشاره می کند که نشان می دهد، دو صفحه راجع به یک موضوع هستند. مدل (b) ارجاع متقابل است، که نشان دهنده ارتباطی قوی بین دو صفحه می باشد. مدل (c) یک ارجاع غیرمستقیم میان صفحه اول و سوم را نشان می دهد. مدل (d)، co-citation  است که در آن یک صفحه به دو صفحه دیگر اشاره می کند و احتمالا این دو صفحه مشابه یکدیگر هستند. مدل (e)، co-referenceاست که دو صفحه به یک صفحه اشاره کرده و می توان نتیجه گرفت این دو صفحه با یکدیگر در ارتباطند.

 

شکل(2) – مدل های گراف چند گره ای

علاوه بر مدل های معرفی شده، مدلی نیز برای کل گراف وب پیشنهاد شده است. این مدل که به نام Bow-Tie شناخته می شود از یک مولفه متصل قوی (SCC[39])، یک مولفه متصل ضعیف (IN) که به صفحات مولفه قوی اشاره می کند و یک مولفه ضعیف دیگر (OUT) که مولفه قوی به صفحات آن اشاره می کند، تشکیل شده است. مولفه های دیگری نیز در این مدل وجود دارند که به این ساختارهای اصلی متصل نیستند. همچنین مجموعه ای از گره ها به نام TENDRILS وجود دارند که به فقط به IN یا OUT متصلند. مولفه ای نیز به نام tube گره های IN را به گره های OUT متصل می کنند. این مدل در شکل (3) نشان داده شده است.

ویژگی های این گراف مانند قطر آن و توزیع درجه ورودی/خروجی گره ها در تحقیقات مختلف مورد بررسی قرار گرفته است. به عنوان مثال قطر محاسبه شده برای مولفه متصل قوی، 28 می باشد. همچنین نشان داده شده است که توزیع درجه ورودی/ خروجی صفحات از قانون توان[40] تبعیت می کند. قانون توان نشان می دهد، احتمال آن که مقداری مانند d وجود داشته باشد، متناسب با 1/dp است. که d یک عدد مثبت صحیح و p یک عدد مثبت کوچک است.

 

شکل(3) – مدل گراف وب

7-1-2- مدل های مارکو

یک زنجیره مارکو از مرتبه m، نشان می دهد که تغییر حالت یک سیستم، به حالت فعلی و m-1 حالت گذشته آن بستگی دارد. مدل های مارکو مرتبه اول برای مدلسازی رفتار پیمایشی کاربر در وب به کار رفته اند. الگوریتم Page Rank که یکی از الگوریتم های کاوش ساختار وب به شمار می آید، از فرآیند قدم زدن تصادفی[41]مبتنی بر مدل های مارکو استفاده می کند. در این الگوریتم فرض بر آن است که کاربر در طی پیمایش یا به یک صفحه جدید مراجعه می کند و یا یکی از پیوندهای موجود در صفحه جاری را طی می نماید. همچنین زنجیرهای مارکو در طراحی سایت های تطبیقی[42] نیز استفاده می شوند.

 

7-2- الگوریتم های کاوش ساختار وب

در این بخش به بررسی الگوریتم ها و روش هایی که در کاوش ساختار وب به کار می روند، پرداخته می شود. دو الگوریتم اول که HITS و Page Rank نام دارند، برای بازیابی صفحات وب و رتبه بندی آنها بر اساس میزان ارتباط با پرس و جوی کاربر استفاده می شوند. الگوریتم سوم در تشخیص اجتماعات وب[43] و الگوریتم چهارم نیز برای محاسبه فاصله صفحات وب استفاده می شود.

 

7-2-1- HITS

الگوریتم HITS [44] یکی از الگوریتم های رایج برای رتبه بندی صفحات وب بر اساس میزان ارتباط آنها با پرس و جوی کاربر است که در سال 1998 توسطKleinberg  ارائه شد. این الگوریتم از دسته روش های وابسته به پرس و جو[45] است. در این نوع روش ها برای هر پرس و جو تحلیل پیوندها انجام می شود. برای انجام تحلیل پیوند، ابتدا می بایست گراف خاص پرس و جو به نام گراف همسایگی[46] ساخته شود. در حالت ایده آل این گراف تنها شامل صفحات مرتبط با موضوع پرس­و­جو است. برای ساخت گراف همسایگی، ابتدا یک مجموعه از اسناد مرتبط با پرس و جو، به وسیله موتور جست و جو واکشی می شوند. سپس این مجموعه آغازین به وسیله همسایگانش تکمیل می گردد. همسایه ها، مجموعه ای از اسناد هستند که یا از اسناد موجود در مجموعه آغازین به آنها پیوند داده شده است و یا به اسناد موجود در مجموعه آغازین پیوند داده اند. از آنجا که تعداد اسنادی که به اسناد موجود در مجموعه آغازین پیوند داده اند ممکن است عدد بزرگی شود، این عدد محدود و برای تعداد این اسناد حدی در نظر گرفته می شود. سپس این الگوریتم برای هر گره در گراف همسایگی، به طور تناوبی دو امتیاز Authority و Hub را محاسبه می کند. سپس گره ها را با توجه به این امتیازات رتبه بندی می کند. گره های با امتیاز بالایAuthority ، Authority خوب و گره های با امتیاز بالای Hub، Hub خوبی هستند. این الگوریتم فرض می کند سندی که به اسناد دیگر بیشتری اشاره می کند، Hub خوبی است، و سندی که اسناد بیشتری به آن اشاره می کنند، Authority خوبی می باشد. به طور بازگشتی می توان نتیجه گرفت سندی که به تعداد Authority های خوب بیشتری اشاره می کند، Hub بهتری است و سندی که Hub های خوب بیشتری به آن اشاره می کنند، Authority بهتری می باشد. الگوریتم بازگشتی برای محاسبه امتیاز Hub و Authority به صورت زیر بیان می شود:

1. N، مجموعه گره ها در گراف همسایگی در نظر گرفته می شود.

2. برای هر گره A در N، امتیاز  Authority با Aut[A]  و امتیاز  Hub با Hub[A] نمایش داده می شود.

3. مقدار اولیه Hub[A] برای همه گره ها 1 می باشد.

4. تا وقتی که دو بردار Aut و Hub همگرا نشده اند:

  1. برای همه A های موجود درN :
  2. برای همه A های موجود درN:

5. بردارهای Hub و Aut نرمال می شوند.

جبر خطی نشان می دهد که بردارهای Hub و Aut در نهایت همگرا خواهند شد. اما تعداد دفعات تکرار در حلقه بالا مشخص نیست. یکی از مشکلات HITS وابسته بودن آن به پرس و جو است، به طوری که برای هر پرس و جو می بایست یک گراف همسایگی ساخته شود و امتیاز Hub و Authority محاسبه شود. مشکل دیگر، فریب خوردن این الگوریتم از کاربران است. کاربران با ایجاد پیوندهایی در/ به صفحات، امتیاز Hub را تغییر می دهند و از آنجا که مقدار Authority از روی Hub به دست می آید، آن هم تغییر می یابد.

 

7-2-2- Page Rank

الگوریتم Page Rank که اولین بار در سال 1998 توسطLarry Page  و Sergey Brin ارائه شده است، یک روش مستقل از پرس و جو[47] می باشد. این روش یک بار به هر سند وب امتیاز اختصاص می دهد و از این امتیاز، با یا بدون در نظر گرفتن معیاری با توجه به پرس و جوی کاربر جهت رتبه بندی اسناد استفاده می کند. این الگوریتم رتبه هر صفحه را با اختصاص وزن به پیوندی که به آن صفحه داده شده است به دست می آورد. مقدار این وزن به کیفیت صفحه ای که پیوند در آن قرار گرفته، بستگی دارد. در این صورت پیوندهای صفحات مهم تر وزن بیشتری می گیرند. جهت مشخص کردن کیفیت صفحه های رجوع کننده، در  Page Rankاز رتبه آن صفحه که به صورت بازگشتی تعیین و مقدار اولیه آن اختیاری است، استفاده می شود. اگر n سند در دسترس باشد، مقدار اولیه رتبه سند را می توان برابر 1/n در نظر گرفت. رتبه هر صفحه مانند P طبق فرمول زیر محاسبه می شود که BP مجموعه همه صفحات اشاره کننده به P می باشد در این رابطه ε مقدار ثابتی بین 0.1 و 0.2، n تعداد گره ها در گراف G (تعداد صفحات وب در مجموعه) و Outdegree(Q) تعداد پیوندهای خروجی موجود در صفحه Q است. رتبه مرحله j صفحه Pi طبق فرمول زیر محاسبه می شود:

                                                    

در این فرمول، رتبه صفحه  Pبه رتبه صفحه Q که به آن اشاره می کند، بستگی دارد. این معیار به خوبی صفحه های با کیفیت را از صفحه های فاقد کیفیت متمایز می سازد. به عنوان مثالGoogle  از این روش استفاده می کند. Page Rank فرض می کند صفحه خوب به صفحه خوب ارجاع می دهد. بنابراین صفحاتی که توسط صفحه ای خوب مورد ارجاع قرار گرفته اند رتبه بالاتری دارند. رمز موفقیت این الگوریتم به کارگیری اهمیت اسناد به جای در نظر گرفتن مرتبط بودن آنها است. این روش مهم ترین مشکل الگوریتم HITS که وابسته بودن به پرس و جو است را بر طرف کرده است. بنابراین تعیین لیست مرتب شده اسناد در زمان پرس و جو به سرعت انجام می شود. از آنجا که ایجاد پیوند از صفحات با اهمیت به صفحه ای خاص مشکل است، بر خلاف HITS، در این روش کاربر نمی تواند آن را فریب دهد. دلیل دیگر این امر سراسری بودن گراف مورد استفاده در Page Rank جهت محاسبه رتبه صفحه می باشد. این سراسری بودن گراف باعث می شود، تغییرات درجه ورودی و خروجی هر گره، تغییر محسسوسی در رتبه اسناد ایجاد نکند. از آنجا که Page Rank، مستقل از پرس و جو می باشد، نمی تواند بین صفحاتی که در حالت کلی معتبر هستند با صفحاتی که با توجه به موضوع پرس و جو، معتبر هستند، تمایز قایل شود. بنابراین لیست نتیجه ممکن است شامل صفحاتی نا مرتبط با پرس و جوی کاربر باشد و یا صفحات کم اهمیتی که مرتبط با پرس و جو هستند را در بر نگیرد.

 

7-2-3- الگوریتم جریان بیشینه

مسئله جریان بیشینه[48] s-t به این صورت بیان می شود: در یک گراف که به یال های آن ظرفیت جریانی مثبت اختصاص داده شده است، هدف آن است که بیشینه جریانی که قابل انتقال از گره s به گره t است، محاسبه شود. ثابت شده است که این مسئله معادل با مسئله برش کمینه[49] است. در مسئله برش کمینه ، تعداد حداقل یال هایی که باید از گراف حذف شود تا گره s از گره t جدا شود، به دست می آید. برای حل این مسئله الگوریتمی توسط Ford و Fulkerson ارائه شده است که در ادامه بررسی می شود. برای این منظور ابتدا سه مفهوم زیر معرفی می شوند:

  • Residual Network: شبکه ای از گره های گراف و یال های residual است که یال ها دارای یک ظرفیت residual مثبت برای عبور جریان هستند.
  • Augmenting Path: مسیری از گره s به گرهt  است که می توان از آن جریانی عبور داد و این جریان را افزایش داد.
  • برش: تقسیم گره­های گراف به دو مجموعه است، به طوریکه یک مجموعه شامل s و مجموعه دیگر شامل t باشد.

الگوریتم Ford و  Fulkerson به شرح زیر است:

1  initialize flow f to 0

2  while  there exists an augmenting path p

3      do augment flow f along   p

4  return  f

این الگوریتم در انتها جریان بیشینه را به دست می دهد که معادل با برش کمینه است. این الگوریتم برای تشخیص اجتماعات وب به کار می رود. یک اجتماع وبمجموعه ای از صفحات وب است که تعداد اتصالاتشان با صفحات اجتماع بیش از تعداد اتصالاتشان با سایر صفحات وب است.

 

7-2-4- Average Clicks

Average Clicks فاصله بین دو صفحه وب را اندازه گیری می کند. تعداد پیوندهایی که از یک صفحه برای رسیدن به صفحه دیگر باید پیموده شود، معیار مناسبی برای اندازه گیری فاصله دو صفحه نمی باشد. چرا که احتمال این که کاربران پیوندی از صفحه ای با تعداد کمتری پیوند را دنبال کنند بیشتر از احتمال پیمودن این پیوند در صفحه ای با تعداد بیشتری پیوند است. به همین دلیل Average Clicks فاصله بین صفحات را بر اساس احتمال کلیک کردن یک پیوند در قدم زدن تصادفی محاسبه می کند. برای این منظور ابتدا طول یک پیوند در صفحه p به صورت زیر تعریف می شود:

                                                                              Log(a / OutDegree(p)) = طول پیوند در صفحه p

که در این رابطه 1/OutDegree(p)   احتمال کلیک یکی از پیوندهای صفحه p و a یک مقدار ثابت است. n نیز معمولا 7 در نظر گرفته می شود، زیرا به طور متوسط هر صفحه دارای 7 پیوند به صفحات دیگر است. برای محاسبه فاصله دو صفحه، طول پیوندهای موجود در مسیر بین این دو صفحه با هم جمع می شود. این حاصل جمع معادل با حاصل ضرب احتمال پیمایش پیوندهای این مسیر است. از فاصله بین صفحات در تشخیص اجتماعات وب استفاده می شود. همچنین در طراحی سایت های تطبیقی که فاصله یک صفحه از صفحه اصلی سایت اهمیت دارد، از این معیار بهره گرفته می شود.

 

7-3- کاربردهای کاوش ساختار وب

کاوش ساختار وب در کاربردهای وسیعی مورد استفاده قرار گرفته است. از جمله این کاربردها می توان به تعیین میزان کیفیت صفحات مرتبط با یک موضوع، طبقه بندی صفحات، پیمایش[50] وب، پیدا کردن اجتماعات وب، طراحی سایت های تطبیقی و شخصی سازی صفحات اشاره کرد. در ادامه برخی از این کاربردها مورد بررسی قرار می گیرند.

 

7-3-1- تشخیص اجتماعات وب

یک اجتماع وب، مجموعه ای از صفحات وب است که راجع به موضوعات مشابه هستند و یا علایق مشترک ایجاد کنندگان این صفحات را منعکس می کنند. علاوه بر اجتماعاتی که صریحا در وب تعریف شده اند (مانند گروه های خبری)، اجتماعات دیگری نیز به طور ضمنی در وب وجود دارند که حتی اعضای آن ممکن است از وجود آن بی اطلاع باشند. برای تشخیص اجتماعات وب محققین بسیاری از ساختار پیوندها استفاده کرده اند. برخی یک اجتماع را هسته ای از صفحات Authority دانسته اند که از طریق صفحات hub به یکدیگر متصل شده اند. با این تعریف، برای تشخیص یک اجتماع می توان از الگوریتم HITS استفاده کرد. گروهی دیگر اجتماعات وب را در هنگام پیمایش وب تشخیص می دهند. در این روش، اجتماعات وب طی با استفاده از تکنیکی به نام trawling که نوعی sub-graph enumeration می باشد، به دست می آیند. برخی دیگر اجتماع وب را مجموعه ای از صفحات وب می دانند که تعداد اتصالاتشان با صفحات اجتماع بیش از تعداد اتصالاتشان با سایر صفحات وب است. این گروه برای تعیین اجتماعات، از الگوریتم جریان بیشینه که در بخش های قبلی معرفی شد، استفاده می کنند.

 

7-3-2- پیمایش وب

با توجه به افزایش حجم وب، پیمایش و جستجوی آن از اهمیت بالایی برخوردار است. در پیمایش این حجم وسیع از صفحات بهتر آن است، صفحاتی ابتدا پیمایش شوند که مرتبط با موضوع موردنظر می باشند. "پیمایش متمرکز[51]" روشی است که برای پیمایش صفحات مرتبط با یک موضوع به کار می رود. در این روش سعی بر آن است که در هنگام پیمایش، صفحات hub خوب تشخیص داده شوند تا از آن ها به عنوان منبعی برای رسیدن به صفحات authoriry استفاده شود.

روش دیگری به نام "پیمایش هوشمند[52]" نیز برای پیمایش صفحات وب پیشنهاد شده است. این روش علاوه بر ساختار پیوند وب از ویژگی های دیگری نیز استفاده می کند. از جمله این ویژگی ها، می توان به محتوای صفحه، token های URL مانند برخی کلمات کلیدی مشخص که اهمیت یک URL در ارتباط با یک موضوع خاص را نشان می دهند، تعداد صفحات sibling در گراف وب که پیمایش شده اند و ... اشاره کرد. با استفاده از این ویژگی ها اولویتی برای پیمایش هر یک از صفحات تعریف می شود.

 

8- کاوش استفاده از وب

کاوش استفاده از وب به استخراج الگوهایی بامعنی از داده های تولید شده در تعامل بین کلاینت و سرورهای وب می پردازد. این نوع کاوش بر تکنیک­هایی تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پیش­بینی می­کند. داده­ای که در این نوع کاوش مورد استفاده قرار می­گیرد، داده­هایی است که در نتیجه تعامل کاربران با وب ایجاد و نگهداری شده­اند. کاربردهای این نوع کاوش، معمولا شامل خصوصی­سازی وب، ایجاد سایت­های وب تطبیقی، مدلسازی کاربر، ... می­­باشد.

در سال های اخیر تحقیقات وسیعی در زمینه کاوش استفاده از وب انجام شده است. در این بخش ابتدا انواع داده ای که در این شاخه از وب کاوی استفاده می شود، معرقی می شوند. سپس تکنیک هایی که برای پیش پردازش و جداسازی داده های جمع­آوری شده به کار می­روند، بررسی می­شوند. همچنین تکنیک­­های کاوش و کاربردهای کاوش استفاده از وب تشریح می گردند.

 

8-1- انواع داده های استفاده از وب

داده های استفاده از وب[53] مشخصات کاربران و رفتار پیمایش آنها در سایت هایوب را مشخص می نماید. این داده ها معمولا از سه منبع اصلی جمع آوری می شوند: سرورهای وب، سرورهای پراکسی و کلاینت های وب.

 

8-1-1- داده های سرورهای وب

سرورهای وب غنی­ترین و رایج­ترین منبع داده های استفاده از وب هستند. آنها داده ها را در فایل های ثبت[54] خود و فایل های ثبت پایگاه داده هایی که استفاده می کنند، ذخیره می نمایند. این داده ها، معمولا شامل آدرس های IP، زمان و تاریخ دستیابی ها و ... می باشند و معمولا در قالب های استاندارد مانند Common Log Format، Extended Log Format، LogML، ... بازنمایی می شوند.

یک چالش اصلی در استفاده از سرورهای وب، تشخیص نشست[55] های کاربر (دسته بندی تقاضاهای کاربر به گونه ای که مسیر پیمایش وی در سایت مشخص شود) می باشد. نحوه انجام این کار به نوع داده هایی که در فایل های ثبت ذخیره می شود، بستگی دارد. رایج ترین روش برای تشخیص نشست های کاربر، استفاده از cookie ها می باشد.

به غیر از فایل های ثبت، می توان از شنود[56] بسته های TCP/IP برای ردیابی رفتار کاربران استفاده کرد. همچنین برخی از سرورهای برنامه های کاربردی، تعاملات کاربران با سرور را ردیابی کرده و آنها را در فایل های ثبت سرور نگهداری می کنند. به طور کلی در صورت ذخیره داده ها در سمت سرور، یک تصویر کلی از چگونگی استفاده شدن یک سرویس توسط تمام کاربران وجود دارد.

 

8-1-2- داده های سرورهای پراکسی

جمع آوری داده های مربوط به پیمایش کاربران در سرورهای پراکسی مشابه جمع آوری داده ها در سرورهای وب است. تفاوت اصلی در اینجا آن است که سرورهای پراکسی داده های گروه هایی از کاربران را که به تعداد زیادی از سرورهای وبمراجعه می کنند، جمع آوری می کنند. در این حالت نیز تشخیص نشست های کاربران مشکل است و نمی توان کلیه مسیرهای پیمایش کاربران را تشخیص داد.

 

8-1-3- داده های کلاینت

داده های استفاده از وب را می توان با استفاده از اسکریپت های جاوا، اپلت های جاوا و یا مرورگرهای تغییر یافته در سمت کلاینت نیز پیگیری کرد. در این حالت برخلاف دو حالت قبل، مشکل تشخیص نشست های کاربران وجود ندارد. همچنین با این روشاطلاعات تفصیلی راجع به رفتار کاربر قابل دستیابی است. همچنین این امکان وجود دارد که رویدادهای متنوعی در برنامه کاربردی تعریف گردد و در صورت رخداد آنها، در فایل های ثبت، ذخیره شوند. به این ترتیب تاریخچه ای از رویدادهای مختلف تعریف شده در برنامه تولید می شود. به طور کلی در صورت ذخیره داده ها در سمت کاربر، یک تصویر کامل از چگونگی استفاده شدن کلیه سرویس ها توسط یک کاربر خاص ایجاد می شود .اما این روش ها وابسته به همکاری کاربران است و ممکن است منجر به نقض قوانین مربوط به حفظ حریم خصوصی کاربران گردد.

 

8-2- پیش پردازش داده های استفاده از وب

پیش پردازش فایل های ثبت وب، پیچیده و زمانگیر است. برای این منظور معمولا چهار مرحله طی می شود: پاکسازی داده[57]، تشخیص و بازسازی نشست های کاربران، بازیابی اطلاعات مربوط به محتوا و ساختار صفحه، قالب بندی داده[58]. در ادامه هر یک از این مراحل به اختصار معرفی می شوند.

 

8-2-1- پاکسازی داده

برای پاکسازی داده ها، کلیه داده هایی که در فایل های ثبت ذخیره شده و در فرآیند کاوش مورد استفاده قرار نمی گیرند، حذف می شوند. از این نوع داده ها می توان به تقاضا برای محتوای صفحات گرافیکی، تقاضا برای فایل های موجود در یک صفحه، پیمایش های انجام شده به وسیله spiderهای وب و ... اشاره کرد. اگرچه تشخیص دو مورد اول ساده است، اما مورد سوم به سادگی امکان پذیر نیست. برای این منظور باید الگوهای پیمایش spiderها تشخیص داده شود.

 

8-2-2- تشخیص و بازسازی نشست

تشخیص و بازسازی نشست شامل دو مرحله­ی تشخیص نشست های مختلف کاربر از روی اطلاعات ضعیفی که در فایل های ثبت وجود دارد و بازسازی مسیر پیمایش کاربر در نشست های تشخیص داده شده می باشد. پیچیدگی این مراحل به کیفیت و کمیت داده های ذخیره شده در فایل های ثبت وب بستگی دارد. بیشتر مشکلاتی که در تشخیص و بازسازی نشست وجود دارد، ناشی از عملیات caching است که توسط سرورهای پراکسی و یا مرورگرها انجام می گردد. این عمایات باعث می شود، یک آدرس IP (آدرس IP سرور پراکسی) به کلیه نشست های کاربران مختلف منتسب شود. به این ترتیب نمی توان از آدرس از IP برای تشخیص کاربران استفاده کرد. برای حل نسبی این مشکل می توان از cookie ها استفاده کرد و یا از کاربران خواست در هنگام ورود به سایت log in کنند. cookie ها اطلاعات زیادی راجع به کاربران دارند و وب سرور می تواند این اطلاعات را در فایل های ثبت خود ذخیره کند. روش دیگر بازنویسی URL است که در آن شناسه نشست کاربر در URL قرار می گیرد. در این روش هرگاه کاربر بر پیوندی در صفحه کلیک کند، شکل بازنویسی شده URL در فایل ثبت سرور وب ذخیره می شود.

از آن جا که پروتکل HTTP، بدون حافظه[59] است، نمی توان تشخیص داد، کاربر در چه زمانی سایت را ترک کرده است و باید نشست مربوط به آن بسته شود. برای حل این مشکل راه حل هایی پیشنهاد شده است که برخی از آنها مبتنی بر فاصله زمانی بین دو درخواست کاربر می باشند.

 

8-2-3- بازیابی ساختار و محتوا

بیشتر کاربردهای کاوش استفاده از وب، از URL های مشاهده شده توسط کاربر به عنوان منبع اصلی اطلاعاتی که مورد کاوش قرار می گیرند، استفاده می کنند. اما URL ها منبع ضعیفی هستند، چراکه اطلاعی راجع به محتوای صفحات به دست نمی دهند. به همین دلیل سعی می شود، از اطلاعات موجود در محتوای صفحات وب نیز در کاوش استفاده از وب استفاده شود. در برخی روش های کاوش استفاده از وب، صفحات وب بر اساس محتوایشان طبقه بندی شده و این اطلاعات برای تقویتاطلاعات موجود در فایل های ثبت به کار رفته است. برای مثال در یک روش ارائه شده از وب معنایی[60] در کاوش استفاده از وب استفاده شده است. برای این منظور اشیاء موجود در صفحات وب به کلاس های یک هستان شناسی[61] نگاشته می شوند. به این ترتیب مسیر پیمایش شده توسط کاربر یک مسیر مفهومی خواهد بود که شامل موجودیت های معنایی دستیابی شده توسط وی طی پیمایش در سایت، می باشد.

در [9] پیشنهاد شده است از Information Scent برای بهبود نتایج مدلسازی کاربر استفاده شود. Information Scent از اطلاعاتی که در اطراف پیوندها قرار دارد، برای ارزیابی میزان کیفیت محتوا و هزینه دستیابی به صفحاتی که این پیوندها به آنها اشاره می کنند، استفاده می کند. به این اطلاعات که می تواند شامل snippet، تصویر و ... باشد، Proximal Scent  گفته می شود. در واقع کاربران پیوندهایی را دنبال می کنند که Information Scent آنها بالاتر است.

به طور کلی نشان داده می شود که پیش پردازش داده های استفاده از وب نمی تواند بدون استفاده از اطلاعات مربوط به ساختار و محتوای صفحات به نتایج قابل قبولی دست یابد.

 

8-2-4- قالب بندی داده

قالب بندی داده مرحله آخر در پیش پردازش داده های استفاده از وب است. پس از تکمیل مراحل قبل و پیش از اعمال تکنیک های کاوش، داده ها به شکلی مناسب قالب بندی می شوند. برای این منظور می توان داده های استخراج شده از فایل های ثبت را در پایگاه داده های رابطه ای قرار داد تا به راحتی بتوان پرس و جوهای مختلف بر آن اجرا کرد. برای بهبود کارایی در اجرای پرس و جوها می توان از یک ساختار درختی برای شاخص گذاری داده های ذخیره شده در پایگاه داده استفاده کرد.

در [21] یک ساختار درختی به نام WAP-tree برای ثبت دنباله دستیابی های کاربران به صفحات وب معرفی شده است. این ساختار از کارایی مطلوبی برای استفاده در الگوریتم کاوشی که توسط نویسندگان این مقاله ارائه شده است، برخوردار است. همچنین در برخی دیگر از روش ها، از یک ساختار مکعبی[62] برای ذخیره اطلاعاتمربوط به نشست های کاربران استفاده شده است. این ساختار در الگوریتم های خوشه بندی استفاده شده است.

 

8-3- روش های کاوش استفاده از وب

بیشتر کاربردهای تجاری کاوش استفاده از وب، از روش های آماری برای کاوش استفاده می کنند. اما تحقیقات در این زمینه بیشتر بر توسعه تکنیک ها استخراجدانش که برای تحلیل داده های استفاده از وب به کار می روند، تمرکز دارد. سه روش اصلی که برای کاوش داده های استفاده از وب به کار می روند عبارتند از: قوانین انجمنی[63]، الگوهای ترتیبی[64] و خوشه بندی. در این بخش هر یک از این روش ها تشریح می گردند.

 

8-3-1- قوانین انجمنی

قوانین انجمنی از ابتدایی ترین روش های داده کاوی هستند که بیشتر از سایر روش ها، در کاوش استفاده از وب به کار می روند. این قوانین، گزاره های استدلالی به فرم X => Y   هستند که بدنه قانون (X) و سرآمد قانون (Y)، مجموعه ای از اقلام[65]موجود در یک مجموعه از تراکنش[66] ها می باشند. قانون X => Y بیان می کند، تراکنش هایی که حاوی اقلام موجود در X هستند، احتمالا شامل اقلام موجود در Y نیز خواهند بود.

قوانین انجمنی در کاوش استفاده از وب، برای پیدا کردن ارتباط بین صفحاتی که مکررا در کنار یکدیگر در نشست های کاربر ظاهر می شوند، به کار می روند. به عنوان مثال یک قانون به دست آمده می تواند به شکل زیر باشد:

A.html , B.html => C.html

این قانون نشان می دهد، اگر کاربری صفحه A و B را مشاهده کرده، به احتمال زیاد در همان نشست صفحه C را نیز مشاهده خواهد کرد. یک الگوریتم رایج برای استخراج قوانین انجمنی الگوریتم Apriori است. معیارهایی نیز برای ارزیابی قوانین استخراج شده از داده های استفاده از وب ارائه شده است. همچنین با استفاده از قوانین انجمنی و منطق فازی روشی برای استخراج قوانین انجمنی فازی از داده های استفاده از وب ارائه شده است.

 

8-3-2- الگوهای ترتیبی

الگوهای ترتیبی برای کشف زیر دنباله ها در حجم وسیعی از داده های ترتیبی به کار می روند. در کاوش استفاده از وب، الگوهای ترتیبی برای یافتن الگوهای پیمایش کاربران که در نشست های آن ها مکررا ظاهر می شوند، مورد استفاده قرار می گیرند. یک الگوی ترتیبی معمولا به صورت زیر می باشد:

70% کاربرانی که ابتدا صفحه A.html و سپس صفحه B.html را مشاهده کرده اند، به صفحه C,html نیز در همان نشست مراجه کرده اند.

الگوهای ترتیبی ممکن است از لحاظ نحو مشابه قوانین انجمنی به نظر برسند. در واقع الگوریتم هایی که برای استخراج قوانین انجمنی به کار می روند، می توانند برای تولید الگوهای ترتیبی نیز استفاده شوند. اما الگوهای ترتیبی شامل عنصر زمان نیز می شوند، به آن معنی که در الگوهای ترتیبی مشخص می شود در کدام نقطه از یک ترتیب رویداد خاصی رخ داده است. در مثال بالا صفحات A، B، C به ترتیب در نشست یک کاربر مشاهده می شوند. اما در مثال قسمت قبل در قانون انجمنی ذکر شده، هیچ اطلاعی راجع به ترتیب رویدادها در نظر گرفته نشده است.

دو نوع الگوریتم برای استخراج الگوهای ترتیبی به کار می روند. نوع اول این الگوریتم ها مبتنی بر استخراج قوانین انجمنی هستند. در واقع بسیاری از الگوریتم های رایج استخراج قوانین انجمنی برای استخراج الگوهای ترتیبی تغییر داده شده اند. برای مثال GSP و AprioriAll دو گونه گسترش یافته الگوریتم Apriori هستند که برای استخراج قوانین انجمنی به کار می رود. اما برخی محققین معتقدند الگوریتم های استخراج قوانین انجمنی در استخراج الگوهای ترتیبی طولانی از کارایی کافی برخوردار نیستند. به همین دلیل نوع دوم الگوریتم های استخراج الگوهای ترتیبی معرفی شده اند که در آنها از ساختارهای درختی و زنجیره مارکو[67] برای بازنمایی الگوهای پیمایش استفاده می شود. به عنوان مثال در یکی از این الگوریتم ها که WAP-mine نامیده می شود، از ساختاری درختی به نام  WAP-tree برای کاوش الگوهای دستیابی بهوب استفاده می شود. نتایج ارزیابی این الگوریتم نشان می دهد که کارایی آن از الگوریتمی همچون GSP بالاتر است.

 

8-3-3- خوشه بندی

تکنیک های خوشه بندی گروه هایی از اقلام مشابه را میان حجم بالایی از داده ها تشخیص می دهد. این کار بر اساس توابع فاصله[68] که میزان شباهت میان اقلام مختلف را محاسبه می کند، انجام می شود. خوشه بندی در کاوش استفاده از وببرای گروه بندی نشست های مشابه به کار می رود. در این نوع کاوش آنچه اهمیت دارد، گروه هایی از نشست های کاربر در مقابل نشست های منفرد می باشد. برای خوشه بندی از روش ها و تکنیک های مختلفی استفاده شده است که برخی از آنها عبارتند از:

  • استفاده از گراف تشابه و میزان زمان صرف شده در مشاهده یک صفحه برای تخمین میزان شباهت نشست ها.
  • استفاده از الگوریتم های ژنتیک و بازخورد کاربر[69].
  • خوشه بندی ماتریسی.

در یک روش خوشه­بندی دیگر، ابتدا با استفاده از قوانین انجمنی الگوهای تکراری از نشست های کاربران استخراج می­شوند. سپس این الگوها برای ساخت یک گراف به کار می روند که در آن گره ها صفحات مشاهده شده هستند. یال های این گراف دو یا چند صفحه را به یکدیگر متصل می کنند، اگر این صفحات در یک الگوی استخراج شده وجود داشته باشند. همچنین به این یال ها وزنی اختصاص داده می شود که میزان ارتباط گره ها را نشان می دهد. سپس برای خوشه بندی، این گراف به صورت بازگشتی قسمت بندی می شود تا گروه های رفتاری کاربر تشخیص داده شود.  

 

8-4- کاربردهای کاوش استفاده از وب

هدف اصلی کاوش استفاده از وب، جمع آوری اطلاعات راجع به الگوهای پیمایش کاربران می باشد. این اطلاعات می تواند برای بهبود سایت های وب از دید کاربران به کار رود. سه کاربرد اصلی این نوع کاوش در این قسمت بررسی می شوند.

 

8-4-1- خصوصی سازی محتوای وب

تکنیک های کاوش استفاده از وب، می توانند برای شخصی سازی استفاده کاربران ازوب به کار روند. برای مثال می توان رفتار کاربر را از طریق مقایسه الگوی پیمایش فعلی وی با الگوهای پیمایش استخراج شده از فایل های ثبت، به صورت بلادرنگ پیش بینی کرد. سیستم های توصیه[70] که یک کاربرد واقعی در این زمینه هستند، پیوندهایی که کاربر را به صفحات مورد علاقه وی هدایت می کنند، به او پیشنهاد می کنند. برخی سایت ها نیز کاتولوگ محصولات خود را براساس علایق پیش بینی شده برای کاربر خاص سازماندهی و به او ارائه می نمایند.

 

8-4-2- پیش بازیابی

نتایج به دست آمده از کاوش استفاده از وب می تواند برای بهبود کارایی سرورهایوب و برنامه های کاربردی مبتنی بر وب به کار رود. کاوش استفاده از وب می تواند برای ایجاد استراتژی های پیش بازیابی[71] و caching استفاده شود و به این ترتیب زمان پاسخ سرورهای وب را کاهش دهد.

 

8-4-3- بهبود طراحی سایت های وب

قابلیت استفاده[72] یکی از مسائل مهم در طراحی و پیاده سازی سایت های وباست. نتایج به دست آمده از کاوش استفاده از وب می توانند به طراحی مناسب سایت های وب کمک کنند. سایت های وب تطبیقی یک کاربرد از این نوع کاوش می باشند. در این سایت ها محتوا و ساختار سایت وب به صورت پویا بر اساس داده های استخراج شده از رفتار کاربر سازماندهی مجدد می شوند.

 

9- کاربردهای وب کاوی

تکنیک­ها و روش­های وب کاوی از کاربرد وسیعی در حوزه­های مختلف همچون تجارت الکترونیکی، دولت الکترونیکی، آموزش الکترونیکی، آموزش از راه دور، سازمان های مجازی، مدیریت دانش، کتابخانه های دیجیتال، ... برخوردارند. در این قسمت برخی از حوزه های کاربردی وب کاوی و نمونه کاربردهای موفقی که از تکنیک های وب کاوی استفاده کرده اند، معرفی می­شوند.

 

9-1- تجارت الکترونیکی

تکنیک های وب کاوی می توانند تا حد چشمگیری به موفقیت تجارت الکترونیکی کمک نمایند. اگر سازمانی بخواهد از طریق وب فعالیت تجاری کند، باید تصمیم بگیرد چه نوع داده ای را در وب قرار دهد. وب کاوی می تواند در تشخیص نوع این داده ها به سازمان ها کمک کند. برای مثال سایتی که کتاب می فروشد، باید روش مناسبی برای تبلیغ کتب مختلف انتخاب کند. برای این منظور این سایت می تواند، بر اساس علایق کاربران، آن ها را دسته بندی کرده و تبلیغات مربوط به یک کتاب خاص را برای گروه کاربران مربوطه انجام دهد. به عنوان مثال دیگر، اگر سازمانی قصد تجارت با سازمان دیگری را داشته باشد، می تواند از وب کاوی برای یافتن شریک تجاری مناسب و تشخیص رقبا استفاده کند. همچنین می تواند خط مشی رقبا را تعیین کرده و بر اساس آن سرویس ها و کالاهای خود را قیمت گذاری کند.

قبل از آن که سازمانی از وب کاوی استفاده کند، باید زمینه(هایی) را که استفاده ازوب کاوی در آن مثمرثمر خواهد بود، تعیین کند. سپس به جمع آوری داده در آن زمینه خاص می پردازد. مثلا داده های مربوط به کاربران را جمع آوری می کند. مرحله بعد، تعیین نوع کاوش است. به عنوان مثال می توان کاربران و رقبا را دسته بندی کرد و یاارتباط بین کاربران، رقبا و شرکا را استخراج نمود. در پایان نیز باید روش های برای اعتبار سنجی نتایج به دست آمده معرفی شود.

یک نمونه از سایت های تجاری که از تکنیک های وب کاوی همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، ... استفاده می کند، سایت Amazon است که موفقیت های چشمگیری برای آن به دنبال داشته است.

 

9-2- موتورهای جستجو

بیشتر موتورهای جستجو برای بازیابی صفحات مرتبط با پرس وجوی کاربر از محتوای صفحات وب استفاده می کنند. Google اولین موتور جستجویی بوده است که از ساختار پیوندها در وب و کاوش آن برای بازیابی و رتبه بندی صفحات استفاده کرده است. برای این منظور Google از الگوریتم Page Rank که در بخش های قبل معرفی شد، استفاده می کند. همچنین Google دارای این قابلیت است که اطلاعات مربوط به جریان کلیک های کاربر را نگهداری کند. این اطلاعات استفاده از وب، برای بهبود نتایج بازیابی شده و سفارشی سازی آن ها به کار می رود.

از دیگر سرویس های Google که در آن از تکنیک های وب کاوی استفاده می شود، می توان به Google News اشاره کرد. این سرویس اخبار موجود در روزنامه های مختلف وب را جمع آوری کرده و سپس با استفاده از روش های طبقه بندی و خوشه بندی آن ها را در گروه ها و دسته های مختلف سازماندهی می کند.

 

9-3- حراجی در وب

سایت ebay یکی از موفق ترین سایت های تجاری وب است که امکان به حراج گذاشتن کالاهای مختلف را فراهم می کند. اما متاسفانه این خاصیت وب که اشخاص در آن می توانند در آن اطلاعات واقعی خود را ارائه نکنند، برای ebay مشکلاتی به وجود آورده است، چرا که نمی توان بین پیشنهادهای واقعی و غیر واقعی تمایز قائل شد. ebay برای حل این مشکل از تکنیک های وب کاوی استفاده کرده است. برای این منظور رفتار و الگوهای ارائه کردن پیشنهاد توسط شرکت کنندگان در حراجی، تحلیل می شود تا الگوی پیشنهادات غیر واقعی مشخص و با آن برخورد مناسب گردد.

 

نتیجه گیری

با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، روش ها و تکنیک هایی برای استفاده از این اطلاعات و استخراج اطلاعات جدید از آنها مورد نیاز می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی باشند. وب کاوی که به کارگیری تکنیک های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می باشد، می تواند برای این منظور به کار رود.

وب کاوی شامل چهار مرحله اصلی پیدا کردن منبع، انتخاب اطلاعات و پیش پردازش، تعمیم، تحلیل می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند: کاوش محتوای وب، کاوش ساختار وب کاوش استفاده از وب. تکنیک­ها و روش­های وب کاوی از کاربرد وسیعی در حوزه­های مختلف همچون تجارت الکترونیکی، دولت الکترونیکی، آموزش الکترونیکی، آموزشاز راه دور، سازمان های مجازی، مدیریت دانش، کتابخانه های دیجیتال، ... برخوردارند. البته وب کاوی با چالش ها و محدودیت های متنوعی روبه رو است. و در حال حاضر تحقیقات بسیاری در زمینه وب کاوی در حال انجام است که هدف آن ها حل این مشکلات می باشد.

 

 

فهرست منابع   

تهیه کننده : سارا مطیعی

 

 

 

 

[1] R. Baeza-Yates. "Web mining in search engines". Proceedings of the 27th conference on Australasian computer science, Volume 26, 2004, 3-4.

 

[2] K. Bharat, B. Chang, M. Henzinger, M. Ruhl. "Who links to whom: Mining linkage between web sites". In IEEE International Conference on Data Mining (ICDM '01),San Jose,California, November 2001.

 

[3] S. Chakrabarti, B. Dom, D. Gibson, J. Kleinberg, SR Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins. "Mining the link structure of the World Wide Web". IEEE Computer, 32(8), August 1999, 60-67.

 

[4] S. Chakrabarti, B. Dom, P. Indyk, "Enhanced hypertext categorization using hyperlinks", SIGMOD 1998, 307-318.

 

[5] S. Chakrabarti. "Data mining for hypertext: A tutorial survey". SIGKDD Explorations, 1(2),2000, 1-11.

 

[6] R. Cooley, B. Mobasher, and J. Srivastava. "Web Mining: Information and Pattern Discovery on the World Wide Web". In Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), November 1997.

 

[7] R. Cooley, "The use of Web structure and content to identify subjectively interesting Web usage patterns". ACM Trans. Internet Technology, 3(2), 2003, 93-116.

 

[8] V. Crescenzi, P. Merialdo, P. Missier. "Clustering Web pages based on their structure". Data Knowl. Eng. 54(3), 2005, 279-299.

 

[9] P. Desikan, J. Srivastava, V. Kumar, P.-N. Tan, "Hyperlink Analysis -- Techniques & Applications", Army High Performance Computing Center Technical Report, 2002.

 

[10] D. Donato, S. Leonardi, S. Millozzi, and P. Tsaparas. "Mining the inner structure of the web graph". In Proceedings of the Eighth International Workshop on the Web and Databases (WebDB), June 2005, 145-150.

 

[11] F. Facca, P. Lanzi. "Mining interesting knowledge from weblogs: a survey". Data Knowl. Eng. 53(3), 2005, 225-241.

 

[12] J. Furnkranz. Web mining. The Data Mining and Knowledge Discovery Handbook, pages. Springer, 2005, 899- 920

 

[13] S. Garofalakis, R. Rastogi, S. Seshadri, K. Shim. "Data mining and the web: past, present and future". In 2nd ACM International Workshop on Web Information and Data Management (WIDM), 1999, 43-47.

 

[14] E. Glover, K. Tsioutsiouliklis,S. Lawrence, D. Pennock, G. Flake. "Using web structure for classifying and describing web pages". In International World Wide Web Conference, May 2002.

 

[15] M. Henzinger. "Hyperlink analysis for the web". IEEE Internet Computing, 5(1), January/February 2001, 45-50.

 

[16] R. Kosala, H. Blockeel. "Web mining research : A survey". In SIGKDD Explorations Newsletter of the ACM Special Interest Group on Knowledge Discovery and Data Mining, 2(1), 2000, 1-15.

 

[17] B. Liu, K. Chang, "Editorial: Special Issue on Web Content Mining". SIGKDD Explorations special issue on Web Content Mining, Dec, 2004.

 

[18] B. Mobasher, N. Jain, E.H. Han, and J. Srivastava. "Web mining: Pattern discovery from world wide web transactions". Technical Report TR-96050, Department of Computer Science,UniversityofMinnesota, M inneapolis, 1996.

 

[19] L. Page, S. Brin, R. Motwani, T. Winograd. "The PageRank Citation Ranking: Bringing Order to the Web". Stanford Publications, 1998.

 

[20] J. Punin, M. Krishnamoorthy, M. J. Zaki. "Web Usage Mining: Languages and Algorithms". To appear in Studies in Classification, Data Analysis, and Knowledge Organization, Springer-Verlag, 2001.

 

[21] J. Srivastava , R.Cooley , M.Deshpande, P.N. Tan. "Web Usage Mining : Discovery and Application of Usage Patterns from Web Data". SIGKDD Explorations, 2000.

 

[22] J. Srivastava, P. Desikan, and V. Kumar. "Web Mining: Accomplishments and Future Directions". Proc. US Nat'l Science Foundation Workshop on Next-Generation Data Mining (NGDM), Nat'l Science Foundation, 2002.

 

[23] W.-C. Wong, A. W.-C. Fu. "Finding structure and characteristics of web documents for classification". In ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, 2000.

 



[1] Query

[2] Precision

[3] Recall

[4] Personalization

[5] Web Mining

[6] Data Mining

[7] Generalization

[8] Validation

[9] Stemming

[10] Stop Words

[11] Knowledge Discovery in Data Base

[12] Data Warehouse

[13] Privacy

[14] Indexing

[15] Classification

[16] Data Visualization

[17] Filtering

[18] Web Content Mining

[19] Topic Discovery

[20] Association Pattern

[21] Clustering

[22] Web Structured Mining

[23] Hyperlink

[24] Web Usage Mining

[25] Schema

[26] Approach

[27] Prediction and Estimation

[28] Association

[29] Correlation

[30] Densely Populated

[31] Sparse

[32] Deviation Analysis

[33] Inductive Logic Programming

[34] Intra Document Hyperlink

[35] Inter Document Hyperlink

[36] Link Analysis

[37] Document Object Model

[38] Document Structure Analysis

[39] Strongly Connected Component

[40] Power Law

[41] Random Walk

[42] Adaptive Web Site

[43] Web Community

[44] Hyperlink-Induced Topic Search

[45] Query Dependent Schemes

[46] Neighborhood Graph

[47] Query Independent Schemes

[48] Maximal Flow

[49] Minimal Cut

[50] Crawling

[51] Focused Crawling

[52] Intelligent Crawling

[53] Usage Data

[54] Log

[55] Session

[56] Snifer

[57] Data Cleaning

[58] Data Formatting

[59] Stateless

[60] Semantic Web

[61] Ontology

[62] Cube

[63] Association Rule

[64] Sequential Pattern

[65] Items

[66] Transaction

[67] Markov Chain

[68] Distance Function

[69] User Feedback

[70] Recommendation System

[71] PreFetching

[72] Usability

آفتاب ایرونی را از اینجا دنبال کنید:

FEED

 

+   سید محمد طباطبایی ; ٦:٥٠ ‎ب.ظ ; ۱۳٩٢/٧/٢٠