Како користити ЦхатГПТ за Веб Сцрапинг помоћу додатака и тумача кода

Детаљан водич за гребање веба помоћу ЦхатГПТ Цоде Интерпретер-а и његових додатака.

Ако нисте у стварању неке новине, велике су шансе да су вам потребне неке предуслове да бисте започели. Или, можда бисте желели да погледате конкуренцију за вредан допринос. Поред тога, може постојати безброј разлога да неко буде заинтересован за садржај одређене веб странице.

Веб сцрапинг је процес који служи таквим случајевима употребе.

И постоји неколико начина да се то уради. Постоје тешки алати на које се можете претплатити за професионално стругање великих веб локација. Алтернативно, можда ће вам требати посебно подешавање за локалну обраду.

У сваком случају, приступ је скуп, дуготрајан и заморан за почетнике, посебно за гребање неколико веб страница.

Преглед ЦхатГПТ-а за Веб Сцрапинг

Не би требало да вам представљам ЦхатГПТ. Да ли сам?

Укратко, ЦхатГПТ је генеративна АИ која реагује као људи. Добијате интерфејс за ћаскање да од њега затражите да изврши различите задатке, као што су распитивање о историјским догађајима, писање есеја, сумирање, превођење, кодирање итд.

ЦхатГПТ одговори у тексту. Међутим, постоје додаци за ЦхатГПТ који побољшавају његове могућности на много начина. И ми ћемо користити један такав додатак. Поред тога, користићемо његов Цоде Интерпретер за сцрапинг веб-сајтова са компликованом структуром веб страница или са активним протоколима против гребања.

Имајте на уму да ЦхатГПТ има бесплатне и плаћене верзије. Али биће вам потребна плаћена претплата (тренутно 20 УСД месечно) за коришћење додатка за веб стругање или његовог механизма за тумачење кода.

У наредним одељцима, илустроваћу процес корак по корак.

Изјава о одрицању одговорности: Пре него што наставите сами, потврдите да предметна веб локација дозвољава копирање њиховог садржаја. Ако не, можете контактирати њиховог администратора и видети да ли вам то дозвољавају да бисте избегли било какве правне проблеме.

Веб Сцрапинг користећи ЦхатГПТ додатак

Пријавите се на свој ОпенАИ налогзадржите показивач изнад ГПТ-4 (његова тренутна плаћена верзија) и кликните на Додаци.

Затим кликните на Нема омогућених додатака, померите се надоле и кликните на Продавница додатака.

Имајте на уму да ћете уместо опције Нема омогућених додатака имати икону додатка ако је она активна. У том случају, потребно је да кликнете на ту икону да бисте отворили падајући мени и кликните на Продавницу додатака на дну.

Ово ће отворити продавницу додатака. Потражите Сцрапер и притисните Инсталирај.

Изаберите овај додатак у ЦхатГПТ интерфејсу.

Када се ово изабере, мора се затражити ЦхатГПТ, наводећи УРЛ теме и садржај за сцрапинг.

Урадио сам то за неколико веб локација. Види ово.

Сцрапинг а Публицатион

Ми смо публикација фокусирана на технологију и за ову илустрацију сам изабрао нашу почетну страницу, вдзвдз.цом/.

Ево упутства:

check this webpage: https://techblog.co.rs.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

Такође можете поново затражити да конвертујете податке у ЦСВ формат, налепите их у текстуалну датотеку са екстензијом .цсв и отворите је у апликацији за табеларне прорачуне као што је МС Екцел.

Крегање веб странице за понуду или купон

Одељак вдзвдз понуда је место где смо ручно одабрали неке понуде за пројекте врхунске технологије. Шта кажете на преузимање сваког посла у табеларном формату?

Prepare a list of deals from this webpage: https://techblog.co.rs.com/deals/. present the result in a tabular format.

Сцрапинг Википедиа

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Сцрапинг Е-цоммерце Сторес

На крају, покушао сам да скрадам Амазон.цом за лаптопове тако што сам применио неколико филтера и унео УРЛ у ЦхатГПТ. Ево шта сам добио:

Проблем је што ово није један случај. Наћи ћете много таквих случајева у којима веб-сајтови имају мере против гребања. У овој ситуацији, мораћете да пронађете алтернативу за добијање података ако претплата на стандардне стругаче није опција.

Следећи одељци обухватају једно такво решење.

Веб Сцрапинг користећи ЦхатГПТ Цоде Интерпретер

Цоде Интерпретер је новопокренут ЦхатГПТ мотор за обављање задатака у вези са програмирањем. Док се подразумевани механизам у великој мери ослања на текстуалне одговоре, Цоде Интерпретер може помоћи у визуелизацији излаза, рашчлањивању, отклањању грешака и извршавању кода, интеграцији са софтверским бинарним датотекама и обављању много више ствари које су усредсређене на програмирање.

У овом процесу ћемо преузети изворни ХТМЛ, отпремити га у ЦхатГПТ Цоде Интерпретер и наставити са скрапингом.

Узео сам ову страницу за екстракцију:

Почећемо тако што ћемо сачувати веб страницу као ХТМЛ. За то идите на веб страницу и притисните Цтрл+С.

Сада имамо датотеку за стругање. Хајде да схватимо промпт.

Поред текстуалног одзивника, можете видети да сам му дао узорке елемената за брзо праћење стругања. Пошто су структуре Амазонове веб странице сложене, без ових узорака покушај гребања може пропасти или ништа не резултирати.

А набавити ове елементе је прилично лако. Кликните десним тастером миша било где на веб страници са темом и кликните на Инспецт у искачућем прозору.

Прво кликните на најгорњу икону (означена као 1). Ово ће истаћи детаље док бирате елементе са странице. Затим изаберите елемент контејнера за било који одређени производ.

Обавезно изаберите најдубљи контејнер. Можете да лебдите и то ће наставити да истиче. У тренутку када добијете последњу љуску која покрива тај блок, можете кликнути и прећи на десну страну да бисте копирали див класу елемента.

Слично томе, изаберите узорке за друге елементе.

На крају, отпремите ХТМЛ и упитајте сличан овоме:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Ово ће потрајати док ЦхатГПТ интерпретатор кода ради свој посао. Имаћете неколико детаља, док ће све бити у уграђеној ЦСВ датотеци.

Можете приметити да табела има неколико уноса који нису присутни на оригиналној веб страници, посебно на почетку. У таквим случајевима, морате још једном да проверите и очистите податке да ли постоје вишак.

Ако их има, можете поново да затражите од ЦхатГПТ-а да добије чист ЦСВ.

Последње мисли

ЦхатГПТ ради многе ствари, а једно од њих је основно гребање са веба. Слажем се, можда није прикладно за некога ко струже стотине страница. Ипак, то ће вас покренути у правом смеру и идеално за кратку сесију стругања.

У овом водичу користили смо један од његових додатака за стругање и тумача кода. Док додаци раде на многим стандардним веб локацијама, други метод је за прилагођене структуре веб страница или ако страница има динамичке елементе (бескрајно померање, читање више итд.).

И да поновим, прођите кроз услове веб локације пре него што кренете.

ПС: Погледајте ова решења за сцрапинг у облаку и наш сопствени вдзвдз АПИ за стругање.