Archief - welke techniek gebruikt krantenkoppen.be

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

jeff_tw

Legacy Member
Een site als Krantenkoppen.be: Belgische Kranten zo bestaan er nog wel een paar, maar welke techniek gebruiken ze eigenlijk?

Ik denk niet dat ze file_get_contents() gebruiken om de data te rippen, want dat zou teveel tijd vragen, om dit bij iedere bezoeker te doen

blijkbaar zit alles in een database (zie naar die id's in de links) maar hoe updaten ze die database dan quasi continu?

iemand een idee of een hint?

Zero Grav

Legacy Member
Die lezen gewoon de rss feeds uit.
Bijvoorbeeld: feed://www.vandaag.be/xml/vandaagbe-algemeen.xml

Qua vollediger antwoord kan het wel tellen om te vermelden dat dit via een cron job kan gebeuren. Een script dat op een bepaald interval wordt uitgevoerd en de nieuwe nieuwsberichten dan ook toevoegt aan hun eigen databank.

Of ze kijken bij elke bezoeker wanneer de laatste update is gebeurd (wordt ergens opgeslagen), indien die update minder dan een bepaald interval geleden is gebeurd halen ze de data uit de db, anders doen ze ook nog eens een update bovenop hun eigen data.

Shaddix

Legacy Member
het opslagen is zelfs niet nodig he

gewoon met php ofzo de RSS weergeven werkt ook al

Zero Grav

Legacy Member
Ze zullen u graag zien komen als gij duizenden bezoekers per minuut hebt.
Het opslaan is gewoon 'hoffelijker' en ook voor uw eigen server minder zwaar dan telkens een connectie naar een externe server leggen.

jeff_tw

Legacy Member
Dat was een beetje de vraag. Dat ze RSS feeds lezen en rippen is me nu duidelijk. Alleen de laadtijd van hun site is wel heel snel, dus het leek me niet mogelijk dat dit eerst site per site werd geladen (wat doe je dan als 1 site wat "down" is + alle trafiek die je onrechtstreeks veroorzaakt op de externe site). Vermoedelijk dus met een cronjob die om de x minuten alle sites update. Is dat dan ook niet zwaar voor je eigen site/server?

Curahee Q

Legacy Member
Ik zou het niet met een cronjob doen. Gewoon bijhouden wanneer de laatste update was. En dan gaan kijken hoelang het al geleden is, is dit meer dan een uur, tijd setten naar huidige tijd en alle data afgaan.
Al zou ik begot niet weten welke sneller zou zijn...

adrianhates

Legacy Member
Curahee Q zei:
Ik zou het niet met een cronjob doen. Gewoon bijhouden wanneer de laatste update was. En dan gaan kijken hoelang het al geleden is, is dit meer dan een uur, tijd setten naar huidige tijd en alle data afgaan.
Al zou ik begot niet weten welke sneller zou zijn...

Dat is toch niet zo slim? Dan ga je eigelijk pas updaten als er een bezoeker is

Cycloon

Legacy Member
Curahee Q zei:
Al zou ik begot niet weten welke sneller zou zijn...

Geen van beide gaat "sneller" zijn vermits dezelfde acties ondernomen moeten worden.

Anyway, beste blijft cronjob.

Curahee Q

Legacy Member
adrianhates zei:
Dat is toch niet zo slim? Dan ga je eigelijk pas updaten als er een bezoeker is

Waarom moet er vroeger geupdate worden als er geen bezoekers zijn?

Cycloon

Legacy Member
Curahee Q zei:
Waarom moet er vroeger geupdate worden als er geen bezoekers zijn?

Omdat de eerst volgende bezoeker anders geen nieuws ziet? (of enkel pas als die alle updates heeft afgehaald)

Curahee Q

Legacy Member
Je haalt eerst de data op en dan laat je je site zien. En ja, bij die persoon zal het laden dan iets langer duren.

Cycloon

Legacy Member
Dat werkt als je maar 1 nieuwssite ofzo gaat bijhouden. Als je echter tientallen websites wilt scrapen dan gaat die eerste gebruiker niet echt blij zijn.
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan