Vergelijkbare onderwerpen zijn niet heel erg vergelijkbaar

Het topic over snelheidsbeperkingen geeft de review van Gran Turismo 7 als vergelijkbaar onderwerp, we komen in de buurt!
Deze is ook niet slecht. Raad de topic!

aqMhlJi.png
 
@Cyberkef is de reden dat reviews/nieuwsberichten geprioriseerd worden omdat ze op de frontpage staan en zo automatisch een hogere waarde krijgen, of omdat jullie daar actiever met tags ofzo werken die door die zoekengine gebruikt worden?
Zijn bepaalde fora manueel excluded of weighted? Ik vind bv nergens verwijzingen naar topics in zwam, terwijl in de zwamtopics wel voluit naar andere fora wordt doorgestuurd.
 
omdat ze op de frontpage staan en zo automatisch een hogere waarde krijgen
Nee, enkel threads op hetzelfde (sub)forum krijgen een hogere score dan thread op andere (sub)fora. Nieuwsposts staan in hun eigen ("onzichtbare") (sub)forum, dus die krijgen zelfs een lagere score.

Zijn bepaalde fora manueel excluded?
Neen :)

Ik vind bv nergens verwijzingen naar topics in zwam
Vreemd, nochtans hebben we die zeker niet excluded of aangepast om minder doorzoekbaar te mogen zijn.

*edit* Het is redelijk zoeken, maar ze staan effectief wel bij bepaalde topics (wel niet zo prominent als minder relevante topics uit andere fora tho)
 
Laatst bewerkt:
Deze is ook niet slecht. Raad de topic!

aqMhlJi.png
Da's het toevluchtsoord!

Ik vraag me vooral af of er genoeg content is om dit systeem echt deftig te laten werken. Met meer dan 20k topics moet je normaal wel al ergens geraken, maar de onderwerpen zijn natuurlijk heel uiteenlopend.
 
Je zou sowieso alle subforums van elkaar moeten splitsen als je met keywords gaat werken. Anders gaat het niet lang meer duren vooraleer je Call of Duty review! als recommended gaat zien onder het topic van de oorlog in Oekraïne. Want je hebt daar nu al De gamereleases van september 2022 staan.

Lijkt me dat die functie eerst uitgetest wordt op een testversie van het forum ipv het maar meteen live te gooien. Je kan beter een functie niet hebben dan een brakke functie die de meest ridicule voorstellen doet onder mogelijk gevoelige onderwerpen.
 
Ik vraag me vooral af of er genoeg content is om dit systeem echt deftig te laten werken.
Nogmaal kleine disclaimer dat "similar threads" een gratis extra functionaliteit is bij de hoofdaanpassing die we gedaan hebben: de onderliggende search engine vervangen.

Ze raden dit aan op fora met grootteorde +1M posts (die we met rasse schreden aan het naderen zijn + met onze vorige ervaring op TNG/9l wouden we dit liever asap tacklen), al is het op BeyondGaming wel wat skewed door de paar monsterthreads die de ratio threads/posts wat krom trekken idd :D

De huidige grootste 10 threads bevatten 19% van alle forumposts.

Je zou sowieso alle subforums van elkaar moeten splitsen als je met keywords gaat werken.
Zeker niet waar omwille van een divers aantal redenen, bvb de Fruit (Food en Drinks) -> Fluit (Zwam) parodie thread werd dan wel correct opgevangen (maar nog niet omgekeerd aangezien de widget cache 2 weken is, dus dat gaan we binnenkort zien of ie ook omgekeerd gaat linken).

Maar ook bvb zeer nuttige links van DIY -> B&S forum zijn al gezien, en nog een boel andere dingen.

Er gaan altijd outliners in zitten, en een computersysteem trekt zich geen fluit aan van maatschappelijk gevoelige onderwerpen.

Lijkt me dat die functie eerst uitgetest wordt op een testversie van het forum...
Op ons stagingforum met 50 test threads werkte het nochtans perfect!
 
Laatst bewerkt:
Veel prutsen met de tags ook zeker? Daar kan je wel wat mee opvangen, als die genoeg gewicht toegekend krijgen.
 
Je zou sowieso alle subforums van elkaar moeten splitsen als je met keywords gaat werken. Anders gaat het niet lang meer duren vooraleer je Call of Duty review! als recommended gaat zien onder het topic van de oorlog in Oekraïne. Want je hebt daar nu al De gamereleases van september 2022 staan.

Lijkt me dat die functie eerst uitgetest wordt op een testversie van het forum ipv het maar meteen live te gooien. Je kan beter een functie niet hebben dan een brakke functie die de meest ridicule voorstellen doet onder mogelijk gevoelige onderwerpen.
Lachen met grappige voorstellen lijkt me nu net de beste usecase van deze feature!

En proberen uitzoeken hoe het werkt :unsure:

Zeker niet waar omwille van een divers aantal redenen, bvb de Fruit (Food en Drinks) -> Fluit (Zwam) parodie thread werd dan wel correct opgevangen (maar nog niet omgekeerd aangezien de widget cache 2 weken is, dus dat gaan we binnenkort zien of ie ook omgekeerd gaat linken).
Aha dat verklaart al een paar dingen. Makes sense I guess, anders zou hij bij elke view van een thread een search over heel het forum doen.

Blijft wel opvallend dat de overgrote meerderheid van suggested threads dingen van de frontpage zijn. Zelf een idee waarom? Openingsposts die zwaarder doorwegen misschien?
Kunnen jullie zelf met die gewichten spelen eigenlijk (bv een hogere minimumscore zetten zou al veel van de bizarre suggesties doen verdwijnen waarschijnlijk) of is dat allemaal standaard zonder veel config?


De honden topic verwijst mooi naar verschillende andere threads over honden, maar geen enkele van die andere threads verwijst naar de hondenthread. Verklaar dat eens Cyberkef!
 
Lachen met grappige voorstellen lijkt me nu net de beste usecase van deze feature!

En proberen uitzoeken hoe het werkt :unsure:


Aha dat verklaart al een paar dingen. Makes sense I guess, anders zou hij bij elke view van een thread een search over heel het forum doen.

Blijft wel opvallend dat de overgrote meerderheid van suggested threads dingen van de frontpage zijn. Zelf een idee waarom? Openingsposts die zwaarder doorwegen misschien?
Kunnen jullie zelf met die gewichten spelen eigenlijk (bv een hogere minimumscore zetten zou al veel van de bizarre suggesties doen verdwijnen waarschijnlijk) of is dat allemaal standaard zonder veel config?


De honden topic verwijst mooi naar verschillende andere threads over honden, maar geen enkele van die andere threads verwijst naar de hondenthread. Verklaar dat eens Cyberkef!
Ik ben geen Cyberkef, maar als ik het zou verklaren, zou ik zeggen dat bijvoorbeeld Buy&Sell heel gestructureerde titels heeft die elkaar herhalen, met zelfs een gestructureerde inhoud waarin dezelfde woorden vaak terugkomen. Iets wat je een pak minder hebt in topics uit Algemeen, die meer een allegaartje zijn.

Als we het hier nu voortdurend over honden, rassen en puppytraining zouden hebben, tags met "hond" in zouden gebruiken en de titel "geen hond snapt de suggested threads nog", zou het kunnen dat over twee weken die Suggested Threads allemaal dingen over honden zullen geven.

Of Cyberkef->keffer->hond. Eén van de twee.
 
standaard zonder veel config
Standaard is er heel weinig config aan inderdaad (enkel een multiplicator voor strafgewicht van threads die op andere fora staan + leeftijdsstraf).

hogere minimumscore zetten zou al veel van de bizarre suggesties doen verdwijnen
Dat is inderdaad de weg die we initieel willen uittesten, waarbij de eerste horde al is: by default zien/krijgen we die scores niet, dus dat is de eerste horde die we (op een veilige/stabiele manier) aan het uitzoeken zijn :) Wanneer we die scores zien kunnen we uitzoeken of er een minimum getal is waarmee we de ruis al zouden kunnen uitknippen.

En dan lossen we waarschijnlijk al 80% van alle problemen er mee op.
 
We zijn 3 jaar verder, veel verbetering merk ik niet, integendeel. Hebben jullie het verbeteren van deze feature opgeborgen in de afgelopen jaren?

"Trump wil Canada en Groenland annexeren" heeft 1 vergelijkbare thread: "De filmreleases van Januari 2026."
"De Amerikaanse Politiek: De Regering Trump II" heeft als vergelijkbare threads: "Klimaatambities: balans tussen kosten en concurrentiekracht", "Review: Kingdom Come Deliverance II Royal Edition", "Preview: Code Vein 2", "Opnieuw plakkerige balletjes rollen in Once Upon a Katamari", "Preview: Dragon Quest I & II HD-2D Remake"
Het topic over de AI-blunder van Petra de Sutter heeft dan weer als vergelijkbare thread: "Sticky Het voorjaar van de Vlaamse TV - 2025"

Ik heb nu gewoon even de 3 meest populaire topics van de afgelopen week op Pol&Actua genomen.
 
Hebben jullie het verbeteren van deze feature opgeborgen in de afgelopen jaren?
In de afgelopen jaren is er in de zij-functionaliteit van deze add-on (die primair dient om onze database server levend te houden wanneer iemand in de posts wil zoeken, op ons vorig forum was dat... pittig) niets meer aangepast geweest door zijn makers. De enige twee bestaande gewichtjes (same forum boost en leeftijd) aanpassen gaat aan deze uitkomst niet veel veranderen
Al de rest van de instellingen staat ook correct (bvb uit te filteren "stopwoorden" en "stemming" staan wel degelijk op Nederlands), en de add-on + onderliggende relevante software versies zijn up-to-date.

Daar zelf in beginnen hacken is enerzijds geen zekerheid dat het veel gaat verbeteren (integendeel) + gaat ons anderzijds naar de toekomst toe hard in ons kont bijten als we major upgrades willen doen. Zelfs onze vaste add-on boer heeft er geen improvements voor gedaan, dan begin ik er zelf al zeker niet aan als hij het niet eens ziet zitten 😓
(in onze andere bibliotheek van add-ons zat er ook een die we zelfs eerst hadden geprobeerd, maar die was zo gigantisch veel slechter dat we hem al na 1 dag hadden afgezet)

We kunnen het mss met AI proberen :fingerguns: (nope) ((het zou mogelijks wel beter zijn tho))

Edit: alhoewel... ik zie net dat jouw "populaire" threads tegelijkertijd ook wel heel oude threads zijn, dat kan mogelijks wel wat onverwachts roet in het eten gooien :thinking:
 
Laatst bewerkt:
De twee threads van Trump (= gemeenschappelijk woord) zijn elk (meer dan) een jaar oud, en de "recency-weighted relevance searches half-life" staat geconfigureerd op 365 dagen, dus dat kan mogelijks roet in het eten gooien.

Als ik kijk naar het woord "Sutter" scheelt het slechts 1 week, MAAR er zijn slechts twee threads met "sutter" in de titel en volgens de huidige (hardcoded) "min_doc_freq" configuratie is dit te weinig om zelfs nog maar te willen gebruiken.

Als ik de (niet zo'n goed gedocumenteerde code) met de ElasticSearch MTL/Query DSL's es in Claude gooi met wat voorbeelden, dan wordt het heel snel héél ingewikkeld met vage pogingen/voorstellen tot fixes voor zeer specifieke zaken (bvb "als je meer resultaten wil op persoonsnamen die weinig gebruikt worden, dan moet je die min_doc_freq verlagen") die andere dingen gaan breken of nog meer ruis gaan veroorzaken (want dan gaat ie ALLES dat minder vaak voorkomt in rekening willen brengen en de calculatie nog es helemaal vervormen met nog raardere resultaten als gevolg).

Hier echt dieper op gaan focussen gaat heel veel tijd kosten met bedenkelijke resultaten (wat random hardcore geconfigureerde gewichtjes gaan aanpassen, herindexeren, evalueren, repeat...)? Als vrijwilliger denk ik dat ik mijn klein beetje vrije tijd beter aan andere dingen besteed dan hardcore ElasticSearch gaan onderzoeken :unsure:

Wat mij wel opviel in de uitleg was dat we dan precies wel meer topics moeten hebben met betere titels om betere resultaten te bereiken... That sounds familiar :fingerguns: Take that, megathreads!
 
Laatst bewerkt:
Terug
Bovenaan