Je souhaite analyser le contenu du tableau ici . Toutefois, le tableau se poursuit en plusieurs pages. Mon problème est que je ne peux pas analyser les pages à partir de la page 2
puisqu'il n'y a pas de changement dans l'adresse url
. Comment puis-je localiser l'adresse url
où sont stockées d'autres pages? J'utilise lxml
et les requests
.
Si vous ouvrez Chrome DevTools et cliquez sur "2" sur le contrôle de pagination, vous verrez une requête faite par le script pour récupérer la date de la page "2":
POST https://www.mutualfundindia.com/MF/return/TopFundDetails?page=2
Avec les données du formulaire:
__RequestVerificationToken:AYv1N1VEGXTeLKMbnHolT_bste-CiFcH1GAjQgh1O7c_Ygm0-wIP3j47yN6e5tzYx3EumwCRBYcxI6825nH28W_qO60ZMlnAm4f1utRjqL4wgokl87pgsV4anV4vKtSjk6XV0g2 Rank:-1 Type:-1 Nature:-1 SubNature:-1 cmdAum:1 Period:1Year ShortingOrder:DESC hdHeaderId:1Year
Vous pouvez trouver la valeur de __RequestVerificationToken sur la page, dans l'élément:
<input name="__RequestVerificationToken"...
La réponse de la demande est un HTML pur.
Je suppose que si vous faites de telles demandes, vous pouvez analyser toute la date.
J'espère que cela t'aides.