Apakah ada API untuk merayapi abstrak kertas?


13

Jika saya memiliki daftar nama kertas yang sangat panjang, bagaimana saya bisa mendapatkan abstrak dari makalah ini dari internet atau database apa pun?

Nama-nama kertas seperti "Penilaian Utilitas dalam Penambangan Web untuk Domain Kesehatan Masyarakat".

Adakah yang tahu API apa pun yang bisa memberi saya solusi? Saya mencoba menjelajah google scholar, namun, google memblokir crawler saya.


2
Saya ragu ada API umum untuk ini. Anda dapat mencoba merangkak berbagai layanan seperti Academia.edu, situs penerbit, dan sebagainya. Namun demikian, akan lebih mudah untuk membangun database dokumen lokal terlebih dahulu, dan kemudian bereksperimen dengan mengekstraksi abstraknya.
Wojciech Walczak

Terima kasih atas jawaban anda! Saya sudah membangun database lokal untuk ini. Masalah merangkak dari berbagai layanan adalah saya harus membuat aturan parse untuk setiap situs web.
Alex Gao

Jadi, bagaimana dengan mengonversi PDF ke TXT dan kemudian mengekstraksi abstrak dengan ekspresi reguler?
Wojciech Walczak

Terima kasih! Namun, kontrak menyatakan bahwa pengunduhan besar-besaran terhadap kertas tidak diperbolehkan. Ini membuat sakit kepala.
Alex Gao

2
Saya pikir tautan jawaban stack-overflow ini memberikan jawaban terbaik yang bisa saya dapatkan. Mungkin orang yang mengalami masalah ini juga dapat melihat halaman ini.
Alex Gao

Jawaban:


8

Lihat di:

Jika Anda mendapatkan satu pencocokan judul yang tepat maka Anda mungkin telah menemukan artikel yang tepat, dan dapat mengisi sisa info dari sana. Keduanya memberi Anda tautan unduhan dan keluaran gaya bibtex. Yang mungkin ingin Anda lakukan untuk mendapatkan metadata yang sempurna adalah mengunduh dan mengurai pdf (jika ada) dan mencari pengidentifikasi gaya DOI.

Harap bersikap baik dan beri peringkat batas permintaan Anda jika Anda melakukan ini.


5

arXiv memiliki API dan unduhan massal tetapi jika Anda menginginkan sesuatu untuk jurnal berbayar akan sulit didapat tanpa membayar pengindeks seperti pubmed atau elsevier atau sejenisnya.


1
Terima kasih banyak. Namun arXiv memang menyediakan makalah yang saya butuhkan.
Alex Gao
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.