Saya memiliki file CSV (24.1 MB) yang tidak dapat saya baca sepenuhnya di sesi R. Ketika saya membuka file dalam program spreadsheet saya bisa melihat 112.544 baris. Ketika saya membacanya menjadi R dengan read.csv
saya hanya mendapatkan 56.952 baris dan peringatan ini:
cit <- read.csv("citations.CSV", row.names = NULL,
comment.char = "", header = TRUE,
stringsAsFactors = FALSE,
colClasses= "character", encoding= "utf-8")
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
Saya dapat membaca seluruh file menjadi R dengan readLines
:
rl <- readLines(file("citations.CSV", encoding = "utf-8"))
length(rl)
[1] 112545
Tapi saya tidak bisa mendapatkan ini kembali ke R sebagai tabel (via read.csv
):
write.table(rl, "rl.txt", quote = FALSE, row.names = FALSE)
rl_in <- read.csv("rl.txt", skip = 1, row.names = NULL)
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
Bagaimana saya bisa menyelesaikan atau menyelesaikan pesan EOF ini (yang tampaknya lebih merupakan kesalahan daripada peringatan) untuk memasukkan seluruh file ke dalam R
sesi saya ?
Saya memiliki masalah yang sama dengan metode lain membaca file CSV:
require(sqldf)
cit_sql <- read.csv.sql("citations.CSV", sql = "select * from file")
require(data.table)
cit_dt <- fread("citations.CSV")
require(ff)
cit_ff <- read.csv.ffdf(file="citations.CSV")
Inilah sesi saya Info ()
R version 3.0.1 (2013-05-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
attached base packages:
[1] tools tcltk stats graphics grDevices utils datasets methods base
other attached packages:
[1] ff_2.2-11 bit_1.1-10 data.table_1.8.8 sqldf_0.4-6.4
[5] RSQLite.extfuns_0.0.1 RSQLite_0.11.4 chron_2.3-43 gsubfn_0.6-5
[9] proto_0.3-10 DBI_0.2-7
fread
bekerja dalam situasi ini? Saya lebih suka itu karena jauh lebih cepat daripadaread.csv
. Tapifread
sepertinya tidak mengambilquote
argumen ..