Tecnología

El mito del reconocimiento de voz en el PC

·

Hacía tiempo que no leía a mi admirado Jeff Atwood, al que sigo en Twitter por inercia (aunque sus tweets son bastante tostón, la verdad) y que publica cada vez menos en su blog. El último artículo ahora mismo es el del 21 de junio, y habla sobre un tema curioso: el reconocimiento de voz en los ordenadores.

Muchas empresas han tratado de popularizar este sistema como la nueva revolución en interfaces de usuario, dotando a nuestros sistemas operativos de aplicaciones nativas que eran capaces de hacer que controlásemos el PC o el portátil a través de órdenes de voz.

Pero es que una cosa es el control por voz (“Abrir-Internet-Explorer”, “Cerrar-ventana”), y otra muy distinta el reconocimiento de voz, en el que uno espera que todo lo que digamos al ordenador sea perfectamente interpretado y reconocido por esos algoritmos de reconocimiento.

Y es que, como dice Atwood en Coding Horror, hay un problema clave en el reconocimiento de voz:

Que no funciona.

Puede que la afirmación sea algo tajante, pero no por ello deja de ser cierta. Al menos, en gran parte. Y tengo que certificar sus palabras: durante aproximadamente un mes traté de usar de forma permanente Dragon Naturally Speaking 11 para escribir mis artículos en los medios en los que trabajo.

El resultado fue bastante decepcionante, y a pesar de irme acostumbrando a parecer un loco hablando en un tono alto y claro (exigencias del programa), la tasa de aciertos nunca fue satisfactoria.

Más aún cuando en la jerga informática hay que utilizar continuamente nombres de empresas y tecnologías que los programas de reconocimiento de voz no pillan. Ni a la primera, ni a la segunda, y muchas veces, ni a la enésima. Eso provocaba que cada tres por cuatro tuviera que parar el reconocimiento (“A dormir”, qué gracia me hacía aquello) para corregir la frase o palabra tirando de ratón y teclado, como en los buenos y viejos tiempos.

En el artículo de Coding Horror se plasma esa situación con un pequeño diagrama -sacado de un artículo relacionado con el tema e igualmente interesante- en el que se explica que en la actualidad el acierto en programas de reconocimiento de voz no pasa del 80%, mientras que el nivel requerido para trabajar de forma cómoda debería ser del 96 al 98%.

Voice-recognition-accuracy-rate-over-time

De hecho, lo curioso del caso es que ya no sirve de nada tener un maquinón para acelerar el procesamiento de nuestra voz y los algoritmos de reconocimiento. Estamos en el mismo punto en que estábamos hace 10 años:

In 2001 recognition accuracy topped out at 80%, far short of HAL-like levels of comprehension. Adding data or computing power made no difference. Researchers at Carnegie Mellon University checked again in 2006 and found the situation unchanged.

With human discrimination as high as 98%, the unclosed gap left little basis for conversation. But sticking to a few topics, like numbers, helped. Saying €œone€ into the phone works about as well as pressing a button, approaching 100% accuracy. But loosen the vocabulary constraint and recognition begins to drift, turning to vertigo in the wide-open vastness of linguistic space.

Así es: no se ha avanzado, y nos tenemos que limitar al control por voz, que consta de órdenes simples, mecánicas, y que, todo hay que decirlo, ayudan en ciertos escenarios como los de la accesibilidad para personas invidentes o con algún tipo de minusvalía. Sin embargo, esos sistemas nunca podrán sustituir -al menos, eso parece- a los fantásticos ratones y teclados a los que ya estamos pegados.

Así que ale, a volver a los buenos y viejos tiempos.


Incognichollos

Esta es una selección con las mejores ofertas tecnológicas actualizadas casi diariamente, como expliqué aquí. Aunque estés en un post “antiguo” las ofertas son de última hora, los Incognichollos los actualizo aparte. También puedes seguir los Incognichollos en Twitter. Aprovecha, que no suelen durar mucho tiempo:

  • Xiaomi Notebook Air 13,3”: el portátil con una CPU algo más antigua, el Core i5-7200U. Por lo demás, impresionante por sus 8 GB de RAM, 256 GB de capacidad y GeForce MX150 además de lector de huella. Brutal por 586,90 euros en Banggood con el cupón 12CRI01.
  • Monitor Acer V6 V226HQL: monitor de 21,5 pulgadas Full HD (1920 x 1080) con entradas VGA, DVI y HDMI. Atentos al precio: 83,48 euros en AliExpress Plaza, envío desde España y garantía de dos años.
  • Tarjeta gráfica EVGA RTX 2060: chollazo si queréis actualizar la GPU con este nuevo modelo en formato corto (es anchota, 3 slots) y con 6 GB de memoria GDDR6. Está a 305,73 euros en AliExpress Plaza. Envío desde España, dos años de garantía.
  • Bolígrafo Xiaomi Mijia Pen + 3 recambios: el boli de 0,5 mm con tecnología suiza (o eso dicen) que enamora. Yo ya he comprado varios, y la verdad es que molan, y por este precio, más. El boli + tres recambios sale por 3,58 en AliExpress.
  • Huawei Mate 20 Pro: el súper teléfono de Huawei, incluso por encima del P20 Pro. Pantalla de 6,39 pulgadas, Kirin 980, 8 GB de RAM, 128 GB de capacidad, 4.200 mAh y una cámara triple que está entre las tres mejores del mercado. Está a 739,99 euros en eBay.
  • Xiaomi Mi Notebook Ruby: completísimo: pantalla de 15,6” FullHD, Core i7-8550U, 8 GB de RAM, 128 GB SSD, 1 TB HDD, GeForce MX 110, USB 3.0, HDMI, Gigabit Ethernet, lector tarjetas. Está a 662 euros en Banggood con el cupón 19BGMX898.
  • Portátil gaming Lenovo Legio Y530 + Monitor Lenovo L24q: un pack llamativo: el portátil de 15,6”, Core i5-8300H, 8 GB/1 TB (HDD), GTX 1050, Windows 10. Monitor 24 pulgadas 2560×1440 pixels. Muy bien todo por 793,50 euros en Amazon, y cambio SSD asumible
  • Pilas alcalinas AAA (pack de 100): menudo cargamento de pilas AAA tienen aquí, ofertón por 19,99 euros en Amazon
  • Logitech Driving Force G29: si te gustan los simuladores de coches, atento. Volante y pedales para PS4, PS3 y PC: Es un producto reacondicionado y certificado, así que garantía total. Está a 165 euros en Amazon.
  • Reloj inteligente Ticwatch S: basado en Android Wear 2.0, con pantalla de 1,4 pulgadas, GPS, pulsómetro, reproductor de música, notificaciones. Buena forma de acceder a estos dispositivos, porque está a 159 euros en Amazon.
  • Tarjeta Micro SD Samsung EVO 64 GB: clase 10, 100 MB/s, UHS-I, IPX7. Está a 16,99 euros en Amazon.
  • Cubot P20: lo probé en Incognitosis y me sorprendió gratamente, pero ahora cuesta la mitad. MediaTek MT6750T, 4/64 GB (ampliables), 4.000 mAH, cámara dual 20+2 MP, lector de huella. Está a 85 euros en Amazon con el cupón SGSCUJJ3.
  • Star Wars Battlefront II PS4: el juego de EA es una pequeña maravilla, y más a este precio: 17,99 euros en Amazon en la edición para PS4 (19,90 euros para PC)
  • Xiaomi PocoPhone F1: el móvil súper chollo de los últimos meses baja también en Amazon. 6,18 pulgadas, Snapdragon 845, 6GB de RAM y 128 GB de capacidad (ole) además de cámara dual 12+5 MP. Brutal a 239,90 euros en Banggood con el cupón 2F1BG469. Está a 305 euros en Amazon.
  • Casco de esquí ENKEEO: si esquiáis atentos a este casco en color negro, tamaño XL; con “ventilación activa”. Está a 9,90 euros en Amazon con el cupón E83C2762.
  • Soporte de escritorio para monitor: muy interesante para controlar la posición del monitor en tu escritorio. Soporta monitores desde 17 a 32 pulgadas, hasta 8 kg de peso Está a 39 euros en Amazon.
  • Portátil Lenovo Yoga 910: un convertible estupendo de 13,9 pulgadas Full HD con un Core i7-7500U, 8 GB de RAM, 512 GB SSD y que podéis usar como tablet o como portátil. Buena opción por 899 euros en Amazon.
  • Samsung Galaxy S7: sigue siendo un telefonazo. Pantalla de 5,1 pulgadas, Exynos 8890 octa-core, 4 GB de RAM, 32 GB de capacidad (ampliables), cámara de 12 MP fantástica. Está a 188 euros en AliExpress, mucho mejor que móviles más recientes en ese rango de precios.
  • Gears of War 4: el juego para Xbox One y PC Windows cuesta 3,99 euros en CD Keys. Poco más que decir. A pegar unos tiros, ¿no?
  • Portátil gaming Medion Erazer P6605: pantalla de 15,6” FullHD, Core i7-8750H, 16 GB de RAM, 256 GB SSD, NVIDIA GTX 1050 y Windows 10, teclado en español. Buena oferta también para jugar con alegría, 729 euros en Amazon.
  • Portátil Huawei Matebook 13: atentos a este maquinón, versión “lite” del Mateboox X. Con pantalla de 13 pulgadas 2K (1440p), un Core i5-8265U, 8 GB de RAM, 256 GB de capacidad, una GeForce MX150 y lector de huella dactilar. Lo tenéis a 745 euros en AliExpress. La batería de 41,7 Whr es algo limitada quizás, pero es que claro, es súper delgado (14,9 mm) y ligero (1,28 kg).
  • OnePlus 6T: pantalla de 6,41”, Snapdragon 845, 8 GB de RAM, 128 GB de capacidad, batería 3700 mAh, cámara dual (20+16 MP), lector huellas integrado en pantalla, “mininotch”,una maravilla por 470 euros en Banggood con el cupón 62ca20
  • Motorola Moto G6: el móvil con Snapdragon 450, pantalla de 5,7 pulgadas, 4 GB de RAM, 64 GB de capacidad (ampliable) y cámara de 12 MP está a 179 euros en Amazon.
  • Tarjeta gráfica XFX Radeon RX-580: una gráfica seria, tipo GTX 1060, pero que se beneficia de esos 8 GB de memoria gráfica. Está a 209 euros en Amazon, nada mal.
  • Monitor Acer K192HQL: como pantalla auxiliar modesta es curiosa: 18,5 pulgadas con resolución 1366×768, entrada VGA. Muy, muy modesto, pero está en versión reacondicionada en Amazon por 51,96 euros
  • Apple Watch 4: el reloj inteligente de Apple en su versión Sport de 44 mm en color gris espacial (sin conectividad LTE). Hasta 2 días de autonomía, GPS integrado, sensor de frec cardiaca. Está a 399,99 euros en eBay
  • Xiaomi Mi Notebook Ruby: un portátil curioso. 15,6 pulgadas 1920×1200, Core i3-8130U, 4 GB de RAM, 128 GB de SSD (ampliables), USB 3.0, HDMI, Gigabit Ethernet, lector de tarjetas. Está a 477 euros en Banggood con el cupón B12G304
  • iPhone XR: el telefonazo “económico” de Apple baja un poco de precio. Pantalla de 6,1 pulgadas (LCD), cámara de 12 MP, Face ID, CPU APple A12 Bionic, carga inalámbrica, resistencia al agua. Está a 749 euros en Amazon en color azul.
  • Xiaomi Mi Mix 3: el súper teléfono sin marcos baja de precio: con pantalla de 6,39” deslizable para la cámara selfie y Snapdragon 845, 6 GB de RAM 128 GB de ROM y cámara dual 12+12. Estupenda opción por 436,86 euros en AliExpress (aplicad cupón de 7 euros en la página).
  • PC Lenovo IdeaCentre AIO 330-20AST: un Todo-en-uno modesto pero estupendo para ahorrar espacio en el escritorio. 19,5”, CPPU AMD A6-9200, 4 GB de RAM; 1 TB de HDD, gráfica AMD Radeon R4, Windows 10, ratón y teclado. Todo por 259,99 euros en Amazon.
  • Xiaomi Notebook Air 13,3 pulgadas: precio/prestaciones casi sin parangón. 13,3 pulgadas FullHD, Core i7-8550U, 8 GB de RAM, 256 GB SSD, GeForce MX150, HDMI. Está a 764,01 euros en Banggood con el cupón 19BGA729.
  • Impresora Epson EcoTank ET-2650: no usa cartuchos de tinta, sino depósitos recargables que salen (teóricamente) mucho más baratos. Es una multifunción de inyección con WiFi. Está a 159 euros en Amazon  En PCComponentes cuesta 205 euros, por ej.
  • Xiaomi Mi A2 Lite: el telefonazo chollo por excelencia, 5,84 pulgadas, Snapdragon 625, 4 GB de RAM, 64 GB de capacidad, cámara dual 12+5 MP, batería de 4.000 mAh, sin NFC eso sí pero aún así triunfada. Atentos porque el modelo de 3 GB y 32 GB es impresionante en precio: 150 euros en GearBest. Pero es que atención: en Amazon está a 162 euros ahora mismo.
  • Disco duro externo Maxtor 4 TB: yo me compré hace tiempo uno igual por 130 euros. COn conexión USB 3.0-3.1 y sin necesidad de alimentación externa. La rebaja en precio es bastante importante, así que ahí lo dejo: ahora está a 96,89 euros en Amazon.
  • Monitor HP 32s: si necesitáis un monitor grande, atentos al modelo de HP de 32 pulgadas con resolución FullHD, conectores VGA y HDMI por 251 euros en Amazon.
  • SSD SanDisk 1 TB: una unidad de estado sólido SATA de 1 TB a 131,43 euros en Amazon. No hay mucho más que decir. Otra opción: la unidad Crucial MX500 también de 1 TB por 121,92 euros en Amazon.
  • Monitor gaming BenQ XL2411P ZOWIE: un monitor estupendo para jugones con diagonal de 24 pulgadas, resolución 1080p, conectores HDMI y DisplayPort y sobre todo soporte de tasa de refresco de hasta 144 Hz. Fantástico por 247 euros en Amazon, el precio más bajo que he visto nunca.
  • Smart TVTelevisión Sharp 65 pulgadas 4K: si tenéis otras necesidades atentos, porque aquí tenemos un pedazo televisor con todo lo que se le puede pedir a un cacharro de este tipo. 65 pulgadas, 4K, HDR, 3 puertos HDMI, 2 USB, y sonido Harman Kardon. Todo por 799,99 euros en Amazon.
  • Xiaomi Mi 8 (Global): con dos años de garantía en España, envío inmediato. Pantalla AMOLED de 6,21 pulgadas FHD+, Snapdragon 845, 6 GB de RAM, 64 GB de capacidad, cámara trasera 12+12 MP, cámara frontal de 20 MP, lector de huellas trasero, batería de 3.400 mAh. Está en color negro a 363,22 euros en Banggood.
  • Patinete Eléctrico Ninebot ES1 No. 9: otro patinete similar al anterior pero algo menos potente. Hasta 20 km/h y hasta 25 km de autonomía, muy bien también por su precio, 288,51 euros en GearBest con dos años de garantía en España. Desactivad el seguro de envío, eso sí.

¿Quieres recibir un correo de aviso cuando publique nuevas entradas?

Standard

10 comentarios en “El mito del reconocimiento de voz en el PC

  1. Varo dice:

    Hola Javier: gracias por tu blog que sigo desde hace dos años, cuando me compré mi “Koyi”
    utilizó el programa Dragon NaturallySpeaking en español, alemán e inglés con distintas instalaciones desde hace varios años. Es cierto que en muchas ocasiones hay que corregir algunas palabras, especialmente términos técnicos o nombres propios, pero la comodidad de poder dictar 100 páginas mientras uno está tumbado en la cama (estoy escribiendo mi doctorado) no tiene precio. Después de muchas pruebas debo decir que hay dos factores esenciales en el reconocimiento de voz:
    1. La potencia del procesador. Como digo, lo utilizó desde hace años, en distintos ordenadores (entre ellos mi “Koyi” con instalación dual alemán y español) y el procesador se nota.
    2. La calidad del micrófono. Es un apartado esencial. Utilizó unos auriculares Logitech inalámbricos, aunque también he obtenido muy buenos resultados con un simple micrófono Bluetooth de Nokia.
    Aunque mucha gente no lo sabe Windows vista tiene integrado un sistema de reconocimiento de voz que funciona bastante bien, pero sin alcanzar la calidad del Dragon NaturallySpeaking. Este texto lo he escrito utilizando este programa y la única palabra que he tenido que deletrear ha sido “koyi”. No me he molestado en intentar controlar todas las funciones del ordenador por medio de la voz, para no estar siempre pendiente de los auriculares, pero desde luego para textos extensos es una gozada.
    Un saludo desde Alemania

    • JaviPas dice:

      Varo, gracias por el comentario 😉 Ya veo que algunos le habéis pillado el tranquillo. Está claro que para trasladar/transcribir textos es una solución interesante, pero si uno tiene que escribir “sobre la marcha” la cosa se complica.

      Al menos esa fue mi experiencia, y David, entrené a tope. Durante un mes. Y no me acabó compensando. De todos modos, como dice Varo igual el micro es importante, yo usaba uno de andar por casa y eso podría haber influido.

      No sé, quizá le dé una nueva oportunidad al tema en el futuro, pero cuando estuve probando llegué a la conclusión de que escribo más rápido de lo que dicto… al menos con las molestias de andar corrigiendo.

  2. Varo dice:

    Gracias por la respuesta, Javier. Me alegro de por una vez poder aportar algo a tu fantástico blog, y es que como soy muy vago, en el tema de reconocimiento de voz tengo mucha experiencia.
    Empeze con el Viavoice de IBM hace años, que era una patata. Había que leer medio Quijote para que empezase a entender algo, pero con el Dragon Naturallyspeaking en 10 minutos lo entiende todo. Algunos amigos han probado incluso con mi perfil de voz y el reconocimiento era asombroso. Por cierto, Viavoice lo compró Nuance hace algún tiempo y supongo que ahora tendra el mismo motor de reconocimiento que Dragon (Nuance).

    La versión que uso en alemán la tengo instalada en una máquina virtual con XP y aunque mi pronunciación no es perfecta el reconocimiento es tan bueno como en español. Por desgracia Dragon no admite instalaciones múltiples y hay que recurrir a trucos. El inglés lo trae de serie con el español.
    Se me había olvidado añadir que otro factor muy importante (además del micrófono) es el ruido ambiente. Yo lo utilizo sólo en mi casa o en la oficina con la ventana cerrada. Con el Koyi, en la calle… ni te molestes. Y para lo que tú haces, que me supongo estarás escribiendo en cualquier sitio, seguramente no te compense. Pero en contextos de dictado en los que yo lo uso, traducción, redacción de informes, tesis doctoral,etc, es fantástico.

    Dragon tiene una versión juridica y otra médica, que en los EE.UU. están extendidísimas. De hecho una de las primeras aplicaciones para el iPad ha sido el Dragon.

    El amigo que me recomendo tu blog, que es un profesional de la informática (!ese Logro!) lo utilizó además de para preparar las oposiciones (elaboró todo el temario con Dragon), para introducir varios miles de cifras en una base de datos con una precisión casi perfecta.

    Por cierto, mi Koyi también está buscando sustituto. Siguiendo tu ejemplo, tengo un arranque múltiple, aunque sólo doble con Vista Ultimate (1 usuario en alemán y otro en español) y un Mac OS. (El Ubuntu en el pendrive) y el pobre no da para más. En reconocimiento de voz va lentííísimo (se nota la potencia) y el programa de reconocimiento de Vista va regular. En cualquier caso el micrófono sigue siendo determinante. Como yo el Koyi lo utilizo más que para escribir, para dar clases en la Uni y en viajes, estoy esperando a las nuevas tabletas en otoño. El Ipad aquí todavía no se ha visto ni uno. A ver si se mueven las otras empresas que la competencia es lo mejor que hay y apple está muy sola.

    Gracias por tu blog y muchos saludos desde Jena-Turingia-Alemania

    • JaviPas dice:

      Gracias a ti también por los comentarios, me alegro de que participes 😉 así que no desfallezcas y comenta cuando quieras!

      Cuando utilicé DNS lo hice en casita y en español, así que ruido ambiente no había. Como digo, me acabé cansando de estar corrigiendo nombres de empresas y tecnologías cuando iba dictando las noticias. Por cierto, en casa trabajo con maquinón, así que problema por ese lado no puede haber 😉

      Ya me contarás si cambias finalmente el Koji. Yo sigo planteándomelo, pero tardo en tomar decisiones, me gusta otear bien el mercado, y no tengo una prisa especial. Yo ahora lo tengo bastante distinto a como lo tenía en los primeros tiempos. Mac OS X desapareció y ahora lo uso con W7, pero siempre en arranque múltiple con sistemas para netbooks varios. Ahora tengo Jolicloud, MeeGo, Chromium OS Flow y, por supuesto, una Ubuntu 10.04. Y voy cambiando según me va 😉

      Suerte con la tesis! Si algún día voy por allí ya contactaré para tomarme unos frankfurten con una buena bier 😉

  3. Varo dice:

    Eso está hecho. Pero nada de frankfurten que Turingia es la capital de las Bratwurst (mucho mejores, palabrita) y con una cervecita negra Köstrizer… ummmmm. Yo invito, en serio. Si quieres ver como es esto mira el blog de mi página que es la dirección de mi correo. Hace mucho que no la actualizo pero en el blog se ven unos videos de Navidad muy chulos.
    Saludos

    • clon dice:

      Hola Varo… estuve leyendo tus mensajes en el blog y me parecio que estas muy entrado en esto del DNS, es por eso que te pido un gran favor, que me ayudes a encontrar un perfil en ingles en lo preferente de alquien nativo de U.S., estoy en un curso de ingles y estoy adelantando muchisimo mi unico problema es el da la pronunciacion, pienso que con un buen perfil prodria mejorar muchisimo mi ingles….Un gran abrazo a la distancia y gracias…….

  4. Oscaar dice:

    Yo empece a utilizar el DNS 10 pero coincido con ustedes que se debe tener un ambiente libre de ruido, y poseer un buen micròfono para que de buenos resultados, estoy empezando a utilizar el reconomiento de voz de W7 y me parece mucho mejor que el DNS en cuanto a presiciòn ya que lo he usado con un micròfono de mala calidad marca “patito” y con la televisiòn encendida y me ha funcionado bien, en cuanto a palabras tècnicas y lèxico especial, pues sí, hay que ir ingresándolas a la aplicaciòn para que las vaya grabando y no haya problema con ellas en futuras ocasiones, y hablando al respecto, que micròfono me recomiendan para el reconocimiento de voz.

  5. Hola, pues a mi el reconocimiento de voz me funciona bastante bien, de hecho, lo uso para redactar trabajos de investigación en el colegio, etc. La calidad del micrófono es crucial, sin embargo, también depende de la potencia del procesador, porque se puede aumentar o disminuir la precisión del DNS. Un consejo que le doy al que escribió esta noticia es que almacene en un documento de Word o .txt todas las palabras técnicas con el teclado, después vaya al DNS y las pase por el sistema que recopila más palabras para agregarlas a diccionario, así se te hará más fácil que el sistema reconozca las palabras técnicas.

Comentarios cerrados